6
funções de transformação
de dados que você precisa
saberAprenda a criar variáveis, resumir e organizar um dataset
dplyr
e a transformação de dadosParte do tidyverse
(plataforma de pacotes de data science do R
).
Sintaxe muito tranquila de entender.
Intuitivo para utilizar.
O dado deste exemplo está no repositório https://github.com/wrprates/open-data.
Primeiras linhas do dado:
Veja mais: Vídeo de dataset para RH no canal.
filter()
library(dplyr)
# Filtrando por uma variável numérica
data |> dplyr::filter(Age <= 40)
data |> dplyr::filter(Age <= 40 & Age >= 35)
data |> dplyr::filter(Age < 30 | Age >= 40)
# Filtrando baseado em uma variável categórica
data |> dplyr::filter(Department == "Research & Development")
# Utilizando um vetor para armazenar os valores a serem filtrados
departamentos <- c("Sales", "Research & Development")
data |> dplyr::filter(Department %in% departamentos)
select()
# Removendo colunas específicas
data |> dplyr::select(-Age)
colunas_para_remover <- c("Age", "DailyRate", "BusinessTravel")
data |> dplyr::select(-colunas_para_remover)
# Selecionando colunas específicas
data_selected <- data |>
dplyr::select(EmployeeNumber, DistanceFromHome, Attrition)
data_selected
arrange()
# Crescente
data_selected |> dplyr::arrange(DistanceFromHome)
# Decrescente
data_selected |> dplyr::arrange(dplyr::desc(DistanceFromHome))
# Ordenando com base em mais de uma coluna
data_selected |> dplyr::arrange(Attrition)
data_selected |> dplyr::arrange(Attrition, DistanceFromHome)
data_selected |> dplyr::arrange(Attrition, dplyr::desc(DistanceFromHome))
group_by()
mutate()
Exemplo #1. Traduzindo variáveis
# Traduzindo os valores de uma variável (até dois valores distintos)
data |> dplyr::distinct(Attrition)
data |> dplyr::mutate(
Attrition = if_else(Attrition == "Yes", "Sim", "Não")
)
# Traduzindo os valores de uma variável (mais de dois valores distintos)
data |> dplyr::distinct(MaritalStatus)
data |>
dplyr::mutate(
EstadoCivil = dplyr::case_when(
MaritalStatus == "Single" ~ "Solteiro",
MaritalStatus == "Married" ~ "Casado",
MaritalStatus == "Divorced" ~ "Divorciado"
)
) |>
dplyr::select(EmployeeNumber, MaritalStatus, EstadoCivil)
mutate()
Exemplo #2. Calculando um indicador
# Salário do funcionário em relação à mediana do seu cargo e nível
data |>
dplyr::group_by(JobRole, JobLevel) |>
dplyr::mutate(
MedianaSalarial = median(MonthlyIncome, na.rm = TRUE),
FaixaSalarial = MonthlyIncome / median(MonthlyIncome, na.rm = TRUE)
) |>
dplyr::ungroup() |>
dplyr::select(
EmployeeNumber,
JobRole,
JobLevel,
MonthlyIncome,
MedianaSalarial,
FaixaSalarial
)
summarise()
ou summarize()
Crie uma tabela que servirá de base para a visualização de dados
!
# Calcular o percentual de Attrition por JobRole (cargo)
data |>
dplyr::select(JobRole, Attrition) |>
dplyr::group_by(JobRole) |>
dplyr::mutate(
AttritionDummy = dplyr::if_else(Attrition == "Yes", 1, 0)
) |>
dplyr::summarise(
PercentAttrition = sum(AttritionDummy) / dplyr::n()
) |>
dplyr::arrange(dplyr::desc(PercentAttrition))
6
funções de transformação
de dados que você precisa
saberAprenda a criar variáveis, resumir e organizar um dataset
Obrigado!