[1] "caseID" "DOB" "Other"
[4] "Coluna com Espaço"
janitor
Wlademir Prates
pacotes
para limpeza e transformação de dados.Desenvolvido tendo em mente os usuários de R do iniciante
ao intermediário
, é otimizado para facilidade de uso.
Segue os princípios do “tidyverse” e funciona bem com o %>%
.
As principais funções:
clean_names
Ajusta o nome das colunas com problema de formatação, espaços e caracteres inválidos.
Exemplo de colunas com problema:
[1] "caseID" "DOB" "Other"
[4] "Coluna com Espaço"
Utilizando a função:
get_dupes
Apresenta os dados duplicados:
tabyl
Apresenta contagens rápidas dos dados das tabelas (sendo compatível com o pipe %>%
e outros recursos):
compare_df_cols
Compara as colunas e apresenta os tipos diferentes:
# A tibble: 2 × 2
a b
<int> <chr>
1 1 pequeno
2 2 grande
# A tibble: 3 × 3
a b c
<int> <fct> <dbl>
1 10 médio 0
2 11 pequeno 0
3 12 grande 0
# A tibble: 2 × 2
a b
<int> <chr>
1 3 médio
2 4 grande
compare_df_cols_same
Executa a mesma comparação que em compare_df_cols
, retornando verdadeiro ou falso para a consulta:
df1 <- tibble(a = 1:2, b = c("pequeno", "grande"))
df2 <- tibble(a = 10:12, b = as.factor(c("médio", "pequeno", "grande")), c = 0) # no exemplo, a coluna b é um fator
df3 <- tibble(a = 3:4, b = c("médio", "grande"))
compare_df_cols(df1, df2, df3, return = "mismatch", bind_method = "rbind") # tente também "all" e "match"
column_name df1 df2 df3
1 b character factor character
2 c <NA> numeric <NA>
compare_df_cols_same
Executa a mesma comparação que em compare_df_cols
, retornando verdadeiro ou falso para a consulta:
remove_empty
Remove colunas 100% vazias (NA
).
Tabela com valores em branco:
# A tibble: 3 × 5
v1 v2 v3 v4 V5
<dbl> <lgl> <chr> <chr> <dbl>
1 1 NA a c NA
2 NA NA <NA> <NA> NA
3 3 NA b <NA> 4
remove_empty
Exemplo do uso do remove_empty removendo colunas e linhas em branco:
remove_constant
Remove colunas contendo dados 100% iguais:
df <- tibble(
id = c(1, 2, 3, 4),
country = c("Brazil","Brazil","Brazil", "Brazil"),
state = c("SP", "SP", "SP", "SP"),
client_name = c("João", "Maria", "José", "Fernanda"),
sex = c("M", "F", "M", NA)
)
df
# A tibble: 4 × 5
id country state client_name sex
<dbl> <chr> <chr> <chr> <chr>
1 1 Brazil SP João M
2 2 Brazil SP Maria F
3 3 Brazil SP José M
4 4 Brazil SP Fernanda <NA>
remove_constant
Exemplo do uso do remove_constant()
:
janitor