In [None]:
import polars as pl

In [None]:
pl.Config.set_tbl_cols(-1)
pl.Config.set_tbl_rows(-1)

# 1. ETL & DATA WANGLING

In [None]:
df = pl.scan_parquet('dados_parquet/*/*.parquet').collect()

In [None]:
df.head()

In [None]:
df.shape

In [None]:
for col in df.columns:
    tem_nulos = df.select(
        pl.col(col).null_count()
    ).item()
    if (tem_nulos > 0):
        print(f'Coluna {col} tem {tem_nulos} valores nulos.')

In [None]:
print(df.select('DISPENSA').unique().to_series().to_list())

In [None]:
for col in df.columns:
    df = df.with_columns(
        pl.col(col).replace('null', None)
    )

In [None]:
df = df.filter(
    pl.col('DISPENSA').is_not_null()
).with_columns(
    foi_convocado = pl.when(
        pl.col('DISPENSA') == 'Com dispensa'
    ).then(True).otherwise(False)
).drop('DISPENSA')

In [None]:
print(df.select('foi_convocado').unique().to_series().to_list())

In [None]:
for col in df.columns:
    tem_nulos = df.select(
        pl.col(col).null_count()
    ).item()
    if (tem_nulos > 0):
        print(f'Coluna {col} tem {tem_nulos} valores nulos.')

In [None]:
df.group_by('VINCULACAO_ANO').agg(
    (((pl.col('PESO').null_count().sum() / pl.col('PESO').len()) * 100).round(2)).alias('peso_qtd_nulos (%)'),
    (((pl.col('ALTURA').null_count().sum() / pl.col('ALTURA').len()) * 100).round(2)).alias('altura_qtd_nulos (%)')
)

In [None]:
df = df.drop(['PESO', 'ALTURA'])

In [None]:
df.head()

In [None]:
schema_map = {
    'ANO_NASCIMENTO': pl.Int16,
    'MUN_NASCIMENTO': pl.Categorical,
    'UF_NASCIMENTO': pl.Categorical,
    'MUN_RESIDENCIA': pl.Categorical,
    'UF_RESIDENCIA': pl.Categorical,
}

In [None]:
df = df.with_columns(
    [pl.col(col).cast(dtypes) for col, dtypes in schema_map.items()]
).with_columns(
    nasceu_no_brasil = pl.when(
        pl.col('PAIS_NASCIMENTO') == 'Brasil'
    ).then(True).otherwise(False),
    reside_no_brasil = pl.when(
        pl.col('PAIS_RESIDENCIA') == 'Brasil'
    ).then(True).otherwise(False)
).drop(['PAIS_NASCIMENTO', 'PAIS_RESIDENCIA'])

In [None]:
df.head()

In [None]:
print(df.select('ESTADO_CIVIL').unique().to_series().to_list())

In [None]:
df = df.with_columns(
    pl.col('ESTADO_CIVIL').replace({
        'ViÃºvo': 'Viúvo',
        'Separado Judicialmente': 'Divorciado',
        'Desquitado': 'Divorciado'
    })
)

In [None]:
print(df.select('ESTADO_CIVIL').unique().to_series().to_list())

In [None]:
print(df.select('SEXO').unique().to_series().to_list())

In [None]:
df = df.with_columns(
    e_homem = pl.when(
        pl.col('SEXO') == "M"
    ).then(True).otherwise(False)
).drop('SEXO')

In [None]:
print(df.select('e_homem').unique().to_series().to_list())

In [None]:
df.head()

In [None]:
df = df.with_columns(
    pl.col('VINCULACAO_ANO').cast(pl.Int16)
)

In [None]:
print(df.select('ZONA_RESIDENCIAL').unique().to_series().to_list())

In [None]:
df = df.with_columns(
    reside_em_zona_urbana = pl.when(
        pl.col('ZONA_RESIDENCIAL') == 'Urbana'
    ).then(True).otherwise(False)
).drop('ZONA_RESIDENCIAL')

In [None]:
print(df.select('reside_em_zona_urbana').unique().to_series().to_list())

In [None]:
df.head()

In [None]:
print(df.select('ESCOLARIDADE').unique().to_series().to_list())

In [None]:
df = df.with_columns(
    pl.col('ESCOLARIDADE').str.replace_many({
        'Â°': 'º',
        'Ã³': 'ó',
        'Ã§Ã£': 'çã',
        'Ã§â\x95\x9eo': 'ção',
        'Ã©': 'é'
    }, ascii_case_insensitive=True)
)

In [None]:
escolaridade = {
    'analfalbetismo': ['Analfabeto'],
    'alfabetizacao': ['Alfabetizado'],
    'ensino_fundamental': [
        '1º Ano - Ensino Fundamental', '2º Ano - Ensino Fundamental', 
        '3º Ano - Ensino Fundamental', '4º Ano - Ensino Fundamental', 
        '5º Ano - Ensino Fundamental', '6º Ano - Ensino Fundamental', 
        '7º Ano - Ensino Fundamental', '8º Ano - Ensino Fundamental', 
        '9º Ano - Ensino Fundamental', 'Ensino Fundamental Completo'
    ],
    'ensino_medio': [
        '1º Ano - Ensino Médio', '2º Ano - Ensino Médio', 
        '3º Ano - Ensino Médio', '4º Ano - Ensino Médio (Profissionalizante)', 
        'Ensino Médio Completo'
    ],
    'graduacao': [
        '1º Semestre - Ensino Superior', '2º Semestre - Ensino Superior', 
        '3º Semestre - Ensino Superior', '4º Semestre - Ensino Superior', 
        '5º Semestre - Ensino Superior', '6º Semestre - Ensino Superior', 
        '7º Semestre - Ensino Superior', '8º Semestre - Ensino Superior', 
        '9º Semestre - Ensino Superior', '10º Semestre - Ensino Superior', 
        'Ensino Superior Completo'
    ],
    'pos_graduacao': [
        'Pós-Graduação', 
        'Mestrado', 
        'Doutorado', 
        'Pós-Doutorado'
    ]
}

In [None]:
ordem_escolaridade = [
    'Analfabeto',
    'Alfabetizado',
    'Ensino Fundamental',
    'Ensino Médio',
    'Graduação',
    'Pós-Graduação'
]

In [None]:
df.head()

# 2. EDA

# 3. ML

## 3.1 CLUSTERIZAÇÃO: KMEANS OU DBSCAN

## 3.2 REGRESSÃO LOGÍSTICA