In [1]:
import polars as pl

In [2]:
pl.Config.set_tbl_cols(-1)
pl.Config.set_tbl_rows(-1)

polars.config.Config

# 1. ETL & DATA WANGLING

In [3]:
df = pl.scan_parquet('dados_parquet/*/*.parquet').collect()

In [4]:
df.head()

ANO_NASCIMENTO,PESO,ALTURA,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,DISPENSA,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA
str,str,str,str,str,str,str,str,str,str,str,str,str,str,str
"""1989""","""95""","""181""","""DESCALVADO""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Sem dispensa""","""Urbana""","""PIRASSUNUNGA""","""SP""","""BRASIL"""
"""1989""","""64""","""173""","""CATANDUVA""","""SP""","""BRASIL""","""Casado""","""M""","""Ensino Superior Completo""","""2007""","""Sem dispensa""","""Urbana""","""SAO PAULO""","""SP""","""BRASIL"""
"""1989""","""82""","""171""","""CATANDUVA""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Sem dispensa""","""Urbana""","""CATANDUVA""","""SP""","""BRASIL"""
"""1989""",,,"""SANTO ANDRE""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Sem dispensa""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL"""
"""1989""",,,"""PIRAJUI""","""SP""","""BRASIL""","""Solteiro""","""M""","""3ª Série do Ensino Médio""","""2007""","""Sem dispensa""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL"""


In [5]:
df.shape

(26569408, 15)

In [6]:
for col in df.columns:
    tem_nulos = df.select(
        pl.col(col).null_count()
    ).item()
    if (tem_nulos > 0):
        print(f'Coluna {col} tem {tem_nulos} valores nulos.')

Coluna PESO tem 18598039 valores nulos.
Coluna ALTURA tem 18588096 valores nulos.
Coluna DISPENSA tem 474630 valores nulos.


In [7]:
print(df.select('DISPENSA').unique().to_series().to_list())

[None, 'Sem dispensa', 'null', 'Com dispensa']


In [8]:
for col in df.columns:
    df = df.with_columns(
        pl.col(col).replace('null', None)
    )

In [9]:
df = df.filter(
    pl.col('DISPENSA').is_not_null()
).with_columns(
    foi_convocado = pl.when(
        pl.col('DISPENSA') == 'Com dispensa'
    ).then(True).otherwise(False)
).drop('DISPENSA')

In [10]:
print(df.select('foi_convocado').unique().to_series().to_list())

[False, True]


In [11]:
for col in df.columns:
    tem_nulos = df.select(
        pl.col(col).null_count()
    ).item()
    if (tem_nulos > 0):
        print(f'Coluna {col} tem {tem_nulos} valores nulos.')

Coluna PESO tem 19733882 valores nulos.
Coluna ALTURA tem 19773653 valores nulos.


In [12]:
df.group_by('VINCULACAO_ANO').agg(
    (((pl.col('PESO').null_count().sum() / pl.col('PESO').len()) * 100).round(2)).alias('peso_qtd_nulos (%)'),
    (((pl.col('ALTURA').null_count().sum() / pl.col('ALTURA').len()) * 100).round(2)).alias('altura_qtd_nulos (%)')
)

VINCULACAO_ANO,peso_qtd_nulos (%),altura_qtd_nulos (%)
str,f64,f64
"""2015""",79.52,79.52
"""2012""",81.24,81.24
"""2007""",81.15,80.7
"""2018""",68.11,68.11
"""2022""",70.52,70.52
"""2021""",67.53,67.53
"""2017""",62.64,62.6
"""2011""",79.71,79.71
"""2009""",78.75,78.74
"""2020""",68.1,68.12


In [13]:
df = df.drop(['PESO', 'ALTURA'])

In [14]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA,foi_convocado
str,str,str,str,str,str,str,str,str,str,str,str,bool
"""1989""","""DESCALVADO""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRASSUNUNGA""","""SP""","""BRASIL""",False
"""1989""","""CATANDUVA""","""SP""","""BRASIL""","""Casado""","""M""","""Ensino Superior Completo""","""2007""","""Urbana""","""SAO PAULO""","""SP""","""BRASIL""",False
"""1989""","""CATANDUVA""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""CATANDUVA""","""SP""","""BRASIL""",False
"""1989""","""SANTO ANDRE""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL""",False
"""1989""","""PIRAJUI""","""SP""","""BRASIL""","""Solteiro""","""M""","""3ª Série do Ensino Médio""","""2007""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL""",False


In [15]:
schema_map = {
    'ANO_NASCIMENTO': pl.Int16,
    'MUN_NASCIMENTO': pl.Categorical,
    'UF_NASCIMENTO': pl.Categorical,
    'MUN_RESIDENCIA': pl.Categorical,
    'UF_RESIDENCIA': pl.Categorical,
}

In [16]:
df = df.with_columns(
    [pl.col(col).cast(dtypes) for col, dtypes in schema_map.items()]
).with_columns(
    nasceu_no_brasil = pl.when(
        pl.col('PAIS_NASCIMENTO') == 'Brasil'
    ).then(True).otherwise(False),
    reside_no_brasil = pl.when(
        pl.col('PAIS_RESIDENCIA') == 'Brasil'
    ).then(True).otherwise(False)
).drop(['PAIS_NASCIMENTO', 'PAIS_RESIDENCIA'])

In [17]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,reside_no_brasil
i16,cat,cat,str,str,str,str,str,cat,cat,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRASSUNUNGA""","""SP""",False,False,False
1989,"""CATANDUVA""","""SP""","""Casado""","""M""","""Ensino Superior Completo""","""2007""","""Urbana""","""SAO PAULO""","""SP""",False,False,False
1989,"""CATANDUVA""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""CATANDUVA""","""SP""",False,False,False
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRAJUI""","""SP""",False,False,False
1989,"""PIRAJUI""","""SP""","""Solteiro""","""M""","""3ª Série do Ensino Médio""","""2007""","""Urbana""","""PIRAJUI""","""SP""",False,False,False


In [18]:
print(df.select('ESTADO_CIVIL').unique().to_series().to_list())

['Desquitado', 'Divorciado', 'Casado', 'Solteiro', 'Separado Judicialmente', 'Outros', 'Viúvo', 'ViÃºvo']


In [19]:
df = df.with_columns(
    pl.col('ESTADO_CIVIL').replace({
        'ViÃºvo': 'Viúvo',
        'Separado Judicialmente': 'Divorciado',
        'Desquitado': 'Divorciado'
    })
)

In [20]:
print(df.select('ESTADO_CIVIL').unique().to_series().to_list())

['Outros', 'Solteiro', 'Viúvo', 'Casado', 'Divorciado']


In [21]:
print(df.select('SEXO').unique().to_series().to_list())

['M', 'F']


In [22]:
df = df.with_columns(
    e_homem = pl.when(
        pl.col('SEXO') == "M"
    ).then(True).otherwise(False)
).drop('SEXO')

In [23]:
print(df.select('e_homem').unique().to_series().to_list())

[False, True]


In [24]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,reside_no_brasil,e_homem
i16,cat,cat,str,str,str,str,cat,cat,bool,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRASSUNUNGA""","""SP""",False,False,False,True
1989,"""CATANDUVA""","""SP""","""Casado""","""Ensino Superior Completo""","""2007""","""Urbana""","""SAO PAULO""","""SP""",False,False,False,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""Ensino Médio Completo""","""2007""","""Urbana""","""CATANDUVA""","""SP""",False,False,False,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRAJUI""","""SP""",False,False,False,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""3ª Série do Ensino Médio""","""2007""","""Urbana""","""PIRAJUI""","""SP""",False,False,False,True


In [25]:
df = df.with_columns(
    pl.col('VINCULACAO_ANO').cast(pl.Int16)
)

In [26]:
print(df.select('ZONA_RESIDENCIAL').unique().to_series().to_list())

['Rural', 'Urbana']


In [27]:
df = df.with_columns(
    reside_em_zona_urbana = pl.when(
        pl.col('ZONA_RESIDENCIAL') == 'Urbana'
    ).then(True).otherwise(False)
).drop('ZONA_RESIDENCIAL')

In [28]:
print(df.select('reside_em_zona_urbana').unique().to_series().to_list())

[False, True]


In [29]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,ESCOLARIDADE,VINCULACAO_ANO,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,reside_no_brasil,e_homem,reside_em_zona_urbana
i16,cat,cat,str,str,i16,cat,cat,bool,bool,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRASSUNUNGA""","""SP""",False,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Casado""","""Ensino Superior Completo""",2007,"""SAO PAULO""","""SP""",False,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""CATANDUVA""","""SP""",False,False,False,True,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRAJUI""","""SP""",False,False,False,True,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""3ª Série do Ensino Médio""",2007,"""PIRAJUI""","""SP""",False,False,False,True,True


In [30]:
print(df.select('ESCOLARIDADE').unique().to_series().to_list())

['3ª Série do Ensino Médio', '9° Ano - Ensino Fundamental', '5Â° Semestre - Ensino Superior', '8Â° Ano - Ensino Fundamental', '9Â° Semestre - Ensino Superior', '4Â° Ano - Ensino Fundamental', '2ª Série do Ensino Fundamental', '2Â° Ano - Ensino Fundamental', '10Â° Semestre - Ensino Superior', '4° Ano - Ensino Fundamental', '5Â° Ano - Ensino Fundamental', '6ª Série do Ensino Fundamental', '7ª Série do Ensino Fundamental', '8° Ano - Ensino Fundamental', '1° Semestre do Ensino Superior', '1ª Série do Ensino Fundamental', '7° Ano - Ensino Fundamental', '8ª Série do Ensino Fundamental', '6Â° Semestre - Ensino Superior', '4° Semestre - Ensino Superior', '8° Semestre do Ensino Superior', '7° Semestre do Ensino Superior', '9° Semestre - Ensino Superior', '10° Semestre - Ensino Superior', '1Â° Semestre - Ensino Superior', '1° Ano - Ensino Fundamental', 'Doutorado', '1Â° Ano - Ensino MÃ©dio', '4Â° Ano - Ensino MÃ©dio (Profissionalizante)', '6Â° Ano - Ensino Fundamental', '6° Semestre do Ensino Su

In [31]:
df = df.with_columns(
    pl.col('ESCOLARIDADE').str.replace_many({
        'Â°': 'º',
        'Ã³': 'ó',
        'Ã§Ã£': 'çã',
        'Ã§â\x95\x9eo': 'ção',
        'Ã©': 'é'
    }, ascii_case_insensitive=True)
)

In [32]:
escolaridade = {
    'analfalbetismo': ['Analfabeto'],
    'alfabetizacao': ['Alfabetizado'],
    'ensino_fundamental': [
        '1º Ano - Ensino Fundamental', '2º Ano - Ensino Fundamental', 
        '3º Ano - Ensino Fundamental', '4º Ano - Ensino Fundamental', 
        '5º Ano - Ensino Fundamental', '6º Ano - Ensino Fundamental', 
        '7º Ano - Ensino Fundamental', '8º Ano - Ensino Fundamental', 
        '9º Ano - Ensino Fundamental', 'Ensino Fundamental Completo'
    ],
    'ensino_medio': [
        '1º Ano - Ensino Médio', '2º Ano - Ensino Médio', 
        '3º Ano - Ensino Médio', '4º Ano - Ensino Médio (Profissionalizante)', 
        'Ensino Médio Completo'
    ],
    'graduacao': [
        '1º Semestre - Ensino Superior', '2º Semestre - Ensino Superior', 
        '3º Semestre - Ensino Superior', '4º Semestre - Ensino Superior', 
        '5º Semestre - Ensino Superior', '6º Semestre - Ensino Superior', 
        '7º Semestre - Ensino Superior', '8º Semestre - Ensino Superior', 
        '9º Semestre - Ensino Superior', '10º Semestre - Ensino Superior', 
        'Ensino Superior Completo'
    ],
    'pos_graduacao': [
        'Pós-Graduação', 
        'Mestrado', 
        'Doutorado', 
        'Pós-Doutorado'
    ]
}

In [33]:
ordem_escolaridade = [
    'Analfabeto',
    'Alfabetizado',
    'Ensino Fundamental',
    'Ensino Médio',
    'Graduação',
    'Pós-Graduação'
]

# 2. EDA

# 3. ML

## 3.1 CLUSTERIZAÇÃO: KMEANS OU DBSCAN

## 3.2 REGRESSÃO LOGÍSTICA