In [166]:
import polars as pl
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, OneHotEncoder, OrdinalEncoder
from sklearn.compose import make_column_transformer
from sklearn.decomposition import PCA

In [167]:
pl.Config.set_tbl_cols(-1)
pl.Config.set_tbl_rows(-1)

polars.config.Config

In [168]:
df = pl.scan_parquet('dados_parquet/*/*.parquet').collect()

In [169]:
df.head()

ANO_NASCIMENTO,PESO,ALTURA,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,DISPENSA,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA
str,str,str,str,str,str,str,str,str,str,str,str,str,str,str
"""1989""","""95""","""181""","""DESCALVADO""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Sem dispensa""","""Urbana""","""PIRASSUNUNGA""","""SP""","""BRASIL"""
"""1989""","""64""","""173""","""CATANDUVA""","""SP""","""BRASIL""","""Casado""","""M""","""Ensino Superior Completo""","""2007""","""Sem dispensa""","""Urbana""","""SAO PAULO""","""SP""","""BRASIL"""
"""1989""","""82""","""171""","""CATANDUVA""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Sem dispensa""","""Urbana""","""CATANDUVA""","""SP""","""BRASIL"""
"""1989""",,,"""SANTO ANDRE""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Sem dispensa""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL"""
"""1989""",,,"""PIRAJUI""","""SP""","""BRASIL""","""Solteiro""","""M""","""3ª Série do Ensino Médio""","""2007""","""Sem dispensa""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL"""


In [170]:
df.shape

(26569408, 15)

In [171]:
for col in df.columns:
    tem_nulos = df.select(
        pl.col(col).null_count()
    ).item()
    if (tem_nulos > 0):
        print(f'Coluna {col} tem nulos.')

Coluna PESO tem nulos.
Coluna ALTURA tem nulos.
Coluna DISPENSA tem nulos.


In [172]:
df.group_by('VINCULACAO_ANO').agg(
    ((pl.col('PESO').null_count().sum() / pl.col('PESO').len()) * 100).round(2).alias('peso_qtd_nulos (%)'),
    ((pl.col('ALTURA').null_count().sum() / pl.col('ALTURA').len()) * 100).round(2).alias('altura_qtd_nulos (%)'),
)

VINCULACAO_ANO,peso_qtd_nulos (%),altura_qtd_nulos (%)
str,f64,f64
"""2016""",79.34,79.35
"""2013""",80.15,80.15
"""2008""",81.6,81.47
"""2022""",70.52,70.52
"""2017""",74.84,74.82
"""2023""",56.78,56.78
"""2024""",0.0,0.0
"""2010""",79.92,79.92
"""2021""",67.53,67.53
"""2007""",81.15,80.7


In [173]:
df = df.drop(['PESO', 'ALTURA'])

In [174]:
df.select('DISPENSA').unique().to_series().to_list()

['Com dispensa', None, 'null', 'Sem dispensa']

In [175]:
for col in df.columns:
    df = df.with_columns(
        pl.col(col).replace('null', None)
    )

In [176]:
for col in df.columns:
    tem_nulos = df.select(
        pl.col(col).null_count()
    ).item()
    if (tem_nulos > 0):
        print(f'Coluna {col} tem nulos.')

Coluna DISPENSA tem nulos.


In [177]:
df = df.filter(
    pl.col('DISPENSA').is_not_null()
).with_columns(
    foi_convocado = pl.when(
        pl.col('DISPENSA') == 'Sem dispensa'
    ).then(True).otherwise(False)
).drop('DISPENSA')

In [178]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA,foi_convocado
str,str,str,str,str,str,str,str,str,str,str,str,bool
"""1989""","""DESCALVADO""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRASSUNUNGA""","""SP""","""BRASIL""",True
"""1989""","""CATANDUVA""","""SP""","""BRASIL""","""Casado""","""M""","""Ensino Superior Completo""","""2007""","""Urbana""","""SAO PAULO""","""SP""","""BRASIL""",True
"""1989""","""CATANDUVA""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""CATANDUVA""","""SP""","""BRASIL""",True
"""1989""","""SANTO ANDRE""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL""",True
"""1989""","""PIRAJUI""","""SP""","""BRASIL""","""Solteiro""","""M""","""3ª Série do Ensino Médio""","""2007""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL""",True


In [179]:
df = df.with_columns(
    pl.col('ANO_NASCIMENTO').cast(pl.Int16),
    pl.col('VINCULACAO_ANO').cast(pl.Int16),
    pl.col('MUN_NASCIMENTO').cast(pl.Categorical),
    pl.col('UF_NASCIMENTO').cast(pl.Categorical),
    pl.col('MUN_RESIDENCIA').cast(pl.Categorical),
    pl.col('UF_RESIDENCIA').cast(pl.Categorical),
).with_columns(
    nasceu_no_brasil = pl.when(
        pl.col('PAIS_NASCIMENTO') == 'BRASIL'
    ).then(True).otherwise(False)
).with_columns(
    reside_no_brasil = pl.when(
        pl.col('PAIS_RESIDENCIA') == 'BRASIL'
    ).then(True).otherwise(False)
).drop(['PAIS_NASCIMENTO', 'PAIS_RESIDENCIA'])

In [180]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,reside_no_brasil
i16,cat,cat,str,str,str,i16,str,cat,cat,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""",2007,"""Urbana""","""PIRASSUNUNGA""","""SP""",True,True,True
1989,"""CATANDUVA""","""SP""","""Casado""","""M""","""Ensino Superior Completo""",2007,"""Urbana""","""SAO PAULO""","""SP""",True,True,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""",2007,"""Urbana""","""CATANDUVA""","""SP""",True,True,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""",2007,"""Urbana""","""PIRAJUI""","""SP""",True,True,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""M""","""3ª Série do Ensino Médio""",2007,"""Urbana""","""PIRAJUI""","""SP""",True,True,True


In [181]:
df.select('ESTADO_CIVIL').unique().to_series().to_list()

['Desquitado',
 'Casado',
 'Outros',
 'Viúvo',
 'Solteiro',
 'Divorciado',
 'Separado Judicialmente',
 'ViÃºvo']

In [182]:
df = df.with_columns(
    pl.col('ESTADO_CIVIL').replace({
        'ViÃºvo': 'Viúvo',
        'Desquitado': 'Divorciado',
        'Separado Judicialmente': 'Divorciado',
        'Outros': 'Não informado'
    }).cast(pl.Categorical)
)

In [183]:
df.select('ESTADO_CIVIL').unique().to_series().to_list()

['Solteiro', 'Divorciado', 'Viúvo', 'Não informado', 'Casado']

In [184]:
df.select(
    pl.col('ESTADO_CIVIL').value_counts()
).unnest('ESTADO_CIVIL')

ESTADO_CIVIL,count
cat,u32
"""Divorciado""",47968
"""Casado""",366365
"""Viúvo""",1320
"""Solteiro""",25453727
"""Não informado""",225393


In [185]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,reside_no_brasil
i16,cat,cat,cat,str,str,i16,str,cat,cat,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""",2007,"""Urbana""","""PIRASSUNUNGA""","""SP""",True,True,True
1989,"""CATANDUVA""","""SP""","""Casado""","""M""","""Ensino Superior Completo""",2007,"""Urbana""","""SAO PAULO""","""SP""",True,True,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""",2007,"""Urbana""","""CATANDUVA""","""SP""",True,True,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""",2007,"""Urbana""","""PIRAJUI""","""SP""",True,True,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""M""","""3ª Série do Ensino Médio""",2007,"""Urbana""","""PIRAJUI""","""SP""",True,True,True


In [186]:
df.select('SEXO').unique().to_series().to_list()

['M', 'F']

In [187]:
df = df.with_columns(
    e_homem = pl.when(
        pl.col('SEXO') == 'M'
    ).then(True).otherwise(False)
).drop('SEXO')

In [188]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,reside_no_brasil,e_homem
i16,cat,cat,cat,str,i16,str,cat,cat,bool,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""Urbana""","""PIRASSUNUNGA""","""SP""",True,True,True,True
1989,"""CATANDUVA""","""SP""","""Casado""","""Ensino Superior Completo""",2007,"""Urbana""","""SAO PAULO""","""SP""",True,True,True,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""Urbana""","""CATANDUVA""","""SP""",True,True,True,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""Urbana""","""PIRAJUI""","""SP""",True,True,True,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""3ª Série do Ensino Médio""",2007,"""Urbana""","""PIRAJUI""","""SP""",True,True,True,True


In [189]:
df.select('ZONA_RESIDENCIAL').unique().to_series().to_list()

['Rural', 'Urbana']

In [190]:
df = df.with_columns(
    mora_na_zona_urbana = pl.when(
        pl.col('ZONA_RESIDENCIAL')  == 'Urbana'
    ).then(True).otherwise(False)
).drop('ZONA_RESIDENCIAL')

In [191]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,ESCOLARIDADE,VINCULACAO_ANO,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,reside_no_brasil,e_homem,mora_na_zona_urbana
i16,cat,cat,cat,str,i16,cat,cat,bool,bool,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRASSUNUNGA""","""SP""",True,True,True,True,True
1989,"""CATANDUVA""","""SP""","""Casado""","""Ensino Superior Completo""",2007,"""SAO PAULO""","""SP""",True,True,True,True,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""CATANDUVA""","""SP""",True,True,True,True,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRAJUI""","""SP""",True,True,True,True,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""3ª Série do Ensino Médio""",2007,"""PIRAJUI""","""SP""",True,True,True,True,True


In [192]:
print(df.select('ESCOLARIDADE').unique().to_series().to_list())

['4° Ano - Ensino Médio (Profissionalizante)', '10° Semestre - Ensino Superior', '2Â° Ano - Ensino Fundamental', '7° Ano - Ensino Fundamental', '4° Semestre - Ensino Superior', '3ª Série do Ensino Médio', '3Â° Ano - Ensino MÃ©dio', '1° Ano - Ensino Fundamental', 'Doutorado', '3° Semestre - Ensino Superior', 'Pós-Graduação', '6Â° Ano - Ensino Fundamental', '9Â° Semestre - Ensino Superior', '7ª Série do Ensino Fundamental', '9° Semestre - Ensino Superior', '2Â° Semestre - Ensino Superior', '4Â° Ano - Ensino Fundamental', '2° Semestre - Ensino Superior', 'Pós-Doutorado', '2° Semestre do Ensino Superior', '4Â° Semestre - Ensino Superior', 'Ensino MÃ©dio Completo', '2° Ano - Ensino Fundamental', '1Â° Semestre - Ensino Superior', '6Â° Semestre - Ensino Superior', '1° Semestre do Ensino Superior', '7Â° Semestre - Ensino Superior', '6° Ano - Ensino Fundamental', '3° Ano - Ensino Fundamental', 'PÃ³s-GraduaÃ§Ã£o', '9ª Série do Ensino Fundamental', '6° Semestre do Ensino Superior', '1° Ano - Ensi

In [193]:
df = df.with_columns(
    pl.col('ESCOLARIDADE').str.replace_many({
        'Â°': 'º',
        'Ã©': 'é',
        'Ã§â\x95\x9eo': 'ção',
        'Ã§Ã£o': 'ção',
        'Ã³': 'ó'
    }, ascii_case_insensitive=True)
)

In [194]:
print(df.select('ESCOLARIDADE').unique().to_series().to_list())

['8° Ano - Ensino Fundamental', '1º Ano - Ensino Médio', '2° Ano - Ensino Médio', '8º Semestre - Ensino Superior', '6º Ano - Ensino Fundamental', '1º Ano - Ensino Fundamental', '4° Ano - Ensino Fundamental', '7° Semestre - Ensino Superior', '5° Ano - Ensino Fundamental', '8° Semestre do Ensino Superior', '1° Ano - Ensino Médio', '3° Ano - Ensino Fundamental', '9ª Série do Ensino Fundamental', '7º Ano - Ensino Fundamental', '1° Semestre do Ensino Superior', '3º Semestre - Ensino Superior', '5º Ano - Ensino Fundamental', '7° Semestre do Ensino Superior', 'Pós-Doutorado', '2ª Série do Ensino Fundamental', '6° Semestre do Ensino Superior', '9° Ano - Ensino Fundamental', '5° Semestre do Ensino Superior', '7ª Série do Ensino Fundamental', '6º Semestre - Ensino Superior', '2º Ano - Ensino Médio', '2º Ano - Ensino Fundamental', '2° Semestre do Ensino Superior', '10º Semestre - Ensino Superior', '1° Ano - Ensino Fundamental', '3° Semestre do Ensino Superior', '5º Semestre - Ensino Superior', '4

In [195]:
ordem_escolaridade = [
    'Analfabeto',
    'Alfabetizado',
    'Ensino Fundamental',
    'Ensino Médio',
    'Graduação',
    'Pós-Graduação'
]

In [196]:
df = df.with_columns(
    nivel_escolar = (
        pl.when(pl.col('ESCOLARIDADE') == 'Analfabeto').then(pl.lit('Analfabeto'))
        .when(pl.col('ESCOLARIDADE') == 'Alfabetizado').then(pl.lit('Alfabetizado'))
        .when(pl.col('ESCOLARIDADE').str.contains('Ensino Fundamental', literal=True)).then(pl.lit('Ensino Fundamental'))
        .when(pl.col('ESCOLARIDADE').str.contains('Ensino Médio', literal=True)).then(pl.lit('Ensino Médio'))
        .when(pl.col('ESCOLARIDADE').str.contains('Ensino Superior', literal=True)).then(pl.lit('Graduação'))
        .otherwise(pl.lit('Pós-Graduação'))
    )
).with_columns(
    pl.col('nivel_escolar').cast(pl.Enum(ordem_escolaridade))
).drop('ESCOLARIDADE')

In [197]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,VINCULACAO_ANO,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,reside_no_brasil,e_homem,mora_na_zona_urbana,nivel_escolar
i16,cat,cat,cat,i16,cat,cat,bool,bool,bool,bool,bool,enum
1989,"""DESCALVADO""","""SP""","""Solteiro""",2007,"""PIRASSUNUNGA""","""SP""",True,True,True,True,True,"""Ensino Médio"""
1989,"""CATANDUVA""","""SP""","""Casado""",2007,"""SAO PAULO""","""SP""",True,True,True,True,True,"""Graduação"""
1989,"""CATANDUVA""","""SP""","""Solteiro""",2007,"""CATANDUVA""","""SP""",True,True,True,True,True,"""Ensino Médio"""
1989,"""SANTO ANDRE""","""SP""","""Solteiro""",2007,"""PIRAJUI""","""SP""",True,True,True,True,True,"""Ensino Médio"""
1989,"""PIRAJUI""","""SP""","""Solteiro""",2007,"""PIRAJUI""","""SP""",True,True,True,True,True,"""Ensino Médio"""


In [198]:
df.select(
    pl.col('nasceu_no_brasil').value_counts(),
    pl.col('reside_no_brasil').value_counts(),
    pl.col('e_homem').value_counts(),
    pl.col('mora_na_zona_urbana').value_counts(),
)

nasceu_no_brasil,reside_no_brasil,e_homem,mora_na_zona_urbana
struct[2],struct[2],struct[2],struct[2]
"{false,76630}","{true,25979512}","{false,13091}","{false,3176180}"
"{true,26018143}","{false,115261}","{true,26081682}","{true,22918593}"


In [199]:
qtd_linhas = df.shape[0]
qtd_linhas

26094773

In [200]:
np.round(((26018143 / qtd_linhas) * 100), decimals=2)

np.float64(99.71)

In [201]:
np.round(((76630 / qtd_linhas) * 100), decimals=2)

np.float64(0.29)

In [202]:
np.round(((25979512 / qtd_linhas) * 100), decimals=2)

np.float64(99.56)

In [203]:
np.round(((115261 / qtd_linhas) * 100), decimals=2)

np.float64(0.44)

In [204]:
np.round(((26081682 / qtd_linhas) * 100), decimals=2)

np.float64(99.95)

In [205]:
np.round(((13091 / qtd_linhas) * 100), decimals=2)

np.float64(0.05)

In [206]:
np.round(((22918593 / qtd_linhas) * 100), decimals=2)

np.float64(87.83)

In [207]:
np.round(((3176180 / qtd_linhas) * 100), decimals=2)

np.float64(12.17)

In [208]:
df = df.filter(
    pl.col('nasceu_no_brasil') == True,
    pl.col('reside_no_brasil') == True,
    pl.col('e_homem') == True
)