In [1]:
import polars as pl

In [2]:
pl.Config.set_tbl_cols(-1)
pl.Config.set_tbl_rows(-1)

polars.config.Config

# ETL E DATA WRANGLING

In [3]:
df = pl.scan_parquet('dados_parquet/*/*.parquet').collect()

In [4]:
df.head()

ANO_NASCIMENTO,PESO,ALTURA,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,DISPENSA,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA
str,str,str,str,str,str,str,str,str,str,str,str,str,str,str
"""1989""","""95""","""181""","""DESCALVADO""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Sem dispensa""","""Urbana""","""PIRASSUNUNGA""","""SP""","""BRASIL"""
"""1989""","""64""","""173""","""CATANDUVA""","""SP""","""BRASIL""","""Casado""","""M""","""Ensino Superior Completo""","""2007""","""Sem dispensa""","""Urbana""","""SAO PAULO""","""SP""","""BRASIL"""
"""1989""","""82""","""171""","""CATANDUVA""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Sem dispensa""","""Urbana""","""CATANDUVA""","""SP""","""BRASIL"""
"""1989""",,,"""SANTO ANDRE""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Sem dispensa""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL"""
"""1989""",,,"""PIRAJUI""","""SP""","""BRASIL""","""Solteiro""","""M""","""3ª Série do Ensino Médio""","""2007""","""Sem dispensa""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL"""


In [5]:
for col in df.columns:
    tem_nulos = df.select(
        pl.col(col).null_count()
    ).item()
    if (tem_nulos > 0):
        print(f'Coluna {col} tem {tem_nulos} nulos.')

Coluna PESO tem 18598039 nulos.
Coluna ALTURA tem 18588096 nulos.
Coluna DISPENSA tem 474630 nulos.


In [6]:
df['DISPENSA'].unique()

DISPENSA
str
"""Com dispensa"""
"""null"""
""
"""Sem dispensa"""


In [7]:
for col in df.columns:
    df = df.with_columns(
        pl.col(col).replace('null', None)
    )

In [8]:
df['DISPENSA'].unique()

DISPENSA
str
""
"""Com dispensa"""
"""Sem dispensa"""


In [9]:
df = df.with_columns(
    foi_convocado = pl.when(
        pl.col('DISPENSA') == 'Sem dispensa'
    ).then(True).otherwise(False)
).drop('DISPENSA')

In [10]:
df['foi_convocado'].unique()

foi_convocado
bool
False
True


In [11]:
for col in df.columns:
    tem_nulos = df.select(
        pl.col(col).null_count()
    ).item()
    if (tem_nulos > 0):
        print(f'Coluna {col} tem {tem_nulos} nulos.')

Coluna PESO tem 20208318 nulos.
Coluna ALTURA tem 20248089 nulos.


In [12]:
df.group_by('VINCULACAO_ANO').agg(
    pl.col('PESO').null_count().sum().alias('peso_qtd_nulos'),
    (pl.col('PESO').null_count().sum() / pl.col('PESO').len() * 100).round(2).alias('peso_qtd_nulos (%)'),
    pl.col('ALTURA').null_count().sum().alias('altura_qtd_nulos'),
    (pl.col('ALTURA').null_count().sum() / pl.col('ALTURA').len() * 100).round(2).alias('altura_qtd_nulos (%)'),
)

VINCULACAO_ANO,peso_qtd_nulos,peso_qtd_nulos (%),altura_qtd_nulos,altura_qtd_nulos (%)
str,u32,f64,u32,f64
"""2017""",1086345,74.84,1085981,74.82
"""2015""",1431323,79.52,1431323,79.52
"""2012""",1663139,81.24,1663103,81.24
"""2023""",558646,56.78,558646,56.78
"""2008""",1407721,81.6,1405414,81.47
"""2010""",1355126,79.92,1355080,79.92
"""2019""",1068967,72.37,1118640,75.73
"""2007""",1311379,81.15,1304042,80.7
"""2018""",675646,68.11,675646,68.11
"""2009""",1214815,78.75,1214744,78.74


In [13]:
df = df.drop(['PESO', 'ALTURA'])

In [14]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA,foi_convocado
str,str,str,str,str,str,str,str,str,str,str,str,bool
"""1989""","""DESCALVADO""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRASSUNUNGA""","""SP""","""BRASIL""",True
"""1989""","""CATANDUVA""","""SP""","""BRASIL""","""Casado""","""M""","""Ensino Superior Completo""","""2007""","""Urbana""","""SAO PAULO""","""SP""","""BRASIL""",True
"""1989""","""CATANDUVA""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""CATANDUVA""","""SP""","""BRASIL""",True
"""1989""","""SANTO ANDRE""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL""",True
"""1989""","""PIRAJUI""","""SP""","""BRASIL""","""Solteiro""","""M""","""3ª Série do Ensino Médio""","""2007""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL""",True


In [15]:
df = df.with_columns(
    pl.col('ANO_NASCIMENTO').cast(pl.Int16),
    pl.col('MUN_NASCIMENTO').cast(pl.Categorical),
    pl.col('UF_NASCIMENTO').cast(pl.Categorical)
)

In [16]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA,foi_convocado
i16,cat,cat,str,str,str,str,str,str,str,str,str,bool
1989,"""DESCALVADO""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRASSUNUNGA""","""SP""","""BRASIL""",True
1989,"""CATANDUVA""","""SP""","""BRASIL""","""Casado""","""M""","""Ensino Superior Completo""","""2007""","""Urbana""","""SAO PAULO""","""SP""","""BRASIL""",True
1989,"""CATANDUVA""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""CATANDUVA""","""SP""","""BRASIL""",True
1989,"""SANTO ANDRE""","""SP""","""BRASIL""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL""",True
1989,"""PIRAJUI""","""SP""","""BRASIL""","""Solteiro""","""M""","""3ª Série do Ensino Médio""","""2007""","""Urbana""","""PIRAJUI""","""SP""","""BRASIL""",True


In [17]:
df = df.with_columns(
    nasceu_no_brasil = pl.when(
        pl.col('PAIS_NASCIMENTO') == 'Brasil'
    ).then(True).otherwise(False)
).with_columns(
    nasceu_residencia = pl.when(
        pl.col('PAIS_RESIDENCIA') == 'Brasil'
    ).then(True).otherwise(False)
).drop(['pais_nascimento'.upper(), 'pais_residencia'.upper()])

In [18]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,nasceu_residencia
i16,cat,cat,str,str,str,str,str,str,str,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRASSUNUNGA""","""SP""",True,False,False
1989,"""CATANDUVA""","""SP""","""Casado""","""M""","""Ensino Superior Completo""","""2007""","""Urbana""","""SAO PAULO""","""SP""",True,False,False
1989,"""CATANDUVA""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""CATANDUVA""","""SP""",True,False,False
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""","""2007""","""Urbana""","""PIRAJUI""","""SP""",True,False,False
1989,"""PIRAJUI""","""SP""","""Solteiro""","""M""","""3ª Série do Ensino Médio""","""2007""","""Urbana""","""PIRAJUI""","""SP""",True,False,False


In [19]:
df = df.with_columns(
    pl.col('VINCULACAO_ANO').cast(pl.Int16),
    pl.col('MUN_RESIDENCIA').cast(pl.Categorical),
    pl.col('UF_RESIDENCIA').cast(pl.Categorical)
).with_columns(
    mora_zona_urbana = pl.when(
        pl.col('ZONA_RESIDENCIAL') == 'Urbana'
    ).then(True).otherwise(False)
).drop('ZONA_RESIDENCIAL')

In [20]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,nasceu_residencia,mora_zona_urbana
i16,cat,cat,str,str,str,i16,cat,cat,bool,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""",2007,"""PIRASSUNUNGA""","""SP""",True,False,False,True
1989,"""CATANDUVA""","""SP""","""Casado""","""M""","""Ensino Superior Completo""",2007,"""SAO PAULO""","""SP""",True,False,False,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""",2007,"""CATANDUVA""","""SP""",True,False,False,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""M""","""Ensino Médio Completo""",2007,"""PIRAJUI""","""SP""",True,False,False,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""M""","""3ª Série do Ensino Médio""",2007,"""PIRAJUI""","""SP""",True,False,False,True


In [21]:
df = df.with_columns(
    e_homem = pl.when(
        pl.col('SEXO') == 'M'
    ).then(True).otherwise(False)
).drop('SEXO')

In [22]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,ESCOLARIDADE,VINCULACAO_ANO,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,nasceu_residencia,mora_zona_urbana,e_homem
i16,cat,cat,str,str,i16,cat,cat,bool,bool,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRASSUNUNGA""","""SP""",True,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Casado""","""Ensino Superior Completo""",2007,"""SAO PAULO""","""SP""",True,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""CATANDUVA""","""SP""",True,False,False,True,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRAJUI""","""SP""",True,False,False,True,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""3ª Série do Ensino Médio""",2007,"""PIRAJUI""","""SP""",True,False,False,True,True


In [23]:
df = df.with_columns(
    pl.col('ESTADO_CIVIL').replace({
        'ViÃºvo': 'Viúvo',
        'Desquitado': 'Divorciado',
        "Separado Judicialmente": 'Divorciado'
    }).cast(pl.Categorical)
)

In [24]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,ESCOLARIDADE,VINCULACAO_ANO,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,nasceu_residencia,mora_zona_urbana,e_homem
i16,cat,cat,cat,str,i16,cat,cat,bool,bool,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRASSUNUNGA""","""SP""",True,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Casado""","""Ensino Superior Completo""",2007,"""SAO PAULO""","""SP""",True,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""CATANDUVA""","""SP""",True,False,False,True,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRAJUI""","""SP""",True,False,False,True,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""3ª Série do Ensino Médio""",2007,"""PIRAJUI""","""SP""",True,False,False,True,True


In [25]:
substituicoes = {
    "Â°": "º",
    'Ã§âo': 'ção',
    'MÃ©dio': 'Médio',
    'Ã§Ã£o': 'ção',
    "PÃ³s": 'Pós',
    "PÃ³s": 'Pós'
}

In [26]:
df = df.with_columns(
    pl.col("ESCOLARIDADE").str.replace_many(
        substituicoes, 
        ascii_case_insensitive=True
    )
)

In [27]:
niveis_educacionais = [
    ['Analfabeto', 'Alfabetizado'],
    [
        '1° Ano - Ensino Fundamental', '1º Ano - Ensino Fundamental', '1ª Série do Ensino Fundamental',
        '2° Ano - Ensino Fundamental', '2º Ano - Ensino Fundamental', '2ª Série do Ensino Fundamental',
        '3° Ano - Ensino Fundamental', '3º Ano - Ensino Fundamental', '3ª Série do Ensino Fundamental',
        '4° Ano - Ensino Fundamental', '4º Ano - Ensino Fundamental', '4ª Série do Ensino Fundamental',
        '5° Ano - Ensino Fundamental', '5º Ano - Ensino Fundamental', '5ª Série do Ensino Fundamental',
        '6° Ano - Ensino Fundamental', '6º Ano - Ensino Fundamental', '6ª Série do Ensino Fundamental',
        '7° Ano - Ensino Fundamental', '7º Ano - Ensino Fundamental', '7ª Série do Ensino Fundamental',
        '8° Ano - Ensino Fundamental', '8º Ano - Ensino Fundamental', '8ª Série do Ensino Fundamental',
        '9° Ano - Ensino Fundamental', '9º Ano - Ensino Fundamental', '9ª Série do Ensino Fundamental',
        'Ensino Fundamental Completo'
    ],
    [
        '1° Ano - Ensino Médio', '1º Ano - Ensino Médio', '1ª Série do Ensino Médio',
        '2° Ano - Ensino Médio', '2º Ano - Ensino Médio', '2ª Série do Ensino Médio',
        '3° Ano - Ensino Médio', '3º Ano - Ensino Médio', '3ª Série do Ensino Médio',
        '4° Ano - Ensino Médio (Profissionalizante)', '4º Ano - Ensino Médio (Profissionalizante)', '4ª Série do Ensino Médio',
        'Ensino Médio Completo'
    ],
    [
        '1° Semestre - Ensino Superior', '1º Semestre - Ensino Superior', '1° Semestre do Ensino Superior',
        '2° Semestre - Ensino Superior', '2º Semestre - Ensino Superior', '2° Semestre do Ensino Superior',
        '3° Semestre - Ensino Superior', '3º Semestre - Ensino Superior', '3° Semestre do Ensino Superior',
        '4° Semestre - Ensino Superior', '4º Semestre - Ensino Superior', '4° Semestre do Ensino Superior',
        '5° Semestre - Ensino Superior', '5º Semestre - Ensino Superior', '5° Semestre do Ensino Superior',
        '6° Semestre - Ensino Superior', '6º Semestre - Ensino Superior', '6° Semestre do Ensino Superior',
        '7° Semestre - Ensino Superior', '7º Semestre - Ensino Superior', '7° Semestre do Ensino Superior',
        '8° Semestre - Ensino Superior', '8º Semestre - Ensino Superior', '8° Semestre do Ensino Superior',
        '9° Semestre - Ensino Superior', '9º Semestre - Ensino Superior', '9° Semestre do Ensino Superior',
        '10° Semestre - Ensino Superior', '10º Semestre - Ensino Superior', '10° Semestre do Ensino Superior',
        'Ensino Superior Completo'
    ],
    [
        'Pós-Graduação', 
        'Mestrado', 
        'Doutorado', 
        'Pós-Doutorado'
    ]
]

In [28]:
categorias_ordenadas = [item for sublista in niveis_educacionais for item in sublista]

In [29]:
df = df.with_columns(
    pl.col('ESCOLARIDADE').cast(pl.Enum(categorias_ordenadas))
)

In [30]:
df.head()

ANO_NASCIMENTO,MUN_NASCIMENTO,UF_NASCIMENTO,ESTADO_CIVIL,ESCOLARIDADE,VINCULACAO_ANO,MUN_RESIDENCIA,UF_RESIDENCIA,foi_convocado,nasceu_no_brasil,nasceu_residencia,mora_zona_urbana,e_homem
i16,cat,cat,cat,enum,i16,cat,cat,bool,bool,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRASSUNUNGA""","""SP""",True,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Casado""","""Ensino Superior Completo""",2007,"""SAO PAULO""","""SP""",True,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""CATANDUVA""","""SP""",True,False,False,True,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRAJUI""","""SP""",True,False,False,True,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""3ª Série do Ensino Médio""",2007,"""PIRAJUI""","""SP""",True,False,False,True,True


In [31]:
cols_originais = df.columns

In [32]:
cols_transformadas = [cols.lower() for cols in df.columns]

In [33]:
cols_renomeadas = dict(zip(cols_originais, cols_transformadas))
cols_renomeadas

{'ANO_NASCIMENTO': 'ano_nascimento',
 'MUN_NASCIMENTO': 'mun_nascimento',
 'UF_NASCIMENTO': 'uf_nascimento',
 'ESTADO_CIVIL': 'estado_civil',
 'ESCOLARIDADE': 'escolaridade',
 'VINCULACAO_ANO': 'vinculacao_ano',
 'MUN_RESIDENCIA': 'mun_residencia',
 'UF_RESIDENCIA': 'uf_residencia',
 'foi_convocado': 'foi_convocado',
 'nasceu_no_brasil': 'nasceu_no_brasil',
 'nasceu_residencia': 'nasceu_residencia',
 'mora_zona_urbana': 'mora_zona_urbana',
 'e_homem': 'e_homem'}

In [34]:
df = df.rename(cols_renomeadas)

In [35]:
df.head()

ano_nascimento,mun_nascimento,uf_nascimento,estado_civil,escolaridade,vinculacao_ano,mun_residencia,uf_residencia,foi_convocado,nasceu_no_brasil,nasceu_residencia,mora_zona_urbana,e_homem
i16,cat,cat,cat,enum,i16,cat,cat,bool,bool,bool,bool,bool
1989,"""DESCALVADO""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRASSUNUNGA""","""SP""",True,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Casado""","""Ensino Superior Completo""",2007,"""SAO PAULO""","""SP""",True,False,False,True,True
1989,"""CATANDUVA""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""CATANDUVA""","""SP""",True,False,False,True,True
1989,"""SANTO ANDRE""","""SP""","""Solteiro""","""Ensino Médio Completo""",2007,"""PIRAJUI""","""SP""",True,False,False,True,True
1989,"""PIRAJUI""","""SP""","""Solteiro""","""3ª Série do Ensino Médio""",2007,"""PIRAJUI""","""SP""",True,False,False,True,True


# EDA