# **Instalando e importando a biblioteca Pandas**

In [114]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.3
[notice] To update, run: C:\Users\figue\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [115]:
import pandas as pd

# **Extraindo os dados**

In [116]:
arquivos = {
    '2021': 'dados/MICRODADOS_ENEM_2021_CORTADO.csv',
    '2022': 'dados/MICRODADOS_ENEM_2022_CORTADO.csv',
    '2023': 'dados/MICRODADOS_ENEM_2023_CORTADO.csv'
}

lista_dataframes = []

for ano, arquivo in arquivos.items():
    try:
        df = pd.read_csv(arquivo, encoding='latin-1', sep=',')
        lista_dataframes.append(df)
    except Exception as e:
        print(f"Erro ao ler os dados do ano {ano}: {e}")

df = pd.concat(lista_dataframes, ignore_index=True)

# **Visualização geral**

In [117]:
display(df.head(5))
display(df.info())

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210053865474,2021,5,F,1,1,1,1,3,1,...,A,A,A,B,A,A,B,A,B,B
1,210052384164,2021,12,M,1,1,1,1,11,1,...,A,A,A,B,A,A,C,A,A,A
2,210052589243,2021,13,F,3,1,1,1,15,1,...,B,A,A,B,A,A,C,B,B,B
3,210052128335,2021,3,M,1,3,1,2,0,2,...,A,A,A,B,A,A,B,A,B,B
4,210051353021,2021,2,F,1,3,1,2,0,2,...,B,A,A,B,A,B,E,A,B,B


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 600000 entries, 0 to 599999
Data columns (total 76 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   NU_INSCRICAO            600000 non-null  int64  
 1   NU_ANO                  600000 non-null  int64  
 2   TP_FAIXA_ETARIA         600000 non-null  int64  
 3   TP_SEXO                 600000 non-null  object 
 4   TP_ESTADO_CIVIL         600000 non-null  int64  
 5   TP_COR_RACA             600000 non-null  int64  
 6   TP_NACIONALIDADE        600000 non-null  int64  
 7   TP_ST_CONCLUSAO         600000 non-null  int64  
 8   TP_ANO_CONCLUIU         600000 non-null  int64  
 9   TP_ESCOLA               600000 non-null  int64  
 10  TP_ENSINO               238926 non-null  float64
 11  IN_TREINEIRO            600000 non-null  int64  
 12  CO_MUNICIPIO_ESC        152097 non-null  float64
 13  NO_MUNICIPIO_ESC        152097 non-null  object 
 14  CO_UF_ESC           

None

## **Verificando valores nulos nas colunas**

In [118]:
print("Valores nulos por coluna:")
print(df.isnull().sum())

Valores nulos por coluna:
NU_INSCRICAO       0
NU_ANO             0
TP_FAIXA_ETARIA    0
TP_SEXO            0
TP_ESTADO_CIVIL    0
                  ..
Q021               0
Q022               0
Q023               0
Q024               0
Q025               0
Length: 76, dtype: int64


## **Verificando valores únicos nas colunas**

In [119]:
print("Valores únicos nas colunas:")
df.nunique(dropna=False)

Valores únicos nas colunas:


NU_INSCRICAO       600000
NU_ANO                  3
TP_FAIXA_ETARIA        20
TP_SEXO                 2
TP_ESTADO_CIVIL         5
                    ...  
Q021                    2
Q022                    5
Q023                    2
Q024                    5
Q025                    2
Length: 76, dtype: int64

## **Transformação da coluna TB_ENSINO**

In [120]:
print("Valores únicos da coluna 'Ensino': \n", df['TP_ENSINO'].unique())
print("Coluna TP_ENSINO")
print(df['TP_ENSINO'].head(5))

Valores únicos da coluna 'Ensino': 
 [nan  1.  2.]
Coluna TP_ENSINO
0    NaN
1    NaN
2    NaN
3    1.0
4    1.0
Name: TP_ENSINO, dtype: float64


A coluna TB_ENSINO possui 3 valores, NaN, 1 e 2. Os valores NaN serão alterados para 0, para assim ser possível transformar o tipo para inteiro. Depois disso os valores serão alterados segundo a legenda dos microdados: 1 para Ensino Regular e 2 para Educação Especial - Modalidade Substitutiva, o 0 será tratado como Não informado. O nome da tabela passará a ser ensino.

In [121]:
dicio_ensino = {
    0: 'Não informado',
    1: 'Ensino Regular',
    2: 'Educação Especial - Modalidade Substitutiva'
}

df['TP_ENSINO'] = (df['TP_ENSINO'].fillna(0).astype(int))

df['TP_ENSINO'] = df['TP_ENSINO'].map(dicio_ensino)

print("Coluna TP_ENSINO")
print(df['TP_ENSINO'].head(5))
print("Valores únicos da coluna 'TB_ENSINO': \n", df['TP_ENSINO'].unique())


Coluna TP_ENSINO
0     Não informado
1     Não informado
2     Não informado
3    Ensino Regular
4    Ensino Regular
Name: TP_ENSINO, dtype: object
Valores únicos da coluna 'TB_ENSINO': 
 ['Não informado' 'Ensino Regular'
 'Educação Especial - Modalidade Substitutiva']


In [122]:
df.rename(columns={'TP_ENSINO': 'ensino'}, inplace=True)
print("Coluna ensino")
print(df['ensino'].head(5))

Coluna ensino
0     Não informado
1     Não informado
2     Não informado
3    Ensino Regular
4    Ensino Regular
Name: ensino, dtype: object


## **Transformação da coluna Q006**

In [123]:
print("Valores únicos da coluna 'Q006': \n", df['Q006'].unique())
print('Coluna Q006')
print(df['Q006'].head(5))

Valores únicos da coluna 'Q006': 
 ['D' 'B' 'C' 'G' 'H' 'F' 'E' 'A' 'I' 'L' 'J' 'N' 'O' 'K' 'M' 'Q' 'P']
Coluna Q006
0    D
1    B
2    C
3    B
4    C
Name: Q006, dtype: object


A coluna Q006 possui muitas respostas possíveis, indo do A ao Q, além do NaN. Por isso, agrupamos algumas das respostas possíveis, ficando: 'Nenhuma renda', 'Até R$ 1.320,00', 'De R$ 1.320,01 até R$ 3.400,00', 'De R$ 3.400,01 até R$ 8.100,00', 'De R$ 8.100,01 até R$ 25.200,00', 'Acima de R$ 25.200,01'. As categorias foram alocadas de acordo com o valor mais próximo da resposta original. Além disso, trocamos o nome da coluna para 'renda_mensal'

In [124]:


df.loc[df['Q006'] == 'A', 'Q006'] = 'Nenhuma renda'
df.loc[df['Q006'] == 'B', 'Q006'] = 'Até R$ 1.320,00'
df.loc[df['Q006'].isin(['C', 'D', 'E', 'F']), 'Q006'] = 'De R$ 1.320,01 até R$ 3.400,00'
df.loc[df['Q006'].isin(['G', 'H', 'I', 'J']), 'Q006'] = 'De R$ 3.400,01 até R$ 8.100,00'
df.loc[df['Q006'].isin(['K', 'L', 'M', 'N', 'O', 'P']), 'Q006'] = 'De R$ 8.100,01 até R$ 25.200,00'
df.loc[df['Q006'] == 'Q', 'Q006'] = 'Acima de R$ 25.200,01'


print("Coluna Q006")
print(df['Q006'].head(5))
print("Valores únicos da coluna 'Q006': \n", df['Q006'].unique())

Coluna Q006
0    De R$ 1.320,01 até R$ 3.400,00
1                   Até R$ 1.320,00
2    De R$ 1.320,01 até R$ 3.400,00
3                   Até R$ 1.320,00
4    De R$ 1.320,01 até R$ 3.400,00
Name: Q006, dtype: object
Valores únicos da coluna 'Q006': 
 ['De R$ 1.320,01 até R$ 3.400,00' 'Até R$ 1.320,00'
 'De R$ 3.400,01 até R$ 8.100,00' 'Nenhuma renda'
 'De R$ 8.100,01 até R$ 25.200,00' 'Acima de R$ 25.200,01']


In [125]:
df.rename(columns={'Q006': 'renda_mensal'}, inplace=True)
print("Coluna renda_mensal")
print(df['renda_mensal'].head(5))

Coluna renda_mensal
0    De R$ 1.320,01 até R$ 3.400,00
1                   Até R$ 1.320,00
2    De R$ 1.320,01 até R$ 3.400,00
3                   Até R$ 1.320,00
4    De R$ 1.320,01 até R$ 3.400,00
Name: renda_mensal, dtype: object


## **Transformação da coluna Q007**

In [126]:
print("Coluna Q007")
print(df['Q007'].head(5))
print("Valores únicos da coluna 'Q007': \n", df['Q007'].unique())

Coluna Q007
0    A
1    A
2    A
3    A
4    A
Name: Q007, dtype: object
Valores únicos da coluna 'Q007': 
 ['A' 'D' 'B' 'C']


A coluna Q007 possui 4 valores possíveis: A, B, C, D. Os valores serão substuídos por seus correspondentes no dicionário dos microdados do Enem, A será substituído por 'Não", B será substituído por "Sim, um ou dois dias por semana", C será substituído por "Sim, três ou quatro dias por semana" e D será substituído por "Sim, pelo menos cinco dias por semana". Depois vamos mapear os valores da coluna usando um dicionario que relaciona os valores atuais com os valores desejados.

In [127]:
dicio_q007 = {
    'A' : 'Não',
    'B' : 'Sim, um ou dois dias por semana',
    'C' : 'Sim, três ou quatro dias por semana',
    'D' : 'Sim, pelo menos cinco dias por semana',
}

df['Q007'] = df['Q007'].map(dicio_q007)

print("Q007:")
print(df['Q007'].head(5))

Q007:
0    Não
1    Não
2    Não
3    Não
4    Não
Name: Q007, dtype: object


Para facilitar a compreensão, vamos substituir o nome da coluna de "Q007" para "tem_empregado(a)_domestico(a)"

In [128]:
df.rename(columns = {'Q007' : 'tem_empregado(a)_domestico(a)'}, inplace=True)

print("tem_empregado(a)_domestico(a):")
print(df['tem_empregado(a)_domestico(a)'].head(5))

print("Valores únicos da coluna 'tem_empregado(a)_domestico(a)': \n", df['tem_empregado(a)_domestico(a)'].unique())

tem_empregado(a)_domestico(a):
0    Não
1    Não
2    Não
3    Não
4    Não
Name: tem_empregado(a)_domestico(a), dtype: object
Valores únicos da coluna 'tem_empregado(a)_domestico(a)': 
 ['Não' 'Sim, pelo menos cinco dias por semana'
 'Sim, um ou dois dias por semana' 'Sim, três ou quatro dias por semana']


## **Transformação da coluna Q022**

In [129]:
print("Valores únicos da coluna 'Q022': \n", df['Q022'].unique())
print("Coluna Q022")
print(df['Q022'].head(5))

Valores únicos da coluna 'Q022': 
 ['B' 'C' 'E' 'D' 'A']
Coluna Q022
0    B
1    C
2    C
3    B
4    E
Name: Q022, dtype: object


A coluna 'Q022' tem 5 valores possíveis: A, B, C, D, E. Os valores serão substituídos por suas legendas correspondentes no dicionário dos microdados do Enem, A será substituído por "Não", B por "Sim, um", C por "Sim, dois", D por "Sim, três" e E por "Sim, quatro ou mais" e depois vamos mapear os valores da coluna usando um dicionário que criamos (dicio_q022) que relaciona os valores antigos com os valores novos que queremos

In [130]:
dicio_q022 = {
    'A' : 'Não',
    'B' : 'Sim, um',
    'C' : 'Sim, dois',
    'D' : 'Sim, três',
    'E' : 'Sim, quatro ou mais',
}

df['Q022'] = df['Q022'].map(dicio_q022)

print("Q022:")
print(df['Q022'].head(5))

Q022:
0                Sim, um
1              Sim, dois
2              Sim, dois
3                Sim, um
4    Sim, quatro ou mais
Name: Q022, dtype: object


Também alteramos o nome da coluna de "Q022" para "tem_celular", para tornar mais explícito ao que a coluna se refere.

In [131]:
df.rename(columns = {'Q022' : 'tem_celular'}, inplace=True)

print("tem_celular: \n")
print(df['tem_celular'].head(5))

print("Valores únicos da coluna 'tem_celular': \n", df['tem_celular'].unique())

tem_celular: 

0                Sim, um
1              Sim, dois
2              Sim, dois
3                Sim, um
4    Sim, quatro ou mais
Name: tem_celular, dtype: object
Valores únicos da coluna 'tem_celular': 
 ['Sim, um' 'Sim, dois' 'Sim, quatro ou mais' 'Sim, três' 'Não']


## **Transformação da coluna Q024**

In [132]:
print("Valores únicos da coluna 'Q024': \n", df['Q024'].unique())
print('Coluna Q024')
print(df['Q024'].head(5))

Valores únicos da coluna 'Q024': 
 ['B' 'A' 'C' 'D' 'E']
Coluna Q024
0    B
1    A
2    B
3    B
4    B
Name: Q024, dtype: object


A coluna Q024 possui 5 valores possíveis e cada uma das outras respostas foram trocadas pelas informações correspondes no dicionário de microdados, sendo elas: 'A' igual a 'Não.', 'B' igual a 'Sim, um.', 'C' igual a 'Sim, dois.', 'D' igual a 'Sim, três.', 'E' igual a 'Sim, quatro ou mais.'. O nome da coluna foi trocado para qtd_computador.

In [133]:
dicio_computador = {
    'A': 'Não.',
    'B': 'Sim, um.',
    'C': 'Sim, dois.',
    'D': 'Sim, três.',
    'E': 'Sim, quatro ou mais.',
}

df['Q024'] = df['Q024'].map(dicio_computador)

print("Coluna Q024")
print(df['Q024'].head(5))
print("Valores únicos da coluna 'Q024': \n", df['Q024'].unique())


Coluna Q024
0    Sim, um.
1        Não.
2    Sim, um.
3    Sim, um.
4    Sim, um.
Name: Q024, dtype: object
Valores únicos da coluna 'Q024': 
 ['Sim, um.' 'Não.' 'Sim, dois.' 'Sim, três.' 'Sim, quatro ou mais.']


In [134]:
df.rename(columns={'Q024': 'qtd_computador'}, inplace=True)
print("Coluna qtd_computador")
print(df['qtd_computador'].head(5))

Coluna qtd_computador
0    Sim, um.
1        Não.
2    Sim, um.
3    Sim, um.
4    Sim, um.
Name: qtd_computador, dtype: object


## **Transformação da coluna IN_TREINEIRO**

In [135]:
print("Valores únicos da coluna 'IN_TREINEIRO': \n", df['IN_TREINEIRO'].unique())
print('Coluna IN_TREINEIRO')
print(df['IN_TREINEIRO'].head(5))

Valores únicos da coluna 'IN_TREINEIRO': 
 [0 1]
Coluna IN_TREINEIRO
0    0
1    0
2    0
3    0
4    0
Name: IN_TREINEIRO, dtype: int64


A coluna IN_TREINEIRO possui dois valores possíveis, [0, 1]. Para uma melhor visualização, os valores serão trocados para 'Sim' e 'Não'. O nome da coluna passará a ser eh_treineiro.

In [136]:
df['IN_TREINEIRO'] = df['IN_TREINEIRO'].replace({1: 'Sim', 0: 'Não'})

print('Coluna IN_TREINEIRO')
print(df['IN_TREINEIRO'].head(5))
print("Valores únicos da coluna 'IN_TREINEIRO': \n", df['IN_TREINEIRO'].unique())

Coluna IN_TREINEIRO
0    Não
1    Não
2    Não
3    Não
4    Não
Name: IN_TREINEIRO, dtype: object
Valores únicos da coluna 'IN_TREINEIRO': 
 ['Não' 'Sim']


In [137]:
df.rename(columns={'IN_TREINEIRO': 'eh_treineiro'}, inplace=True)
print("Coluna eh_treineiro")
print(df['eh_treineiro'].head(5))

Coluna eh_treineiro
0    Não
1    Não
2    Não
3    Não
4    Não
Name: eh_treineiro, dtype: object


## **Transformação da coluna Q010**

In [138]:
print("Valores únicos da coluna 'Q010': \n", df['Q010'].unique())
print('Coluna Q010')
print(df['Q010'].head(5))

Valores únicos da coluna 'Q010': 
 ['B' 'A' 'D' 'C' 'E']
Coluna Q010
0    B
1    A
2    A
3    A
4    A
Name: Q010, dtype: object


A coluna Q010 possui 5 valores possíveis, cada uma das respostas foram trocadas pelas informações correspondes no dicionário de microdados, sendo elas: 'A' igual a 'Não.', 'B' igual a 'Sim, um.', 'C' igual a 'Sim, dois.', 'D' igual a 'Sim, três.', 'E' igual a 'Sim, quatro ou mais.'. O nome da coluna foi trocado para qtd_carro.


In [139]:
dicio_carro = {
    'A': 'Não.',
    'B': 'Sim, um.',
    'C': 'Sim, dois.',
    'D': 'Sim, três.',
    'E': 'Sim, quatro ou mais.'
}

df['Q010'] = df['Q010'].map(dicio_carro)

print("Coluna Q010")
print(df['Q010'].head(5))
print("Valores únicos da coluna 'Q010': \n", df['Q010'].unique())


Coluna Q010
0    Sim, um.
1        Não.
2        Não.
3        Não.
4        Não.
Name: Q010, dtype: object
Valores únicos da coluna 'Q010': 
 ['Sim, um.' 'Não.' 'Sim, três.' 'Sim, dois.' 'Sim, quatro ou mais.']


In [140]:
df.rename(columns={'Q010': 'qtd_carro'}, inplace=True)
print("Coluna qtd_carro")
print(df['qtd_carro'].head(5))

Coluna qtd_carro
0    Sim, um.
1        Não.
2        Não.
3        Não.
4        Não.
Name: qtd_carro, dtype: object


## **Transformação da coluna Q005**

In [141]:
print("Valores únicos da coluna 'Q005': \n", df['Q005'].unique())
print("Coluna Q005")
print(df['Q005'].head(5))

Valores únicos da coluna 'Q005': 
 [ 3.  6.  4.  1.  2.  5.  7.  8. 12.  9. 10. 20. 11. 15. 13. 18. 14. 17.
 16. 19.]
Coluna Q005
0    3.0
1    3.0
2    3.0
3    6.0
4    4.0
Name: Q005, dtype: float64


A coluna Q005 refere-se ao número de pessoas na residência. A coluna convertida para inteiro. O nome será alterado para 'qtde_pessoas_casa'.

In [142]:
df['Q005'] = df['Q005'].astype(int)

print("Coluna Q005")
print(df['Q005'].head(5))
print("Valores únicos da coluna 'Q005': \n", df['Q005'].unique())

Coluna Q005
0    3
1    3
2    3
3    6
4    4
Name: Q005, dtype: int64
Valores únicos da coluna 'Q005': 
 [ 3  6  4  1  2  5  7  8 12  9 10 20 11 15 13 18 14 17 16 19]


In [143]:
df.rename(columns={'Q005': 'qtde_pessoas_casa'}, inplace=True)
print("Coluna qtde_pessoas_casa")
print(df['qtde_pessoas_casa'].head(5))

Coluna qtde_pessoas_casa
0    3
1    3
2    3
3    6
4    4
Name: qtde_pessoas_casa, dtype: int64


## **Transformação da coluna Q011**

In [144]:
print("Valores únicos da coluna 'Q011': \n", df['Q011'].unique())
print("Coluna Q011")
print(df['Q011'].head(5))

Valores únicos da coluna 'Q011': 
 ['A' 'B' 'C' 'D' 'E']
Coluna Q011
0    A
1    A
2    A
3    A
4    A
Name: Q011, dtype: object


A coluna Q011 questiona sobre a posse de motocicleta na residência. As respostas (A, B, C, D, E) serão mapeadas para suas descrições completas (Não, Sim uma, Sim duas, etc.), conforme o dicionário do INEP. O nome da coluna será alterado para 'tem_motocicleta'.

In [145]:
dicio_moto = {
    'A': 'Não',
    'B': 'Sim, uma',
    'C': 'Sim, duas',
    'D': 'Sim, três',
    'E': 'Sim, quatro ou mais',
}

df['Q011'] = df['Q011'].map(dicio_moto)

print("Coluna Q011")
print(df['Q011'].head(5))
print("Valores únicos da coluna 'Q011': \n", df['Q011'].unique())

Coluna Q011
0    Não
1    Não
2    Não
3    Não
4    Não
Name: Q011, dtype: object
Valores únicos da coluna 'Q011': 
 ['Não' 'Sim, uma' 'Sim, duas' 'Sim, três' 'Sim, quatro ou mais']


In [146]:
df.rename(columns={'Q011': 'tem_motocicleta'}, inplace=True)
print("Coluna tem_motocicleta")
print(df['tem_motocicleta'].head(5))

Coluna tem_motocicleta
0    Não
1    Não
2    Não
3    Não
4    Não
Name: tem_motocicleta, dtype: object


## **Transformação da coluna Q025**

In [147]:
print("Valores únicos da coluna 'Q025': \n", df['Q025'].unique())
print("Coluna Q025")
print(df['Q025'].head(5))

Valores únicos da coluna 'Q025': 
 ['B' 'A']
Coluna Q025
0    B
1    A
2    B
3    B
4    B
Name: Q025, dtype: object


A coluna Q025 indica acesso à Internet na residência. Mapearemos 'A' para 'Não' e 'B' para 'Sim'. O nome da coluna será alterado para 'tem_internet'.

In [148]:
dicio_internet = {
    'A': 'Não',
    'B': 'Sim',
}

df['Q025'] = df['Q025'].map(dicio_internet)

print("Coluna Q025")
print(df['Q025'].head(5))
print("Valores únicos da coluna 'Q025': \n", df['Q025'].unique())

Coluna Q025
0    Sim
1    Não
2    Sim
3    Sim
4    Sim
Name: Q025, dtype: object
Valores únicos da coluna 'Q025': 
 ['Sim' 'Não']


In [149]:
df.rename(columns={'Q025': 'tem_internet'}, inplace=True)
print("Coluna tem_internet")
print(df['tem_internet'].head(5))

Coluna tem_internet
0    Sim
1    Não
2    Sim
3    Sim
4    Sim
Name: tem_internet, dtype: object


## **Transformação da coluna NU_NOTA_CN** 

In [150]:
print("Valores únicos da coluna 'NU_NOTA_CN': \n", df['NU_NOTA_CN'].unique())
print('Coluna NU_NOTA_CN')
print(df['NU_NOTA_CN'].head(5))

Valores únicos da coluna 'NU_NOTA_CN': 
 [  nan 505.9 580.7 ... 806.5 797.2 758.3]
Coluna NU_NOTA_CN
0      NaN
1    505.9
2      NaN
3    580.7
4    497.7
Name: NU_NOTA_CN, dtype: float64


A coluna NU_NOTA_CN possui diversos valores pois está relacionada a notas dos alunos na área de Ciências da Natureza, esses valores permanecerão dessa forma. O tratamento será direcionado aos valores nulos. Além disso, a coluna será renomeada para nota_cn

In [151]:
df['NU_NOTA_CN'] = (df['NU_NOTA_CN'].fillna(0))

print("Coluna NU_NOTA_CN")
print(df['NU_NOTA_CN'].head(5))
print("Valores únicos da coluna 'NU_NOTA_CN': \n", df['NU_NOTA_CN'].unique())

Coluna NU_NOTA_CN
0      0.0
1    505.9
2      0.0
3    580.7
4    497.7
Name: NU_NOTA_CN, dtype: float64
Valores únicos da coluna 'NU_NOTA_CN': 
 [  0.  505.9 580.7 ... 806.5 797.2 758.3]


In [152]:
df.rename(columns={'NU_NOTA_CN': 'nota_cn'}, inplace=True)
print("Coluna nota_cn")
print(df['nota_cn'].head(5))

Coluna nota_cn
0      0.0
1    505.9
2      0.0
3    580.7
4    497.7
Name: nota_cn, dtype: float64


## **Transformação da coluna NU_NOTA_CH** 

In [153]:
print("Valores únicos da coluna 'NU_NOTA_CH': \n", df['NU_NOTA_CH'].unique())
print('Coluna NU_NOTA_CH')
print(df['NU_NOTA_CH'].head(5))

Valores únicos da coluna 'NU_NOTA_CH': 
 [574.6 551.8   nan ... 298.2 783.6 297.4]
Coluna NU_NOTA_CH
0    574.6
1    551.8
2      NaN
3    678.9
4    532.4
Name: NU_NOTA_CH, dtype: float64


A coluna NU_NOTA_CH possui diversos valores pois está relacionada a notas dos alunos na área de Ciências Humanas, esses valores permanecerão dessa forma. O tratamento será direcionado aos valores nulos. Além disso, a coluna será renomeada para nota_ch

In [154]:
df['NU_NOTA_CH'] = (df['NU_NOTA_CH'].fillna(0))

print("Coluna NU_NOTA_CH")
print(df['NU_NOTA_CH'].head(5))
print("Valores únicos da coluna 'NU_NOTA_CH': \n", df['NU_NOTA_CH'].unique())

Coluna NU_NOTA_CH


0    574.6
1    551.8
2      0.0
3    678.9
4    532.4
Name: NU_NOTA_CH, dtype: float64
Valores únicos da coluna 'NU_NOTA_CH': 
 [574.6 551.8   0.  ... 298.2 783.6 297.4]


In [155]:
df.rename(columns={'NU_NOTA_CH': 'nota_ch'}, inplace=True)
print("Coluna nota_ch")
print(df['nota_ch'].head(5))

Coluna nota_ch
0    574.6
1    551.8
2      0.0
3    678.9
4    532.4
Name: nota_ch, dtype: float64


## **Transformação da coluna NU_NOTA_LC** 

In [156]:
print("Valores únicos da coluna 'NU_NOTA_LC': \n", df['NU_NOTA_LC'].unique())
print('Coluna NU_NOTA_LC')
print(df['NU_NOTA_LC'].head(5))

Valores únicos da coluna 'NU_NOTA_LC': 
 [472.6 498.3   nan ... 727.3 289.2 733.5]
Coluna NU_NOTA_LC
0    472.6
1    498.3
2      NaN
3    638.9
4    457.6
Name: NU_NOTA_LC, dtype: float64


A coluna NU_NOTA_LC possui diversos valores pois está relacionada a notas dos alunos na área de Linguagens, esses valores permanecerão dessa forma. O tratamento será direcionado aos valores nulos. Além disso, a coluna será renomeada para nota_lc

In [157]:
df['NU_NOTA_LC'] = (df['NU_NOTA_LC'].fillna(0))

print("Coluna NU_NOTA_LC")
print(df['NU_NOTA_LC'].head(5))
print("Valores únicos da coluna 'NU_NOTA_LC': \n", df['NU_NOTA_LC'].unique())

Coluna NU_NOTA_LC
0    472.6
1    498.3
2      0.0
3    638.9
4    457.6
Name: NU_NOTA_LC, dtype: float64
Valores únicos da coluna 'NU_NOTA_LC': 
 [472.6 498.3   0.  ... 727.3 289.2 733.5]


In [158]:
df.rename(columns={'NU_NOTA_LC': 'nota_lc'}, inplace=True)
print("Coluna nota_lc")
print(df['nota_lc'].head(5))

Coluna nota_lc
0    472.6
1    498.3
2      0.0
3    638.9
4    457.6
Name: nota_lc, dtype: float64


## **Transformação da coluna NU_NOTA_MT** 

In [159]:
print("Valores únicos da coluna 'NU_NOTA_MT': \n", df['NU_NOTA_MT'].unique())
print('Coluna NU_NOTA_MT')
print(df['NU_NOTA_MT'].head(5))

Valores únicos da coluna 'NU_NOTA_MT': 
 [  nan 461.5 659.5 ... 902.5 924.4 878.8]
Coluna NU_NOTA_MT
0      NaN
1    461.5
2      NaN
3    659.5
4    582.6
Name: NU_NOTA_MT, dtype: float64


A coluna NU_NOTA_MT possui diversos valores pois está relacionada a notas dos alunos na área de Matemática, esses valores permanecerão dessa forma. O tratamento será direcionado aos valores nulos. Além disso, a coluna será renomeada para nota_mt

In [160]:
df['NU_NOTA_MT'] = (df['NU_NOTA_MT'].fillna(0))

print("Coluna NU_NOTA_MT")
print(df['NU_NOTA_MT'].head(5))
print("Valores únicos da coluna 'NU_NOTA_MT': \n", df['NU_NOTA_MT'].unique())

Coluna NU_NOTA_MT
0      0.0
1    461.5
2      0.0
3    659.5
4    582.6
Name: NU_NOTA_MT, dtype: float64
Valores únicos da coluna 'NU_NOTA_MT': 
 [  0.  461.5 659.5 ... 902.5 924.4 878.8]


In [161]:
df.rename(columns={'NU_NOTA_MT': 'nota_mt'}, inplace=True)
print("Coluna nota_mt")
print(df['nota_mt'].head(5))

Coluna nota_mt
0      0.0
1    461.5
2      0.0
3    659.5
4    582.6
Name: nota_mt, dtype: float64


## **Transformação da coluna NU_NOTA_REDACAO** 

In [162]:
print("Valores únicos da coluna 'NU_NOTA_REDACAO': \n", df['NU_NOTA_REDACAO'].unique())
print('Coluna NU_NOTA_REDACAO')
print(df['NU_NOTA_REDACAO'].head(5))

Valores únicos da coluna 'NU_NOTA_REDACAO': 
 [ 760.  560.   nan  780.  480.  520.  380.  980.  680.  540.  720.  880.
  860.  840.  460.  820.  440.  580.  600.  360.  700.  500.  940.  400.
  900.  640.  960.  660.    0.  920.  740.  620.  800.  420.  340.  300.
  260.  280.  120.  320.  220.  180.  240.  200. 1000.  100.  160.   80.
  140.   40.   60.]
Coluna NU_NOTA_REDACAO
0    760.0
1    560.0
2      NaN
3    780.0
4    780.0
Name: NU_NOTA_REDACAO, dtype: float64


A coluna NU_NOTA_REDACAO possui diversos valores pois está relacionada a notas dos alunos na redação, esses valores permanecerão dessa forma. O tratamento será direcionado aos valores nulos. Além disso, a coluna será renomeada para nota_redacao. Os valores também serão passados para inteiros.

In [164]:
df['NU_NOTA_REDACAO'] = (df['NU_NOTA_REDACAO'].fillna(0))
df['NU_NOTA_REDACAO'] = df['NU_NOTA_REDACAO'].astype(int)

print("Coluna NU_NOTA_REDACAO")
print(df['NU_NOTA_REDACAO'].head(5))
print("Valores únicos da coluna 'NU_NOTA_REDACAO': \n", df['NU_NOTA_REDACAO'].unique())

Coluna NU_NOTA_REDACAO
0    760
1    560
2      0
3    780
4    780
Name: NU_NOTA_REDACAO, dtype: int64
Valores únicos da coluna 'NU_NOTA_REDACAO': 
 [ 760  560    0  780  480  520  380  980  680  540  720  880  860  840
  460  820  440  580  600  360  700  500  940  400  900  640  960  660
  920  740  620  800  420  340  300  260  280  120  320  220  180  240
  200 1000  100  160   80  140   40   60]
