## **Importando dados do drive**

In [8]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## **Instalando e importando a biblioteca Pandas**

In [9]:
pip install pandas



In [10]:
import pandas as pd

## **Extraindo os dados**

In [11]:
caminho_2021 = '/content/drive/MyDrive/dados/MICRODADOS_ENEM_2021_CORTADO.csv'
caminho_2022 = '/content/drive/MyDrive/dados/MICRODADOS_ENEM_2022_CORTADO.csv'
caminho_2023 = '/content/drive/MyDrive/dados/MICRODADOS_ENEM_2023_CORTADO.csv'
arquivos = {
    '2021': caminho_2021,
    '2022': caminho_2022,
    '2023': caminho_2023
}

lista_dataframes = []

for ano, arquivo in arquivos.items():
    try:
        df = pd.read_csv(arquivo, encoding='latin-1', sep=',')
        lista_dataframes.append(df)
    except Exception as e:
        print(f"Erro ao ler os dados do ano {ano}: {e}")

df = pd.concat(lista_dataframes, ignore_index=True)

## **Visualização geral**

In [12]:
display(df.head(5))
display(df.info())

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210053865474,2021,5,F,1,1,1,1,3,1,...,A,A,A,B,A,A,B,A,B,B
1,210052384164,2021,12,M,1,1,1,1,11,1,...,A,A,A,B,A,A,C,A,A,A
2,210052589243,2021,13,F,3,1,1,1,15,1,...,B,A,A,B,A,A,C,B,B,B
3,210052128335,2021,3,M,1,3,1,2,0,2,...,A,A,A,B,A,A,B,A,B,B
4,210051353021,2021,2,F,1,3,1,2,0,2,...,B,A,A,B,A,B,E,A,B,B


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 600000 entries, 0 to 599999
Data columns (total 76 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   NU_INSCRICAO            600000 non-null  int64  
 1   NU_ANO                  600000 non-null  int64  
 2   TP_FAIXA_ETARIA         600000 non-null  int64  
 3   TP_SEXO                 600000 non-null  object 
 4   TP_ESTADO_CIVIL         600000 non-null  int64  
 5   TP_COR_RACA             600000 non-null  int64  
 6   TP_NACIONALIDADE        600000 non-null  int64  
 7   TP_ST_CONCLUSAO         600000 non-null  int64  
 8   TP_ANO_CONCLUIU         600000 non-null  int64  
 9   TP_ESCOLA               600000 non-null  int64  
 10  TP_ENSINO               238926 non-null  float64
 11  IN_TREINEIRO            600000 non-null  int64  
 12  CO_MUNICIPIO_ESC        152097 non-null  float64
 13  NO_MUNICIPIO_ESC        152097 non-null  object 
 14  CO_UF_ESC           

None

## **Verificando valores nulos nas colunas**

In [13]:
print("Valores nulos por coluna:")
nulos = df.isnull().sum()
print(nulos[nulos > 0])

Valores nulos por coluna:
TP_ENSINO                 361074
CO_MUNICIPIO_ESC          447903
NO_MUNICIPIO_ESC          447903
CO_UF_ESC                 447903
SG_UF_ESC                 447903
TP_DEPENDENCIA_ADM_ESC    447903
TP_LOCALIZACAO_ESC        447903
TP_SIT_FUNC_ESC           447903
CO_PROVA_CN               150991
CO_PROVA_CH               130789
CO_PROVA_LC               130789
CO_PROVA_MT               150991
NU_NOTA_CN                150991
NU_NOTA_CH                130789
NU_NOTA_LC                130789
NU_NOTA_MT                150991
TX_RESPOSTAS_CN           150991
TX_RESPOSTAS_CH           130789
TX_RESPOSTAS_LC           130789
TX_RESPOSTAS_MT           150991
TX_GABARITO_CN            150991
TX_GABARITO_CH            130789
TX_GABARITO_LC            130789
TX_GABARITO_MT            150991
TP_STATUS_REDACAO         130789
NU_NOTA_COMP1             130789
NU_NOTA_COMP2             130789
NU_NOTA_COMP3             130789
NU_NOTA_COMP4             130789
NU_NOTA_COMP5    

## **Verificando valores únicos nas colunas**

In [14]:
print("Valores únicos nas colunas:")
df.nunique(dropna=False)

Valores únicos nas colunas:


Unnamed: 0,0
NU_INSCRICAO,600000
NU_ANO,3
TP_FAIXA_ETARIA,20
TP_SEXO,2
TP_ESTADO_CIVIL,5
...,...
Q021,2
Q022,5
Q023,2
Q024,5


## **Transformação da coluna Q005**

In [15]:
print("Valores únicos da coluna 'Q005': \n", df['Q005'].unique())
print("Coluna Q005")
print(df['Q005'].head(5))

Valores únicos da coluna 'Q005': 
 [ 3.  6.  4.  1.  2.  5.  7.  8. 12.  9. 10. 20. 11. 15. 13. 18. 14. 17.
 16. 19.]
Coluna Q005
0    3.0
1    3.0
2    3.0
3    6.0
4    4.0
Name: Q005, dtype: float64


A coluna Q005 refere-se ao número de pessoas na residência. Os valores NaN serão preenchidos com 1 e a coluna convertida para inteiro. O nome será alterado para 'qtde_pessoas_casa'.

In [16]:
df['Q005'] = df['Q005'].fillna(1).astype(int)

print("Coluna Q005")
print(df['Q005'].head(5))
print("Valores únicos da coluna 'Q005': \n", df['Q005'].unique())

Coluna Q005
0    3
1    3
2    3
3    6
4    4
Name: Q005, dtype: int64
Valores únicos da coluna 'Q005': 
 [ 3  6  4  1  2  5  7  8 12  9 10 20 11 15 13 18 14 17 16 19]


In [17]:
df.rename(columns={'Q005': 'qtde_pessoas_casa'}, inplace=True)
print("Coluna qtde_pessoas_casa")
print(df['qtde_pessoas_casa'].head(5))

Coluna qtde_pessoas_casa
0    3
1    3
2    3
3    6
4    4
Name: qtde_pessoas_casa, dtype: int64


## **Transformação da coluna Q011**

In [18]:
print("Valores únicos da coluna 'Q011': \n", df['Q011'].unique())
print("Coluna Q011")
print(df['Q011'].head(5))

Valores únicos da coluna 'Q011': 
 ['A' 'B' 'C' 'D' 'E']
Coluna Q011
0    A
1    A
2    A
3    A
4    A
Name: Q011, dtype: object


A coluna Q011 questiona sobre a posse de motocicleta na residência. Valores NaN serão tratados como 'Não informado'. As respostas (A, B, C, D, E) serão mapeadas para suas descrições completas (Não, Sim uma, Sim duas, etc.), conforme o dicionário do INEP. O nome da coluna será alterado para 'tem_motocicleta'.

In [19]:
dicio_moto = {
    'A': 'Não',
    'B': 'Sim, uma',
    'C': 'Sim, duas',
    'D': 'Sim, três',
    'E': 'Sim, quatro ou mais',
    'Não informado': 'Não informado'
}

df['Q011'] = df['Q011'].fillna('Não informado')
df['Q011'] = df['Q011'].map(dicio_moto)

print("Coluna Q011")
print(df['Q011'].head(5))
print("Valores únicos da coluna 'Q011': \n", df['Q011'].unique())

Coluna Q011
0    Não
1    Não
2    Não
3    Não
4    Não
Name: Q011, dtype: object
Valores únicos da coluna 'Q011': 
 ['Não' 'Sim, uma' 'Sim, duas' 'Sim, três' 'Sim, quatro ou mais']


In [20]:
df.rename(columns={'Q011': 'tem_motocicleta'}, inplace=True)
print("Coluna tem_motocicleta")
print(df['tem_motocicleta'].head(5))

Coluna tem_motocicleta
0    Não
1    Não
2    Não
3    Não
4    Não
Name: tem_motocicleta, dtype: object


## **Transformação da coluna Q025**

In [21]:
print("Valores únicos da coluna 'Q025': \n", df['Q025'].unique())
print("Coluna Q025")
print(df['Q025'].head(5))

Valores únicos da coluna 'Q025': 
 ['B' 'A']
Coluna Q025
0    B
1    A
2    B
3    B
4    B
Name: Q025, dtype: object


A coluna Q025 indica acesso à Internet na residência. Valores NaN serão tratados como 'Não informado'. Mapearemos 'A' para 'Não' e 'B' para 'Sim'. O nome da coluna será alterado para 'tem_internet'.

In [22]:
dicio_internet = {
    'A': 'Não',
    'B': 'Sim',
    'Não informado': 'Não informado'
}

df['Q025'] = df['Q025'].fillna('Não informado')
df['Q025'] = df['Q025'].map(dicio_internet)

print("Coluna Q025")
print(df['Q025'].head(5))
print("Valores únicos da coluna 'Q025': \n", df['Q025'].unique())

Coluna Q025
0    Sim
1    Não
2    Sim
3    Sim
4    Sim
Name: Q025, dtype: object
Valores únicos da coluna 'Q025': 
 ['Sim' 'Não']


In [23]:
df.rename(columns={'Q025': 'tem_internet'}, inplace=True)
print("Coluna tem_internet")
print(df['tem_internet'].head(5))

Coluna tem_internet
0    Sim
1    Não
2    Sim
3    Sim
4    Sim
Name: tem_internet, dtype: object
