## Trabalho Final de Disciplica - Introdução a Processamento de Dados

#### Turma: Engenharia de Dados - Turma 02
#### Nome Completo: Rafael Lima Tavares
#### Matrícula: 2517595


#### ---------------------------------------------------------------------------------------------------------------------------------------------

### Instruções:
##### O objetivo deste trabalho é processar os dados do Enem 2023, salvar os resultados em um banco de dados PostgreSQL, consultar esses dados utilizando Pandas (Python) e responder a um conjunto de perguntas analíticas.
#### Passos para Execução

1. Download dos Dados
Baixe o arquivo de microdados do Enem 2023 no link abaixo:

[Microdados Enem 2023 - INEP](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem)

Utilize o dicionário de dados disponível no site para entender o significado de cada coluna.

2. Processamento dos Dados
Realize o tratamento necessário nos dados, como:

Limpeza (remoção de valores ausentes ou inconsistentes)

Seleção de colunas relevantes

Conversão de tipos de dados, se necessário

Descreva brevemente os principais tratamentos realizados.

3. Armazenamento no Banco de Dados
Salve os dados tratados em um banco de dados PostgreSQL.

Documente:

O nome do banco de dados e das tabelas utilizadas

O método/ferramenta utilizada para realizar a carga (por exemplo: script Python, Pandas, PgAdmin, etc.)

4. Consulta e Análise com Pandas
Utilize a biblioteca Pandas (Python) para consultar os dados diretamente do banco de dados.

Responda às perguntas analíticas fornecidas utilizando funções do Pandas.

Apresente as respostas juntamente com o código utilizado para obtê-las.



## =====================================================

#### Import csv

In [24]:
import pandas as pd

df_enem = pd.read_csv('MICRODADOS_ENEM_2023.csv', encoding='latin1', sep=';', low_memory=False)
df_enem

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,TP_ENSINO,IN_TREINEIRO,...,Q014,Q015,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210059085136,2023,14,M,2,1,1,1,17,1,,0,...,B,D,C,C,B,B,A,B,B,A,A,B
1,210059527735,2023,12,M,2,1,0,1,16,1,,0,...,B,A,B,A,B,B,A,A,C,A,D,B
2,210061103945,2023,6,F,1,1,1,1,0,1,,0,...,B,A,B,A,A,B,A,A,A,A,A,B
3,210060214087,2023,2,F,1,3,1,2,0,2,1.0,0,...,A,A,A,A,A,B,A,A,D,A,A,B
4,210059980948,2023,3,F,1,3,1,2,0,2,1.0,0,...,A,A,A,A,A,B,A,A,B,A,A,A
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3933950,210061959676,2023,12,M,1,1,1,1,6,1,,0,...,B,B,B,A,A,C,A,B,E,A,A,B
3933951,210061950911,2023,1,F,1,1,2,3,0,1,,1,...,B,A,B,A,B,C,B,B,B,B,C,B
3933952,210061965966,2023,3,F,1,3,1,2,0,2,1.0,0,...,A,A,A,A,A,B,A,A,B,A,A,B
3933953,210061932304,2023,2,M,1,1,1,2,0,3,1.0,0,...,B,A,B,B,B,C,A,A,D,A,C,B


In [3]:
df_enem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 76 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   NU_INSCRICAO            int64  
 1   NU_ANO                  int64  
 2   TP_FAIXA_ETARIA         int64  
 3   TP_SEXO                 object 
 4   TP_ESTADO_CIVIL         int64  
 5   TP_COR_RACA             int64  
 6   TP_NACIONALIDADE        int64  
 7   TP_ST_CONCLUSAO         int64  
 8   TP_ANO_CONCLUIU         int64  
 9   TP_ESCOLA               int64  
 10  TP_ENSINO               float64
 11  IN_TREINEIRO            int64  
 12  CO_MUNICIPIO_ESC        float64
 13  NO_MUNICIPIO_ESC        object 
 14  CO_UF_ESC               float64
 15  SG_UF_ESC               object 
 16  TP_DEPENDENCIA_ADM_ESC  float64
 17  TP_LOCALIZACAO_ESC      float64
 18  TP_SIT_FUNC_ESC         float64
 19  CO_MUNICIPIO_PROVA      int64  
 20  NO_MUNICIPIO_PROVA      object 
 21  CO_UF_PROVA             int64  

### Tratamento dos dados

In [33]:
colunas_relevantes = [
    'NU_INSCRICAO',
    'TP_SEXO',
    'TP_FAIXA_ETARIA',
    'TP_ESCOLA',
    'TP_DEPENDENCIA_ADM_ESC',
    'SG_UF_PROVA',
    'TP_PRESENCA_MT',
    'TP_PRESENCA_LC',
    'NU_NOTA_MT',
    'NU_NOTA_REDACAO',
    'Q001',
    'Q002',
    'Q006',
]

df_reduzido = df_enem[colunas_relevantes].copy()


In [34]:
map_q001_002 = {
    'A': 'Nunca estudou',
    'B': 'Não completou a 4ª série/5º ano do Ensino Fundamental',
    'C': 'Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental',
    'D': 'Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio',
    'E': 'Completou o Ensino Médio, mas não completou a Faculdade',
    'F': 'Completou a Faculdade, mas não completou a Pós-graduação',
    'G': 'Completou a Pós-graduação',
    'H': 'Não sei'
}

map_q006 = {
    'A': 'Nenhuma Renda',
    'B': 'Até R$ 1.320,00',
    'C': 'De R$ 1.320,01 até R$ 1.980,00',
    'D': 'De R$ 1.980,01 até R$ 2.640,00',
    'E': 'De R$ 2.640,01 até R$ 3.300,00',
    'F': 'De R$ 3.300,01 até R$ 3.960,00',
    'G': 'De R$ 3.960,01 até R$ 5.280,00',
    'H': 'De R$ 5.280,01 até R$ 6.600,00',
    'I': 'De R$ 6.600,01 até R$ 7.920,00',
    'J': 'De R$ 7.920,01 até R$ 9.240,00',
    'K': 'De R$ 9.240,01 até R$ 10.560,00',
    'L': 'De R$ 10.560,01 até R$ 11.880,00',
    'M': 'De R$ 11.880,01 até R$ 13.200,00',
    'N': 'De R$ 13.200,01 até R$ 15.840,00',
    'O': 'De R$ 15.840,01 até R$ 19.800,00',
    'P': 'De R$ 19.800,01 até R$ 26.400,00',
    'Q': 'Acima de R$ 26.400,00'
}

map_sexo = {'M': 'Masculino', 'F': 'Feminino'}

map_faixa_etaria = {
    1: 'Menor de 17 anos', 2: '17 anos', 3: '18 anos', 4: '19 anos', 5: '20 anos',
    6: '21 anos', 7: '22 anos', 8: '23 anos', 9: '24 anos', 10: '25 anos',
    11: '26 a 30 anos', 12: '31 a 35 anos', 13: '36 a 40 anos', 14: '41 a 45 anos',
    15: '46 a 50 anos', 16: '51 a 55 anos', 17: '56 a 60 anos', 18: '61 a 65 anos',
    19: '66 a 70 anos', 20: 'Maior de 70 anos'
}
map_tp_escola = {1: 'Não Respondeu', 2: 'Pública', 3: 'Privada'}

map_dependencia = {1.0: 'Federal', 2.0: 'Estadual', 3.0: 'Municipal', 4.0: 'Privada'}

map_presenca = {0: 'Faltou', 1: 'Presente', 2: 'Eliminado'}


In [37]:
df_tratado = df_reduzido.copy()

df_tratado['Q001'] = df_tratado['Q001'].fillna('Não informado').map(map_q001_002)
df_tratado['Q002'] = df_tratado['Q002'].fillna('Não informado').map(map_q001_002)
df_tratado['Q006'] = df_tratado['Q006'].fillna('Não informado').map(map_q006)

df_tratado['TP_SEXO'] = df_tratado['TP_SEXO'].fillna('Não informado').map(map_sexo)
df_tratado['TP_FAIXA_ETARIA'] = df_tratado['TP_FAIXA_ETARIA'].fillna('Não informado').map(map_faixa_etaria)
df_tratado['TP_ESCOLA'] = df_tratado['TP_ESCOLA'].fillna('Não informado').map(map_tp_escola)
df_tratado['TP_DEPENDENCIA_ADM_ESC'] = df_tratado['TP_DEPENDENCIA_ADM_ESC'].fillna('Não informado').map(map_dependencia)
df_tratado['TP_PRESENCA_MT'] = df_tratado['TP_PRESENCA_MT'].fillna('Não informado').map(map_presenca)
df_tratado['TP_PRESENCA_LC'] = df_tratado['TP_PRESENCA_LC'].fillna('Não informado').map(map_presenca)
df_tratado['SG_UF_PROVA'] = df_tratado['SG_UF_PROVA'].fillna('Não informado')

df_tratado['NU_NOTA_MT'] = df_tratado['NU_NOTA_MT'].fillna(-1)
df_tratado['NU_NOTA_REDACAO'] = df_tratado['NU_NOTA_REDACAO'].fillna(-1)


In [40]:
df_tratado

Unnamed: 0,NU_INSCRICAO,TP_SEXO,TP_FAIXA_ETARIA,TP_ESCOLA,TP_DEPENDENCIA_ADM_ESC,SG_UF_PROVA,TP_PRESENCA_MT,TP_PRESENCA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002,Q006
0,210059085136,Masculino,41 a 45 anos,Não Respondeu,,DF,Faltou,Faltou,-1.0,-1.0,Nunca estudou,"Completou a Faculdade, mas não completou a Pós...","De R$ 3.300,01 até R$ 3.960,00"
1,210059527735,Masculino,31 a 35 anos,Não Respondeu,,DF,Faltou,Faltou,-1.0,-1.0,"Completou a Faculdade, mas não completou a Pós...","Completou o Ensino Médio, mas não completou a ...","De R$ 5.280,01 até R$ 6.600,00"
2,210061103945,Feminino,21 anos,Não Respondeu,,RS,Presente,Presente,363.2,700.0,Não sei,"Completou o Ensino Médio, mas não completou a ...","De R$ 1.320,01 até R$ 1.980,00"
3,210060214087,Feminino,17 anos,Pública,Estadual,CE,Presente,Presente,466.7,880.0,Completou a 8ª série/9º ano do Ensino Fundamen...,Completou a 8ª série/9º ano do Ensino Fundamen...,"De R$ 1.320,01 até R$ 1.980,00"
4,210059980948,Feminino,18 anos,Pública,Estadual,CE,Presente,Presente,338.3,560.0,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...,"Até R$ 1.320,00"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3933950,210061959676,Masculino,31 a 35 anos,Não Respondeu,,RS,Presente,Presente,547.3,540.0,"Completou a 4ª série/5º ano, mas não completou...","Completou o Ensino Médio, mas não completou a ...","De R$ 3.300,01 até R$ 3.960,00"
3933951,210061950911,Feminino,Menor de 17 anos,Não Respondeu,,SP,Presente,Presente,644.4,640.0,"Completou a Faculdade, mas não completou a Pós...","Completou a Faculdade, mas não completou a Pós...","De R$ 3.300,01 até R$ 3.960,00"
3933952,210061965966,Feminino,18 anos,Pública,,SC,Faltou,Faltou,-1.0,-1.0,"Completou o Ensino Médio, mas não completou a ...","Completou a 4ª série/5º ano, mas não completou...","Até R$ 1.320,00"
3933953,210061932304,Masculino,17 anos,Privada,,SP,Presente,Presente,569.0,600.0,Completou a Pós-graduação,Completou a Pós-graduação,"De R$ 13.200,01 até R$ 15.840,00"


### Insert no Banco de Dados

In [44]:
from sqlalchemy import create_engine

usuario = 'postgres'
senha = '123'
host = 'localhost'
porta = '5432'
banco = 'enem_2023'

engine = create_engine(f'postgresql+psycopg2://{usuario}:{senha}@{host}:{porta}/{banco}')

df_tratado.to_csv('MICRODADOS_ENEM_2023_TRATADO.csv', index=False, encoding='utf-8')
df_tratado.to_sql('estudantes', engine, if_exists='replace', index=False)


955

### Recuperação dos dados usando Pandas

In [46]:
df_postgres = pd.read_sql('estudantes', engine)
df_postgres


Unnamed: 0,NU_INSCRICAO,TP_SEXO,TP_FAIXA_ETARIA,TP_ESCOLA,TP_DEPENDENCIA_ADM_ESC,SG_UF_PROVA,TP_PRESENCA_MT,TP_PRESENCA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002,Q006
0,210059085136,Masculino,41 a 45 anos,Não Respondeu,,DF,Faltou,Faltou,-1.0,-1.0,Nunca estudou,"Completou a Faculdade, mas não completou a Pós...","De R$ 3.300,01 até R$ 3.960,00"
1,210059527735,Masculino,31 a 35 anos,Não Respondeu,,DF,Faltou,Faltou,-1.0,-1.0,"Completou a Faculdade, mas não completou a Pós...","Completou o Ensino Médio, mas não completou a ...","De R$ 5.280,01 até R$ 6.600,00"
2,210061103945,Feminino,21 anos,Não Respondeu,,RS,Presente,Presente,363.2,700.0,Não sei,"Completou o Ensino Médio, mas não completou a ...","De R$ 1.320,01 até R$ 1.980,00"
3,210060214087,Feminino,17 anos,Pública,Estadual,CE,Presente,Presente,466.7,880.0,Completou a 8ª série/9º ano do Ensino Fundamen...,Completou a 8ª série/9º ano do Ensino Fundamen...,"De R$ 1.320,01 até R$ 1.980,00"
4,210059980948,Feminino,18 anos,Pública,Estadual,CE,Presente,Presente,338.3,560.0,Não completou a 4ª série/5º ano do Ensino Fund...,Não completou a 4ª série/5º ano do Ensino Fund...,"Até R$ 1.320,00"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3933950,210061959676,Masculino,31 a 35 anos,Não Respondeu,,RS,Presente,Presente,547.3,540.0,"Completou a 4ª série/5º ano, mas não completou...","Completou o Ensino Médio, mas não completou a ...","De R$ 3.300,01 até R$ 3.960,00"
3933951,210061950911,Feminino,Menor de 17 anos,Não Respondeu,,SP,Presente,Presente,644.4,640.0,"Completou a Faculdade, mas não completou a Pós...","Completou a Faculdade, mas não completou a Pós...","De R$ 3.300,01 até R$ 3.960,00"
3933952,210061965966,Feminino,18 anos,Pública,,SC,Faltou,Faltou,-1.0,-1.0,"Completou o Ensino Médio, mas não completou a ...","Completou a 4ª série/5º ano, mas não completou...","Até R$ 1.320,00"
3933953,210061932304,Masculino,17 anos,Privada,,SP,Presente,Presente,569.0,600.0,Completou a Pós-graduação,Completou a Pós-graduação,"De R$ 13.200,01 até R$ 15.840,00"


### Perguntas:

#### 1 - Qual o percentual de faltas dos cantidatos na disciplina de Matemática e Redação?

In [47]:
total = len(df_postgres)
faltas_mt = (df_postgres['TP_PRESENCA_MT'] == 'Faltou').sum()
percentual_faltas_mt = 100 * faltas_mt / total

faltas_lc = (df_postgres['TP_PRESENCA_LC'] == 'Faltou').sum()
percentual_faltas_lc = 100 * faltas_lc / total

print(f"Percentual de faltas em Matemática: {percentual_faltas_mt:.2f}%")
print(f"Percentual de faltas em Redação: {percentual_faltas_lc:.2f}%")


Percentual de faltas em Matemática: 31.50%
Percentual de faltas em Redação: 28.13%


#### 2 - Se formos olhar para a distribuição das idades dos alunos, como estaria a distribuição dos alunos por faixas etárias?

In [48]:
distribuicao_faixa = df_postgres['TP_FAIXA_ETARIA'].value_counts().sort_index()

print("Distribuição dos alunos por faixa etária:")
print(distribuicao_faixa)


Distribuição dos alunos por faixa etária:
TP_FAIXA_ETARIA
17 anos             753800
18 anos             905047
19 anos             431592
20 anos             267383
21 anos             183401
22 anos             137884
23 anos             111813
24 anos              91359
25 anos              73127
26 a 30 anos        246292
31 a 35 anos        133381
36 a 40 anos         96927
41 a 45 anos         67135
46 a 50 anos         40791
51 a 55 anos         24619
56 a 60 anos         13439
61 a 65 anos          5503
66 a 70 anos          2161
Maior de 70 anos       867
Menor de 17 anos    347434
Name: count, dtype: int64


### 3 - Quem tem as melhores notas em matemática e redação, candidatos do sexo masculino ou feminino?

In [50]:
df_validas = df_postgres[(df_postgres['NU_NOTA_MT'] != -1) & (df_postgres['NU_NOTA_REDACAO'] != -1)]

medias = df_validas.groupby('TP_SEXO')[['NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean()

print("Média das notas por sexo:")
print(medias)


Média das notas por sexo:
           NU_NOTA_MT  NU_NOTA_REDACAO
TP_SEXO                               
Feminino   517.011339       643.583549
Masculino  561.075506       599.607297


### 4 - Há alguma influência no tipo da escola (publica e privada) nas notas de matemática e redação?

In [51]:
df_validas = df_postgres[(df_postgres['NU_NOTA_MT'] != -1) & (df_postgres['NU_NOTA_REDACAO'] != -1)]

medias_escola = df_validas.groupby('TP_ESCOLA')[['NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean()

print("Média das notas por tipo de escola:")
print(medias_escola)


Média das notas por tipo de escola:
               NU_NOTA_MT  NU_NOTA_REDACAO
TP_ESCOLA                                 
Não Respondeu  536.024298       624.221749
Privada        630.865914       765.358292
Pública        504.270323       594.249973


### 5 - Qual a influência da escolaridade do Pai nas notas de Matemática e Redação? 

In [54]:
df_validas = df_postgres[(df_postgres['NU_NOTA_MT'] != -1) & (df_postgres['NU_NOTA_REDACAO'] != -1)]

medias_pai = df_validas.groupby('Q001')[['NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean()

print("Média das notas por escolaridade do pai:")
print(medias_pai)


Média das notas por escolaridade do pai:
                                                    NU_NOTA_MT  \
Q001                                                             
Completou a 4ª série/5º ano, mas não completou ...  506.253618   
Completou a 8ª série/9º ano do Ensino Fundament...  517.941732   
Completou a Faculdade, mas não completou a Pós-...  613.289055   
Completou a Pós-graduação                           632.876209   
Completou o Ensino Médio, mas não completou a F...  545.235226   
Nunca estudou                                       455.176781   
Não completou a 4ª série/5º ano do Ensino Funda...  483.230915   
Não sei                                             496.942199   

                                                    NU_NOTA_REDACAO  
Q001                                                                 
Completou a 4ª série/5º ano, mas não completou ...       597.575906  
Completou a 8ª série/9º ano do Ensino Fundament...       612.257185  
Completou a Faculd

### 6 - Qual a influência da escolaridade do Mãe nas notas de Matemática e Redação? 

In [None]:
df_validas = df_postgres[(df_postgres['NU_NOTA_MT'] != -1) & (df_postgres['NU_NOTA_REDACAO'] != -1)]

medias_mae = df_validas.groupby('Q002')[['NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean()

print("Média das notas por escolaridade da mãe:")
print(medias_mae)


### 7 - Qual a influência da renda do Pai e da Mãe nas notas de Matemática e Redação? 

In [55]:
df_validas = df_postgres[(df_postgres['NU_NOTA_MT'] != -1) & (df_postgres['NU_NOTA_REDACAO'] != -1)]

medias_renda = df_validas.groupby('Q006')[['NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean()

print("Média das notas por faixa de renda familiar (Q006):")
print(medias_renda)


Média das notas por faixa de renda familiar (Q006):
                                  NU_NOTA_MT  NU_NOTA_REDACAO
Q006                                                         
Acima de R$ 26.400,00             686.047878       776.828488
Até R$ 1.320,00                   476.802760       568.277665
De R$ 1.320,01 até R$ 1.980,00    510.447231       601.067307
De R$ 1.980,01 até R$ 2.640,00    530.848650       622.593857
De R$ 10.560,01 até R$ 11.880,00  640.310830       741.052535
De R$ 11.880,01 até R$ 13.200,00  649.896296       749.585841
De R$ 13.200,01 até R$ 15.840,00  654.314956       755.333968
De R$ 15.840,01 até R$ 19.800,00  663.267530       761.709763
De R$ 19.800,01 até R$ 26.400,00  674.540553       771.382043
De R$ 2.640,01 até R$ 3.300,00    549.769654       644.069093
De R$ 3.300,01 até R$ 3.960,00    568.335492       661.601170
De R$ 3.960,01 até R$ 5.280,00    584.467260       681.257430
De R$ 5.280,01 até R$ 6.600,00    602.323004       700.623551
De R$ 6.600,01 até