## Trabalho Final de Disciplica - Introdução a Processamento de Dados

#### Turma: Engenharia de Dados - Turma 02
#### Nome Completo:
#### Matrícula:



#### ---------------------------------------------------------------------------------------------------------------------------------------------

### Instruções:
##### O objetivo deste trabalho é processar os dados do Enem 2023, salvar os resultados em um banco de dados PostgreSQL, consultar esses dados utilizando Pandas (Python) e responder a um conjunto de perguntas analíticas.
#### Passos para Execução

1. Download dos Dados
Baixe o arquivo de microdados do Enem 2023 no link abaixo:

[Microdados Enem 2023 - INEP](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem)

Utilize o dicionário de dados disponível no site para entender o significado de cada coluna.

2. Processamento dos Dados
Realize o tratamento necessário nos dados, como:

Limpeza (remoção de valores ausentes ou inconsistentes)

Seleção de colunas relevantes

Conversão de tipos de dados, se necessário

Descreva brevemente os principais tratamentos realizados.

3. Armazenamento no Banco de Dados
Salve os dados tratados em um banco de dados PostgreSQL.

Documente:

O nome do banco de dados e das tabelas utilizadas

O método/ferramenta utilizada para realizar a carga (por exemplo: script Python, Pandas, PgAdmin, etc.)

4. Consulta e Análise com Pandas
Utilize a biblioteca Pandas (Python) para consultar os dados diretamente do banco de dados.

Responda às perguntas analíticas fornecidas utilizando funções do Pandas.

Apresente as respostas juntamente com o código utilizado para obtê-las.



## =====================================================

#### Import csv

In [53]:
import pandas as pd
import numpy as np


import sys
import warnings
if not sys.warnoptions:
    warnings.simplefilter("ignore")

In [54]:
colunas = ['TP_PRESENCA_MT', 'TP_STATUS_REDACAO', 'TP_FAIXA_ETARIA', 'NU_NOTA_MT', 'NU_NOTA_REDACAO', 'TP_SEXO', 
           'TP_ESCOLA', 'Q001', 'Q002', 'Q006']

dados_enem = pd.read_csv("enem_2023/DADOS/MICRODADOS_ENEM_2023.csv", sep=";", encoding="latin1", usecols=colunas, nrows=5000)

### Tratamento dos dados

In [55]:
dados_enem.head()

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_ESCOLA,TP_PRESENCA_MT,NU_NOTA_MT,TP_STATUS_REDACAO,NU_NOTA_REDACAO,Q001,Q002,Q006
0,14,M,1,0,,,,A,F,F
1,12,M,1,0,,,,F,E,H
2,6,F,1,1,363.2,1.0,700.0,H,E,C
3,2,F,2,1,466.7,1.0,880.0,D,D,C
4,3,F,2,1,338.3,1.0,560.0,B,B,B


In [56]:
dados_enem.isnull().sum()

TP_FAIXA_ETARIA         0
TP_SEXO                 0
TP_ESCOLA               0
TP_PRESENCA_MT          0
NU_NOTA_MT           1391
TP_STATUS_REDACAO    1244
NU_NOTA_REDACAO      1244
Q001                    0
Q002                    0
Q006                    0
dtype: int64

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_ESCOLA,TP_PRESENCA_MT,NU_NOTA_MT,TP_STATUS_REDACAO,NU_NOTA_REDACAO,Q001,Q002,Q006
0,14,M,1,0,,,,A,F,F
1,12,M,1,0,,,,F,E,H
2,6,F,1,1,363.2,1.0,700.0,H,E,C
3,2,F,2,1,466.7,1.0,880.0,D,D,C
4,3,F,2,1,338.3,1.0,560.0,B,B,B


In [58]:
sexo_map = {'M': 'Masculino', 'F': 'Feminino'}
dados_enem['TP_SEXO'] = dados_enem['TP_SEXO'].map(sexo_map)


In [59]:
dados_enem.head()

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_ESCOLA,TP_PRESENCA_MT,NU_NOTA_MT,TP_STATUS_REDACAO,NU_NOTA_REDACAO,Q001,Q002,Q006
0,14,Masculino,1,0,,,,A,F,F
1,12,Masculino,1,0,,,,F,E,H
2,6,Feminino,1,1,363.2,1.0,700.0,H,E,C
3,2,Feminino,2,1,466.7,1.0,880.0,D,D,C
4,3,Feminino,2,1,338.3,1.0,560.0,B,B,B


In [62]:
dados_enem = dados_enem.rename(columns={
    'Q001': 'ESCOLARIDADE_PAI',
    'Q002': 'ESCOLARIDADE_MAE',
    'Q006': 'RENDA_FAMILIAR'
})

In [65]:
dados_enem.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   TP_FAIXA_ETARIA    5000 non-null   int64  
 1   TP_SEXO            5000 non-null   object 
 2   TP_ESCOLA          5000 non-null   int64  
 3   TP_PRESENCA_MT     5000 non-null   int64  
 4   NU_NOTA_MT         3609 non-null   float64
 5   TP_STATUS_REDACAO  3756 non-null   float64
 6   NU_NOTA_REDACAO    3756 non-null   float64
 7   ESCOLARIDADE_PAI   5000 non-null   object 
 8   ESCOLARIDADE_MAE   5000 non-null   object 
 9   RENDA_FAMILIAR     5000 non-null   object 
dtypes: float64(3), int64(3), object(4)
memory usage: 390.8+ KB


### Insert no Banco de Dados

### Recuperação dos dados usando Pandas

### Perguntas:

#### 1 - Qual o percentual de faltas dos cantidatos na disciplina de Matemática e Redação?

#### 2 - Se formos olhar para a distribuição das idades dos alunos, como estaria a distribuição dos alunos por faixas etárias?

### 3 - Quem tem as melhores notas em matemática e redação, candidatos do sexo masculino ou feminino?

### 4 - Há alguma influência no tipo da escola (publica e privada) nas notas de matemática e redação?

### 5 - Qual a influência da escolaridade do Pai nas notas de Matemática e Redação? 

### 6 - Qual a influência da escolaridade do Mãe nas notas de Matemática e Redação? 

### 5 - Qual a influência da renda do Pai e da Mãe nas notas de Matemática e Redação? 