# Bootcamp IGTI: Engenharia de Dados
## Trabalho Prático

### Objetivos
Exercitar os seguintes conceitos trabalhados no Módulo:
-Extração de Dados;
-Desenvolvimento de crawlers;
-Transformações e análise de dados.

### Enunciado
Você é uma pessoa da área de Engenheira de Dados em uma empresa de consultoria educacional. Os consultores da empresa vão auxiliar um grupo educacional de ensino médio a desenvolver seu planejamento pedagógico e suas metodologias de ensino. Nesse sentido, eles fizeram a você uma requisição de preparar dados do ENEM para análise.
Você deve, portanto, extrair os dados do ENEM, selecionar apenas os alunos de Minas Gerais e apresentar algumas análises que vão ajudar o trabalho dos consultores.

### Atividades
Você deverá desempenhar as seguintes atividades:
1. Extrair, de maneira programática, os dados do ENEM 2019.
2. Filtrar apenas os alunos do estado de Minas Gerais.
3. Salvar um arquivo CSV com os dados já limpos em seu computador.
4. Escrever os dados numa tabela relacional em uma base de dados de sua escolha (MySQL, PostgreSQL, SQL Server etc.).

### Respostas Finais
Após a realização da atividade, utilize linguagem SQL ou uma linguagem de programação de sua escolha para responder às questões objetivas.

## Atividades

### 1. Extrair, de maneira programática, os dados do ENEM 2019.

#### 1.1 Importar bibliotecas necessárias

In [33]:
import pandas as pd 
# Pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados.
# Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais.

import numpy as np
# NumPy é um pacote para a linguagem Python que suporta arrays e matrizes multidimensionais, 
# possuindo uma larga coleção de funções matemáticas para trabalhar com estas estruturas.

import zipfile 
# Este módulo fornece ferramentas para criar, ler, escrever, anexar e listar um arquivo ZIP.

import requests
# Este módulo permite enviar solicitações HTTP usando Python. 
# A solicitação HTTP retorna um Objeto de resposta com todos os dados de resposta (conteúdo, codificação, status etc.).

from io import BytesIO
# Este módulo fornece ferramentas para leitura e gravação de objetos de bytes. 
# Utilizado para a implementação de Entrada/Saída de dados em buffer usando um buffer de bytes na memória, pronto para leitura e gravação.

import os
# Este módulo fornece funções para interagir com o sistema operacional. 
# Os módulos * os * e * os.path * incluem muitas funções para interagir com o sistema de arquivos.

import gc
# Este módulo fornece uma interface para o garbage collector

# pyodbc é um módulo Python de código aberto que simplifica o acesso aos bancos de dados ODBC.
import pyodbc

# SQLAlchemy fornece um conjunto completo de padrões de persistência de nível empresarial 
# bem conhecidos, projetados para acesso eficiente e de alto desempenho ao banco de dados, 
# adaptado em uma linguagem de domínio Pythônica simples.
import sqlalchemy

# O módulo Pathlib simplifica a maneira de trabalhar com arquivos e pastas. 
# Pathlib fornece uma maneira mais legível e fácil de construir caminhos, representando caminhos 
# de sistema de arquivos como objetos apropriados e nos permite escrever código que é portátil entre plataformas.
from pathlib import Path

#### 1.2 Criar um diretório para armazenar o conteúdo do ENEM 2019

In [36]:
# Vamos criar uma pasta usando o comando makedirs
os.makedirs('./enem_2019', exist_ok=True)

# Define a URL
url = "http://download.inep.gov.br/microdados/microdados_enem_2019.zip"

# Faz o download do conteúdo
filebytes = BytesIO(
    requests.get(url).content
)

# Extrair o conteúdo do arquivo zip
myzip = zipfile.ZipFile(filebytes)
myzip.extractall("./enem_2019")

# Listar as pasta e os arquivos para identificar o arquivo a ser carregado
base_path = r'./' #informar a pasta inicial
filename_filter = "*.*" # filtrar tipo de arquivo
 
for filename in Path(base_path).rglob(filename_filter):
    print(filename)

.ipynb_checkpoints
trab_pratico.ipynb
.ipynb_checkpoints\trab_pratico-checkpoint.ipynb
enem_2019\DADOS\ITENS_PROVA_2019.csv
enem_2019\DADOS\MICRODADOS_ENEM_2019.csv
enem_2019\DICION╡RIO\Dicionário_Microdados_Enem_2019.ods
enem_2019\DICION╡RIO\Dicionário_Microdados_Enem_2019.xlsx
enem_2019\INPUTS\INPUT_R_ITENS_PROVA_2019.R
enem_2019\INPUTS\INPUT_R_MICRODADOS_ENEM_2019.R
enem_2019\INPUTS\INPUT_SAS_ITENS_PROVA_2019.sas
enem_2019\INPUTS\INPUT_SAS_MICRODADOS_ENEM_2019.sas
enem_2019\INPUTS\INPUT_SPSS_ITENS_PROVA_2019.sps
enem_2019\INPUTS\INPUT_SPSS_MICRODADOS_ENEM_2019.sps
enem_2019\LEIA-ME E DOCUMENTOS TÉCNICOS\Edital_enem_2019.pdf
enem_2019\LEIA-ME E DOCUMENTOS TÉCNICOS\Leia_Me_Enem_2019.pdf
enem_2019\LEIA-ME E DOCUMENTOS TÉCNICOS\manual_de_redacao_do_enem_2019.pdf
enem_2019\LEIA-ME E DOCUMENTOS TÉCNICOS\matriz_referencia_enem.pdf
enem_2019\PROVAS E GABARITOS\ENEM_2019_P1_CAD_01_DIA_1_AZUL.pdf
enem_2019\PROVAS E GABARITOS\ENEM_2019_P1_CAD_02_DIA_1_AMARELO.pdf
enem_2019\PROVAS E GABARITOS\E

#### 1.3 Verificar os dados baixados

In [41]:
# Usando o pandas vamos importar o conteúdo do arquivo microdados_enem_2019.txt para a variavel enem
# Sabemos que o arquivo é um CSV e por tanto vamos usar o comando read_csv

enem = pd.read_csv(
    "./enem_2019/DADOS/MICRODADOS_ENEM_2019.csv", # Indicando o caminho do arquivo
    sep = ";", # Indocando o separador
    decimal = ",", # Indicando o tipo de separador Decimal
    encoding='latin-1'
)
# Visualizando o shape do dataset
print("shape: ", enem.shape)

# Vamos chamar a variavel enem e com o comando .head() mostrar uma amostra dos dados
enem.head()

shape:  (5095270, 136)


Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001004627,2019,1506807,Santarém,15,PA,21,M,1,3,...,A,A,A,C,B,A,D,A,B,A
1,190001004628,2019,1504059,Mãe do Rio,15,PA,16,F,1,3,...,A,A,A,B,B,A,B,A,A,A
2,190001004629,2019,1505502,Paragominas,15,PA,18,F,1,1,...,B,A,A,D,B,B,D,A,C,B
3,190001004630,2019,1507706,São Sebastião da Boa Vista,15,PA,23,M,0,3,...,A,A,A,C,A,A,D,A,A,A
4,190001004631,2019,1503903,Juruti,15,PA,23,M,1,3,...,A,A,A,B,A,A,D,A,A,A


### 2. Filtrar apenas os alunos do estado de Minas Gerais.

podemos verificar que o campo SG_UF_RESIDENCIA armazena o código do estado = MG

In [42]:
# Gravar o DataSet enem Filtrando os registro pelo estado MG na variavel enemmg
enemmg = enem[enem['SG_UF_RESIDENCIA']=='MG']

# Visualizando o shape do dataset
print("shape: ", enemmg.shape)

# Verificar os dados gravados em enemmg
enemmg.head()

shape:  (538896, 136)


Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
1044,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,1,...,B,A,A,D,A,A,D,B,B,B
5234,190001009861,2019,3111705,Canaã,31,MG,20,M,1,1,...,A,A,A,B,A,A,C,A,A,A
16995,190001021622,2019,3104007,Araxá,31,MG,24,M,1,2,...,A,A,A,C,B,A,C,A,A,B
22008,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,...,B,A,B,B,A,A,D,A,D,B
22114,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,3,...,A,A,A,B,B,A,C,A,B,A


### 3. Salvar um arquivo CSV com os dados já limpos em seu computador.

In [43]:
# Gravar o conteúdo da variável enemmg em um arquivo .csv
enemmg.to_csv('./microdados_enem_MG_2019.csv', sep=';', index=False, encoding='latin-1')

# Removendo o dataset para liberar memoria
del(enemmg)
gc.collect()

# Carregando o dataset com (read_csv) do pandas
enemmg = pd.read_csv('./microdados_enem_MG_2019.csv', sep=';', encoding='latin-1')

# Visualizando o shape do dataset
print("shape: ", enemmg.shape)

# Visualizando as primeiras linhas do dataset
enemmg.head()

shape:  (538896, 136)


Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,1,...,B,A,A,D,A,A,D,B,B,B
1,190001009861,2019,3111705,Canaã,31,MG,20,M,1,1,...,A,A,A,B,A,A,C,A,A,A
2,190001021622,2019,3104007,Araxá,31,MG,24,M,1,2,...,A,A,A,C,B,A,C,A,A,B
3,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,...,B,A,B,B,A,A,D,A,D,B
4,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,3,...,A,A,A,B,B,A,C,A,B,A


### 4. Escrever os dados numa tabela relacional em uma base de dados de sua escolha (MySQL, PostgreSQL, SQL Server etc.).

In [46]:
# Configurando a conexao para realizar a ingestão de dados no MSSQL
engine = sqlalchemy.create_engine(
    f'mssql+pyodbc://@localhost/enem?Integrated Security=True;driver=ODBC+Driver+17+for+SQL+Server'
)

# Realizando a ingestão dos dados no banco
enemmg.to_sql(name = 'enem_mg_2019', con = engine, index = False, chunksize=1000, if_exists = 'append')

In [47]:
# Criando um DataFrame a partir de uma query ao banco de dados.
pd.read_sql_query("SELECT TOP 5 * FROM enem_mg_2019",engine)

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,1,...,B,A,A,D,A,A,D,B,B,B
1,190001009861,2019,3111705,Canaã,31,MG,20,M,1,1,...,A,A,A,B,A,A,C,A,A,A
2,190001021622,2019,3104007,Araxá,31,MG,24,M,1,2,...,A,A,A,C,B,A,C,A,A,B
3,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,...,B,A,B,B,A,A,D,A,D,B
4,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,3,...,A,A,A,B,B,A,C,A,B,A


## Respostas Finais

1.	Qual é a média da nota em matemática de todos os alunos mineiros?

In [67]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_MT),1) \
                   FROM enem_mg_2019",engine)

Unnamed: 0,Unnamed: 1
0,546.8


2.Qual é a média da nota em Linguagens e Códigos de todos os alunos mineiros?

In [68]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_LC),1) \
                  FROM enem_mg_2019",engine)

Unnamed: 0,Unnamed: 1
0,531.2


3.	Qual é a média da nota em Ciências Humanas dos alunos do sexo FEMININO mineiros?

In [69]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_CH),1) \
                  FROM enem_mg_2019 \
                  WHERE TP_SEXO = 'F'",engine)

Unnamed: 0,Unnamed: 1
0,515.1


4.	Qual é a média da nota em Ciências Humanas dos alunos do sexo MASCULINO?

In [70]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_CH),1) \
                  FROM enem_mg_2019 \
                  WHERE TP_SEXO = 'M'",engine)

Unnamed: 0,Unnamed: 1
0,529.7


5.	Qual é a média da nota em Matemática dos alunos do sexo FEMININO que moram na cidade de Montes Claros?

In [66]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_MT),1) \
                     FROM enem_mg_2019 \
                    WHERE TP_SEXO = 'F'\
                      AND NO_MUNICIPIO_RESIDENCIA = 'Montes Claros'",engine)

Unnamed: 0,Unnamed: 1
0,525.5


6.	Qual é a média da nota em Matemática dos alunos do município de Sabará que possuem TV por assinatura na residência?

In [72]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_MT),1) \
                     FROM enem_mg_2019 \
                    WHERE NO_MUNICIPIO_RESIDENCIA = 'Sabará'\
                      AND Q021 = 'B'",engine)

Unnamed: 0,Unnamed: 1
0,543.3


7.	Qual é a média da nota em Ciências Humanas dos alunos mineiros que possuem dois fornos micro-ondas em casa?

In [71]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_CH),1) \
                     FROM enem_mg_2019 \
                    WHERE Q016 = 'C'",engine)

Unnamed: 0,Unnamed: 1
0,557.3


8.	Qual é a nota média em Matemática dos alunos mineiros cuja mãe completou a pós-graduação?

In [73]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_MT),1) \
                     FROM enem_mg_2019 \
                    WHERE Q002 = 'G'",engine)

Unnamed: 0,Unnamed: 1
0,620.0


9.	Qual é a nota média em Matemática dos alunos de Belo Horizonte e de Conselheiro Lafaiete?

In [74]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_MT),1) \
                     FROM enem_mg_2019 \
                    WHERE NO_MUNICIPIO_RESIDENCIA IN ('Belo Horizonte','Conselheiro Lafaiete')",engine)

Unnamed: 0,Unnamed: 1
0,578.0


10.	Qual é a nota média em Ciências Humanas dos alunos mineiros que moram sozinhos?

In [75]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_CH),1) \
                     FROM enem_mg_2019 \
                    WHERE Q005 = 1",engine)

Unnamed: 0,Unnamed: 1
0,534.5


11.	Qual é a nota média em Ciências Humanas dos alunos mineiros cujo pai completou Pós graduação e possuem renda familiar entre 8.982,01 e 9.980,00.

In [76]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_CH),1) \
                     FROM enem_mg_2019 \
                    WHERE Q001 = 'G'\
                      AND Q006 = 'M'",engine)

Unnamed: 0,Unnamed: 1
0,586.7


12.	Qual é a nota média em Matemática dos alunos do sexo Feminino que moram em Lavras e escolheram “Espanhol” como língua estrangeira?

In [77]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_MT),1) \
                     FROM enem_mg_2019 \
                    WHERE TP_SEXO = 'F'\
                      AND NO_MUNICIPIO_RESIDENCIA = 'Lavras'\
                      AND TP_LINGUA = 1",engine)

Unnamed: 0,Unnamed: 1
0,510.8


13.	Qual é a nota média em Matemática dos alunos do sexo Masculino que moram em Ouro Preto?

In [78]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_MT),1) \
                     FROM enem_mg_2019 \
                    WHERE TP_SEXO = 'M'\
                      AND NO_MUNICIPIO_RESIDENCIA = 'Ouro Preto'",engine)

Unnamed: 0,Unnamed: 1
0,555.1


14.	Qual é a nota média em Ciências Humanas dos alunos surdos?

In [79]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_CH),1) \
                     FROM enem_mg_2019 \
                    WHERE IN_SURDEZ = 1",engine)

Unnamed: 0,Unnamed: 1
0,435.4


15.	Qual é a nota média em Matemática dos alunos do sexo FEMININO, que moram em Belo Horizonte, Sabará, Nova Lima e Betim e possuem dislexia?

In [80]:
pd.read_sql_query("SELECT ROUND(AVG(NU_NOTA_MT),1) \
                     FROM enem_mg_2019 \
                    WHERE TP_SEXO = 'F'\
                      AND NO_MUNICIPIO_RESIDENCIA\
                       IN ('Belo Horizonte','Sabará','Nova Lima','Betim ')\
                      AND IN_DISLEXIA = 1",engine)

Unnamed: 0,Unnamed: 1
0,582.2
