# Trabalho Prático do Módulo 4

## Pipeline de Dados - Enem 2019

## Atividades:

Você deverá desempenhar as seguintes atividades:

1. Extrair, de maneira programática, os dados do ENEM 2019.
2. Filtrar apenas os alunos do estado de Minas Gerais.
3. Salvar um arquivo CSV com os dados já limpos em seu computador.
4.  Escrever os dados numa tabela relacional em uma base de dados de sua escolha 
(MySQL, PostgreSQL, SQL Server etc.).

__Site do Ibep >> Microdados >> Enem:__


https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem

__Url do zip do microdados do Enem-2019:__


https://download.inep.gov.br/microdados/microdados_enem_2019.zip

### Extração dos dados

#### Extrair, de maneira programática, os dados do ENEM 2019.

In [5]:
# Importar bibliotecas

import pandas as pd 
import numpy as np 
import zipfile
import requests
from io import BytesIO
import os

In [6]:
# Criar um diretório para armazenar o conteúdo do ENEM

os.makedirs('./enem2019', exist_ok=True)

In [7]:
# Define a url 
url = "https://download.inep.gov.br/microdados/microdados_enem_2019.zip"

# Download do conteúdo da url
filebytes = BytesIO(
    requests.get(url).content
)

# Descompactação do zip
myzip = zipfile.ZipFile(filebytes)

# Pasta destino da descompactação
myzip.extractall("./enem2019")

In [8]:
# Leitura dos dados

enem = pd.read_csv("./enem2019/DADOS/MICRODADOS_ENEM_2019.csv", 
                    sep = ";", 
                    decimal = "." )

In [9]:
enem

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001595656,2019,3552205,Sorocaba,35,SP,36.0,M,1,3,...,A,A,A,A,A,A,C,A,C,B
1,190001421546,2019,2910800,Feira de Santana,29,BA,23.0,M,1,1,...,A,A,A,B,A,A,E,A,A,B
2,190001133210,2019,2304400,Fortaleza,23,CE,39.0,F,1,3,...,A,A,A,B,A,A,C,A,A,B
3,190001199383,2019,1721000,Palmas,17,TO,25.0,F,1,1,...,A,A,A,C,A,B,D,A,B,B
4,190001237802,2019,3118601,Contagem,31,MG,22.0,F,1,1,...,B,A,A,B,A,A,C,B,B,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5095265,190006074437,2019,5300108,Bras�lia,53,DF,41.0,F,4,3,...,B,A,A,B,A,A,B,B,A,B
5095266,190005429225,2019,1302603,Manaus,13,AM,20.0,M,1,3,...,A,A,A,B,B,A,E,A,A,B
5095267,190006087652,2019,4302105,Bento Gon�alves,43,RS,21.0,M,0,0,...,A,A,A,B,A,A,C,B,B,B
5095268,190006087653,2019,4302105,Bento Gon�alves,43,RS,22.0,M,0,0,...,B,A,A,C,B,B,A,A,A,B


#### Filtrar apenas os alunos do estado de Minas Gerais

In [10]:
dict(enem.dtypes)

{'NU_INSCRICAO': dtype('int64'),
 'NU_ANO': dtype('int64'),
 'CO_MUNICIPIO_RESIDENCIA': dtype('int64'),
 'NO_MUNICIPIO_RESIDENCIA': dtype('O'),
 'CO_UF_RESIDENCIA': dtype('int64'),
 'SG_UF_RESIDENCIA': dtype('O'),
 'NU_IDADE': dtype('float64'),
 'TP_SEXO': dtype('O'),
 'TP_ESTADO_CIVIL': dtype('int64'),
 'TP_COR_RACA': dtype('int64'),
 'TP_NACIONALIDADE': dtype('int64'),
 'CO_MUNICIPIO_NASCIMENTO': dtype('float64'),
 'NO_MUNICIPIO_NASCIMENTO': dtype('O'),
 'CO_UF_NASCIMENTO': dtype('float64'),
 'SG_UF_NASCIMENTO': dtype('O'),
 'TP_ST_CONCLUSAO': dtype('int64'),
 'TP_ANO_CONCLUIU': dtype('int64'),
 'TP_ESCOLA': dtype('int64'),
 'TP_ENSINO': dtype('float64'),
 'IN_TREINEIRO': dtype('int64'),
 'CO_ESCOLA': dtype('float64'),
 'CO_MUNICIPIO_ESC': dtype('float64'),
 'NO_MUNICIPIO_ESC': dtype('O'),
 'CO_UF_ESC': dtype('float64'),
 'SG_UF_ESC': dtype('O'),
 'TP_DEPENDENCIA_ADM_ESC': dtype('float64'),
 'TP_LOCALIZACAO_ESC': dtype('float64'),
 'TP_SIT_FUNC_ESC': dtype('float64'),
 'IN_BAIXA_VISA

In [17]:
#enemMG = enem.CO_REGIAO_CURSO == 31


enemMG = enem.loc[
    enem.CO_UF_RESIDENCIA == 31
]

In [18]:
enemMG

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
4,190001237802,2019,3118601,Contagem,31,MG,22.0,F,1,1,...,B,A,A,B,A,A,C,B,B,B
14,190001237803,2019,3170206,Uberl�ndia,31,MG,30.0,F,1,2,...,A,A,A,B,A,A,B,A,A,A
25,190001237804,2019,3124104,Esmeraldas,31,MG,27.0,M,1,3,...,A,A,A,B,A,B,C,A,A,A
32,190001237805,2019,3118304,Conselheiro Lafaiete,31,MG,22.0,F,1,1,...,B,A,B,C,B,A,E,A,B,B
38,190001237806,2019,3162922,S�o Joaquim de Bicas,31,MG,23.0,F,1,4,...,B,A,A,B,B,A,C,A,B,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5095201,190005766803,2019,3171204,Vespasiano,31,MG,23.0,M,1,2,...,B,A,A,C,A,B,D,A,B,B
5095225,190005766804,2019,3170206,Uberl�ndia,31,MG,28.0,F,2,1,...,A,A,B,B,B,B,C,B,B,B
5095236,190005766805,2019,3162500,S�o Jo�o del Rei,31,MG,20.0,M,1,4,...,B,A,B,C,B,B,C,B,B,B
5095237,190005766806,2019,3158201,Santa Maria do Sua�u�,31,MG,18.0,F,1,3,...,A,A,A,B,A,A,B,A,A,A


#### Salvar um arquivo CSV com os dados já limpos em seu computador.

In [28]:
enemMG.to_csv('./enem2019/DADOS/MICRODADOS_ENEM_2019_MG.csv', sep = ";", 
                    decimal = "." )

In [30]:

enemTeste = pd.read_csv("./enem2019/DADOS/MICRODADOS_ENEM_2019_MG.csv", 
                    sep = ";", 
                    decimal = "." )

In [31]:
enemTeste

Unnamed: 0.1,Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,4,190001237802,2019,3118601,Contagem,31,MG,22.0,F,1,...,B,A,A,B,A,A,C,B,B,B
1,14,190001237803,2019,3170206,Uberl�ndia,31,MG,30.0,F,1,...,A,A,A,B,A,A,B,A,A,A
2,25,190001237804,2019,3124104,Esmeraldas,31,MG,27.0,M,1,...,A,A,A,B,A,B,C,A,A,A
3,32,190001237805,2019,3118304,Conselheiro Lafaiete,31,MG,22.0,F,1,...,B,A,B,C,B,A,E,A,B,B
4,38,190001237806,2019,3162922,S�o Joaquim de Bicas,31,MG,23.0,F,1,...,B,A,A,B,B,A,C,A,B,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
538891,5095201,190005766803,2019,3171204,Vespasiano,31,MG,23.0,M,1,...,B,A,A,C,A,B,D,A,B,B
538892,5095225,190005766804,2019,3170206,Uberl�ndia,31,MG,28.0,F,2,...,A,A,B,B,B,B,C,B,B,B
538893,5095236,190005766805,2019,3162500,S�o Jo�o del Rei,31,MG,20.0,M,1,...,B,A,B,C,B,B,C,B,B,B
538894,5095237,190005766806,2019,3158201,Santa Maria do Sua�u�,31,MG,18.0,F,1,...,A,A,A,B,A,A,B,A,A,A


#### Escrever os dados numa tabela relacional em uma base de dados de sua escolha (MySQL, PostgreSQL, SQL Server etc.).