# Prática - Modulo 1 - IGTI - Data Engineering

### Autor: Thomaz Antonio Rossito Neto                                        
### LinkedIn: [clique aqui](https://www.linkedin.com/in/thomaz-antonio-rossito-neto/)

<img src="https://notiserrasc.com.br/wp-content/uploads/2019/10/enem2019-680x350.jpg">

## - Parte 1: Extract and Transform

> #### Enunciado

Você é uma pessoa da área de Engenheira de Dados em uma empresa de consultoria
educacional. Os consultores da empresa vão auxiliar um grupo educacional de ensino
médio a desenvolver seu planejamento pedagógico e suas metodologias de ensino.
Nesse sentido, eles fizeram a você uma requisição de preparar dados do ENEM para
análise.

> #### Objetivo

Você deve, portanto, extrair os dados do ENEM, selecionar apenas os alunos de Minas
Gerais e apresentar algumas análises que vão ajudar o trabalho dos consultores.

> #### Atividades

Você deverá desempenhar as seguintes atividades:

1. Extrair, de maneira programática, os dados do ENEM 2019.
2. Filtrar apenas os alunos do estado de Minas Gerais.
3. Salvar um arquivo CSV com os dados já limpos em seu computador.
4. Escrever os dados numa tabela relacional em uma base de dados de sua escolha
    (MySQL, PostgreSQL, SQL Server etc.).

## - Inínio do Trabalho

### 1. Carregando as bibliotecas

In [1]:
import pandas as pd
import zipfile
import requests
from io import BytesIO
import os
import gc

In [None]:
# Caso queira visualizar todas as linhas e colunas tire o comentário dos códigos abaixo
# Execute na sequência

# pd.options.display.max_columns = 2000
# pd.options.display.max_rows = 2000

### 1.1 Criar um diretório para armazenar o conteúdo do ENEM

In [2]:
os.makedirs('./enem2019', exist_ok=True)

### 1.1.1 Importando o dataset do site do INEP e extraindo para o diretório enem2019

In [3]:
# Atribuindo o link a um objeto 'url'
url = "http://download.inep.gov.br/microdados/microdados_enem_2019.zip"

# Faz o download do conteúdo 
filebytes = BytesIO(
    requests.get(url).content
)

# Extrair o conteúdo do 'zipfile'
myzip = zipfile.ZipFile(filebytes)
myzip.extractall("./enem2019")

### 2. Realizando uma leitura do arquivo utilizando o pandas retornando apenas 100 registros 

#### - O arquivo completo contém 3.2GB 
#### - Nesse momento vamos apenas fazer uma análise básica sobre o dataset 
#### - Ver qual a coluna que será realizado o filtro dos alunos de MG

In [4]:
# Apenas um sample para verificarmos a quantidade de colunas e os tipos de dados que temos
enem = pd.read_csv('enem2019/DADOS/MICRODADOS_ENEM_2019.csv', sep=';', encoding='latin-1', nrows=50)

In [5]:
# Visualizando o shape do dataset (100 linhas x 136 colunas)
print("shape: ", enem.shape)

print()
# Verificando os tipos de dados
enem.info()
print()

# Visualizando as primeiras linhas do dataset
enem.head()

shape:  (50, 136)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Columns: 136 entries, NU_INSCRICAO to Q025
dtypes: float64(24), int64(71), object(41)
memory usage: 53.2+ KB



Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001004627,2019,1506807,Santarém,15,PA,21,M,1,3,...,A,A,A,C,B,A,D,A,B,A
1,190001004628,2019,1504059,Mãe do Rio,15,PA,16,F,1,3,...,A,A,A,B,B,A,B,A,A,A
2,190001004629,2019,1505502,Paragominas,15,PA,18,F,1,1,...,B,A,A,D,B,B,D,A,C,B
3,190001004630,2019,1507706,São Sebastião da Boa Vista,15,PA,23,M,0,3,...,A,A,A,C,A,A,D,A,A,A
4,190001004631,2019,1503903,Juruti,15,PA,23,M,1,3,...,A,A,A,B,A,A,D,A,A,A


In [6]:
# Removendo o dataset para liberar memoria
del(enem)
gc.collect()

219

### 3. Carregar o dataset e filtrar apenas alunos de MG

In [7]:
# Carregando o dataset com (read_csv) do pandas
df_enem = pd.read_csv('enem2019/DADOS/MICRODADOS_ENEM_2019.csv', sep=';', encoding='latin-1')

# Visualizando as primeiras linhas do dataset
df_enem.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001004627,2019,1506807,Santarém,15,PA,21,M,1,3,...,A,A,A,C,B,A,D,A,B,A
1,190001004628,2019,1504059,Mãe do Rio,15,PA,16,F,1,3,...,A,A,A,B,B,A,B,A,A,A
2,190001004629,2019,1505502,Paragominas,15,PA,18,F,1,1,...,B,A,A,D,B,B,D,A,C,B
3,190001004630,2019,1507706,São Sebastião da Boa Vista,15,PA,23,M,0,3,...,A,A,A,C,A,A,D,A,A,A
4,190001004631,2019,1503903,Juruti,15,PA,23,M,1,3,...,A,A,A,B,A,A,D,A,A,A


In [8]:
df_enem_mg = df_enem[df_enem['SG_UF_RESIDENCIA']=='MG']

In [9]:
df_enem_mg.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
1044,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,1,...,B,A,A,D,A,A,D,B,B,B
5234,190001009861,2019,3111705,Canaã,31,MG,20,M,1,1,...,A,A,A,B,A,A,C,A,A,A
16995,190001021622,2019,3104007,Araxá,31,MG,24,M,1,2,...,A,A,A,C,B,A,C,A,A,B
22008,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,...,B,A,B,B,A,A,D,A,D,B
22114,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,3,...,A,A,A,B,B,A,C,A,B,A


### 4. Salvando o dataset transformado com os alunos de MG

In [10]:
df_enem_mg.to_csv('enem2019/DADOS/MICRODADOS_ENEM_MG_2019.csv', sep=';', index=False, encoding='latin-1')

In [11]:
# Carregando o dataset com (read_csv) do pandas
enem_mg = pd.read_csv('enem2019/DADOS/MICRODADOS_ENEM_MG_2019.csv', sep=';', encoding='latin-1')

# Visualizando o shape do dataset (100 linhas x 136 colunas)
print("shape: ", enem_mg.shape)

print()
# Verificando os tipos de dados
enem_mg.info()
print()

# Visualizando as primeiras linhas do dataset
enem_mg.head()

shape:  (538896, 136)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 538896 entries, 0 to 538895
Columns: 136 entries, NU_INSCRICAO to Q025
dtypes: float64(24), int64(71), object(41)
memory usage: 559.2+ MB



Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,1,...,B,A,A,D,A,A,D,B,B,B
1,190001009861,2019,3111705,Canaã,31,MG,20,M,1,1,...,A,A,A,B,A,A,C,A,A,A
2,190001021622,2019,3104007,Araxá,31,MG,24,M,1,2,...,A,A,A,C,B,A,C,A,A,B
3,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,...,B,A,B,B,A,A,D,A,D,B
4,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,3,...,A,A,A,B,B,A,C,A,B,A


## Continua...
### Próximo arquivo (02-Data_Exploratory.ipynb)

# FIM...
### WebSite Pessoal: [thomazrossito](https://www.thomazrossito.com.br)