# Introdução
## Trabalho Prático
### Atividades:
Você deverá desempenhar as seguintes atividades:
1. Extrair, de maneira programática, os dados do ENEM 2019.
2. Filtrar apenas os alunos do estado de Minas Gerais.
3. Salvar um arquivo CSV com os dados já limpos em seu computador.
4. Escrever os dados numa tabela relacional em uma base de dados de sua escolha (MySQL, PostgreSQL, SQL Server etc.).

In [1]:
# Importar as bibliotecas necessárias
import zipfile
import requests
from io import BytesIO
import os
# import pandas as pd
import dask.dataframe as dd

# Extração

In [2]:
# Criar um diretório para armazenar o conteúdo do ENEM
os.makedirs("./enem2019", exist_ok = True)

# Definir a url e fazer o download
url = "https://download.inep.gov.br/microdados/microdados_enem_2019.zip"
filebytes = BytesIO(requests.get(url, stream = True).content)

# Extrair o conteúdo do zipfile
myzip = zipfile.ZipFile(filebytes)
myzip.extractall("./enem2019")

In [3]:
# Import usando Dash por que o arquivo é muito grande e não cabe na memória
enem = dd.read_csv(
    "enem2019/DADOS/MICRODADOS_ENEM_2019.csv"
    , sep = ";"
    , decimal = ","
    , encoding = "latin1"
    , dtype = {
        'CO_MUNICIPIO_NASCIMENTO': 'float64',
        'CO_UF_NASCIMENTO': 'float64',
        'NO_MUNICIPIO_ESC': 'object',
        'SG_UF_ESC': 'object',
        'NU_IDADE': 'float64'
    }
)

# Análise

In [7]:
enem.head(10)

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001595656,2019,3552205,Sorocaba,35,SP,36.0,M,1,3,...,A,A,A,A,A,A,C,A,C,B
1,190001421546,2019,2910800,Feira de Santana,29,BA,23.0,M,1,1,...,A,A,A,B,A,A,E,A,A,B
2,190001133210,2019,2304400,Fortaleza,23,CE,39.0,F,1,3,...,A,A,A,B,A,A,C,A,A,B
3,190001199383,2019,1721000,Palmas,17,TO,25.0,F,1,1,...,A,A,A,C,A,B,D,A,B,B
4,190001237802,2019,3118601,Contagem,31,MG,22.0,F,1,1,...,B,A,A,B,A,A,C,B,B,B
5,190001782198,2019,5107602,Rondonópolis,51,MT,37.0,M,2,2,...,B,A,A,B,A,A,E,A,B,B
6,190001421548,2019,2924009,Paulo Afonso,29,BA,22.0,F,1,3,...,A,A,A,B,A,A,B,A,A,A
7,190001595657,2019,3550308,São Paulo,35,SP,20.0,M,1,3,...,B,A,A,B,A,A,C,A,A,B
8,190001592264,2019,3550308,São Paulo,35,SP,20.0,F,1,1,...,B,A,A,B,A,A,B,B,A,A
9,190001592266,2019,3550308,São Paulo,35,SP,17.0,M,1,1,...,B,A,A,B,A,B,C,B,B,B


In [9]:
enem.shape

(Delayed('int-31b182b7-d8d9-43a2-a726-9b37010fb386'), 136)

In [10]:
# df com alunos do estado de Minas Gerais
enemmg = enem.loc[(enem.SG_UF_RESIDENCIA == 'MG')]

In [11]:
enemmg.head(5)

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
4,190001237802,2019,3118601,Contagem,31,MG,22.0,F,1,1,...,B,A,A,B,A,A,C,B,B,B
14,190001237803,2019,3170206,Uberlândia,31,MG,30.0,F,1,2,...,A,A,A,B,A,A,B,A,A,A
25,190001237804,2019,3124104,Esmeraldas,31,MG,27.0,M,1,3,...,A,A,A,B,A,B,C,A,A,A
32,190001237805,2019,3118304,Conselheiro Lafaiete,31,MG,22.0,F,1,1,...,B,A,B,C,B,A,E,A,B,B
38,190001237806,2019,3162922,São Joaquim de Bicas,31,MG,23.0,F,1,4,...,B,A,A,B,B,A,C,A,B,B


In [12]:
enemmg.count()

Dask Series Structure:
npartitions=1
CO_ESCOLA          int64
TX_RESPOSTAS_MT      ...
dtype: int64
Dask Name: dataframe-count-agg, 251 tasks

In [14]:
res = enem.groupby(['TP_SEXO', 'TP_COR_RACA']).agg({
	'SG_UF_RESIDENCIA': 'count'
	, 'NU_IDADE': 'mean'
})

In [15]:
res.compute()

Unnamed: 0_level_0,Unnamed: 1_level_0,SG_UF_RESIDENCIA,NU_IDADE
TP_SEXO,TP_COR_RACA,Unnamed: 2_level_1,Unnamed: 3_level_1
F,0,57824,22.024956
F,1,1074806,21.223768
F,2,374764,23.085292
F,3,1428943,22.379228
F,4,77563,21.483471
F,5,17922,22.036715
M,0,45377,22.666123
M,1,756973,21.394196
M,2,273545,23.200864
M,3,935120,22.515574


# Transformação

# 3. Salvar um arquivo CSV com os dados já limpos em seu computador

In [8]:
# Função auxiliar para geração do nome dos arquivos
def numerador(i):
    return f'arquivo_{i + 1:03}.csv'

In [9]:
# Criar um diretório para armazenar os arquivos csv's
os.makedirs("./enem2019_minas_gerais", exist_ok = True)

In [10]:
# gera 50 arquivos, com 338 MB total em 3m40s
enemmg.to_csv(
    filename = './enem2019_minas_gerais/*'
    , sep = ';'
    , index = False
    , name_function = numerador
)

['c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2019/enem2019_minas_gerais/arquivo_001.csv',
 'c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2019/enem2019_minas_gerais/arquivo_002.csv',
 'c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2019/enem2019_minas_gerais/arquivo_003.csv',
 'c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2019/enem2019_minas_gerais/arquivo_004.csv',
 'c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2019/enem2019_minas_gerais/arquivo_005.csv',
 'c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2019/enem2019_minas_gerais/arquivo_006.csv',
 'c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2019/enem2019_minas_gerais/arquivo_007.csv',
 'c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2019/enem2019_minas_gerais/arquivo_008.csv',
 'c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2

# Opção com Single File
*Obs: nesse caso ainda cabe*

In [11]:
# gera um arquivo de 346 MB em 2m38s
enemmg.to_csv(
    filename = 'enem2019_minas_gerais.csv'
    , sep = ';'
    , index = False
    , single_file = True
)

['c:/Users/tseii/WorkSpace/Git/ci-ncia-de-dados/Big Data/Módulo 4/enem_2019/enem2019_minas_gerais.csv']

# 4.Escrever os dados numa tabela relacional em uma base de dados de sua escolha (MySQL, PostgreSQL, SQL Server etc.)

In [26]:
# 538896 registros em 25m52s
uri = 'mssql+pyodbc://igti:igti@localhost/igti?driver=ODBC+Driver+17+for+SQL+Server'
enemmg.to_sql('enemmg2019', uri = uri, index = False, if_exists = 'replace')