# ETL com dados do ENEM 2019

In [1]:
url = 'http://download.inep.gov.br/microdados/microdados_enem_2019.zip'

In [1]:
import pandas as pd
import numpy as np
import zipfile
import requests
from io import BytesIO
import os

In [3]:
os.makedirs('/dados/enem', exist_ok=True)

# Fazer a requisição para obtenção dos dados
filebytes = BytesIO(
    requests.get(url, stream=True).content
)

# extrair o conteúdo do zipfile
myzip = zipfile.ZipFile(filebytes)
myzip.extractall('/dados/enem')

In [4]:
del(filebytes)

# Importando os dados do ENEM
#### Quando temos um dado que excede a memória, podemos usar DASK 

In [None]:
# caso não tenha o dask instalado
#!pip install dask

In [2]:
import dask.dataframe as dd

In [3]:
enem = dd.read_csv('dados/enem/DADOS/MICRODADOS_ENEM_2019.csv', 
                   sep=';', decimal=',', encoding='latin1')

In [4]:
# Filtrando apenas os alunos de MG
enem = enem.loc[enem.SG_UF_RESIDENCIA == 'MG']

In [5]:
enem.head(5)

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
1044,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,1,...,B,A,A,D,A,A,D,B,B,B
5234,190001009861,2019,3111705,Canaã,31,MG,20,M,1,1,...,A,A,A,B,A,A,C,A,A,A
16995,190001021622,2019,3104007,Araxá,31,MG,24,M,1,2,...,A,A,A,C,B,A,C,A,A,B
22008,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,...,B,A,B,B,A,A,D,A,D,B
22114,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,3,...,A,A,A,B,B,A,C,A,B,A


In [24]:
# Salvando os dados como csv
if(os.path.exists('dados/enem/enemmg.csv')):
    print('Arquivo csv já existe')
else:
    enem.to_csv('dados/enem/enemmg.csv', index=False, single_file=True)

In [25]:
# Fazendo a leitura com o pandas do arquivo exportado pelo dask e gerando o zip    
if(os.path.exists('dados/enem/enemmg.zip')):
    print('Arquivo zip já existe')
else:
    df = pd.read_csv('dados/enem/enemmg.csv')
    df.to_csv('dados/enem/enemmg.zip', index=False, compression=dict(method='zip', archive_name='enemmg.csv'))
    del(df)

# Ingestão dos dados no MySQL

Antes de fazer a ingestão dos dados tem que criar o banco de dados

In [26]:
import sqlalchemy
import pymysql

In [27]:
# mysql+pymysql://<username>:<password>@<host>/<dbname>
# Caso ocorrer erro de string na URI, ao passar engine, utilizar engine_str
engine = sqlalchemy.create_engine(
    "mysql+pymysql://root:root@localhost/enem"
)
engine_str = "mysql+pymysql://root:root@localhost/enem"

In [28]:
%%time
# Escrevendo os dados no mysql na tabela alunos_mg
enem.to_sql('alunos_mg', uri=engine_str, if_exists='append', index=False, chunksize=1000)

CPU times: user 4min 51s, sys: 9.54 s, total: 5min 1s
Wall time: 5min 50s


In [29]:
del(enem)

In [58]:
pd.read_sql(
    'select avg(NU_NOTA_MT) media \
     from alunos_mg', 
    conn)

Unnamed: 0,media
0,546.796208


In [73]:
pd.read_sql(
    'select avg(NU_NOTA_LC) media \
     from alunos_mg',
    conn
)

Unnamed: 0,media
0,531.21555


In [76]:
pd.read_sql(
    "select avg(NU_NOTA_CH) media \
     from alunos_mg \
     where TP_SEXO = 'F'",
    conn
)

Unnamed: 0,media
0,515.127098
