# Objetivos
### Exercitar os seguintes conceitos trabalhados no Módulo:
- Extração de Dados;
- Desenvolvimento de crawlers;
- Transformações e análise de dados.

# Enunciado
Você é uma pessoa da área de Engenheira de Dados em uma empresa de consultoria
educacional. Os consultores da empresa vão auxiliar um grupo educacional de ensino
médio a desenvolver seu planejamento pedagógico e suas metodologias de ensino.
Nesse sentido, eles fizeram a você uma requisição de preparar dados do ENEM para
análise.

Você deve, portanto, extrair os dados do ENEM, selecionar apenas os alunos de Minas
Gerais e apresentar algumas análises que vão ajudar o trabalho dos consultores.

# Atividades

### Você deverá desempenhar as seguintes atividades:
    1. Extrair, de maneira programática, os dados do ENEM 2019.
    2. Filtrar apenas os alunos do estado de Minas Gerais.
    3. Salvar um arquivo CSV com os dados já limpos em seu computador.
    4. Escrever os dados numa tabela relacional em uma base de dados de sua escolha (MySQL, PostgreSQL, SQL Server etc.).

# Respostas Finais
Após a realização da atividade, utilize linguagem SQL ou uma linguagem de programação
de sua escolha para responder às questões objetivas

In [1]:
# Importações necessárias
import pandas as pandas
import zipfile
import requests # Realizar request para o site do inep e realizar o download dos dados
from io import BytesIO # Configurar os inputs dos dados para trabalhar no ambiente python
import os

In [2]:

# Como os dados do Enade chegam em um zip com vários arquivos, precisamos armazena-los em uma pasta para depois trabalhar-mos com eles

os.makedirs('./enem2019', exist_ok=True)


In [4]:
'''
    exists_ok=True, para que se executarmo o código mais de 1 vez, não retorne um erro.
    Se a pasta já existir, nada acontecerá e o processo continuará em execução
'''

url_enem_2019 = "http://download.inep.gov.br/microdados/microdados_enem_2019.zip"

In [4]:
# Download do conteúdo
filebytes = BytesIO( # Possuí o retorno do request realizado
    requests.get(url_enem_2019).content
)

In [5]:
# Informando o Python de que o arquivo é um .zip
myzip = zipfile.ZipFile(filebytes)
# Extração dos dados
myzip.extractall('./enem2019')

In [6]:
# Gerando um pandas dataframe a partir dos dados baixados

enem_df = pandas.read_csv(
    './enem2019/microdados_enade_2019/2019/3.DADOS/microdados_enade_2019.txt',
    sep = ';',
    decimal = ','
)

In [7]:
# Printa informações sobre o dataframe
enem_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 433930 entries, 0 to 433929
Columns: 137 entries, NU_ANO to QE_I68
dtypes: float64(61), int64(33), object(43)
memory usage: 382.4+ MB


In [8]:
print(dict(enem_df.dtypes)) 

{'NU_ANO': dtype('int64'), 'CO_IES': dtype('int64'), 'CO_CATEGAD': dtype('int64'), 'CO_ORGACAD': dtype('int64'), 'CO_GRUPO': dtype('int64'), 'CO_CURSO': dtype('int64'), 'CO_MODALIDADE': dtype('int64'), 'CO_MUNIC_CURSO': dtype('int64'), 'CO_UF_CURSO': dtype('int64'), 'CO_REGIAO_CURSO': dtype('int64'), 'NU_IDADE': dtype('int64'), 'TP_SEXO': dtype('O'), 'ANO_FIM_EM': dtype('int64'), 'ANO_IN_GRAD': dtype('float64'), 'CO_TURNO_GRADUACAO': dtype('float64'), 'TP_INSCRICAO_ADM': dtype('int64'), 'TP_INSCRICAO': dtype('int64'), 'NU_ITEM_OFG': dtype('int64'), 'NU_ITEM_OFG_Z': dtype('int64'), 'NU_ITEM_OFG_X': dtype('int64'), 'NU_ITEM_OFG_N': dtype('int64'), 'NU_ITEM_OCE': dtype('int64'), 'NU_ITEM_OCE_Z': dtype('int64'), 'NU_ITEM_OCE_X': dtype('int64'), 'NU_ITEM_OCE_N': dtype('int64'), 'DS_VT_GAB_OFG_ORIG': dtype('O'), 'DS_VT_GAB_OFG_FIN': dtype('O'), 'DS_VT_GAB_OCE_ORIG': dtype('O'), 'DS_VT_GAB_OCE_FIN': dtype('O'), 'DS_VT_ESC_OFG': dtype('O'), 'DS_VT_ACE_OFG': dtype('O'), 'DS_VT_ESC_OCE': dtype('

In [9]:
print('Chamando o script que irá realizar as tranformações dos dados')

os.system('python transform_data.ipynb')

Chamando o script que irá realizar as tranformações dos dados


2

### Continua nos scripts: 
`transform_data.ipynb`
e
`load_data.ipynb`