![](https://www.igti.com.br/wp-content/themes/wp-bootstrap-4/assets/images/logos/logo-green.png)
# IGTI - Bootcamp Engenheiro de Dados

# **Módulo 1: Fundamentos**

## **Objetivos**

Exercitar os seguintes conceitos trabalhados no Módulo:
- Extração de Dados;
- Desenvolvimento de crawlers;
- Transformações e análise de dados.

## **Enuciado**

Você é uma pessoa da área de Engenheira de Dados em uma empresa de consultoria
educacional. Os consultores da empresa vão auxiliar um grupo educacional de ensino
médio a desenvolver seu planejamento pedagógico e suas metodologias de ensino.
Nesse sentido, eles fizeram a você uma requisição de preparar dados do ENEM para
análise.
Você deve, portanto, extrair os dados do ENEM, selecionar apenas os alunos de Minas
Gerais e apresentar algumas análises que vão ajudar o trabalho dos consultores.

## **Atividades**

Você deverá desempenhar as seguintes atividades:

1. Extrair, de maneira programática, os dados do ENEM 2019.
2. Filtrar apenas os alunos do estado de Minas Gerais.
3. Salvar um arquivo CSV com os dados já limpos em seu computador.
4. Escrever os dados numa tabela relacional em uma base de dados de sua escolha
(MySQL, PostgreSQL, SQL Server etc.).

In [1]:
# Importação das Bibliotecas necessárias no Trabalho

import pandas as pd
import numpy as np
import zipfile
import requests
from io import BytesIO
import os

## 1. Extrair, de maneira programática, os dados do ENEM 2019.

In [2]:
# Criação de um diretório para armazenar o conteúdo do ENEM 2019
os.makedirs('./enem2019', exist_ok=True)

In [5]:
# Definição da Variavel com o link do Arquivo com os dados do Enem do ano de 2019
url = 'https://download.inep.gov.br/microdados/microdados_enem_2019.zip'

# Metodo que realiza o Download via HTTP Request 
filebytes = BytesIO(requests.get(url).content)

# Extração do Conteudo arquivo ZIP
# Link da biblioteca ZipFile https://docs.python.org/3/library/zipfile.html
myzip = zipfile.ZipFile(filebytes) #Criação do Objeto do tipo ZIP
myzip.extractall("./enem2019") # Extraindo os dados para a pasta criada

In [7]:
# Leitura do Arquivo de dados do Enem 2019
enem = pd.read_csv("./enem2019/DADOS/MICRODADOS_ENEM_2019.csv",sep = ";", decimal=",")

In [25]:
enem.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001004627,2019,1506807,Santar�m,15,PA,21,M,1,3,...,A,A,A,C,B,A,D,A,B,A
1,190001004628,2019,1504059,M�e do Rio,15,PA,16,F,1,3,...,A,A,A,B,B,A,B,A,A,A
2,190001004629,2019,1505502,Paragominas,15,PA,18,F,1,1,...,B,A,A,D,B,B,D,A,C,B
3,190001004630,2019,1507706,S�o Sebasti�o da Boa Vista,15,PA,23,M,0,3,...,A,A,A,C,A,A,D,A,A,A
4,190001004631,2019,1503903,Juruti,15,PA,23,M,1,3,...,A,A,A,B,A,A,D,A,A,A


## 2. Filtrar apenas os alunos do estado de Minas Gerais.

In [23]:
# Filtrando somente os registros do estado de MG
enem_mg = enem[enem.SG_UF_RESIDENCIA == 'MG']

In [24]:
enem_mg.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
1044,190001005671,2019,3170206,Uberl�ndia,31,MG,21,M,1,1,...,B,A,A,D,A,A,D,B,B,B
5234,190001009861,2019,3111705,Cana�,31,MG,20,M,1,1,...,A,A,A,B,A,A,C,A,A,A
16995,190001021622,2019,3104007,Arax�,31,MG,24,M,1,2,...,A,A,A,C,B,A,C,A,A,B
22008,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,...,B,A,B,B,A,A,D,A,D,B
22114,190001026742,2019,3162401,S�o Jo�o da Ponte,31,MG,23,M,1,3,...,A,A,A,B,B,A,C,A,B,A


## 3. Salvar um arquivo CSV com os dados já limpos em seu computador.

In [27]:
enem_mg.to_csv("./enem2019/DADOS/MICRODADOS_ENEM_2019_MG.csv")

## 4. Escrever os dados numa tabela relacional em uma base de dados de sua escolha (MySQL, PostgreSQL, SQL Server etc.).

In [29]:
# Instalação das Bibliotecas responsavel por conexão ao banco de dados MySQL
!pip install pyodbc sqlalchemy



In [32]:
# importação das bibliotecas

import pyodbc
import sqlalchemy

In [33]:
# Conexão com o MySQL
engine = sqlalchemy.create_engine(
    "mysql://root:admin@localhost/enem?charset=utf8mb4"
)

In [34]:
# Inserção dos dados do Enem 2019 no banco de dados MySQL na tabela enem2019mg
enem_mg.to_sql("enem_mg",con=engine, index=False, if_exists='replace')