# Prática - Modulo 1 - IGTI - Data Engineering

### Autor: Thomaz Antonio Rossito Neto                                        
### LinkedIn: [clique aqui](https://www.linkedin.com/in/thomaz-antonio-rossito-neto/)

<img src="https://notiserrasc.com.br/wp-content/uploads/2019/10/enem2019-680x350.jpg">

## - Parte 3: Load - MySQL

#### - Observação: Toda explicação sobre o projeto, pode ser encontrado no arquivo (01-Extract.ipynb) - Parte 1: Extract

## - Inínio do Trabalho

### 1. Carregando as bibliotecas

In [7]:
import pandas as pd
import mysql
import pymysql
import pyodbc
import sqlalchemy
import os
from sqlalchemy import create_engine

In [8]:
# Carregando o dataset com (read_csv) do pandas
df_enem_mg = pd.read_csv('enem2019/DADOS/enem_2019_MG.zip')

# Visualizando o shape do dataset (100 linhas x 136 colunas)
print("shape: ", df_enem_mg.shape)

print()
# Verificando os tipos de dados
df_enem_mg.info()
print()

# Visualizando as primeiras linhas do dataset
df_enem_mg.head()

shape:  (538896, 136)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 538896 entries, 0 to 538895
Columns: 136 entries, NU_INSCRICAO to Q025
dtypes: bool(53), float64(24), int64(18), object(41)
memory usage: 368.5+ MB



Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,1,...,B,A,A,D,A,A,D,B,B,B
1,190001009861,2019,3111705,Canaã,31,MG,20,M,1,1,...,A,A,A,B,A,A,C,A,A,A
2,190001021622,2019,3104007,Araxá,31,MG,24,M,1,2,...,A,A,A,C,B,A,C,A,A,B
3,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,...,B,A,B,B,A,A,D,A,D,B
4,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,3,...,A,A,A,B,B,A,C,A,B,A


### 2. Configurando o acesso ao Mysql pelo Python

#### - utilizando a biblioteca "`mysqlconnector`"

In [9]:
database_username = 'root'
database_password = 'xxxxxxxx'
database_ip       = 'localhost'
database_name     = 'db_enem_mg'

# Carregando as configurações de conexao para realizar a ingestão de dados no MySQL
engine = sqlalchemy.create_engine('mysql+mysqlconnector://{0}:{1}@{2}/{3}'.format(database_username,
                                                                                  database_password,
                                                                                  database_ip,
                                                                                  database_name))

### 3. Importando dataset do Enem 2019 - Minas Gerais, para o MySQL

In [10]:
df_enem_mg.to_sql(name = 'enem_mg_2019', con = engine, index = False, chunksize=1000, if_exists = 'append')

## Fim do trabalho...

> # Bônus

### 1. Realizando uma nova conexão com o MySQL pelo Python

#### - utilizando a biblioteca "`pymysql`"

In [11]:
database_username = 'root'
database_password = 'xxxxxxxx'
database_ip       = 'localhost'
database_name     = 'db_enem_mg'

# Carregando as configurações de conexao para realizar as consultas
sql_engine = sqlalchemy.create_engine('mysql+pymysql://{0}:{1}@{2}/{3}'.format(database_username,
                                                                               database_password,
                                                                               database_ip,
                                                                               database_name))

### 2. Criando DataFrame com os arquivos que estão no MySQL

In [12]:
df = pd.read_sql_table('enem_mg_2019',sql_engine)

In [13]:
df.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,1,...,B,A,A,D,A,A,D,B,B,B
1,190001009861,2019,3111705,Canaã,31,MG,20,M,1,1,...,A,A,A,B,A,A,C,A,A,A
2,190001021622,2019,3104007,Araxá,31,MG,24,M,1,2,...,A,A,A,C,B,A,C,A,A,B
3,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,...,B,A,B,B,A,A,D,A,D,B
4,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,3,...,A,A,A,B,B,A,C,A,B,A


### 3. Desconectando as conexões

In [14]:
print(engine.drop)
print(sql_engine.drop)

<bound method Connectable.drop of Engine(mysql+mysqlconnector://root:***@localhost/db_enem_mg)>
<bound method Connectable.drop of Engine(mysql+pymysql://root:***@localhost/db_enem_mg)>


# FIM...
### WebSite Pessoal: [thomazrossito](https://www.thomazrossito.com.br)