# Atividade Prática com Dados do Enem2019  
## Pipeline de dados
## Objetivos:
## Exercitar os seguintes conceitos trabalhados no Módulo:

## Extração de Dados;
## Desenvolvimento de crawlers;
## Transformações e análise de dados.
## Enunciado:
## Você é uma pessoa da área de Engenheira de Dados em uma empresa de consultoria educacional. Os consultores da empresa vão auxiliar um grupo educacional de ensino médio a desenvolver seu planejamento pedagógico e suas metodologias de ensino. Nesse sentido, eles fizeram a você uma requisição de preparar dados do ENEM para análise.

## Você deve, portanto, extrair os dados do ENEM, selecionar apenas os alunos de Minas Gerais e apresentar algumas análises que vão ajudar o trabalho dos consultores.

## Atividades:
## Você deverá desempenhar as seguintes atividades:

## 1.Extrair, de maneira programática, os dados do ENEM 2019.
## 2.Filtrar apenas os alunos do estado de Minas Gerais.
## 3.Salvar um arquivo CSV com os dados já limpos em seu computador.
## 4.Escrever os dados numa tabela relacional em uma base de dados de sua escolha (MySQL, PostgreSQL, SQL Server etc.).

In [15]:
import pandas as pd
import numpy as np
import zipfile  
import requests
from io import BytesIO
import os

In [3]:
# Exibir tempo de processamento. * Vscode já possui a opção do time.  
%%time

#Criar diretório
os.makedirs("./enem2019", exist_ok = True)

#Definir URL
url = "https://download.inep.gov.br/microdados/microdados_enem_2019.zip"

#Download do conteudo da url. 
#*Stream evitar que o jupyter encerre a conexão devido ao tempo de processamento ser diferente da sessão 
filebytes = BytesIO(requests.get(url, stream = True).content)

#Descompactar o arquivo zip
myzip = zipfile.ZipFile(filebytes)

#Pasta de destino da descompactação
myzip.extractall("./enem2019")

Wall time: 8min 53s


# Leitura dos Dados 

In [11]:
import dask.dataframe as dd 
#.Melhor biblioteca que pandas para leitura porém obtive erros ao usar

In [4]:
enem = pd.read_csv(r"./enem2019/DADOS/MICRODADOS_ENEM_2019.csv",
                   sep = ";",
                   decimal = ".",
                   encoding = "latin1" 
                   )

In [8]:
#Filtrando a base de dados para trabalhar somente com MG
enemMG2 = enem.loc[enem.SG_UF_RESIDENCIA == "MG"]

In [9]:
#Criando arquivo do tipo csv com os dados de MG apenas. *Index Falso elimina índice 
enemMG2.to_csv(r"./enemMG.csv", index = False)

In [17]:
#Lendo os dados
enemMG = pd.read_csv(r"./enemMG.csv")

In [25]:
#Visualizar os tipos de dados e suas respectivos colunas 
dict(enemMG.dtypes)

{'NU_INSCRICAO': dtype('int64'),
 'NU_ANO': dtype('int64'),
 'CO_MUNICIPIO_RESIDENCIA': dtype('int64'),
 'NO_MUNICIPIO_RESIDENCIA': dtype('O'),
 'CO_UF_RESIDENCIA': dtype('int64'),
 'SG_UF_RESIDENCIA': dtype('O'),
 'NU_IDADE': dtype('float64'),
 'TP_SEXO': dtype('O'),
 'TP_ESTADO_CIVIL': dtype('int64'),
 'TP_COR_RACA': dtype('int64'),
 'TP_NACIONALIDADE': dtype('int64'),
 'CO_MUNICIPIO_NASCIMENTO': dtype('float64'),
 'NO_MUNICIPIO_NASCIMENTO': dtype('O'),
 'CO_UF_NASCIMENTO': dtype('float64'),
 'SG_UF_NASCIMENTO': dtype('O'),
 'TP_ST_CONCLUSAO': dtype('int64'),
 'TP_ANO_CONCLUIU': dtype('int64'),
 'TP_ESCOLA': dtype('int64'),
 'TP_ENSINO': dtype('float64'),
 'IN_TREINEIRO': dtype('int64'),
 'CO_ESCOLA': dtype('float64'),
 'CO_MUNICIPIO_ESC': dtype('float64'),
 'NO_MUNICIPIO_ESC': dtype('O'),
 'CO_UF_ESC': dtype('float64'),
 'SG_UF_ESC': dtype('O'),
 'TP_DEPENDENCIA_ADM_ESC': dtype('float64'),
 'TP_LOCALIZACAO_ESC': dtype('float64'),
 'TP_SIT_FUNC_ESC': dtype('float64'),
 'IN_BAIXA_VISA

In [18]:
# Filtrar o genero
enemMG.groupby("TP_SEXO").agg({
    "NU_IDADE": "mean"
})

Unnamed: 0_level_0,NU_IDADE
TP_SEXO,Unnamed: 1_level_1
F,21.872028
M,22.258798


In [14]:
# Filtrar o genero com o municipio de MG, a idade e por fim a nota.
enemMG.groupby(["TP_SEXO", 'NO_MUNICIPIO_RESIDENCIA']).agg({
    "NU_IDADE": "mean",
    "NU_NOTA_MT": "mean"
})

Unnamed: 0_level_0,Unnamed: 1_level_0,NU_IDADE,NU_NOTA_MT
TP_SEXO,NO_MUNICIPIO_RESIDENCIA,Unnamed: 2_level_1,Unnamed: 3_level_1
F,Abadia dos Dourados,19.746988,506.700000
F,Abaeté,20.910299,539.117411
F,Abre Campo,19.689119,536.921935
F,Acaiaca,22.571429,474.465116
F,Aguanil,18.357143,532.605714
...,...,...,...
M,Wenceslau Braz,22.700000,592.400000
M,Água Boa,19.363636,593.903571
M,Água Comprida,25.666667,518.800000
M,Águas Formosas,21.064706,538.003788


In [19]:
#Estatística de nota na disciplina CH porém somente do gênero masculino 
enemMG.loc[enemMG.TP_SEXO == "M"].NU_NOTA_CH.describe()

count    162530.000000
mean        529.698270
std          85.803672
min           0.000000
25%         470.200000
50%         538.500000
75%         591.500000
max         835.100000
Name: NU_NOTA_CH, dtype: float64

# Ingestão de dados em uma tabela relacional desua escolha (escolhi SQLServer)

In [19]:
pip install pyodbc

Note: you may need to restart the kernel to use updated packages.


In [20]:
pip install sqlalchemy

Note: you may need to restart the kernel to use updated packages.


In [20]:
import pyodbc
import sqlalchemy

In [50]:
engine = sqlalchemy.create_engine(
    "mssql+pyodbc://ulisses:gustavo-avelar@SRV-SQL-02\MSSQL/TOTVS_DEV?driver=ODBC+Driver+17+for+SQL+Server"
)

In [26]:
#Importa os dados do DF para o DB
enemMG.to_sql("enemMG", con=engine, index=False, if_exists='append')

# Trabalho Prático - Questões

# 1. Qual é a média da nota em matemática de todos os alunos mineiros?

## Comando SQL:

## SELECT avg (NU_NOTA_MT) as [Nota média Matemática] FROM enemMG

In [27]:
enemMG.NU_NOTA_MT.describe()

count    393872.000000
mean        546.796208
std         115.072018
min           0.000000
25%         451.800000
50%         531.400000
75%         629.800000
max         985.500000
Name: NU_NOTA_MT, dtype: float64

## Resposta: mean

# 2. Qual é a média da nota em Linguagens e Códigos de todos os alunos mineiros?

## Comando SQL:

## SELECT avg (NU_NOTA_LC) as [Nota média de Linguagens e Códigos] FROM enemMG

In [28]:
enemMG.NU_NOTA_LC.describe()

count    414346.000000
mean        531.215550
std          61.324732
min           0.000000
25%         497.400000
50%         536.500000
75%         572.900000
max         770.500000
Name: NU_NOTA_LC, dtype: float64

## Resposta: mean
# 3. Qual é a média da nota em Ciências Humanas dos alunos do sexo FEMININO mineiros?
## Comando SQL:

## SELECT avg (NU_NOTA_CH) as [Nota média de Ciências Humanas e do sexo Feminino] FROM enemMG WHERE TP_SEXO LIKE 'F'

In [30]:
enemMG.loc[enemMG.TP_SEXO=='F'].NU_NOTA_CH.describe()

count    251816.000000
mean        515.127098
std          81.019828
min           0.000000
25%         458.200000
50%         519.300000
75%         572.600000
max         795.000000
Name: NU_NOTA_CH, dtype: float64

## Resposta: mean
# 4. Qual é a média da nota em Ciências Humanas dos alunos do sexo MASCULINO?
## Comando SQL:

## SELECT avg (NU_NOTA_CH) as [Nota média de Ciências Humanas e do sexo Masculino] FROM enemMG WHERE TP_SEXO LIKE 'M'

In [31]:
enemMG.loc[enemMG.TP_SEXO=='M'].NU_NOTA_CH.describe()

count    162530.000000
mean        529.698270
std          85.803672
min           0.000000
25%         470.200000
50%         538.500000
75%         591.500000
max         835.100000
Name: NU_NOTA_CH, dtype: float64

## Resposta: mean
# 5. Qual é a média da nota em Matemática dos alunos do sexo FEMININO que moram na cidade de Montes Claros?
## Comando SQL:

## SELECT avg (NU_NOTA_MT) as [Nota média Matemática / Feminino / Montes Claros] FROM enemMG WHERE TP_SEXO LIKE 'F' and NO_MUNICIPIO_RESIDENCIA LIKE 'Montes Claros'

In [33]:
enemMG.loc[(enemMG.TP_SEXO=='F') & (enemMG.NO_MUNICIPIO_RESIDENCIA=='Montes Claros')].NU_NOTA_MT.describe()

count    7699.000000
mean      525.477672
std       107.081759
min       359.300000
25%       438.750000
50%       505.400000
75%       601.000000
max       913.700000
Name: NU_NOTA_MT, dtype: float64

## Resposta: mean
# 6. Qual é a média da nota em Matemática dos alunos do município de Sabará que possuem TV por assinatura na residência?
## Comando SQL:

## SELECT avg (NU_NOTA_MT) as [Nota média Matemática / TV assinatura / Sabará] FROM enemMG WHERE Q021 LIKE 'B' and NO_MUNICIPIO_RESIDENCIA LIKE 'Sabar%'

In [36]:
enemMG.loc[(enemMG.CO_MUNICIPIO_RESIDENCIA==3156700) & (enemMG.Q021=='B')].NU_NOTA_MT.describe()

count    704.000000
mean     543.292756
std      115.270483
min      359.100000
25%      444.125000
50%      521.850000
75%      622.425000
max      924.700000
Name: NU_NOTA_MT, dtype: float64

## Resposta: mean
# 7. Qual é a média da nota em Ciências Humanas dos alunos mineiros que possuem dois fornos micro-ondas em casa?
## Comando SQL:

## SELECT avg (NU_NOTA_CH) as [Nota média de Ciências Humana / +2 Fornos] FROM enemMG WHERE Q016 LIKE 'C'

In [37]:
enemMG.loc[enemMG.Q016=='C'].NU_NOTA_CH.describe()

count    2205.000000
mean      557.276599
std        90.127265
min         0.000000
25%       498.000000
50%       572.500000
75%       622.200000
max       775.500000
Name: NU_NOTA_CH, dtype: float64

## Resposta: mean
# 8. Qual é a nota média em Matemática dos alunos mineiros cuja mãe completou a pós-graduação?
## Comando SQL:

## SELECT avg (NU_NOTA_MT) as [Nota média Matemática / Mãe com Pós] FROM enemMG WHERE Q002 LIKE 'g'

In [39]:
enemMG.loc[enemMG.Q002=='G'].NU_NOTA_MT.describe()

count    40937.000000
mean       620.007062
std        122.608027
min          0.000000
25%        525.600000
50%        629.200000
75%        710.200000
max        985.500000
Name: NU_NOTA_MT, dtype: float64

## Resposta: mean
# 9. Qual é a nota média em Matemática dos alunos de Belo Horizonte e de Conselheiro Lafaiete?
## Comando SQL:

## SELECT avg (NU_NOTA_MT) as [Nota média Matemática / BH e CL] FROM enemMG WHERE NO_MUNICIPIO_RESIDENCIA in ( 'Conselheiro Lafaiete', 'Belo Horizonte' )

In [40]:
enemMG.loc[(enemMG.NO_MUNICIPIO_RESIDENCIA=='Belo Horizonte') | (enemMG.NO_MUNICIPIO_RESIDENCIA=='Conselheiro Lafaiete')].NU_NOTA_MT.describe()

count    59238.000000
mean       578.039227
std        128.510689
min          0.000000
25%        469.700000
50%        570.500000
75%        674.200000
max        985.500000
Name: NU_NOTA_MT, dtype: float64

## Resposta: mean
# 10. Qual é a nota média em Ciências Humanas dos alunos mineiros que moram sozinhos?
# Comando SQL:

# SELECT avg (NU_NOTA_CH) as [Nota média de Ciências Humana / Moram Só] FROM enemMG WHERE Q005 LIKE '1'

In [42]:
enemMG.loc[enemMG.Q005==1].NU_NOTA_CH.describe()

count    10131.000000
mean       534.457339
std         86.729627
min          0.000000
25%        478.950000
50%        543.200000
75%        595.300000
max        786.600000
Name: NU_NOTA_CH, dtype: float64

## Resposta: mean
# 11. Qual é a nota média em Ciências Humanas dos alunos mineiros cujo pai completou pós-graduação e possuem renda familiar entre R$ 8.982,01 e R$ 9.980,00.
## Comando SQL:

## SELECT avg (NU_NOTA_CH) as [Nota média de Ciências Humana / Etc] FROM enemMG WHERE Q001 LIKE 'G' and Q006 LIKE 'M'

In [44]:
enemMG.loc[(enemMG.Q001=='G') & (enemMG.Q006=='M')].NU_NOTA_CH.describe()

count    1118.000000
mean      586.723166
std        75.330683
min       319.300000
25%       550.425000
50%       598.450000
75%       637.525000
max       784.000000
Name: NU_NOTA_CH, dtype: float64

## Resposta: mean
# 12. Qual é a nota média em Matemática dos alunos do sexo Feminino que moram em Lavras e escolheram “Espanhol” como língua estrangeira?
## Comando SQL:

## SELECT avg (NU_NOTA_MT) as [Nota média Matemática / Feminino / Lavras / Espanhol] FROM enemMG WHERE TP_SEXO LIKE 'F'and NO_MUNICIPIO_RESIDENCIA LIKE 'Lavras' and TP_LINGUA LIKE '1'

In [45]:
enemMG.loc[(enemMG.TP_SEXO=='F') & (enemMG.NO_MUNICIPIO_RESIDENCIA=='Lavras') & (enemMG.TP_LINGUA==1)].NU_NOTA_MT.describe()

count    894.000000
mean     510.809508
std       94.541685
min      359.900000
25%      435.175000
50%      492.200000
75%      570.350000
max      870.200000
Name: NU_NOTA_MT, dtype: float64

## Resposta: mean
# 13. Qual é a nota média em Matemática dos alunos do sexo Masculino que moram em Ouro Preto?
## Comando SQL:

## SELECT avg (NU_NOTA_MT) as [Nota média Matemática / Masculino / Ouro Preto] FROM enemMG WHERE TP_SEXO LIKE 'M'and NO_MUNICIPIO_RESIDENCIA LIKE 'Ouro Preto'

In [46]:
enemMG.loc[(enemMG.TP_SEXO=='M') & (enemMG.NO_MUNICIPIO_RESIDENCIA=='Ouro Preto')].NU_NOTA_MT.describe()

count    1230.000000
mean      555.083252
std       114.936273
min       359.000000
25%       461.250000
50%       540.500000
75%       638.650000
max       903.900000
Name: NU_NOTA_MT, dtype: float64

## Resposta: mean
# 14. Qual é a nota média em Ciências Humanas dos alunos surdos?
## Comando SQL:

## SELECT avg (NU_NOTA_CH) as [Nota média de Ciências Humana / Surdez] FROM enemMG WHERE IN_SURDEZ LIKE '1'

In [48]:
enemMG.loc[enemMG.IN_SURDEZ==1].NU_NOTA_CH.describe()

count    108.000000
mean     435.387963
std       61.942581
min      330.500000
25%      395.100000
50%      426.350000
75%      471.250000
max      616.500000
Name: NU_NOTA_CH, dtype: float64

## Resposta: mean
# 15. Qual é a nota média em Matemática dos alunos do sexo FEMININO, que moram em Belo Horizonte, Sabará, Nova Lima e Betim e possuem dislexia?
## Comando SQL:

# SELECT avg (NU_NOTA_MT) as [Nota média Matemática / Etc] FROM enemMG WHERE NO_MUNICIPIO_RESIDENCIA in ( 'Betim', 'Belo Horizonte', 'Sabar%', 'Nova Lima' ) and TP_SEXO LIKE 'F' and IN_DISLEXIA LIKE '1'

In [49]:
enemMG.loc[((enemMG.CO_MUNICIPIO_RESIDENCIA==3156700) | (enemMG.NO_MUNICIPIO_RESIDENCIA=='Belo Horizonte') 
                                                      | (enemMG.NO_MUNICIPIO_RESIDENCIA=='Nova Lima') 
                                                      | (enemMG.NO_MUNICIPIO_RESIDENCIA=='Betim')) & 
           (enemMG.TP_SEXO=='F') & (enemMG.IN_DISLEXIA==1)].NU_NOTA_MT.describe()

count     31.000000
mean     582.193548
std      131.003641
min      363.600000
25%      474.250000
50%      604.400000
75%      672.750000
max      789.100000
Name: NU_NOTA_MT, dtype: float64

## Resposta: mean