# Prática - Modulo 1

**Objetivos**

Exercitar os seguintes conceitos trabalhados no Módulo:
- Extração de Dados;
- Desenvolvimento de crawlers;
- Transformações e análise de dados.

**Enunciado**

Você é uma pessoa da área de Engenheira de Dados em uma empresa de consultoria educacional. Os consultores da empresa vão auxiliar um grupo educacional de ensino médio a desenvolver seu planejamento pedagógico e suas metodologias de ensino. Nesse sentido, eles fizeram a você uma requisição de preparar dados do ENEM para análise.
Você deve, portanto, extrair os dados do ENEM, selecionar apenas os alunos de Minas Gerais e apresentar algumas análises que vão ajudar o trabalho dos consultores.

**Atividades**

Você deverá desempenhar as seguintes atividades:
1. Extrair, de maneira programática, os dados do ENEM 2019.
2. Filtrar apenas os alunos do estado de Minas Gerais.
3. Salvar um arquivo CSV com os dados já limpos em seu computador.
4. Escrever os dados numa tabela relacional em uma base de dados de sua escolha (MySQL, PostgreSQL, SQL Server etc.).

**Respostas Finais**

Após a realização da atividade, utilize linguagem SQL ou uma linguagem de programação de sua escolha para responder às questões objetivas.

## Imports

In [1]:
!pip install datatable



In [2]:
import numpy as np
import pandas as pd
import warnings
import os
from datatable import dt, f

warnings.filterwarnings('ignore')

## Importando dataset

In [3]:
PATH_URL = 'http://download.inep.gov.br/microdados/'
FILENAME = 'microdados_enem_2019.zip'
DF_FILE = 'DADOS/MICRODADOS_ENEM_2019.csv'

In [4]:
# Obtendo dados
if (os.path.exists(FILENAME)):
  print('Arquivo já foi baixado')
else:
  !wget $DADOS_URL + $FILENAME

Arquivo já foi baixado


In [5]:
# Descompactar o arquivo zip
if (os.path.exists(DF_FILE)):
  print("Arquivo já descompactado")
else:
  if (os.path.exists(FILENAME)):
    !unzip -o $FILENAME  
  else:
    print('Arquivo não existe')

Arquivo já descompactado


## Carregar e filtrar dados

In [6]:
# Carregando o dataset completo usando o pacote datatable
df = dt.fread('DADOS/MICRODADOS_ENEM_2019.csv', sep=';', encoding='latin-1')

In [7]:
# Filtrando apenas alunos do estado de Minas Gerais
df = df[f.SG_UF_RESIDENCIA == 'MG', :]

In [8]:
# Convertendo para dataframe Pandas
df = df.to_pandas()

In [9]:
print(f'Dataframe filtrado possui {df.shape[0]} linhas e {df.shape[1]} colunas')

Dataframe filtrado possui 538896 linhas e 136 colunas


In [10]:
df.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,CO_MUNICIPIO_NASCIMENTO,NO_MUNICIPIO_NASCIMENTO,CO_UF_NASCIMENTO,SG_UF_NASCIMENTO,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,TP_ENSINO,IN_TREINEIRO,CO_ESCOLA,CO_MUNICIPIO_ESC,NO_MUNICIPIO_ESC,CO_UF_ESC,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,TP_SIT_FUNC_ESC,IN_BAIXA_VISAO,IN_CEGUEIRA,IN_SURDEZ,IN_DEFICIENCIA_AUDITIVA,IN_SURDO_CEGUEIRA,IN_DEFICIENCIA_FISICA,IN_DEFICIENCIA_MENTAL,IN_DEFICIT_ATENCAO,IN_DISLEXIA,IN_DISCALCULIA,IN_AUTISMO,IN_VISAO_MONOCULAR,...,TX_RESPOSTAS_CH,TX_RESPOSTAS_LC,TX_RESPOSTAS_MT,TP_LINGUA,TX_GABARITO_CN,TX_GABARITO_CH,TX_GABARITO_LC,TX_GABARITO_MT,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q001,Q002,Q003,Q004,Q005,Q006,Q007,Q008,Q009,Q010,Q011,Q012,Q013,Q014,Q015,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,1,1,3170206.0,Uberlândia,31.0,MG,1,1,1,,False,,,,,,,,,False,False,False,False,False,False,False,False,False,False,False,False,...,ECBCDBCBCBDCDBCEEECACABBEEBCBABCBEDEACBBAAECB,BDABC99999BEAAAEDDDEEACEACBCCCECCCCBCDACADAEBC...,DADDCEEADBECABCDCDBCCDAEDACDDBBBAABDBEADDEEAB,False,BEEAAEBEEBADEADDADAEABCEDDDBCBCBCCACBCDADCCEB,BACCCBABBADCBCEEEBCACACEEDBCCADBEADBADBBBACDB,BDABEABCADBCBAADDBECDAAECDAECBECBCCDEEAAADDBBC...,BEDEEEAADBEBACABCDBABECECACADCBDCCEDCDABECDDD,1.0,180.0,180.0,160.0,180.0,160.0,860.0,E,F,B,D,3,I,A,C,D,B,A,B,A,B,A,B,A,A,D,A,A,D,B,B,B
1,190001009861,2019,3111705,Canaã,31,MG,20,M,1,1,1,1702109.0,Araguaína,17.0,TO,1,2,1,,False,,,,,,,,,False,False,False,False,False,False,False,False,False,False,False,False,...,,,,True,,,,,,,,,,,,B,B,A,A,5,D,A,B,C,A,B,B,A,A,A,A,A,A,B,A,A,C,A,A,A
2,190001021622,2019,3104007,Araxá,31,MG,24,M,1,2,1,3104007.0,Araxá,31.0,MG,1,5,1,1.0,False,,,,,,,,,False,False,False,False,False,False,False,False,False,False,False,False,...,,,,True,,,,,,,,,,,,C,C,B,B,3,F,A,B,D,A,A,B,A,B,B,A,A,A,C,B,A,C,A,A,B
3,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,1,1,3118304.0,Conselheiro Lafaiete,31.0,MG,1,13,1,,False,,,,,,,,,False,False,False,False,False,False,False,False,False,False,False,False,...,,,,True,,,,,,,,,,,,G,D,D,D,3,P,B,D,D,C,A,B,B,B,A,B,A,B,B,A,A,D,A,D,B
4,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,3,1,3162401.0,São João da Ponte,31.0,MG,1,6,1,1.0,False,,,,,,,,,False,False,False,False,False,False,False,False,False,False,False,False,...,CBCAADBECEEABCAAACBEEDBEDADBEACDBBCCBECADACAC,BBCEA99999CBDBAECEEACDDCDEDBBCCDECDAADDBECBECA...,BCAECECADCABCEABCCCCAECCCCBACCBAECEDCBACCCBDC,False,BEEAAEBEEBADEADDADAEABCEDDDBCBCBCCACBCDADCCEB,CBABADBBCEEEBCBADCBEEDBBEADBBACDBBACCCCADACAC,BBEDABDACACBABAECBBCCADCEBDBBCDDEEAAADDBECDECA...,BEDEEEAADBEBACABCDBABECECACADCBDCCEDCDABECDDD,1.0,160.0,200.0,140.0,160.0,140.0,800.0,B,D,B,B,3,D,A,B,D,B,B,B,A,A,A,A,A,A,B,B,A,C,A,B,A


## Salvar arquivo comprimido

In [11]:
DF_FILTRADO = 'enem_2019_MG.csv'
DF_SALVO =  'enem_2019_MG.zip'

In [12]:
options = {'method': 'zip',
           'archive_name': DF_FILTRADO}
df.to_csv(DF_SALVO, index=False, compression=options)  

## Carregando Dataset

In [13]:
df = pd.read_csv(DF_SALVO)

In [14]:
print(f'Dataframe filtrado possui {df.shape[0]} linhas e {df.shape[1]} colunas')

Dataframe filtrado possui 538896 linhas e 136 colunas


## Respondendo as questões propostas

In [15]:
# Pergunta 1 - Qual é a média da nota em matemática de todos os alunos mineiros?
np.round(df['NU_NOTA_MT'].mean(),1)

546.8

In [16]:
# Pergunta 2 - Qual é a média da nota em Linguagens e Códigos de todos os alunos mineiros?
np.round(df['NU_NOTA_LC'].mean(),1)

531.2

In [17]:
# Pergunta 3 - Qual é a média da nota em Ciências Humanas dos alunos do sexo FEMININO mineiros?
np.round(df.query('TP_SEXO == "F"')['NU_NOTA_CH'].mean(),1)

515.1

In [18]:
# Pergunta 4 - Qual é a média da nota em Ciências Humanas dos alunos do sexo MASCULINO?
np.round(df.query('TP_SEXO == "M"')['NU_NOTA_CH'].mean(),1)

529.7

In [19]:
# Pergunta 5 - Qual é a média da nota em Matemática dos alunos do sexo FEMININO que moram na cidade de Montes Claros?
np.round(df.query('TP_SEXO == "F" and NO_MUNICIPIO_RESIDENCIA == "Montes Claros"')['NU_NOTA_MT'].mean(),1)

525.5

In [20]:
# Pergunta 6 - Qual é a média da nota em Matemática dos alunos do município de Sabará que possuem TV por assinatura na residência?
np.round(df.query('NO_MUNICIPIO_RESIDENCIA == "Sabará" and Q021 == "B"')['NU_NOTA_MT'].mean(),1)

543.3

In [21]:
# Pergunta 7 - Qual é a média da nota em Ciências Humanas dos alunos mineiros que possuem dois fornos micro-ondas em casa?
np.round(df.query('Q016 == "C"')['NU_NOTA_CH'].mean(),1)

557.3

In [22]:
# Pergunta 8 - Qual é a nota média em Matemática dos alunos mineiros cuja mãe completou a pós-graduação?
np.round(df.query('Q002 == "G"')['NU_NOTA_MT'].mean(),1)

620.0

In [23]:
# Pergunta 9 - Qual é a nota média em Matemática dos alunos de Belo Horizonte e de Conselheiro Lafaiete?
np.round(df.query('NO_MUNICIPIO_RESIDENCIA in ("Conselheiro Lafaiete","Belo Horizonte")')['NU_NOTA_MT'].mean(),1)

578.0

In [24]:
# Pergunta 10 - Qual é a nota média em Ciências Humanas dos alunos mineiros que moram sozinhos?
np.round(df.query('Q005 == 1')['NU_NOTA_CH'].mean(),1)

534.5

In [25]:
# Pergunta 11 - Qual é a nota média em Ciências Humanas dos alunos mineiros cujo pai completou pós-graduação e possuem renda familiar entre R$ 8.982,01 e R$ 9.980,00.
np.round(df.query('Q001 == "G" and Q006 == "M"')['NU_NOTA_CH'].mean(),1)

586.7

In [26]:
# Pergunta 12 - Qual é a nota média em Matemática dos alunos do sexo Feminino que moram em Lavras e escolheram “Espanhol” como língua estrangeira?
np.round(df.query('TP_SEXO == "F" and NO_MUNICIPIO_RESIDENCIA == "Lavras" and TP_LINGUA == 1')['NU_NOTA_MT'].mean(),1)

510.8

In [27]:
# Pergunta 13 - Qual é a nota média em Matemática dos alunos do sexo Masculino que moram em Ouro Preto?
np.round(df.query('TP_SEXO == "M" and NO_MUNICIPIO_RESIDENCIA == "Ouro Preto"')['NU_NOTA_MT'].mean(),1)

555.1

In [28]:
# Pergunta 14 - Qual é a nota média em Ciências Humanas dos alunos surdos?
np.round(df.query('IN_SURDEZ == 1')['NU_NOTA_CH'].mean(),1)

435.4

In [29]:
# Pergunta 15 - Qual é a nota média em Matemática dos alunos do sexo FEMININO, que moram em Belo Horizonte, Sabará, Nova Lima e Betim e possuem dislexia?
np.round(df.query('TP_SEXO == "F" and NO_MUNICIPIO_RESIDENCIA in ("Belo Horizonte", "Sabará", "Nova Lima", "Betim") and IN_DISLEXIA == 1')['NU_NOTA_MT'].mean(),1)

582.2

## Carregando em um BD

In [30]:
import sqlite3

In [31]:
conn = sqlite3.connect("./enem_mg.db")

In [32]:
df.to_sql('enem_2019', con=conn, if_exists='append')

In [33]:
cur = conn.cursor()

In [34]:
# Pergunta 1 - Qual é a média da nota em matemática de todos os alunos mineiros?
pd.read_sql_query('SELECT NU_NOTA_MT FROM enem_2019', conn).mean()

NU_NOTA_MT    546.796208
dtype: float64

In [35]:
conn.close()