# Importando Bibliotecas

In [12]:
import pandas as pd
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 1000)
import dask.dataframe as dd

# Lendo Dataset

O conjunto de dados do Enem de 2019 é bem grande e pesado tendo aproximadamente 3gb de informações. Ao tentarmos ler esse arquivo com o pandas toda essa informação vai ser alocada diretamente na memoria e como estamos falando de 3gb de dados isso pode ser uma tortura para alguns computadores gerando ate mesmo travamentos. Uma alternativa para esse problema e utilizar o [Dask](https://docs.dask.org/en/latest/) uma biblioteca flexível para computação paralela em Python. Ele atua justamente onde o pandas falha devido ao tamanho dos dados ou velocidade de computação.

In [2]:
enem_df = dd.read_csv("MICRODADOS_ENEM_2019.csv", sep=";", encoding="latin1")

# Filtrando o conjunto de dados
Como nosso objetivo e analisar apenas o desempenho do estado de Goiás vamos criar um dataframe contendo apenas as informações relacionadas ao estado de Goiás.

In [3]:
go_df = enem_df[enem_df["SG_UF_RESIDENCIA"] == "GO"]

# Exportando conjunto de dados
Para que não tenhamos que realizar esse procedimento novamente vamos exportar o dataframe criado para o formato .csv. Para isso vamos utilizar a função to_csv() do Dask, mas aqui e interessante passar alguns parâmetros como *single_file=True* e *index=False*:
 
   * **single_file=True**: vai gravar todo o dataframe em um único arquivo .csv.
   * **index=False**: vai prevenir que não tenhamos uma coluna **"Unnamed: 0"** quando lermos o DataFrame.


In [4]:
go_df.to_csv("enem_goias.csv", single_file=True, index=False)

['/home/danilo/Projetos/enem_2019/DADOS/enem_goias.csv']

Agora podemos abrir o conjunto de dados filtrado utilizando o pandas.

In [5]:
enem_go_df = pd.read_csv("enem_goias.csv")

In [6]:
enem_go_df.sample(5)

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
14935,190001790055,2019,5221601,Uruaçu,52,GO,21,F,1,3,...,B,A,A,B,B,A,E,A,B,B
101901,190004487048,2019,5205802,Corumbá de Goiás,52,GO,18,F,1,3,...,A,A,A,B,A,A,C,A,A,A
26554,190002054862,2019,5219738,Santo Antônio de Goiás,52,GO,19,M,1,3,...,B,A,A,C,A,A,E,B,C,B
36740,190002869493,2019,5221403,Trindade,52,GO,16,F,1,1,...,B,A,B,C,A,B,D,B,B,B
31761,190002075870,2019,5208707,Goiânia,52,GO,24,M,1,2,...,A,A,A,B,A,A,D,A,A,B


In [7]:
enem_go_df.shape

(170147, 136)