# Treinamento de Data Cleaning & Manipulation

Obs: Devido a limitação da minha máquina, optei por utilizar o kaggle para apresentar esta aula. Mas não foi possível subir o dataset do enem de 2017. Deste modo, a parte de estudar um pouco sobre as falhas não deveser incluida no dataset de 2016.

![Alpha](https://cdn-images-1.medium.com/max/800/1*wdXqc19MFEcIplg5Pzazuw.png)

Ola, meu nome é Felipe Sibuya. Atualmente sou membro do @ __[Grupo Turing](https://www.facebook.com/grupoturing.poliusp/)__, sendo responsável da área de Comunidade do grupo. Durante 1 ano dentro do grupo, tive a oportunidade de participar da organização do workshop de libras e do Hackaturing.

## Introdução

Na aula de hoje vou apresentar uma introdução ao Data Cleaning & Manipulation. Mas o que é Data Cleaning & Manipulation?


### Vamos lembrar sobre o Data Science Pipeline
  1. Problem Understanding / Scope Definition
  2. Goal Definition and Metrics Setting
  3. Determine the required data
  4. Data Acquisition
  5. Data Cleaning & Manipulation
  6. Exploratory Data Analysis (E.D.A.)
  7. Feature Engineering
  8. Build and Evaluate your model
  9. Result Interpretation & Reporting/Data Storytelling
  10. Deployment
  11. Monitoring & Maintenance
  
Data cleaning & Manipulation é o 5° passo que todo DS deve realizar em seu projeto. Os objetivos de realizar tal etapa são: 
 - Entender os dados coletados
 - Estruturar os dados de maneira manipulável
 - Encontrar e tratar informações incompletas, erradas e inconsistentes
 - Tratar types, palavras e categorias
 - Juntar datasets
 
 
 ![Alpha](https://thumbor.forbes.com/thumbor/960x0/https%3A%2F%2Fblogs-images.forbes.com%2Fgilpress%2Ffiles%2F2016%2F03%2FTime-1200x511.jpg)
 
 ![Alpha](https://thumbor.forbes.com/thumbor/960x0/https%3A%2F%2Fblogs-images.forbes.com%2Fgilpress%2Ffiles%2F2016%2F03%2FLeast-Enjoyable4-1200x511.jpg)
 
  ![Alpha](https://pbs.twimg.com/media/DbzG1kPX0AEFHdt.png)

## O que você precisa para fazer este notebook em casa?
 - __[Microdados Enem 2016](http://download.inep.gov.br/microdados/microdados_enem2016.zip)__
 - Um PC com pelo menos 8 Gb de memória RAM
 - Jupyter ou Jupyter Lab (Recomendo baixar o __[Anaconda](https://www.anaconda.com/distribution/)__)
 - Tempo


## Vamos começar

## Pandas
Pandas é uma biblioteca open source, de alta performace, fácil de trabalhar com estruturas de dados e análise de dados para Python.

__[Documentação](https://pandas.pydata.org/)__

In [None]:
import pandas as pd


# Serão importados somente para suporte
import numpy as np
import matplotlib.pyplot as plt

### Carregando Dataset

Após você adquirir os dados para o projeto, você deve importar para utiliza-los. A biblioteca pandas tem suporte para a leitura de diversos tipos de arquivos:
 - __[CSV](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)__
 - __[Excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html#pandas.read_excel)__
 - __[JSON](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html#pandas.read_json)__
 - __[SQL](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql.html#pandas.read_sql)__
 - __[HTML](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_html.html#pandas.read_html)__

In [None]:
import os
os.listdir('/kaggle/input')

arq=pd.read_csv("/kaggle/input/microdados_enem_2016_coma.csv", engine="c", error_bad_lines=False,
                   encoding = "latin", sep=',')

In [None]:
arq=pd.read_csv("/kaggle/input/microdados_enem_2016_coma.csv", engine="python", 
                   encoding = "latin", sep=',',nrows=1000000, error_bad_lines=False)

   - engine: Pode ser utilizado Python ou c. Python é mais lento na leitura dos dados, mas em compensação ele é mais consegue completar de modo mais completo.
   - encoding: Padrão de codificação dos caracteres. O mais usual nos arquivos é o UTF-8. __[Standard Encodings](https://docs.python.org/3/library/codecs.html#standard-encodings)__
   - sep: Delimitador de texto. Por padrão é ','.

### Entendendo o seu dataset
Agora que criamos o nosso Dataframe, vamos entender os nossos dados. Vamos utilizar as seguintes funções:
 - __[pandas.DataFrame.info](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html)__
 - __[pandas.DataFrame.head](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html)__
 - __[pandas.DataFrame.describe](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html)__


In [None]:
arq.info()

In [None]:
arq.head()

In [None]:
arq.describe()

Devido ao alto volume de colunas (137), as funções foram otimizadas para não mostrar todas elas :(

Mas é possível alterar o número de linhas e colunas mostradas :)

In [None]:
arq.info(verbose=True, null_counts=True)
#Por padrão, ele só mostra todos os elementos se o número de colunas for menor que pandas.options.display.max_info_columns

In [None]:
pd.set_option('display.max_rows', 500) # Número máximo de linhas mostradas
pd.set_option('display.max_columns', 500) # Número máximo de colunas mostradas

Para mais informações sobre __[pandas.set_option](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.set_option.html)__.

In [None]:
arq.head() #Por padrão n=5, ou seja, o número de linhas mostradas, mas da para se alterar nos argumentos

In [None]:
arq.tail()

In [None]:
arq.describe(include='all')

In [None]:
arq

## Filtering & Slicing

Filtering e Slicing ("Filtragem e fatiamento") são técnicas usadas para isolar parte do dataframe, podendo ser linhas, colunas e células. Muito comum queremos usar parte do nossos dados, dadas algumas condições específicas, para que podemos estudá-las. O Pandas apresenta ferramentas para realizar tais funções.

### Diferença entre Series e Dataframe

Tanto Series quanto Dataframe são objetos do Pandas.
 - *Series* nada mais é que um array de 1 dimensão. Você pode considerar um Series também como uma coluna de uma tabela
 - Um *DataFrame* é simplesmente um conjunto de Series. Trata-se de uma estrutura de dados de 2 dimensões — colunas e linhas — que transforma os dados em uma bela tabela.


In [None]:
arq.NU_INSCRICAO.head()

In [None]:
type(arq.NU_INSCRICAO)

In [None]:
arq["NU_INSCRICAO"].head()

In [None]:
type(arq["NU_INSCRICAO"])

In [None]:
arq[["NU_INSCRICAO"]].head()

In [None]:
type(arq[["NU_INSCRICAO"]])

### Slicing
No Pandas há 2 maneiras de separar dados, baseando-se nos indexes e colunas. Você pode separar escolhendo as colunas que você deseja ou separar utilizando os métodos .loc e .iloc.

Para começar, irei optar pelo de escolha das colunas. Vamos pensar que eu gostaria de somente saber o número de inscrição e o estado de moradia do candidato do Enem.

In [None]:
esta_candidato=arq[['NU_INSCRICAO','SG_UF_RESIDENCIA']].head(10)

In [None]:
esta_candidato

#### .iloc
O método .illoc é utilizado somente para a escolha de elementos utilizando valores numéricos nas posições X, Y ((x+1)° linha, (y+1)° coluna). Como ele funciona:

df.iloc[linhas, colunas]


In [None]:
arq.iloc[0] # Devolve todos os elementos da linha 0 na forma de Pandas.Series

In [None]:
arq.iloc[[0]] # Devolve todos os elementos da linha 0 na forma de Pandas.Dataframe

In [None]:
arq.iloc[0:5,5]# Devolve os elementos 0 a 4 da coluna 5

In [None]:
arq.iloc[0:5,0:6]

In [None]:
arq.iloc[[0,3,4],[0,1,5]]

#### .loc
O recurso .loc é mais versátil que o .iloc, pois além de números, é possível escolher as colunas por sua nomenclatura. Como ele funciona:

df.loc[linhas, colunas]

In [None]:
arq.loc[[0]] # O que vale para o .iloc vale para o .loc

In [None]:
arq.loc[0:5,0] # Verificamos que as colunas não podem ser dados de forma numérica

In [None]:
arq.loc[0:5,"NU_INSCRICAO"] 

In [None]:
arq.head()

In [None]:
# setando um index para podermos trabalhar com o nome das linhas
arq_copy=arq.set_index("NU_INSCRICAO")

#verificando a alteração
arq_copy.head()

In [None]:
arq.head() #verificamos que o df inicial não sofreu alterações

In [None]:
arq_copy.loc[160000036736]
# Como NU_INSCRICAO é um inteiro, não é necessário colocar entre ""

In [None]:
arq_copy.loc[[160000036736,160000063645,160000065051,160000003846],["NU_ANO","TP_LINGUA"]]

### Filtering
Agora que sabemos isolar partes do dataset por suas localizações, vamos isolar os dados baseados em condições e caracteríticas. Uma vez que os dados carregam muitos grupos de dados, as vezes é interessante estuda-los de forma individual. No Pandas há ferramentas internas capazes de realizar tal tarefa.

Que tal vermos os resultados dos alunos em Matemática?

In [None]:
arq.NU_NOTA_MT.mean() #Verificamos a nota média de Matemática dos estudantes

In [None]:
arq[arq["NU_NOTA_MT"]>900].NU_NOTA_MT.mean() 

In [None]:
# é o mesmo que realizar
arq.loc[(arq['NU_NOTA_MT']) > 900].NU_NOTA_MT.mean()

In [None]:
arq.loc[(arq['NU_NOTA_MT']) >= 900].head()
#Trocar por .shpae para ver o número de pessoas que tiraram mais de 900

---
#### Vamos realizar um estudo das notas de Matemática por algumas UF's

In [None]:
# São Paulo
arq[arq["SG_UF_RESIDENCIA"]=="SP"].NU_NOTA_MT.mean() 

In [None]:
# Rio de Janeiro
arq[arq["SG_UF_RESIDENCIA"]=="RJ"].NU_NOTA_MT.mean() 

In [None]:
# Alagoas
arq[arq["SG_UF_RESIDENCIA"]=="AL"].NU_NOTA_MT.mean() 

In [None]:
# Amazonas
arq[arq["SG_UF_RESIDENCIA"]=="AM"].NU_NOTA_MT.mean() 

A média nunca é um bom parâmetro para ser analisada únicamente. Vamos adicionar os quartis e o desvio padrão. Aproveitando, por que não avaliamos todas as notas?

In [None]:
# São Paulo
arq[arq["SG_UF_RESIDENCIA"]=="SP"][["NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC",
                                    "NU_NOTA_MT","NU_NOTA_REDACAO"
                                   ]].describe() 

Se vamos fazer uma análise de sempre os mesmos dados, ou seja, das notas, por que não fazemos um dataframe com elas?

In [None]:
arq_notas=arq[["SG_UF_RESIDENCIA","NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC",
                "NU_NOTA_MT","NU_NOTA_REDACAO"]]
arq_notas.head()

In [None]:
#São Paulo
arq_notas[arq_notas["SG_UF_RESIDENCIA"]=="SP"].describe() 

In [None]:
#São Paulo
arq_notas[arq["SG_UF_RESIDENCIA"]=="SP"].describe() 

# Como os dois dataframes compartilham o mesmo número de linhas, é possível referenciar
# no primeiro dataframe a condicionaç

In [None]:
# Amazonas
arq_notas[arq_notas["SG_UF_RESIDENCIA"]=="AM"].describe() 

---
Analisando os dados, verificamos que temos algumas notas 0. Podemos ter 2 dúvidas iniciais sobre esses dados:

1. Será que apresenta muitos 0's no dataset?
2. Será que esses 0's pressionam significantemente a média para baixo?

In [None]:
# Para responder a pergunta 1
arq_elementos_nulos=arq[(arq.NU_NOTA_CN==0)|(arq.NU_NOTA_CH==0)|
                       (arq.NU_NOTA_LC==0)|(arq.NU_NOTA_MT==0)|
                       (arq.NU_NOTA_REDACAO==0)]

arq_elementos_nulos2=arq[(arq.NU_NOTA_CN==0)&(arq.NU_NOTA_CH==0)&
                       (arq.NU_NOTA_LC==0)&(arq.NU_NOTA_MT==0)&
                       (arq.NU_NOTA_REDACAO==0)]

In [None]:
print("apresenta 1 termo nulo : ",len(arq_elementos_nulos), ', todos nulos: ',len(arq_elementos_nulos2), ", total de linhas: ",len(arq))
#print("apresenta 1 termo nulo, todos nulos, total de linhas")

Opa, somente 3 pessoas tem 0's em todas as matérias? Só 36367 tem nota nula em alguma matéria?  O que aconteceu?

Pesquisando rápido na internet, cheguei a seguinte noticia:
***
"O segundo dia de prova do Exame Nacional do Ensino Médio (Enem) 2017, ocorrido neste domingo (12), teve 32% de abstenção – foram 2,1 milhões de candidatos ausentes, com 6,7 milhões de inscrições confirmadas.Esse é o maior índice de abstenção desde 2009, quando foram registradas 37,7% de ausência.

No total, 580 pessoas foram eliminadas no segundo dia, sendo que 578 foram por descumprimento das regras gerais do edital e duas por recusa da coleta do dado biométrico. No primeiro dia, foram 273 eliminações, somando 853 no total. Em 2016, o exame teve 3.942 eliminações ao final do primeiro dia e 4.780 no segundo."

Fonte: __[Segundo dia do Enem 2017 tem 32% de abstenção e 580 eliminados](https://guiadoestudante.abril.com.br/enem/segundo-dia-do-enem-2017-tem-32-de-abstencao-e-580-eliminados/)__
***

Podemos verificar que tem inconsistências nos dados, vamos voltar aos dados do inicio para estudar este problema antes de prosseguir na análise.

## Estudo de inconsistência de valores


In [None]:
arq[["SG_UF_RESIDENCIA","NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC",
                "NU_NOTA_MT","NU_NOTA_REDACAO"]].info()

Olha aqui... Podemos ver que apesar de termos 1000000 na nossa base, não temos 1000000 de notas não nulas nas matéria. Conclusões?

Será que é mera conincidência termos o mesmo número de dados faltantes em NU_NOTA_CN com NU_NOTA_MT e termos também em NU_NOTA_CH com NU_NOTA_LC e NU_NOTA_REDACAO?

***

Na verdade não, tem uma razão. O Enem 2017 foi o primeiro a ter LC, CH e Redação no primeiro dia, enquanto CN e MT ficaram no segundo dia. É possível ter como hipótese que os dados faltantes são das pessoas que não fizeram a prova, já que os dados com 0 podem ser de pessoas que foram eliminadas do processo. É preciso investigar.

Vamos começar com os dados nulos.

In [None]:
arq_d2=arq[(arq.TP_PRESENCA_MT==0)&(arq.TP_PRESENCA_CN==0)]
arq_d22=arq[(arq.TP_PRESENCA_MT==2)|(arq.TP_PRESENCA_CN==2)]
arq_d1=arq[(arq.TP_PRESENCA_CH==0)&(arq.TP_PRESENCA_LC==0)]
arq_d11=arq[(arq.TP_PRESENCA_CH==2)|(arq.TP_PRESENCA_LC==2)]

print(len(arq_d2)+len(arq_d22), len(arq_d1))
print(1000000-len(arq_d2)-len(arq_d22), 1000000-len(arq_d1)-len(arq_d11))

Podemos ver que mesmo tentando tirar os alunos que foram eliminados e os que não realizaram a prova, não conseguimos chegar ao valor de notas não nulas. O que fazer?

Vamos avaliar quais são esses elementos:

In [None]:
arq_ver=arq[(((arq.TP_PRESENCA_MT==1)&(arq.TP_PRESENCA_CN==1)))]
arq_d23=arq_ver[arq_ver.NU_NOTA_CN.isnull()]
arq_d23.shape

Pera, não há nenhum candidato que fez a prova e não foi eliminado que apresenta nota nula.... Hm... O que acontece?

Vamos investigar outro ponto. Vamos ver qual a diferença entre o número de pessoas que fizeram a prova e o número de notas não nulas:

1. 740413-740391=22
2. 774372-774350=22

Podemos verificar que a diferença é igual para ambos os dias. Agora falta o porque.

In [None]:
arq[["TP_PRESENCA_CN",
"TP_PRESENCA_CH",
"TP_PRESENCA_LC",
"TP_PRESENCA_MT"]].info()

Aqui está. Podemos verificar que temos 22 dados faltando na presença de alunos. Estes 22 são os candidatos que estavam faltando na nossa avaliação anterior. 

Como não sabemos como foram realizadas tais medições, não é possível saber o porque destes erros nesta base de dados :(

Algumas análises que podemos realizar para verificar possíveis motivos deste erro são:
 - Verificar em qual aplicação apresenta estes erros
 - Verificar a localidade do erro
 - Verificar se são candidatos com condições especiais
 - ...
 

---
## Trabalhando com valores faltantes

Agora que entendemos um pouco sobrea complexidade dos valores nulos, vamos aprender como trata-los.

Existe 2 funções muito usadas para esta situação, .dropna() e .fillna().
 - __[Fillna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html)__:: neste método os valores faltantes são completados com algum valor. Podem ser utilizados a média, a mediana ou um valor fixo.
 - __[Dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)__: Neste método as linhas dos valores faltantes são retiradas. Há a opção de retirar somente valores faltantes que estejam em colunas específicas.
 
A escolha entre estas 2 ferramentas varia muito em relação ao tamanho do seu dataset, as caractrísticas das colunas e o type dos elementos. 


In [None]:
arq_limpeza=arq #estou clonando o dataframe arq (inicial sem mudança) para arq_limpeza

### Dropna
Vamos retirar os valores faltantes das notas. Como sabemos os motivos da maioria e aqueles 22, que não estão completos, são poucos perto do restante, podemos retirar nesta situação. Assim podemos avaliar quais estudantes realizaram os dois dias de provas e podemos tirar algumas conclusões sobre eles.

In [None]:
print(arq_limpeza.shape)
arq_limpeza=arq_limpeza.dropna(subset=["NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC",
                "NU_NOTA_MT","NU_NOTA_REDACAO"])
print(arq_limpeza.shape)

Lembra da analise de notas? Vamos realizar novamente para reficiar se as médias mudaram.

In [None]:
arq_notas2=arq_limpeza[["SG_UF_RESIDENCIA","NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC",
                "NU_NOTA_MT","NU_NOTA_REDACAO"]]

In [None]:
# São Paulo Original
arq_notas[arq_notas["SG_UF_RESIDENCIA"]=="SP"].describe() 

In [None]:
#São Paulo com Dropna
arq_notas2[arq_notas2["SG_UF_RESIDENCIA"]=="SP"].describe() 

In [None]:
# Amazonas Original
arq_notas[arq_notas["SG_UF_RESIDENCIA"]=="AM"].describe() 

In [None]:
# Amazonas com Dropna
arq_notas2[arq_notas2["SG_UF_RESIDENCIA"]=="AM"].describe() 

### Fillna
Agora vamos completar valores. Queremos avaliar o rendimento por escola. No CO_ESCOLA os alunos do 3° escolhem por qual escola estão prestando o Enem, sendo este valor um identificador da escola no Censo Escolar . O restante dos candidatos, sejam eles treineiros ou fora do terceiro ano do ensino médio, tem nesta coluna o valor faltando.

Para realizar esta avalição, tenho o objetivo de também avaliar os alunos que estão fora do 3° ano do ensino médio. Vamos supor que estes candidatos recebam o código -100 de identificação da escola (avaliando é possível perceber que todos os códigos já registrados são números positivos, logo não há o risco de conflito).



In [None]:
len(arq[arq["CO_ESCOLA"]<0])

In [None]:
arq_limpeza=arq.copy() #estou clonando o dataframe arq (inicial sem mudança) para arq_limpeza

In [None]:
arq_limpeza["CO_ESCOLA"]=arq_limpeza["CO_ESCOLA"].fillna(-100)

In [None]:
co_escolas=arq_limpeza["CO_ESCOLA"].unique()
print(type(co_escolas))
print("número de escolas",len(co_escolas))
print("número de alunos sem fillna",len(arq_limpeza[arq_limpeza["CO_ESCOLA"]>0]["CO_ESCOLA"]))

In [None]:
arq_limpeza[arq_limpeza["CO_ESCOLA"]==-100]

Completada as escolas, vamos ver qual é a média dos candidatos por escola.


## Group By
Utilizando o Pandas, nós podemos fazer operações baseadas em agrupamentos de características. __[Groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)__

Utilizando o dataset arq_limpeza, podemos verificar a média das notas dos candidatos por escola.

In [None]:
arq_agrupamento=arq_limpeza.groupby('CO_ESCOLA')[["NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC",
                "NU_NOTA_MT","NU_NOTA_REDACAO"]].mean()
arq_agrupamento

## Criação de novas colunas
Frequentemente após algumas mudanças nos datasets é verificado a falta de alguns dados para resolver os problemas centrais. Os dados que buscamos, caso possam ser retirados de outras features, podem ser tranquilamente gerados utilizando os ferramentais do Pandas.

Agora que criamos um dataframe que apresenta a média das notas por escola, podemos também avaliar o desempenho médio da escola nessas notas.


In [None]:
arq_agrupamento["MEDIA_NOTAS_MULT"]=(arq_agrupamento.iloc[:,0:4].sum(axis=1))/4
arq_agrupamento["MEDIA_NOTAS_TOT"]=(arq_agrupamento.iloc[:,0:5].sum(axis=1))/5

In [None]:
arq_agrupamento

## Mudança no nome da coluna
Quando realizamos a extração de dados é comum que o nome das colunas estejam erradas ou com nomes estranhos. Para melhorar o seu trabalho, é possível e recomendado a alteração de nomes de colunas. As vezes esta alteração é necessária para evitar o conflito de nome de colunas quando realizamos merge com outros datasets.

Para realizar tal operação nós usaremos a função __[Rename](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html)__.

Dentro do dataset é possível verificar que as últimas colunas são Qxxx, sendo x o número da questão feita no formulário de inscrição para todos os candidatos (felizmente não há dados faltandos nesta coluna). Vamos supor que queremos avaliar a relação entre nota média dos estudantes e a renda familiar média. Sabemos que a coluna Q006 é registrada as respostas para esta pergunta.

Como queremos compreender melhor os dados, vamos alterar o nome desta coluna dentro do dataframe arq.

In [None]:
arq[["NU_INSCRICAO","Q006"]].head()

In [None]:
arq_nome=arq.copy()
arq_nome=arq_nome.rename(columns={"Q006": "RENDA_FAMILAR"})

In [None]:
arq_nome.head()

In [None]:
arq_rend_notas=arq_nome.groupby('RENDA_FAMILAR')[["NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC",
                "NU_NOTA_MT","NU_NOTA_REDACAO"]].mean()
arq_rend_notas

## Alteração de valores da coluna
Como verificamos no dataframe anterior, as letras de A a Q referem-se aos valores das rendas familiares dos candidatos. Apesar de sua interpretabilidade, alguns algoritmos de ML tem dificuldade de trabalhar com strings e valores não numéricos. No tratamento de dados é importante transformar esses valores para a máxima eficiência dos algoritmos no momento de modelagem.

Existem 3 boas opções para você tratar dados categoricos. As opções são:
 1.  Alterar os valores da categoria para valores numéricos, seguindo uma ordem escalar de crescimento igual a 1
     - Este método não é recomendado quando a relação de categorias não segue a mesma ordem de crescimento/decrescimento de valores discretos.
     - Caso a taxa de crescimento seja linear, tal método talvez possa ser usado sem grandes problemas.
     - Exemplo: A = Minha casa tem 0 Banheiro, B= Minha casa tem 1 banheiro ---> A=0, B=1.
 2. Alterar os valores e substitui-los por números, de modo que representem um valor com relação lógica.
     - Este método não é recomendado quando a relação de categorias não segue a mesma ordem de crescimento/decrescimento
     - Exemplo: A = 'BRL 0,00', B= 'BRL 0,00 - BRL 10,00' ---> A=0, B=5
 3. Utilizar __[Get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)__
     - As categorias serão divididas em um maior numero de colunas, em que cada coluna será um valor binário se aquela linha aplica-se a tal categoria da coluna.
     - Recomendada quando os dados categóricos não tem qualquer relação polinomial.
     - Exemplo:
     
| ID | Comida   |
|------|------|
|  1  |Banana|
| 2 | Pudim|

| ID | Banana   | Pudim |
|------|------|------|
|  1  |1|0|
| 2 | 0|1|

***
### Alteração de valores categóricos para numéricos

Verificando a tabela da renda familiar e as notas por critério, verificamos que a renda familiar está dividida por categorias. A categoria "A" é referente as pessoas com menor renda familiar, enquanto a categoria "Q" é referente aos com maior renda familiar. Uma vez que temos os valores das rendas por categoria, iremos substitui-las pelos valores numéricos nos quais estas se referem.

| Categoria | Renda   |
|------|------|
| A |Nenhuma renda.|
| B | Até 937,00.|
| C | De 937,01 até 1.405,50.|
| D | De 1.405,51 até 1.874,00.|
| E | De 1.874,01 até 2.342,50.|
| F | De 2.342,51 até 2.811,00.|
| G | De 2.811,01 até 3.748,00.|
| H | De 3.748,01 até 4.685,00.|
| I | De 4.685,01 até 5.622,00.|
| J | De 5.622,01 até 6.559,00.|
| K | De 6.559,01 até 7.496,00.|
| L | De 7.496,01 até 8.433,00.|
| M | De 8.433,01 até 9.370,00.|
| N | De 9.370,01 até 11.244,00.|
| O | De 11.244,01 até 14.055,00.|
| P | De 14.055,01 até 18.740,00.|
| Q | Mais de 18.740,00.|

A princípio será optado utilizar o limite inferior para substituir os valores. Desta maneira surge um problema, como fazer com a categoria A e B?

Por opção para demonstração, será utilizado o valor inferior. No caso de B será substituido pelo valor de 0, enquanto A será -100.

Para esta função será utilizado __[replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html)__.

In [None]:
arq_nome=arq.copy()
arq_nome=arq_nome.rename(columns={"Q006": "RENDA_FAMILAR"})
arq_nome=arq_nome.replace({"RENDA_FAMILAR":{
    "A": -100,
    "B":0,
    "C":937,
    "D":1405.5,
    "E":1874,
    "F":2342.5,
    "G":2811,
    "H":3748,
    "I":4685,
    "J":5622,
    "K":6559,
    "L":7496,
    "M":8433,
    "N":9370,
    "O":11244,
    "P":14055,
    "Q":18740
}})
arq_graph=arq_nome.groupby('RENDA_FAMILAR')[["NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC",
                "NU_NOTA_MT","NU_NOTA_REDACAO"]].mean()
arq_graph

In [None]:

x=[-100,
    0,
    937,
    1405.5,
    1874,
    2342.5,
    2811,
    3748,
    4685,
    5622,
    6559,
    7496,
    8433,
    9370,
    11244,
    14055,
    18740]
y1=arq_graph["NU_NOTA_CN"]
y2=arq_graph["NU_NOTA_CH"]
y3=arq_graph["NU_NOTA_LC"]
y4=arq_graph["NU_NOTA_MT"]
y5=arq_graph["NU_NOTA_REDACAO"]

plt.plot(x, y1, '.')
plt.plot(x, y2, '.')
plt.plot(x, y3, '.')
plt.plot(x, y4, '.')
plt.plot(x, y5, '.')
plt.legend()
plt.show()

## Get_Dummies
 A pergunta Q003 é :
 
 "A partir da apresentação de algumas ocupações divididas em grupos ordenados, indique o grupo que contempla a ocupação mais próxima da ocupação do seu pai ou do homem responsável por você. (Se ele não estiver trabalhando, escolha uma ocupação pensando no último trabalho dele)."
 
 Sendo as seguintes respostas possíveis
 1. A	Grupo 1: Lavrador, agricultor sem empregados, boia-fria, criador de animais (gado, porcos, galinhas, ovelhas, cavalos etc.), apicultor, pescador, lenhador, seringueiro, extrativista.
 2. B	Grupo 2: Diarista, empregado doméstico, cuidador de idosos, babá, cozinheiro (em casas particulares), motorista particular, jardineiro, faxineiro de empresas e prédios, vigilante, porteiro, carteiro, office-boy, vendedor, caixa, atendente de loja, auxiliar administrativo, recepcionista, servente de pedreiro, repositor de mercadoria.
 3. C	Grupo 3: Padeiro, cozinheiro industrial ou em restaurantes, sapateiro, costureiro, joalheiro, torneiro mecânico, operador de máquinas, soldador, operário de fábrica, trabalhador da mineração, pedreiro, pintor, eletricista, encanador, motorista, caminhoneiro, taxista.
 4. D	Grupo 4: Professor (de ensino fundamental ou médio, idioma, música, artes etc.), técnico (de enfermagem, contabilidade, eletrônica etc.), policial, militar de baixa patente (soldado, cabo, sargento), corretor de imóveis, supervisor, gerente, mestre de obras, pastor, microempresário (proprietário de empresa com menos de 10 empregados), pequeno comerciante, pequeno proprietário de terras, trabalhador autônomo ou por conta própria.
 5. E	Grupo 5: Médico, engenheiro, dentista, psicólogo, economista, advogado, juiz, promotor, defensor, delegado, tenente, capitão, coronel, professor universitário, diretor em empresas públicas ou privadas, político, proprietário de empresas com mais de 10 empregados.
 6. F	Não sei.

Podemos avaliar que não há uma relação numérica/polinomial entre estas categorias. Para transformar de modo numérico, que sejá possível utilizar nos algoritmos, iremos utilizar a função __[get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)__.

In [None]:
arq_getdummies=pd.get_dummies(arq, columns=['Q003'])

In [None]:
arq_getdummies.head()

Note que a coluna Q003 desapareceu, surgindo no final do datafrema as colunas Q003_A	Q003_B	Q003_C	Q003_D	Q003_E	Q003_F

## Drop Columns
Durante esse tutorial você percebeu que muita das 157 colunas não foram utilizadas? Muito dos dados coletados não são necessários após as modificaçõese limpezas realizadas. Então o que fazer com estes dados?

Uma solução muito simples é tirar eles do seu dataframe.

Para esta função será utilizado __[drop](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html)__.

In [None]:
lista=arq.columns
print(lista[:50])
print(lista[50:100])
print(lista[100:])

In [None]:
arq = arq.drop(['IN_BAIXA_VISAO',
       'IN_CEGUEIRA', 'IN_SURDEZ', 'IN_DEFICIENCIA_AUDITIVA',
       'IN_SURDO_CEGUEIRA', 'IN_DEFICIENCIA_FISICA', 'IN_DEFICIENCIA_MENTAL',
       'IN_DEFICIT_ATENCAO', 'IN_DISLEXIA', 'IN_DISCALCULIA', 'IN_AUTISMO',
       'IN_VISAO_MONOCULAR', 'IN_OUTRA_DEF', 'IN_GESTANTE', 'IN_LACTANTE',
       'IN_IDOSO', 'IN_ESTUDA_CLASSE_HOSPITALAR', 'IN_SEM_RECURSO',
       'IN_BRAILLE', 'IN_AMPLIADA_24', 'IN_AMPLIADA_18', 'IN_LEDOR','IN_ACESSO', 'IN_TRANSCRICAO', 'IN_LIBRAS', 'IN_LEITURA_LABIAL',
       'IN_MESA_CADEIRA_RODAS', 'IN_MESA_CADEIRA_SEPARADA', 'IN_APOIO_PERNA',
       'IN_GUIA_INTERPRETE', 'IN_COMPUTADOR', 'IN_CADEIRA_ESPECIAL',
       'IN_CADEIRA_CANHOTO', 'IN_CADEIRA_ACOLCHOADA', 'IN_PROVA_DEITADO',
       'IN_MOBILIARIO_OBESO', 'IN_LAMINA_OVERLAY', 'IN_PROTETOR_AURICULAR',
       'IN_MEDIDOR_GLICOSE', 'IN_MAQUINA_BRAILE', 'IN_SOROBAN',
       'IN_MARCA_PASSO', 'IN_SONDA', 'IN_MEDICAMENTOS', 'IN_SALA_INDIVIDUAL',
       'IN_SALA_ESPECIAL', 'IN_SALA_ACOMPANHANTE', 'IN_MOBILIARIO_ESPECIFICO',
       'IN_MATERIAL_ESPECIFICO', 'IN_NOME_SOCIAL'], axis=1)
arq.shape

In [None]:
arq.info() # Verificamos uma redução no uso de memória

# .apply()
Utilizado para aplicar funções nos termos

In [None]:
arq["coluna_nova"]=arq['Q003'].apply(lambda x: x.lower())

In [None]:
arq.coluna_nova

In [None]:
def lowr(x):
    return x.lower()
arq["coluna_nova2"]=arq['Q003'].apply(lowr)

In [None]:
arq.coluna_nova2

# Merge

In [None]:
escola_UF= arq[["CO_ESCOLA","CO_UF_ESC"]]
escola_UF=escola_UF.drop_duplicates()
escola_UF=escola_UF.dropna()
escola_UF.head()

In [None]:
escola_MU= arq[["CO_ESCOLA","CO_MUNICIPIO_ESC"]]
escola_MU=escola_MU.drop_duplicates()
escola_MU=escola_MU.dropna()
escola_MU.head()

In [None]:
escola_MU.merge(escola_UF, on="CO_ESCOLA", how="left")

In [None]:
!pip install missingno

In [None]:
import missingno as msno
%matplotlib inline
msno.matrix(arq[['NU_INSCRICAO', 'NU_ANO', 'CO_MUNICIPIO_RESIDENCIA',
       'NO_MUNICIPIO_RESIDENCIA', 'CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA',
       'NU_IDADE', 'TP_SEXO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA',
       'TP_NACIONALIDADE', 'CO_MUNICIPIO_NASCIMENTO']].sample(1000000))

In [None]:
https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3