## Neste capítulo veremos como tratar valores inconsistente de variável categóricas. Algumas problemas comuns são:
1. Valores inesperados ou fora do escopo da análise
2. Valores que não seguem um padrão bem definido, por exemplo, valores iguais mas com strings ligeiramente diferentes

In [29]:
import pandas as pd
import numpy as np

#### Nesses dados, percebemos que há um valor inconsistente(fora dos valores pré-definidos) na variável tipo_sangue(Z+), nesse caso podemos excluir essa observação diretamente ou podemos criar uma variável com todos os tipos de sangue únicos adequados e depois retirar dos dados.

In [11]:
dados=pd.DataFrame({"ID": [1, 2, 3, 4, 5], "tipo_sangue": ["A+", "B-", "O+", "AB+", "Z+"]})
dados

Unnamed: 0,ID,tipo_sangue
0,1,A+
1,2,B-
2,3,O+
3,4,AB+
4,5,Z+


In [16]:
categorias=pd.DataFrame({"tipo_sangue":["A+", "B-", "O+", "AB+"]})
categorias

Unnamed: 0,tipo_sangue
0,A+
1,B-
2,O+
3,AB+


### Algumas formas de tratar valores inconsistente são:
1. Excluir essas observações
2. Tratar como valor faltante e imputar através de algum método

In [17]:
tipo_sangue_inconsistente=set(dados["tipo_sangue"]).difference(categorias["tipo_sangue"])
tipo_sangue_inconsistente

{'Z+'}

In [19]:
linhas_inconsistentes=dados["tipo_sangue"].isin(tipo_sangue_inconsistente)
linhas_inconsistentes

0    False
1    False
2    False
3    False
4     True
Name: tipo_sangue, dtype: bool

In [20]:
# Dados com a observação inconsistente
dados[linhas_inconsistentes]

Unnamed: 0,ID,tipo_sangue
4,5,Z+


In [21]:
# Dados com a observação consistente, em seguida,
dados[~linhas_inconsistentes]

Unnamed: 0,ID,tipo_sangue
0,1,A+
1,2,B-
2,3,O+
3,4,AB+


### Outra problema que podemos encontrar na prática é a inconsistência de valores diferentes mas com o mesmo significado

In [22]:
dados=pd.DataFrame({"var":["casado", "casado", "casado", "CASADO", "CASADO", " casado", " casado"]})
dados

Unnamed: 0,var
0,casado
1,casado
2,casado
3,CASADO
4,CASADO
5,casado
6,casado


In [24]:
# Devemos definir um padrão para esse tipo de dado
dados["var"].value_counts()

casado     3
CASADO     2
 casado    2
Name: var, dtype: int64

In [26]:
# Primeiro devemos tirar os espaços em branco usando a função strip e depois colocar todos os valores em minúsculo ou maiúsculo
dados["var"]=dados["var"].str.strip()
dados["var"].value_counts()

casado    5
CASADO    2
Name: var, dtype: int64

In [27]:
dados["var"]=dados["var"].str.lower()
dados["var"].value_counts()

casado    7
Name: var, dtype: int64

In [28]:
dados["var"]=dados["var"].str.upper()
dados["var"].value_counts()

CASADO    7
Name: var, dtype: int64

#### Uma maneira prática de criar variáveis categóricas com um intervalo pré-definido a partir de variáveis numéricas é usando a função pd.qcut()

In [30]:
dados=pd.DataFrame({"var":np.random.randint(1,50, size=1000)})
dados

Unnamed: 0,var
0,46
1,4
2,49
3,6
4,3
...,...
995,27
996,33
997,30
998,34


### A função pd.qcut têm três argumentos:
1. Variável do DataFrame escolhida
2. Intervalos da variável numérica para serem definidas na variável categórica
3. Nomes dos intervalos da variável categórica a ser criada

In [41]:
dados["var_cat"]=pd.cut(dados["var"], bins=[0, 20, 30, np.inf], labels=["0-20", "20-30", "30+"])
dados["var_cat"]

0        30+
1       0-20
2        30+
3       0-20
4       0-20
       ...  
995    20-30
996      30+
997    20-30
998      30+
999     0-20
Name: var_cat, Length: 1000, dtype: category
Categories (3, object): ['0-20' < '20-30' < '30+']

In [43]:
dados["var_cat"].value_counts()

30+      403
0-20     396
20-30    201
Name: var_cat, dtype: int64