## Neste capítulo veremos como tratar valores inconsistente de variável categóricas. Algumas problemas comuns são:
1. Valores inesperados ou fora do escopo da análise
2. Valores que não seguem um padrão bem definido, por exemplo, valores iguais mas com strings ligeiramente diferentes

In [1]:
import pandas as pd
import numpy as np

#### Nesses dados, percebemos que há um valor inconsistente(fora dos valores pré-definidos) na variável tipo_sangue(Z+), nesse caso podemos excluir essa observação diretamente ou podemos criar uma variável com todos os tipos de sangue únicos adequados e depois retirar dos dados.

In [2]:
dados=pd.DataFrame({"ID": [1, 2, 3, 4, 5], "tipo_sangue": ["A+", "B-", "O+", "AB+", "Z+"]})
dados

Unnamed: 0,ID,tipo_sangue
0,1,A+
1,2,B-
2,3,O+
3,4,AB+
4,5,Z+


In [3]:
categorias=pd.DataFrame({"tipo_sangue":["A+", "B-", "O+", "AB+"]})
categorias

Unnamed: 0,tipo_sangue
0,A+
1,B-
2,O+
3,AB+


### Algumas formas de tratar valores inconsistente são:
1. Excluir essas observações
2. Tratar como valor faltante e imputar através de algum método

In [4]:
tipo_sangue_inconsistente=set(dados["tipo_sangue"]).difference(categorias["tipo_sangue"])
tipo_sangue_inconsistente

{'Z+'}

In [5]:
linhas_inconsistentes=dados["tipo_sangue"].isin(tipo_sangue_inconsistente)
linhas_inconsistentes

0    False
1    False
2    False
3    False
4     True
Name: tipo_sangue, dtype: bool

In [6]:
# Dados com a observação inconsistente
dados[linhas_inconsistentes]

Unnamed: 0,ID,tipo_sangue
4,5,Z+


In [7]:
# Dados com a observação consistente, em seguida,
dados[~linhas_inconsistentes]

Unnamed: 0,ID,tipo_sangue
0,1,A+
1,2,B-
2,3,O+
3,4,AB+


### Outra problema que podemos encontrar na prática é a inconsistência de valores diferentes mas com o mesmo significado

In [8]:
dados=pd.DataFrame({"var":["casado", "casado", "casado", "CASADO", "CASADO", " casado", " casado"]})
dados

Unnamed: 0,var
0,casado
1,casado
2,casado
3,CASADO
4,CASADO
5,casado
6,casado


In [9]:
# Devemos definir um padrão para esse tipo de dado
dados["var"].value_counts()

casado     3
CASADO     2
 casado    2
Name: var, dtype: int64

In [10]:
# Primeiro devemos tirar os espaços em branco usando a função strip e depois colocar todos os valores em minúsculo ou maiúsculo
dados["var"]=dados["var"].str.strip()
dados["var"].value_counts()

casado    5
CASADO    2
Name: var, dtype: int64

In [11]:
dados["var"]=dados["var"].str.lower()
dados["var"].value_counts()

casado    7
Name: var, dtype: int64

In [12]:
dados["var"]=dados["var"].str.upper()
dados["var"].value_counts()

CASADO    7
Name: var, dtype: int64

#### Uma maneira prática de criar variáveis categóricas com um intervalo pré-definido a partir de variáveis numéricas é usando a função pd.qcut()

In [13]:
dados=pd.DataFrame({"var":np.random.randint(1,50, size=1000)})
dados

Unnamed: 0,var
0,13
1,31
2,33
3,23
4,41
...,...
995,28
996,19
997,18
998,46


### A função pd.qcut têm três argumentos:
1. Variável do DataFrame escolhida
2. Intervalos da variável numérica para serem definidas na variável categórica
3. Nomes dos intervalos da variável categórica a ser criada

In [14]:
dados["var_cat"]=pd.cut(dados["var"], bins=[0, 20, 30, np.inf], labels=["0-20", "20-30", "30+"])
dados["var_cat"]

0       0-20
1        30+
2        30+
3      20-30
4        30+
       ...  
995    20-30
996     0-20
997     0-20
998      30+
999      30+
Name: var_cat, Length: 1000, dtype: category
Categories (3, object): ['0-20' < '20-30' < '30+']

In [15]:
dados["var_cat"].value_counts()

0-20     427
30+      378
20-30    195
Name: var_cat, dtype: int64

## Outro problema comum é querer agrupar valores de uma variável categórica em uma única valor. Por exemplo, podemos mapear todas as cidade do Ceará para o valor "Ceará", isso possibilidade uma remapeação dos dados, que pode ser útil as vezes. 
### Para esse objetivo podemos utilizar a função replace que tem como argumento os dicionários, em que as chaves são os valores a serem substituídos e os valores do dicionário são as substituições

In [16]:
dados=pd.DataFrame({"var": ["Fortaleza", "Fortaleza", "Belo Horizonte", "Campinas", "Horizonte"]})
dados

Unnamed: 0,var
0,Fortaleza
1,Fortaleza
2,Belo Horizonte
3,São Paulo
4,Horizonte


In [18]:
dados["var"]=dados["var"].replace({"Fortaleza": "Ceará", "Belo Horizonte": "Minas Gerais", "Campinas": "São Paulo", "Horizonte": "Ceará"})
dados

Unnamed: 0,var
0,Ceará
1,Ceará
2,Minas Gerais
3,São Paulo
4,Ceará


## Limpeza de dados de texto.
#### Inúmeros problemas podem acontecer com dados de texto, como inconsistência, tamanho de texto não padronizado ou erros de tipo de variável. Alguns métodos que podemos usar para lidar com essa tipo de problema é usando a função replace ou expressões regulares.

![image.png](attachment:image.png)

In [20]:
dados=pd.DataFrame({"ID": [1, 2, 3, 4, 5], "telefone": ["001-702-397-5143", "001-329-424-4354", "001-423-536-4362", "+1-324-423-5378", "4365"]})
dados

Unnamed: 0,ID,telefone
0,1,001-702-397-5143
1,2,001-329-424-4354
2,3,001-423-536-4362
3,4,+1-324-423-5378
4,5,4365


In [22]:
dados["telefone"]=dados["telefone"].str.replace("+", "00")
dados

  dados["telefone"]=dados["telefone"].str.replace("+", "00")


Unnamed: 0,ID,telefone
0,1,001-702-397-5143
1,2,001-329-424-4354
2,3,001-423-536-4362
3,4,001-324-423-5378
4,5,4365


In [23]:
dados["telefone"]=dados["telefone"].str.replace("-", "")
dados

Unnamed: 0,ID,telefone
0,1,17023975143
1,2,13294244354
2,3,14235364362
3,4,13244235378
4,5,4365


In [27]:
# Substituindo os quatro dígitos por um valor faltante
dados.loc[dados["telefone"].str.len()<10, "telefone"]=np.nan

In [28]:
dados

Unnamed: 0,ID,telefone
0,1,17023975143.0
1,2,13294244354.0
2,3,14235364362.0
3,4,13244235378.0
4,5,


## Para dados mais complicados, podemos usar as expressões regulares onde tem inúmeras formas de identificar padrões complexos
![image.png](attachment:image.png)