# Limpeza de dados

In [10]:
# Biblioteca:
import pandas as pd

# Dados
clientes_cifraonline = pd.read_csv('clientes_cifraonline.csv')
clientes_cifraonline.head()

Unnamed: 0,nome,idade,sexo,salario,cidade,status_emprego,nivel_educacional,score_credito
0,João,62,M,R$ 6728,São Paulo,Desempregado,Mestrado,793
1,Mariano,65,M,R$ 7000,Porto Alegre,Autônomo,Pós-graduação,626
2,Luiz,71,M,R$ 6545,Rio de Janeiro,Autônomo,Graduação,438
3,Paula,18,F,R$ 3896,Salvador,Empregado,Ensino Médio,831
4,Carlo,21,M,R$ 12383,Salvador,Autônomo,Graduação,384


In [11]:
# informações gerais:
clientes_cifraonline.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   nome               1000 non-null   object
 1   idade              1000 non-null   int64 
 2   sexo               1000 non-null   object
 3   salario            1000 non-null   object
 4   cidade             1000 non-null   object
 5   status_emprego     1000 non-null   object
 6   nivel_educacional  1000 non-null   object
 7   score_credito      1000 non-null   int64 
dtypes: int64(2), object(6)
memory usage: 62.6+ KB


### **1. Renomear colunas**

```python
# renomear coluna:
dados = dados.rename(columns={'coluna original': 'coluna renomeada'})

# excluir coluna:
dados.drop(['coluna A'], axis=1, inplace=True)
```

In [12]:
clientes_cifraonline = clientes_cifraonline.rename(
    columns = {'sexo': 'genero', 'nivel_educacional': 'formacao'}
)

clientes_cifraonline.head()

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito
0,João,62,M,R$ 6728,São Paulo,Desempregado,Mestrado,793
1,Mariano,65,M,R$ 7000,Porto Alegre,Autônomo,Pós-graduação,626
2,Luiz,71,M,R$ 6545,Rio de Janeiro,Autônomo,Graduação,438
3,Paula,18,F,R$ 3896,Salvador,Empregado,Ensino Médio,831
4,Carlo,21,M,R$ 12383,Salvador,Autônomo,Graduação,384


### **2. Formatar textos**

In [13]:
# Texto em minúsculo:
clientes_cifraonline['nome'] = clientes_cifraonline['nome'].str.lower()
clientes_cifraonline.head(2)

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito
0,joão,62,M,R$ 6728,São Paulo,Desempregado,Mestrado,793
1,mariano,65,M,R$ 7000,Porto Alegre,Autônomo,Pós-graduação,626


In [14]:
# Texto em maiúsculo:
clientes_cifraonline['nome'] = clientes_cifraonline['nome'].str.upper()
clientes_cifraonline.head(2)

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito
0,JOÃO,62,M,R$ 6728,São Paulo,Desempregado,Mestrado,793
1,MARIANO,65,M,R$ 7000,Porto Alegre,Autônomo,Pós-graduação,626


In [15]:
# Texto com Primeira Letra em Maiúsculo:
clientes_cifraonline['nome'] = clientes_cifraonline['nome'].str.title()
clientes_cifraonline.head(2)

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito
0,João,62,M,R$ 6728,São Paulo,Desempregado,Mestrado,793
1,Mariano,65,M,R$ 7000,Porto Alegre,Autônomo,Pós-graduação,626


### **3. Substituições**

```python
# Subsitutuição em todo o dataframe:
dados = dados.replace('Valor original', 'Valor substituído')

# Substituição em uma coluna específica:
dados['coluna A'] = dados['coluna A'].replace('Valor original', 'Valor substituído')

# Também funciona com números:
dados['coluna A'] = dados['coluna A'].replace(0, 50)
```

> Adicionar dados nulos

In [16]:
# biblioteca numpy:
import numpy as np

# adicionar nulos na coluna `score_credito`:
clientes_cifraonline['score_credito'] = clientes_cifraonline['score_credito'].replace(793, np.nan).replace(626, np.nan)

# resultado:
clientes_cifraonline.isna().sum()

nome              0
idade             0
genero            0
salario           0
cidade            0
status_emprego    0
formacao          0
score_credito     8
dtype: int64

> Codificar **Feminino** e **Masculino**

In [17]:
clientes_cifraonline['genero_cod'] = clientes_cifraonline['genero'].replace('F', 0).replace('M', 1)
clientes_cifraonline.head()

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito,genero_cod
0,João,62,M,R$ 6728,São Paulo,Desempregado,Mestrado,,1
1,Mariano,65,M,R$ 7000,Porto Alegre,Autônomo,Pós-graduação,,1
2,Luiz,71,M,R$ 6545,Rio de Janeiro,Autônomo,Graduação,438.0,1
3,Paula,18,F,R$ 3896,Salvador,Empregado,Ensino Médio,831.0,0
4,Carlo,21,M,R$ 12383,Salvador,Autônomo,Graduação,384.0,1


> Coluna específica

In [22]:
clientes_cifraonline['salario'] = clientes_cifraonline['salario'].str.replace('R$ ', '', regex=False)
clientes_cifraonline['salario']

0       6728
1       7000
2       6545
3       3896
4      12383
       ...  
995      nan
996     3663
997     8666
998     6893
999     7993
Name: salario, Length: 1000, dtype: object

In [25]:
clientes_cifraonline['salario'] = clientes_cifraonline['salario'].replace('nan', np.nan)
clientes_cifraonline.isna().sum()/len(clientes_cifraonline) * 100

nome              0.0
idade             0.0
genero            0.0
salario           9.4
cidade            0.0
status_emprego    0.0
formacao          0.0
score_credito     0.8
genero_cod        0.0
dtype: float64

### **4. Tratamento de nulos**

Para o tratamento de nulos, poderímos usar algumas ténicas com o método `.fillna()`.

```python
# Preenchimento com 'zero':
dados['coluna A'] = dados['coluna A'].fillna(0)

# Preenchimento com a média:
media_coluna_A = dados['Salário'].mean()
dados['coluna A'] = dados['coluna A'].fillna(media_coluna_A)

# Preenchimento com a mediana:
mediana_coluna_A = dados['Salário'].median()
dados['coluna A'] = dados['coluna A'].fillna(mediana_coluna_A)

# Preenchimento com a moda:
moda_coluna_A = dados['Salário'].mode()
dados['coluna A'] = dados['coluna A'].fillna(moda_coluna_A)

# Preenchimento com a texto:
dados['coluna A'] = dados['coluna A'].fillna('Não informado')
```

#### **Dica:**
> Também poderíamos preencher nulos utilizando algoritmos de Machine Learning (e.g., **K-Nearest Neighbors**, **Random Forest**, **IterativeImputer**, etc.). Entretando, esse assunto foge do escopo desse curso e não iremos abordá-lo.

In [26]:
# Total de linhas (originalmente):
linhas_originais = len(clientes_cifraonline)

# Remoção de nulos:
clientes_cifraonline.dropna(axis=0, inplace=True)

linhas_sem_nulos = len(clientes_cifraonline)

# Impacto:
print(f'Antes: {linhas_originais} linhas')
print(f'Depois: {linhas_sem_nulos} linhas')

Antes: 1000 linhas
Depois: 899 linhas


### **5. Converter tipos de dados**

> Coluna `Salario`

1. Remover **R$**
2. Converter para número:

```python
# método 1:
dados['coluna A'] = pd.to_numeric(dados['coluna A'], errors='coerce')

# método 2:
dados['coluna A'] = dados['coluna A'].astype('float64')
```

In [27]:
clientes_cifraonline.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 899 entries, 2 to 999
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   nome            899 non-null    object 
 1   idade           899 non-null    int64  
 2   genero          899 non-null    object 
 3   salario         899 non-null    object 
 4   cidade          899 non-null    object 
 5   status_emprego  899 non-null    object 
 6   formacao        899 non-null    object 
 7   score_credito   899 non-null    float64
 8   genero_cod      899 non-null    int64  
dtypes: float64(1), int64(2), object(6)
memory usage: 70.2+ KB


In [28]:
# método 1:
clientes_cifraonline['salario'] = pd.to_numeric(clientes_cifraonline['salario'], errors='coerce')
clientes_cifraonline.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 899 entries, 2 to 999
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   nome            899 non-null    object 
 1   idade           899 non-null    int64  
 2   genero          899 non-null    object 
 3   salario         892 non-null    float64
 4   cidade          899 non-null    object 
 5   status_emprego  899 non-null    object 
 6   formacao        899 non-null    object 
 7   score_credito   899 non-null    float64
 8   genero_cod      899 non-null    int64  
dtypes: float64(2), int64(2), object(5)
memory usage: 70.2+ KB


In [29]:
clientes_cifraonline.head()

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito,genero_cod
2,Luiz,71,M,6545.0,Rio de Janeiro,Autônomo,Graduação,438.0,1
3,Paula,18,F,3896.0,Salvador,Empregado,Ensino Médio,831.0,0
4,Carlo,21,M,12383.0,Salvador,Autônomo,Graduação,384.0,1
5,Luiz,77,M,1823.0,Porto Alegre,Autônomo,Ensino Médio,737.0,1
6,Felipe,21,M,1490.0,Porto Alegre,Autônomo,Ensino Médio,482.0,1


### **6. Funções anônimas**

Outra possilibdade é a utilização de funções anônimas - famosa função `lambda`. A sintaxe é dada por:

```python
dados.apply(lambda <variavel(eis)>: <expressao>)
```

> Salários anuais

In [34]:
clientes_cifraonline['salario_anual'] = clientes_cifraonline['salario'] * 12
clientes_cifraonline.head()

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito,genero_cod,salario_anual
2,Luiz,71,M,6545.0,Rio de Janeiro,Autônomo,Graduação,438.0,1,78540.0
3,Paula,18,F,3896.0,Salvador,Empregado,Ensino Médio,831.0,0,46752.0
4,Carlo,21,M,12383.0,Salvador,Autônomo,Graduação,384.0,1,148596.0
5,Luiz,77,M,1823.0,Porto Alegre,Autônomo,Ensino Médio,737.0,1,21876.0
6,Felipe,21,M,1490.0,Porto Alegre,Autônomo,Ensino Médio,482.0,1,17880.0


In [35]:
clientes_cifraonline['salario_anual_USD'] =  clientes_cifraonline['salario'].apply(
    lambda salario: salario * 12 * 4.96
)
clientes_cifraonline.head()

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito,genero_cod,salario_anual,salario_anual_USD
2,Luiz,71,M,6545.0,Rio de Janeiro,Autônomo,Graduação,438.0,1,78540.0,389558.4
3,Paula,18,F,3896.0,Salvador,Empregado,Ensino Médio,831.0,0,46752.0,231889.92
4,Carlo,21,M,12383.0,Salvador,Autônomo,Graduação,384.0,1,148596.0,737036.16
5,Luiz,77,M,1823.0,Porto Alegre,Autônomo,Ensino Médio,737.0,1,21876.0,108504.96
6,Felipe,21,M,1490.0,Porto Alegre,Autônomo,Ensino Médio,482.0,1,17880.0,88684.8


> Codificação do gênero

In [36]:
clientes_cifraonline['genero_cod_lambda'] = clientes_cifraonline['genero'].apply(
    lambda registro: 0 if registro == "F" else 1
)
clientes_cifraonline.head()

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito,genero_cod,salario_anual,salario_anual_USD,genero_cod_lambda
2,Luiz,71,M,6545.0,Rio de Janeiro,Autônomo,Graduação,438.0,1,78540.0,389558.4,1
3,Paula,18,F,3896.0,Salvador,Empregado,Ensino Médio,831.0,0,46752.0,231889.92,0
4,Carlo,21,M,12383.0,Salvador,Autônomo,Graduação,384.0,1,148596.0,737036.16,1
5,Luiz,77,M,1823.0,Porto Alegre,Autônomo,Ensino Médio,737.0,1,21876.0,108504.96,1
6,Felipe,21,M,1490.0,Porto Alegre,Autônomo,Ensino Médio,482.0,1,17880.0,88684.8,1


> Função para categorizar score de crédito

In [37]:
# Função para categorizar score de crédito
def categorizar_score(score):
    if score < 500:
        return 'Baixo'
    elif score < 700:
        return 'Médio'
    else:
        return 'Alto'

clientes_cifraonline['classe_score'] = clientes_cifraonline['score_credito'].apply(categorizar_score)
clientes_cifraonline.head()

Unnamed: 0,nome,idade,genero,salario,cidade,status_emprego,formacao,score_credito,genero_cod,salario_anual,salario_anual_USD,genero_cod_lambda,classe_score
2,Luiz,71,M,6545.0,Rio de Janeiro,Autônomo,Graduação,438.0,1,78540.0,389558.4,1,Baixo
3,Paula,18,F,3896.0,Salvador,Empregado,Ensino Médio,831.0,0,46752.0,231889.92,0,Alto
4,Carlo,21,M,12383.0,Salvador,Autônomo,Graduação,384.0,1,148596.0,737036.16,1,Baixo
5,Luiz,77,M,1823.0,Porto Alegre,Autônomo,Ensino Médio,737.0,1,21876.0,108504.96,1,Alto
6,Felipe,21,M,1490.0,Porto Alegre,Autônomo,Ensino Médio,482.0,1,17880.0,88684.8,1,Baixo
