# 1 - Upload da tabela de dados para uso

Para começarmos, será necessário a importação das bibliotecas e dos dados em questão:

In [4]:

import pandas as pd
import numpy as np

from google.colab import files
uploaded = files.upload()

# Substituir 'file_name.csv' pelo nome do seu arquivo
file_name = 'Planilha_de_dados.csv'
data = pd.read_csv(file_name)

Saving Planilha_de_dados.csv to Planilha_de_dados (1).csv


# 2 - Substituindo o cabeçalho por palavras com letras maiúsculas

Vamos começar substituindo o cabeçalho por palavras em letras maiúsculas com os seguintes comandos:

In [5]:
data.columns = data.columns.str.upper()
data.head()

Unnamed: 0,ID,PONTOS,ESTADO,GENERO,IDADE,BENS,SALDO NA CONTA,PRODUTO,POSSUI CARTAO,ATIVO,SALARIO,SAIU
0,1,619,BA,Feminino,42,2,0,1,1,1,10134888.0,1
1,2,608,CE,Feminino,41,1,8380786,1,0,1,11254258.0,0
2,3,502,BA,Feminino,42,8,1596608,3,1,0,11393157.0,1
3,4,699,BA,Feminino,39,1,0,2,0,0,9382663.0,0
4,5,850,CE,Feminino,43,2,12551082,1,1,1,790841.0,0


# 3 - Corrigir os dados faltantes e preencher as lacunas com valores adequados

Verificação de valores faltantes antes da substituição:


In [6]:
print("Valores faltantes antes da substituição:\n", data.isnull().sum())

Valores faltantes antes da substituição:
 ID                0
PONTOS            0
ESTADO            0
GENERO            8
IDADE             0
BENS              0
SALDO NA CONTA    0
PRODUTO           0
POSSUI CARTAO     0
ATIVO             0
SALARIO           7
SAIU              0
dtype: int64


Para corrigir os valores faltantes em GENERO, podemos substituir valores faltantes com a moda (valor mais comum):

In [7]:
genero_moda = data['GENERO'].mode()[0]
data['GENERO'].fillna(genero_moda, inplace=True)

Para SALARIO, podemos substituir valores faltantes com a mediana, pois a mediana é menos sensível a outliers:

In [8]:
salario_mediana = data['SALARIO'].median()
data['SALARIO'].fillna(salario_mediana, inplace=True)

Agora, vamos verificar se todas as alterações foram aplicadas:

In [9]:
print("Valores faltantes depois da substituição:\n", data.isnull().sum())

Valores faltantes depois da substituição:
 ID                0
PONTOS            0
ESTADO            0
GENERO            0
IDADE             0
BENS              0
SALDO NA CONTA    0
PRODUTO           0
POSSUI CARTAO     0
ATIVO             0
SALARIO           0
SAIU              0
dtype: int64


# 4 - Eliminar os outliers, atribuindo valores adequados

Verificação dos valores da coluna 'IDADE' antes da substituição de outliers:


In [10]:
print("Valores únicos em 'IDADE' antes da substituição de outliers:", sorted(data['IDADE'].unique()))

Valores únicos em 'IDADE' antes da substituição de outliers: [-20, -10, 0, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 72, 73, 74, 75, 79, 80, 82, 140]


Para começar, analisaremos os outliers na coluna 'IDADE' e substituiremos os valores de idade que são outliers pela mediana:

In [11]:
idade_mediana = data['IDADE'].median()
data.loc[(data['IDADE'] < 0) | (data['IDADE'] > 100), 'IDADE'] = idade_mediana

Verificação dos valores da coluna 'IDADE' depois da substituição de outliers:

In [12]:
print("Valores únicos em 'IDADE' depois da substituição de outliers:", sorted(data['IDADE'].unique()))

Valores únicos em 'IDADE' depois da substituição de outliers: [0, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 72, 73, 74, 75, 79, 80, 82]


# 5 - Eliminar os duplicados, para garantir a unicidade das informações

Verificação do número de registros antes da remoção de duplicados:

In [13]:
print("Número de registros antes da remoção de duplicados:", data.shape[0])

Número de registros antes da remoção de duplicados: 999


Precisamos eliminar os registros duplicadas, para isso, utilizaremos este código:

In [14]:
data.drop_duplicates(inplace=True)

Verificação do número de registros depois da remoção de duplicados:


In [15]:
print("Número de registros depois da remoção de duplicados:", data.shape[0])

Número de registros depois da remoção de duplicados: 998


# 6 - Corrigir os dados categóricos

Verificação dos valores únicos em 'GENERO' antes da substituição:

In [16]:
print("Valores depois da substituição:", data['GENERO'].unique())

Valores depois da substituição: ['Feminino' 'Masculino' 'M' 'F' 'Fem']


Precisaremos corrigir os dados categóricos de 'GENERO'  para se adequar as demais informações, para isso, utilizaremos este código:

In [17]:
data['GENERO'] = data['GENERO'].replace({'Masculino': 'Mas', 'Feminino': 'Fem', 'F': 'Fem', 'M': 'Mas'})

Verificação dos valores únicos em 'GENERO' depois da substituição


In [18]:
print("Valores antes da substituição:", data['GENERO'].unique())

Valores antes da substituição: ['Fem' 'Mas']


# 7 - Resultado final do tratamento de dados

Após aplicarmos todas as linhas de código com o tratamento necessário dos dados propostos, observaremos o resultados utilizando o código abaixo:

In [19]:
data.head()


Unnamed: 0,ID,PONTOS,ESTADO,GENERO,IDADE,BENS,SALDO NA CONTA,PRODUTO,POSSUI CARTAO,ATIVO,SALARIO,SAIU
0,1,619,BA,Fem,42,2,0,1,1,1,10134888.0,1
1,2,608,CE,Fem,41,1,8380786,1,0,1,11254258.0,0
2,3,502,BA,Fem,42,8,1596608,3,1,0,11393157.0,1
3,4,699,BA,Fem,39,1,0,2,0,0,9382663.0,0
4,5,850,CE,Fem,43,2,12551082,1,1,1,790841.0,0


Abaixo está o código necessário para baixar os dados tratados:

In [20]:
data.to_csv('dados_tratados.csv', index=False)
files.download('dados_tratados.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>