 # 1. Objetivo do projeto



Este projeto tem como foco a limpeza e a preparação de um dataset de clientes que apresenta diversos problemas de qualidade de dados, comuns em cenários reais.


Os principais objetivos deste projeto são:


1. Identificar e analisar valores ausentes, erros de preenchimento e dados inconsistentes.
2. Padronizar variáveis categóricas, como nível de escolaridade e estado civil.
3. Validar e corrigir registros inválidos (ex.: emails malformados, números de telefone e CEPs inconsistentes).
4. Detectar e tratar valores fora de faixa e inválidos (ex.: idades negativas e valores de gasto negativos).
5. Converter colunas para os tipos de dados adequados e gerar um dataset limpo, pronto para análise.

 ## 2. Importação da Biblioteca e dataset


In [None]:
import pandas as pd #Importação do pandas que será a biblioteca utilizada para esse projeto
data = pd.read_csv("../data/dirty_dataset.csv")  #importação do raw dataset

## 3. Entendimento Inicial dos Dados

Nesta etapa, é realizada uma análise inicial do dataset para compreender sua estrutura, tipos de variáveis e identificar possíveis problemas de qualidade de dados.

In [134]:
data.head() #exibição das primeiras linhas do topo do dataset para visualização da composição das colunas do dataset, tipo de informação presente, visíveis inconsistências, valores ausentes e formatos irregulares.

Unnamed: 0,customer_id,age,income,education,marital_status,credit_score,loan_amount,employment_years,default_status,last_payment_date,phone_number,email,city,state,zip_code,product_type,purchase_frequency,avg_monthly_spend,last_login,account_created
0,CUST001,25.0,45000,Bachelor,Married,720,15000.0,3,0,12/15/2023,-677,john.doe@email.com,New York,NY,10001,credit_card,monthly,850.5,1/15/2024 10:30,3/15/2020
1,CUST002,,75000,Master,Divorced,680,25000.0,8,1,11/20/2023,555-0124,jane.smith@,Chicago,IL,60601,personal_loan,quarterly,1200.75,1/10/2024 14:22,7/22/2019
2,CUST003,28.0,52000,Bachelor,Married,750,18000.0,4,0,12/1/2023,555-0125,bob.wilson@email.com,Los Angeles,CA,90210,credit_card,weekly,650.25,1/20/2024 9:15,1/10/2021
3,CUST004,42.0,95000,PhD,Married,800,35000.0,12,0,12/30/2023,555-0126,alice.brown@email.com,Houston,TX,77001,mortgage,annually,2500.0,1/18/2024 16:45,5/30/2018
4,CUST005,31.0,38000,HighSchool,Single,620,12000.0,2,1,10/15/2023,555-0127,charlie.davis@,Miami,FL,33101,personal_loan,monthly,450.0,1/12/2024 11:30,2/14/2022


## 3.1 dimensão do dataset

In [135]:
data.shape #O dataset possui 50 registros(linhas) e multiplas variaveis(colunas), sendo cada linha representando um cliente unico de acordo com seu id.

(50, 20)

## 3.2 Estrutura e Tipos de Dados

In [136]:
data.info() #Com a visualização da estrutura do dataset é possivel notar varias colunas com data_type errado como: customer_id, credit_score, emploement_years entre outras.


<class 'pandas.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   customer_id         50 non-null     str    
 1   age                 49 non-null     float64
 2   income              50 non-null     str    
 3   education           48 non-null     str    
 4   marital_status      48 non-null     str    
 5   credit_score        49 non-null     str    
 6   loan_amount         49 non-null     float64
 7   employment_years    50 non-null     str    
 8   default_status      50 non-null     str    
 9   last_payment_date   49 non-null     str    
 10  phone_number        50 non-null     str    
 11  email               50 non-null     str    
 12  city                50 non-null     str    
 13  state               48 non-null     str    
 14  zip_code            50 non-null     str    
 15  product_type        50 non-null     str    
 16  purchase_frequency  5

## 3.3 Estatísticas Descritivas

In [137]:
data.describe(include='all') #Nesta etapa reforçamos a necessidade de limpeza e tratamento dos dados pela observação de valores fora da faixa como idade negativa, e valores incosistentes.

Unnamed: 0,customer_id,age,income,education,marital_status,credit_score,loan_amount,employment_years,default_status,last_payment_date,phone_number,email,city,state,zip_code,product_type,purchase_frequency,avg_monthly_spend,last_login,account_created
count,50,49.0,50.0,48,48,49.0,49.0,50.0,50.0,49,50.0,50,50,48,50.0,50,50,49.0,49,49
unique,50,,42.0,6,4,25.0,,16.0,3.0,36,50.0,50,46,29,50.0,5,6,,49,49
top,CUST001,,45000.0,Bachelor,Married,720.0,,3.0,0.0,12/15/2023,-677.0,john.doe@email.com,Miami,CA,10001.0,personal_loan,monthly,,1/15/2024 10:30,3/15/2020
freq,1,,2.0,20,26,4.0,,7.0,42.0,2,1.0,1,2,6,1.0,20,22,,1,1
mean,,30.326531,,,,,22877.55102,,,,,,,,,,,1132.346939,,
std,,13.919991,,,,,10244.170401,,,,,,,,,,,977.586896,,
min,,-32.0,,,,,10000.0,,,,,,,,,,,-920.5,,
25%,,28.0,,,,,16000.0,,,,,,,,,,,680.0,,
50%,,31.0,,,,,19000.0,,,,,,,,,,,850.25,,
75%,,37.0,,,,,26000.0,,,,,,,,,,,1100.0,,


## 3.4 Identificação de Variáveis Categóricas

In [138]:
data.select_dtypes(include=['object', 'string']).columns #Identificamos colunas de texto e categóricas que precisam de padronização, pois apresentam erros de escrita, valores inconsistentes e problemas de formatação.

Index(['customer_id', 'income', 'education', 'marital_status', 'credit_score',
       'employment_years', 'default_status', 'last_payment_date',
       'phone_number', 'email', 'city', 'state', 'zip_code', 'product_type',
       'purchase_frequency', 'last_login', 'account_created'],
      dtype='str')

## 3.5 Análise de Valores Ausentes

In [139]:
data.isnull().sum() #Observa-se a presença de valores ausentes dentro das colunas com valor > 0


customer_id           0
age                   1
income                0
education             2
marital_status        2
credit_score          1
loan_amount           1
employment_years      0
default_status        0
last_payment_date     1
phone_number          0
email                 0
city                  0
state                 2
zip_code              0
product_type          0
purchase_frequency    0
avg_monthly_spend     1
last_login            1
account_created       1
dtype: int64

## 4. Conversão de Tipos de Dados

Nesta etapa, as colunas foram ajustadas para os tipos de dados corretos, garantindo mais consistência e facilitando análises e cálculos futuros. Durante esse processo, valores inválidos foram identificados e tratados.

In [141]:
num_convert = ['age', 'credit_score', 'employment_years', 'avg_monthly_spend', 'loan_amount'] #As colunas numéricas foram convertidas para o formato correto, e valores inválidos passaram a ser tratados como dados ausentes.
for cols in num_convert:
    data[cols] = pd.to_numeric(data[cols], errors='coerce')    

In [142]:
data_convert = ['last_login', 'account_created', 'last_payment_date'] #As colunas de data foram convertidas para o formato datetime, permitindo análises temporais e garantindo padronização dos valores.
for cols in data_convert:
    data[cols] = pd.to_datetime(data[cols], format='mixed', errors='coerce')

## 5 Tratamento de Valores Faltantes

Através da análise de valores ausentes, opto por começar a tratar váriaveis numéricas primeiro sendo: 'age', 'credit_score', 'employement_years', 'avg_monthly_spend'

Para as variáveis numéricas, os valores ausentes foram preenchidos com a mediana, pois ela representa melhor os dados quando há valores muito altos ou muito baixos.

In [143]:
data = data[data['age'] >= 0] #Vamos validar a coluna age para garantir que não existam idades negativas ou inconsistentes.

In [144]:
n_colunas = ['age', 'credit_score', 'employment_years', 'avg_monthly_spend']
for colunas in n_colunas:
    data[colunas] = data[colunas].fillna(data[colunas].median())

As variáveis categóricas com dados ausentes foram preenchidas como “unknown”, indicando que a informação não estava disponível, sem excluir registros.

In [145]:
c_cols = ['education', 'marital_status', 'state', 'default_status'] 
for col in c_cols:
    data[col] = data[col].fillna('unknown')

No caso das variáveis de data, os valores ausentes foram mantidos como NaT, pois a falta dessa informação pode indicar comportamentos relevantes, como clientes sem histórico recente de pagamento ou acesso. Manter esses valores permite análises futuras mais fiéis à realidade dos dados.

In [146]:
data[data_convert].isna().sum() 

last_login           1
account_created      1
last_payment_date    1
dtype: int64

Para a variável loan_amount, os valores ausentes foram mantidos, pois a ausência dessa informação pode indicar que o cliente não possui empréstimo ativo. Dessa forma, evita-se a criação de valores financeiros artificiais.

In [147]:
data['loan_amount'] = data['loan_amount'].fillna(0)


Os valores ausentes foram tratados de forma a manter a consistência dos dados, sem criar informações artificiais, como podemos ver abaixo.

In [148]:
data.isnull().sum() 

customer_id           0
age                   0
income                0
education             0
marital_status        0
credit_score          0
loan_amount           0
employment_years      0
default_status        0
last_payment_date     1
phone_number          0
email                 0
city                  0
state                 0
zip_code              0
product_type          0
purchase_frequency    0
avg_monthly_spend     0
last_login            1
account_created       1
dtype: int64

## 6. Padronização das Variáveis Categóricas

In [149]:
for coluna in c_cols: #Foi utilizado um loop para aplicar as mesmas transformações em todas as variáveis categóricas
    data[coluna] = data[coluna].str.lower().str.strip()


In [150]:
data['marital_status'] = data['marital_status'].replace({
    'divorsed': 'divorced'
}) #Correção da palavra 'divorsed' escrita errada, mantendo assim apenas 4 sitações na coluna.


Padronização da palavra 'high_school' por haver a mesma palavra escrita diferente dentro dos dados

In [151]:
data['education'] = data['education'].replace({
    'highschool': 'high_school'
})
data['education'] = data['education'].replace({
    'high school': 'high_school'
})

Para trabalharmos a coluna 'phone_number' observamos alguns pontos. Possuimos valores negativos, numéros incompletos, para evitar erro manterei a coluna como dtype str.

In [152]:
data['phone_number'].value_counts().head()

phone_number
-677        1
555-0125    1
555-0126    1
555-0127    1
555-0128    1
Name: count, dtype: int64

In [153]:
data['phone_number'].str.len().value_counts() #Verificação para chegar se há mais dados com mais de 8 caracteres sendo ' - ' um deles.

phone_number
8     45
4      1
14     1
Name: count, dtype: int64

In [154]:
data['phone_number'] = (data['phone_number'].str.replace(r'\D', '', regex=True)) #Aqui removeremos espaços, parenteses, pontos etc, para mentermos apenas digitos.


In [155]:
data['phone_number'].str.len().value_counts()  #Identificação de valores fora do padrão, maior ou menor que 7.

phone_number
7     45
3      1
10     1
Name: count, dtype: int64

Nesta etapa, valores fora do padrão esperado foram marcados como NaN e, posteriormente, identificados como “unknown”, evitando inconsistências e possíveis problemas nas análises.

In [156]:
data.loc[data['phone_number'].str.len() > 7, 'phone_number'] = pd.NA  #Filtrado valores fora do padrão como NaN
data.loc[data['phone_number'].str.len() < 7, 'phone_number'] = pd.NA

In [157]:
data['phone_number'] = data['phone_number'].fillna('unknown')  #Preenchimento dos valores NaN como 'Unknown'.

In [158]:
data['phone_number'].value_counts().sum()  #Aqui podemos confirmar que todos os valores estão padronizados.

np.int64(47)

Para a coluna email sera realizado a padronização da coluna e a marcação de emails invalidos com final '@' ou emails que possuem caracteres invalidos.

In [159]:
data['email'].head(5)

0        john.doe@email.com
2      bob.wilson@email.com
3     alice.brown@email.com
4            charlie.davis@
5    diana.garcia@email.com
Name: email, dtype: str

In [160]:
data['email'] = data['email'].str.lower().str.strip()  #Padronização da coluna
data.loc[~data['email'].str.contains(r'^.+@.+\..+$', na=False),'email'] = pd.NA  #marcação de valores invalidos como NaN


In [161]:
data['email'] = data['email'].fillna('unknown')  #Padronização dos valores NaN como 'unknown' evitando assim a inserção de dados incorretos que possam afetar a analise futura.

A coluna de ZIP code foi padronizada para garantir um formato consistente: os valores foram convertidos para texto, tiveram caracteres desnecessários removidos e foram padronizados para conter cinco dígitos.

In [162]:
data['zip_code'] = data['zip_code'].astype(str).str.replace('"', '').str.zfill(5)


In [163]:
data['default_status'] = (data['default_status'].str.lower().str.strip())  #Padronização do texto da coluna

Foram unificadas diferentes representações da variável default_status, convertendo abreviações e valores numéricos para as categorias “yes” e “no”. Valores inválidos foram tratados como ausentes para manter a consistência dos dados.

In [164]:
data['default_status'] = data['default_status'].replace({'y': 'yes','n': 'no','1': 'yes','0': 'no','error': pd.NA})

## 7. Verificação de duplicados

In [166]:
data.duplicated().sum()

np.int64(0)

## 8. Validação de consistência lógica

Nesta etapa, buscamos identificar incoerências nos dados, como registros em que o tempo de emprego é maior que a idade do cliente, garantindo que as informações façam sentido no mundo real.

In [168]:
inconsistencia = data[data['employment_years'] > data['age']]
inconsistencia.shape #Com a saída (0, 20) temos a confirmação que não incoerencias, 0 = inconsistências, 20 = colunas


(0, 20)

## 9. Conclusão

Ao longo deste projeto, analisei o dataset com o objetivo de identificar problemas que poderiam impactar futuras análises. Durante o processo, encontrei inconsistências como valores ausentes, formatos diferentes para a mesma informação e possíveis incoerências entre variáveis.

Realizei o tratamento dos dados ausentes de forma adequada para cada tipo de coluna, padronizei informações como telefone, e-mail e CEP, corrigi tipos de dados e verifiquei a existência de registros duplicados. Também validei regras de coerência, como a relação entre idade e tempo de emprego, garantindo que os dados façam sentido na prática.

Com essas etapas concluídas, o dataset está mais organizado, consistente e pronto para ser utilizado em análises ou modelos preditivos, reduzindo o risco de distorções nos resultados.