In [4]:
import pandas as pd
import numpy as np
import re 

In [5]:
df = pd.read_csv('clientes.csv')

df.head()

Unnamed: 0,nome,cpf,idade,data,endereco,estado,pais
0,Sr. Vitor Gabriel Silva,640.719.385-01,90,06/12/1933,"Trevo Emanuel Silva, 482\r\nVila Tirol\r\n4784...",Rondônia,Brasil
1,Calebe Santos,651.297.384-46,40,06/03/1984,"Recanto Moraes, 7\r\nErnesto Nascimento\r\n964...",Rio de Janeiro,Brasil
2,Evelyn Pires,107.643.528-90,80,09/03/1944,"Travessa de Caldeira, 237\r\nSanta Terezinha\r...",Sergipe,Brasil
3,Maria Julia Castro,164.750.293-43,76,12/04/1947,"Residencial de Pereira, 20\r\nJatobá\r\n62127-...",Pernambuco,Brasil
4,Arthur da Rosa,085.167.249-30,53,16/04/1970,"Parque Almeida, 66\r\nVila Suzana Segunda Seçã...",Santa Catarina,Brasil


In [6]:
# Removendo a coluna pais porque o unico valor nela é Brasil
df = df.drop('pais', axis=1)

In [7]:
# Normalizando as colunas
df['nome'] = df['nome'].str.title()
df['idade'] = df['idade'].astype('int')
df['data'] = pd.to_datetime(df['data'], format='%d/%m/%Y', errors='coerce')

In [8]:
# Tratando os nulos e registros inconsistentes
df = df.dropna(subset=['cpf'])

df['endereco'] = df['endereco'].fillna('Sem endereco')

df['endereco'] = df['endereco'].apply(lambda x: "Sem endereco" if   len(x.split('\n')) < 3 else x)
df['endereco'] = df['endereco'].apply(lambda x: re.sub(r'[\n\r]+', ', ', x))

df['idade'] = df['idade'].fillna(df['idade'].mean())

df['nome'] = df['nome'].fillna('Sem nome')
df['nome'] = df['nome'].apply(lambda x: 'Sem nome' if  isinstance(x, str) and len(x) > 70 else x)

df['estado'] = df['estado'].fillna('Sem endereco')

print(f'Número de nulos no df\n{df.isnull().sum()}')

Número de nulos no df
nome        0
cpf         0
idade       0
data        9
endereco    0
estado      0
dtype: int64


In [9]:
# Dropando os duplicados usando o cpf como base
df = df.drop_duplicates(subset=['cpf'])

# Df sem nulos e sem duplicados
print(f'Número de nulos no df\n{df.isnull().sum()}')
print(f'Número de duplicados no df {df.duplicated().sum()}')

Número de nulos no df
nome        0
cpf         0
idade       0
data        9
endereco    0
estado      0
dtype: int64
Número de duplicados no df 0


In [10]:
# DF final
df.head()

Unnamed: 0,nome,cpf,idade,data,endereco,estado
0,Sr. Vitor Gabriel Silva,640.719.385-01,90,1933-12-06,"Trevo Emanuel Silva, 482, Vila Tirol, 47847085...",Rondônia
1,Calebe Santos,651.297.384-46,40,1984-03-06,"Recanto Moraes, 7, Ernesto Nascimento, 96497-6...",Rio de Janeiro
2,Evelyn Pires,107.643.528-90,80,1944-03-09,"Travessa de Caldeira, 237, Santa Terezinha, 84...",Sergipe
3,Maria Julia Castro,164.750.293-43,76,1947-04-12,"Residencial de Pereira, 20, Jatobá, 62127-165 ...",Pernambuco
4,Arthur Da Rosa,085.167.249-30,53,1970-04-16,"Parque Almeida, 66, Vila Suzana Segunda Seção,...",Santa Catarina


In [11]:
df.to_csv('clientes_tratados.csv', index=False)