Projeto de Limpeza e Enriquecimento de Dados com Pandas 

Tarefas:  

1 - Carregar os dados do CSV.  

2 - Visualizar as primeiras linhas do DataFrame.  

3 - Verificar o total de linhas e colunas.  

4 - Observar os tipos de dados e se há valores ausentes.  

5 - Contar quantos valores estão ausentes em cada coluna.  

6 - Remover os valores ausentes.  

7 - Identificar e remover duplicatas.  

8 - Verificar valores inválidos (como estados com siglas erradas).  

9 - Corrigir ou remover registros com dados inconsistentes.  

10 - Padronizar os textos (ex: nomes em maiúsculo).  

11 - Criar uma coluna com a faixa etária dos clientes.  

12 - Criar uma coluna indicando se o e-mail é válido ou não.  

13 - Salvar o novo DataFrame limpo em um novo arquivo CSV.  

14 - Abrir o novo CSV e conferir se está tudo certo.

In [192]:
import pandas as pd # Importando a biblioteca
df = pd.read_csv('dataset_clientes.csv')
df.head()

Unnamed: 0,nome,email,telefone,idade,estado
0,Bruno Silva,helena.almeida@hotmail.com,(32) 94358-1177,,PR
1,Eduardo Pereira,juliana.lima@gmail.com,(58) 92686-9068,67.0,GO
2,Daniela Oliveira,daniela.pereira@hotmail.com,(41) 92337-2655,57.0,BA
3,Bruno Nascimento,carlos.costa@hotmail.com,(60) 96944-8353,52.0,PR
4,Bruno Araujo,gustavo.oliveira@hotmail.com,(96) 91255-9369,76.0,PR


In [9]:
df.info() # Analisando os dados do nosso Data Frame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10500 entries, 0 to 10499
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   nome      10500 non-null  object 
 1   email     9403 non-null   object 
 2   telefone  10016 non-null  object 
 3   idade     10300 non-null  float64
 4   estado    10500 non-null  object 
dtypes: float64(1), object(4)
memory usage: 410.3+ KB


nome           0
email       1097
telefone     484
idade        200
estado         0
dtype: int64

In [10]:
df.isnull().sum() # Vendo se possui números nulos e os somando

nome           0
email       1097
telefone     484
idade        200
estado         0
dtype: int64

In [190]:
df = df.dropna() #Removendo os números inválidos e resetando os seus index
df.isnull().sum() # Verificando se a exclusão funcionou

nome        0
email       0
telefone    0
idade       0
estado      0
dtype: int64

In [188]:
df.duplicated().sum() # Verificando se há duplicatas
df.drop_duplicates() # Removendo-as

Unnamed: 0,nome,email,telefone,idade,estado
0,Eduardo Pereira,juliana.lima@gmail.com,(58) 92686-9068,67.0,GO
1,Daniela Oliveira,daniela.pereira@hotmail.com,(41) 92337-2655,57.0,BA
2,Bruno Nascimento,carlos.costa@hotmail.com,(60) 96944-8353,52.0,PR
3,Bruno Araujo,gustavo.oliveira@hotmail.com,(96) 91255-9369,76.0,PR
4,Gustavo Silva,daniela.nascimento@hotmail.com,(69) 91821-1118,76.0,GO
...,...,...,...,...,...
8375,Juliana Nascimento,gustavo.nascimento@empresa.com,(52) 98469-7870,33.0,GO
8376,Gustavo Ribeiro,juliana.oliveira@gmail.com,(78) 95370-1145,36.0,PR
8377,Bruno Oliveira,helena.ribeiro@yahoo.com.br,(44) 99089-7243,56.0,PE
8378,Daniela Almeida,daniela.araujo@hotmail.com,(23) 90781-2284,56.0,PR


In [97]:
df.estado.unique() # Notamos que tem um estado chamado XX

array(['GO', 'BA', 'PR', 'CE', 'XX', 'RJ', 'MG', 'RS', 'SP', 'PE', 'SC'],
      dtype=object)

In [60]:
# Criamos uma lista com os estados brasileiros, pois se caso adicionarem novos itens ao DataFrame ele vai ser adaptado
siglas_estados = ["AC", "AL", "AP", "AM", "BA", "CE", "DF", "ES", "GO", "MA",
                  "MT", "MS", "MG", "PA", "PB", "PR", "PE", "PI", "RJ", "RN",
                  "RS", "RO", "RR", "SC", "SP", "SE", "TO"] 

In [185]:
# Removemos os estados que não estejam na lista, apesar de só ter um estado diferente, que podia ser removido com um query
dados = df.query('estado in @siglas_estados') 
dados.estado.unique()

Unnamed: 0,nome,email,telefone,idade,estado
0,Eduardo Pereira,juliana.lima@gmail.com,(58) 92686-9068,67.0,GO
1,Daniela Oliveira,daniela.pereira@hotmail.com,(41) 92337-2655,57.0,BA
2,Bruno Nascimento,carlos.costa@hotmail.com,(60) 96944-8353,52.0,PR
3,Bruno Araujo,gustavo.oliveira@hotmail.com,(96) 91255-9369,76.0,PR
4,Gustavo Silva,daniela.nascimento@hotmail.com,(69) 91821-1118,76.0,GO


In [197]:
#Tratamento de Dados da coluna nome
dados = dados.copy()
dados['nome'] = dados['nome'].str.strip().str.capitalize() # Remove os espaços antes e depois dos nomes e os capitaliza


In [198]:
#Tratamento de Dados da coluna de emails
dados = dados[dados['email'].str.contains('@gmail.com', na=False)] # Removendo emails sem @gmail.com e dps atribuindo a dados
dados = dados[dados['email'].str.count('@') == 1] # Só permite um @ nos email e remove os que possui mais
dados['email'] = dados['email'].str.strip().str.lower()
dados.reset_index(drop=True)

Unnamed: 0,nome,email,telefone,idade,estado
0,Eduardo pereira,juliana.lima@gmail.com,(58) 92686-9068,67.0,GO
1,Ana nascimento,juliana.almeida@gmail.com,(20) 93969-2714,44.0,PR
2,Helena nascimento,daniela.costa@gmail.com,(16) 97314-5826,25.0,RJ
3,Daniela souza,juliana.lima@gmail.com,(45) 98971-8097,42.0,RS
4,Gustavo lima,igor.silva@gmail.com,(84) 91062-6183,61.0,SP
...,...,...,...,...,...
2045,Helena almeida,igor.lima@gmail.com,(65) 93350-7070,80.0,PR
2046,Eduardo araujo,ana.oliveira@gmail.com,(66) 92502-7746,60.0,GO
2047,Helena silva,igor.ribeiro@gmail.com,(57) 92454-5335,70.0,RS
2048,Carlos souza,ana.oliveira@gmail.com,(33) 92103-7577,46.0,SC


In [158]:
#Tratamento de Dados da coluna das idades
dados = dados.query('idade < 135 | idade < 1') 

Unnamed: 0,nome,email,telefone,idade,estado
0,Eduardo pereira,Juliana.lima@gmail.com,(58) 92686-9068,67.0,GO
8,Ana nascimento,Juliana.almeida@gmail.com,(20) 93969-2714,44.0,PR
19,Helena nascimento,Daniela.costa@gmail.com,(16) 97314-5826,25.0,RJ
26,Daniela souza,Juliana.lima@gmail.com,(45) 98971-8097,42.0,RS
27,Gustavo lima,Igor.silva@gmail.com,(84) 91062-6183,61.0,SP


In [199]:
dados['Faixa Etária'] = dados['idade'].apply(lambda x: 'Menor de idade' if x < 18 else 'Jovem' if 29 > x >= 18 else 'Adulto' if 30 < x <= 59 else 'Idoso')
dados.head()

Unnamed: 0,nome,email,telefone,idade,estado,Faixa Etária
0,Eduardo pereira,juliana.lima@gmail.com,(58) 92686-9068,67.0,GO,Idoso
1,Ana nascimento,juliana.almeida@gmail.com,(20) 93969-2714,44.0,PR,Adulto
2,Helena nascimento,daniela.costa@gmail.com,(16) 97314-5826,25.0,RJ,Jovem
3,Daniela souza,juliana.lima@gmail.com,(45) 98971-8097,42.0,RS,Adulto
4,Gustavo lima,igor.silva@gmail.com,(84) 91062-6183,61.0,SP,Idoso


In [203]:
# Renomeando as colunas
dados.rename(columns={
    'nome':'Nome',
    'email':'Email',
    'telefone':'Telefone',
    'idade':'Idade',
    'estado':'Estado'
}, inplace = True) # Com o inplace não é necessário criar outra variavel pra redefini-la

Unnamed: 0,Nome,Email,Telefone,Idade,Estado,Faixa Etária
0,Eduardo pereira,juliana.lima@gmail.com,(58) 92686-9068,67.0,GO,Idoso
1,Ana nascimento,juliana.almeida@gmail.com,(20) 93969-2714,44.0,PR,Adulto
2,Helena nascimento,daniela.costa@gmail.com,(16) 97314-5826,25.0,RJ,Jovem
3,Daniela souza,juliana.lima@gmail.com,(45) 98971-8097,42.0,RS,Adulto
4,Gustavo lima,igor.silva@gmail.com,(84) 91062-6183,61.0,SP,Idoso


In [208]:
from validate_email import validate_email

dados['Válido'] = dados['Email'].apply(lambda x: validate_email(x)) #Validando e-mail com biblioteca
dados.head(5)

Unnamed: 0,Nome,Email,Telefone,Idade,Estado,Faixa Etária,Válido
0,Eduardo pereira,juliana.lima@gmail.com,(58) 92686-9068,67.0,GO,Idoso,True
1,Ana nascimento,juliana.almeida@gmail.com,(20) 93969-2714,44.0,PR,Adulto,True
2,Helena nascimento,daniela.costa@gmail.com,(16) 97314-5826,25.0,RJ,Jovem,True
3,Daniela souza,juliana.lima@gmail.com,(45) 98971-8097,42.0,RS,Adulto,True
4,Gustavo lima,igor.silva@gmail.com,(84) 91062-6183,61.0,SP,Idoso,True


In [213]:
dados.to_csv('dados.usuarios.csv',index=False,sep=';')