## Trabalhando limpeza de dados 

Vamos trabalhar nessa parte a limpeza e extração de dados da planilha "Clientes"


In [1]:
import pandas as pd 


In [8]:

df = pd.read_csv("C:/Users/karin/OneDrive/Área de Trabalho/EBAC/clientes.csv")

pd.set_option('display.width', None)
print(df.head())

                      nome             cpf  idade        data  \
0  Sr. Vitor Gabriel Silva  640.***.***-01   90.0  1933-12-06   
1            Calebe Santos  651.***.***-46   40.0  1984-03-06   
2       Maria Julia Castro  164.***.***-43    NaN  2035-04-12   
3           Arthur Da Rosa  085.***.***-30   53.0  1970-04-16   
4             Juan Pereira  520.***.***-21   68.0  1955-10-25   

                     endereco                     bairro estado  
0    trevo emanuel silva, 482                 vila tirol     AP  
1           recanto moraes, 7         ernesto nascimento     PB  
2  residencial de pereira, 20                     jatobá     AL  
3          parque almeida, 66  vila suzana segunda seção     SE  
4      rodovia de pereira, 51                    estrela     BA  


## Remover dados

In [10]:
df.drop('país', axis=1, inplace=True) #Coluna 
df.drop(2, axis=0, inplace=True) #Linha

KeyError: "['país'] not found in axis"

## Normalizar campos de texto

In [11]:
df['nome'] = df['nome'].str.title()             # Primeira letra maiúscula em cada nome
df['endereco'] = df['endereco'].str.lower()     # Endereço todo em minúsculas
df['estado'] = df['estado'].str.strip().str.upper()  # Remove espaços e deixa tudo em maiúsculas

##  Converter tipos de dados

In [16]:
## Tratamento de valores nulos antes de converter

# Substituir valores nulos por 0
df_fillna = df.fillna(0)

# Remover registros com qualquer valor nulo
df_dropna = df.dropna()

# Manter apenas registros com pelo menos 4 valores **não nulos**
df_dropna4 = df.dropna(thresh=4)

# Remover registros onde a coluna 'cpf' está nula
df = df.dropna(subset=['cpf'])

# Verificar valores nulos por coluna
print('Valores nulos:\n', df.isnull().sum())



Valores nulos:
 nome        3
cpf         0
idade       0
data        0
endereco    0
bairro      0
estado      0
dtype: int64


In [17]:
# Verificar quantidade total de valores nulos nos DataFrames alternativos
print('\nQtd de registros nulos com fillna:', df_fillna.isnull().sum().sum())
print('Qtd de registros nulos com dropna:', df_dropna.isnull().sum().sum())
print('Qtd de registros nulos com dropna(thresh=4):', df_dropna4.isnull().sum().sum())


Qtd de registros nulos com fillna: 0
Qtd de registros nulos com dropna: 0
Qtd de registros nulos com dropna(thresh=4): 3


In [18]:
df['idade'] = df['idade'].astype(int)

In [19]:
print(df.head())

                      nome             cpf  idade        data  \
0  Sr. Vitor Gabriel Silva  640.***.***-01     90  1933-12-06   
1            Calebe Santos  651.***.***-46     40  1984-03-06   
2       Maria Julia Castro  164.***.***-43      0  2035-04-12   
3           Arthur Da Rosa  085.***.***-30     53  1970-04-16   
4             Juan Pereira  520.***.***-21     68  1955-10-25   

                     endereco                     bairro estado  
0    trevo emanuel silva, 482                 vila tirol     AP  
1           recanto moraes, 7         ernesto nascimento     PB  
2  residencial de pereira, 20                     jatobá     AL  
3          parque almeida, 66  vila suzana segunda seção     SE  
4      rodovia de pereira, 51                    estrela     BA  


### Preenchimento de nulos com valores específicos

In [20]:
# Preencher estado nulo com 'Desconhecido'
df.fillna(value={'estado': 'Desconhecido'}, inplace=True)

# Preencher endereço nulo com texto fixo
df['endereco'] = df['endereco'].fillna('Endereço não informado')

# Corrigir idade usando a média
df['idade_corrigida'] = df['idade'].fillna(df['idade'].mean())


### Tratamento de dados

In [23]:
# Tratar dados duplicados
print('Qtd registros atual:', df.shape[0])
df.drop_duplicates()
df.drop_duplicates(subset='cpf', inplace=True)
print('Qtd registros removendo as duplicadas:', len(df))

print('\nDados Limpos:\n', df)

# Salvar dataframe
df['data'] = df['data_corrigida']
df['idade'] = df['idade_corrigida']



Qtd registros atual: 991
Qtd registros removendo as duplicadas: 976

Dados Limpos:
                         nome             cpf  idade        data  \
0    Sr. Vitor Gabriel Silva  640.***.***-01     90  1933-12-06   
1              Calebe Santos  651.***.***-46     40  1984-03-06   
2         Maria Julia Castro  164.***.***-43      0  2035-04-12   
3             Arthur Da Rosa  085.***.***-30     53  1970-04-16   
4               Juan Pereira  520.***.***-21     68  1955-10-25   
..                       ...             ...    ...         ...   
986            Eloah Peixoto  064.***.***-16     79  1944-05-23   
987              Luiza Sales  726.***.***-80     56  1968-05-01   
988      Dr. Alexandre Sales  427.***.***-40     87  1936-06-05   
989            Alícia Campos  162.***.***-94     49  1975-03-20   
990              Luigi Porto  826.***.***-83     43  1980-08-18   

                       endereco                     bairro estado  \
0      trevo emanuel silva, 482           

In [30]:
# Salvar dataframe
df['data'] = df['data_corrigida']
df['idade'] = df['idade_corrigida']

df_salvar = df[['nome', 'cpf', 'idade', 'data', 'endereco', 'estado']]
df_salvar.to_csv('clientes_limpeza.csv', index=False)

caminho = r'C:\Users\karin\OneDrive\Área de Trabalho\EBAC\clientes_limpeza.csv'

df_salvar.to_csv(caminho, index=False)
print('\nNovo DataFrame: \n', pd.read_csv(caminho))





Novo DataFrame: 
                         nome             cpf  idade  data  \
0    Sr. Vitor Gabriel Silva  640.***.***-01     90   NaN   
1              Calebe Santos  651.***.***-46     40   NaN   
2         Maria Julia Castro  164.***.***-43      0   NaN   
3             Arthur Da Rosa  085.***.***-30     53   NaN   
4               Juan Pereira  520.***.***-21     68   NaN   
..                       ...             ...    ...   ...   
971            Eloah Peixoto  064.***.***-16     79   NaN   
972              Luiza Sales  726.***.***-80     56   NaN   
973      Dr. Alexandre Sales  427.***.***-40     87   NaN   
974            Alícia Campos  162.***.***-94     49   NaN   
975              Luigi Porto  826.***.***-83     43   NaN   

                       endereco estado  
0      trevo emanuel silva, 482     AP  
1             recanto moraes, 7     PB  
2    residencial de pereira, 20     AL  
3            parque almeida, 66     SE  
4        rodovia de pereira, 51     BA  
..