### O dataset clientes.csv possui dados sobre clientes de uma determinada loja.
### Porém esse dataset possui alguns problemas e deve ser tratado antes de quaisquer processamentos. Você deve:

### 1) Realizar a limpeza desses dados, sempre analisando qual a melhor decisão a ser tomada em cada situação de acordo com seu julgamento.

### 2) Faça anotações do porquê de cada ação tomada para tratar a base de dados, explicando a decisão.

### 3) Procure explicar quais as vantagens e/ou desvantagens de suas ações sobre o dataset.

In [306]:
import pandas as pd
import numpy as np


In [307]:
clientes = pd.read_csv('clientes.csv')

In [308]:
clientes

Unnamed: 0,cliente_nome_completo,cliente_cpf,cliente_idade,cliente_frequencia_compra,cliente_nome,cliente_sobrenome
0,Fernando Andrade,2.946012e+10,51,26,Fernando,Andrade
1,Vanessa Andrade,7.428947e+10,47,6,Vanessa,Andrade
2,Maria Barcelos,9.301411e+10,23 anos,91,Maria,Barcelos
3,Vanessa Carvalho,2.482485e+10,30,54,Vanessa,Carvalho
4,Ana Rodrigues,5.314509e+10,44,81,Ana,Rodrigues
...,...,...,...,...,...,...
997,Vanessa Nunes,7.988690e+10,43,89,Vanessa,Nunes
998,Claudia Fernandes,6.854702e+10,58,11,Claudia,Fernandes
999,Valter Fernandes,2.490824e+10,51,94,Valter,Fernandes
1000,Leonardo Melo,8.286605e+10,20,10,Leonardo,Melo


In [309]:
display(clientes.info())

display(clientes.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1002 entries, 0 to 1001
Data columns (total 6 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   cliente_nome_completo      1002 non-null   object 
 1   cliente_cpf                1000 non-null   float64
 2   cliente_idade              1002 non-null   object 
 3   cliente_frequencia_compra  1002 non-null   int64  
 4   cliente_nome               1002 non-null   object 
 5   cliente_sobrenome          1001 non-null   object 
dtypes: float64(1), int64(1), object(4)
memory usage: 47.1+ KB


None

Unnamed: 0,cliente_cpf,cliente_frequencia_compra
count,1000.0,1002.0
mean,49711370000.0,49.941118
std,28743250000.0,29.426274
min,227730200.0,-5.0
25%,24887390000.0,24.0
50%,48415680000.0,50.0
75%,74597960000.0,75.0
max,99880030000.0,150.0


### Identifiquei os erros:

### Coluna cliente_cpf pode estar com dados incorretos, entendo que o melhor é int.
### Coluna cliente_idade possui str junto com int, entendo que o correto é int.
### Colunas cliente_nome e cliente_sobrenome são desnecessarias, entendo ser desnecessarias, e, mesmo que úteis, posso facilmente cria-las para uma consulta futura, vou dropar.
### Existem valor negativos na coluna Cliente_frenquencia_compra, aparenta ser um outlier 

In [310]:
clientes.drop(['cliente_nome','cliente_sobrenome'],axis = 1, inplace= True)

In [311]:
display(clientes.info())
 ## Resultado do drop, onde se reduziu quase 17% do tamanho do DF 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1002 entries, 0 to 1001
Data columns (total 4 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   cliente_nome_completo      1002 non-null   object 
 1   cliente_cpf                1000 non-null   float64
 2   cliente_idade              1002 non-null   object 
 3   cliente_frequencia_compra  1002 non-null   int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 31.4+ KB


None

### Analise de duplicatas e após, a exclusão delas. 

In [312]:
clientes.drop_duplicates(keep='first', inplace=True) 

In [313]:
display(clientes.info())

## CSV não possuia arquivos duplicados 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 0 to 1001
Data columns (total 4 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   cliente_nome_completo      1000 non-null   object 
 1   cliente_cpf                998 non-null    float64
 2   cliente_idade              1000 non-null   object 
 3   cliente_frequencia_compra  1000 non-null   int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 39.1+ KB


None

### Analise e preenchimento dos dados faltantes da coluna cliente_cpf, conversão em int e remoção dos pontos que separam as casas decimais.

In [314]:
clientes['cliente_cpf'].fillna(00000000000, inplace= True) 
## para os campos vazios, adicionei a informação de 11 zeros, para corresponder a quantidade de digitos de um cpf,
##  não vejo vantagens, foi por opção, entendo que o correto seria localizar o verdadeiro CPF. Existe a desvantagem de termos 2 CPFs iguais para clientes diferentes, que podem inclusive ter o mesmo nome.

In [315]:
clientes['cliente_cpf'] = clientes['cliente_cpf'].astype(np.int64) ## transformei a coluna em int, dessa forma a informação ficara expressa de forma correta 

print(clientes['cliente_cpf'].dtype)

int64


### Analise da coluna cliente_idade, exclusão do str e alteração para int

In [316]:
clientes['cliente_idade'] =  clientes['cliente_idade'].str.replace('anos', '') ## alterei a coluna cliente_idade, apagando os str, ficando so numeros

clientes['cliente_idade'] = clientes['cliente_idade'].astype(np.int16) 
## alterei o tipo de dado para int16, pois entendo que terei uma redução de volume de dados, 
## nenhum dado exigira mais espaço que isso. O tempo de processamento será menor que em str, e os dados estão uniformes

### Retirando valores negativos da frenquencia de compras

In [317]:
a = clientes.query('cliente_frequencia_compra < 0')

# para poder visualizar a distribuição dos valores da coluna cliente_frequencia_compra, identificando onde esta o valor negativo,

# como não sei o que essa informação quer dizer, vou apenas excluir a informação negativa, pois a positiva que esta fora da média pode ser útil para uma analise, e a negativa não me parece correta. 

clientes.drop(a.index, axis= 0, inplace=True)

clientes['cliente_frequencia_compra'] = clientes['cliente_frequencia_compra'].astype(np.int16) # também alterei o campo para int16, sendo que nenhuma informação precisa de mais espaço que isso, 
# assim tive uma redução de 15% no volume do arquivo

In [318]:
display(clientes.info()) #entendo que os dados estão com tipagem adequada, e com as alterações, consegui uma redução de 42% na quantidade de memoria utilizada.


display(clientes.describe())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 999 entries, 0 to 1001
Data columns (total 4 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   cliente_nome_completo      999 non-null    object
 1   cliente_cpf                999 non-null    int64 
 2   cliente_idade              999 non-null    int16 
 3   cliente_frequencia_compra  999 non-null    int16 
dtypes: int16(2), int64(1), object(1)
memory usage: 27.3+ KB


None

Unnamed: 0,cliente_cpf,cliente_idade,cliente_frequencia_compra
count,999.0,999.0,999.0
mean,49631070000.0,39.201201,49.980981
std,28781830000.0,12.129832,29.378885
min,0.0,18.0,0.0
25%,24824730000.0,29.0,24.0
50%,48368780000.0,39.0,50.0
75%,74437060000.0,50.0,75.0
max,99880030000.0,60.0,150.0
