# Limpeza dos Dados

### Bibliotecas

In [1]:
import re
import pandas as pd

### Localizando a base de dados no diretório

In [2]:
ls "../Datasets/*.xlsx"

 O volume na unidade C ‚ Windows
 O N£mero de S‚rie do Volume ‚ 8ED9-8750

 Pasta de c:\Github\Desafio Bemol\Datasets

27/08/2021  17:24         2.230.148 Desafio - Time de Projetos e Dados.xlsx
               1 arquivo(s)      2.230.148 bytes
               0 pasta(s)   62.989.647.872 bytes dispon¡veis


### Realizando a leitura das bases de dados

In [3]:
planilhas = pd.read_excel("../Datasets/Desafio - Time de Projetos e Dados.xlsx", sheet_name=[1,2])

### Separando as bases de dados

In [4]:
df1 = planilhas[1]
df2 = planilhas[2]

### Informações das bases de dados

In [5]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13877 entries, 0 to 13876
Data columns (total 27 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   num_compra          13877 non-null  int64  
 1   usuario             13877 non-null  int64  
 2   nome                13877 non-null  object 
 3   Tipo de Mercadoria  13877 non-null  object 
 4   Filial              13877 non-null  object 
 5   data_compra         13877 non-null  object 
 6   valor_compra        13877 non-null  float64
 7   Imposto             13877 non-null  float64
 8   CPF NA NOTA?        13877 non-null  object 
 9   Produto Devolvido   13877 non-null  object 
 10  Motivo Devolução    6915 non-null   object 
 11  Unnamed: 11         0 non-null      float64
 12  Unnamed: 12         0 non-null      float64
 13  Unnamed: 13         0 non-null      float64
 14  Unnamed: 14         0 non-null      float64
 15  Unnamed: 15         0 non-null      float64
 16  Unna

In [6]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 899 entries, 0 to 898
Data columns (total 23 columns):
 #   Column                                        Non-Null Count  Dtype         
---  ------                                        --------------  -----         
 0   cod_Loja                                      899 non-null    int64         
 1   data_compra                                   899 non-null    datetime64[ns]
 2   inicio                                        899 non-null    datetime64[ns]
 3   termino                                       899 non-null    datetime64[ns]
 4   Loja                                          899 non-null    object        
 5   cod_Produto                                   899 non-null    int64         
 6   produto                                       899 non-null    object        
 7   EAN                                           899 non-null    int64         
 8   Valor Unitário Sem Imposto                    899 non-null    int64   

### Removendo colunas irrelevantes

In [7]:
df1.drop(columns=df1.columns[11:27], inplace=True)

In [8]:
df2.drop(columns=df2.columns[13:23], inplace=True)

In [9]:
df1.isnull().sum()

num_compra               0
usuario                  0
nome                     0
Tipo de Mercadoria       0
Filial                   0
data_compra              0
valor_compra             0
Imposto                  0
CPF NA NOTA?             0
Produto Devolvido        0
Motivo Devolução      6962
dtype: int64

In [10]:
df2.isnull().sum()

cod_Loja                                        0
data_compra                                     0
inicio                                          0
termino                                         0
Loja                                            0
cod_Produto                                     0
produto                                         0
EAN                                             0
Valor Unitário Sem Imposto                      0
quantidade                                      0
valor_total                                     0
Impostos                                        0
Dinheiro de Volta (Aplicado direto no total)    0
dtype: int64

### Tratando valores ausentes de motivos de devolução

In [11]:
df1.fillna("Sem devolução", inplace=True)

### Analisando redundâncias

In [12]:
df1.duplicated().sum()

0

In [13]:
df2.duplicated().sum()

3

In [14]:
df2[df2.duplicated()]

Unnamed: 0,cod_Loja,data_compra,inicio,termino,Loja,cod_Produto,produto,EAN,Valor Unitário Sem Imposto,quantidade,valor_total,Impostos,Dinheiro de Volta (Aplicado direto no total)
76,410,2019-07-06 13:39:45,2019-07-05,2019-07-20,Unidade Manaus 1,49618556000135,Smart Pro,190199383180,3000,1,3331.29,376.29,45.0
843,430,2019-07-02 09:15:12,2019-07-05,2019-07-20,Unidade Manaus 3,49618556000216,Smart Pro,190199383180,3000,1,3331.29,376.29,45.0
858,430,2019-07-02 09:24:54,2019-07-05,2019-07-20,Unidade Manaus 3,49618556000216,Smart Pro,190199383180,3000,1,3331.29,376.29,45.0


### Analisando erros de nomenclatura das lojas

In [15]:
lojas = df1.Filial.unique()
list(lojas)

['Loja Autazes',
 'Loja Manicor é ',
 'Loj Lábrea ',
 'Loja itacoati_ara',
 'Loja manAcaPuru',
 'Loja manAcaPuru ']

### Tratando as nomenclaturas das lojas

In [16]:
for i in range(len(lojas)):
    lojas[i] = lojas[i].strip().replace("_", "")
    lojas[i] = lojas[i].split(" ", 1)[1].replace(" ", "")
    lojas[i] = "Loja " + "".join(lojas[i]).title()
df1.replace(df1.Filial.unique(), lojas, inplace=True)

In [17]:
list(df1.Filial.unique())

['Loja Autazes',
 'Loja Manicoré',
 'Loja Lábrea',
 'Loja Itacoatiara',
 'Loja Manacapuru']

### Analisando erros de nomenclatura nas respostas de cpf na nota

In [18]:
list(df1["CPF NA NOTA?"].unique())

['Sim', 'Na~o']

### Tratanto o erro de nomenclatura

In [19]:
df1["CPF NA NOTA?"].replace(to_replace='Na~o', value='Não', inplace=True)

### Analisando inconsistências de data da compra

In [20]:
df1["data_compra"][13872]

'21/01/2021 18:43:49'

In [21]:
type(df1["data_compra"][13872])

str

### Convertendo data da compra para datetime

In [22]:
df1["data_compra"] = pd.to_datetime(df1["data_compra"])

In [23]:
type(df1["data_compra"][13872])

pandas._libs.tslibs.timestamps.Timestamp

### Renomeando as colunas dos datasets

- Dataset 1

In [24]:
list(df1.columns)

['num_compra',
 'usuario',
 'nome',
 'Tipo de Mercadoria',
 'Filial',
 'data_compra',
 'valor_compra',
 'Imposto',
 'CPF NA NOTA?',
 'Produto Devolvido',
 'Motivo Devolução']

In [25]:
df1.rename(columns = {'usuario':'cliente', 'nome':'vendedor'}, inplace = True)

In [26]:
df1.columns = [re.sub("\s", "_", coluna).replace("?","").lower() for coluna in df1.columns]

In [27]:
df1.columns = df1.columns.astype(str).str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

In [28]:
list(df1.columns)

['num_compra',
 'cliente',
 'vendedor',
 'tipo_de_mercadoria',
 'filial',
 'data_compra',
 'valor_compra',
 'imposto',
 'cpf_na_nota',
 'produto_devolvido',
 'motivo_devolucao']

- Dataset 2

In [29]:
list(df2.columns)

['cod_Loja',
 'data_compra',
 'inicio',
 'termino',
 'Loja',
 'cod_Produto',
 'produto',
 'EAN',
 'Valor Unitário Sem Imposto',
 'quantidade',
 'valor_total',
 'Impostos',
 'Dinheiro de Volta (Aplicado direto no total)']

In [30]:
df2.rename(columns = {'Dinheiro de Volta (Aplicado direto no total)':'Dinheiro de Volta'}, inplace = True)

In [31]:
df2.columns = [re.sub("\s", "_", coluna).lower() for coluna in df2.columns]

In [32]:
df2.columns = df2.columns.astype(str).str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

In [33]:
list(df2.columns)

['cod_loja',
 'data_compra',
 'inicio',
 'termino',
 'loja',
 'cod_produto',
 'produto',
 'ean',
 'valor_unitario_sem_imposto',
 'quantidade',
 'valor_total',
 'impostos',
 'dinheiro_de_volta']

### Salvando as bases de dados

- Questao 1

In [34]:
df1.sample()

Unnamed: 0,num_compra,cliente,vendedor,tipo_de_mercadoria,filial,data_compra,valor_compra,imposto,cpf_na_nota,produto_devolvido,motivo_devolucao
8922,26164184,66685,MARINETE,CADEIRA DE BAR,Loja Autazes,2021-01-29 16:51:09,5.556,0.25002,Sim,Sim,Insatisfação com o produto


In [35]:
df1.to_csv("../Datasets/dataset_questao1.csv", encoding="utf-8", index=False)

- Questao 2

In [36]:
df2.sample()

Unnamed: 0,cod_loja,data_compra,inicio,termino,loja,cod_produto,produto,ean,valor_unitario_sem_imposto,quantidade,valor_total,impostos,dinheiro_de_volta
196,410,2019-07-08 12:09:50,2019-07-05,2019-07-20,Unidade Manaus 1,49618556000135,Smart Pro,190199383180,3000,1,3331.29,376.29,45.0


In [37]:
df2.to_csv("../Datasets/dataset_questao2.csv", encoding="utf-8", index=False)