<a href="https://colab.research.google.com/github/jacksonnunesds/Data-cleaning-warangling-with-python/blob/main/Data_cleaning_wrangling_Beauty_Co.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**1.0 O Entendimento do Negocio**

##**1.1 Apresentação**
A Beauty Co, uma loja online de cosméticos, contratou seus serviços de
verificar as marcas mais vendidas e quais eventos mais ocorrem em
seu site.
O gerente de vendas te passou uma base com o histórico de
interações no site referente ao período entre nov de 2019.

##**1.2 Objetivo**
● Tratar o dataset (Data cleaning/Wrangling)

● Eventos ordenados que mais ocorrem no site (Gráfico)

● Quais são as 5 marcas mais vendidas (Gráfico)

##**1.3 Dicionário dos dados**
Breve descrição das features disponíveis no dataset:

**event_time** - Horário em que o evento aconteceu.

**event_type** - Tipo do evento que ocorreu

**product_id** - ID do Produto.

**category_id** - ID da categoria* do Produto.

**category_code** - Taxonomia da categoria* do produto (codinome). Presente
para categorias significativas (normalmente), mas ignorado para alguns tipos
de acessórios

**brand** - Marca do Produto.



#2.0 A Coleta dos dados

In [None]:
# Importando as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
# Carregando o dataset
df = pd.read_csv('/content/2019-Nov.csv')

In [None]:
# Verificando as informações do dataset
df.head()

Unnamed: 0,event_time,event_type,product_id,category_id,category_code,brand,price,user_id,user_session
0,2019-11-01 00:00:02 UTC,view,5802432.0,1.487580e+18,,,0.32,562076640.0,09fafd6c-6c99-46b1-834f-33527f4de241
1,2019-11-01 00:00:09 UTC,cart,5844397.0,1.487580e+18,,,2.38,553329724.0,2067216c-31b5-455d-a1cc-af0575a34ffb
2,2019-11-01 00:00:10 UTC,view,5837166.0,1.783999e+18,,pnb,22.22,556138645.0,57ed222e-a54a-4907-9944-5a875c2d7f4f
3,2019-11-01 00:00:11 UTC,cart,5876812.0,1.487580e+18,,jessnail,3.16,564506666.0,186c1951-8052-4b37-adce-dd9644b1d5f7
4,2019-11-01 00:00:24 UTC,remove_from_cart,5826182.0,1.487580e+18,,,3.33,553329724.0,2067216c-31b5-455d-a1cc-af0575a34ffb
...,...,...,...,...,...,...,...,...,...
3046380,2019-11-22 11:03:10 UTC,purchase,5779238.0,1.487580e+18,,,4.05,574830842.0,752946f2-98d4-40fa-a2aa-e819f48485b9
3046381,2019-11-22 11:03:10 UTC,purchase,5772302.0,1.602944e+18,,grattol,4.43,574830842.0,752946f2-98d4-40fa-a2aa-e819f48485b9
3046382,2019-11-22 11:03:10 UTC,purchase,5772301.0,1.602944e+18,,grattol,4.29,574830842.0,752946f2-98d4-40fa-a2aa-e819f48485b9
3046383,2019-11-22 11:03:10 UTC,purchase,5772290.0,1.602944e+18,,grattol,5.60,574830842.0,752946f2-98d4-40fa-a2aa-e819f48485b9


In [None]:
#O Float mostrará 5 casas decimais a mais
pd.set_option('display.float_format', lambda x: '%.5f' % x)

In [None]:

df.describe(include=object)

Unnamed: 0,product_id,category_id,price,user_id
count,2885672.0,2885672.0,2885672.0,2885672.0
mean,5468771.0,1.548688e+18,8.575782,505958500.0
std,1324060.0,1.625181e+17,19.63559,84915990.0
min,3752.0,1.48758e+18,-79.37,1120748.0
25%,5713173.0,1.48758e+18,2.05,470050300.0
50%,5809910.0,1.48758e+18,3.97,542258600.0
75%,5854831.0,1.48758e+18,6.92,567311300.0
max,5906760.0,2.195085e+18,327.78,574886100.0


In [None]:
# Verificando as dimensões do dataset
df.shape

(3046385, 9)

#**3.0 A Limpeza de Dados**


In [None]:
#verificando o tipo dos dados
df.dtypes

In [None]:
df['event_type'].unique()

Nesta primeira consulta de duplicadas, podemos ver que temos um total de 246693

In [None]:
df.duplicated().sum()

In [None]:
# Agrupar valores (user_session, event_type, product_id, event_time por user_session) para verificar se existem valores duplicados
df.groupby(by=['user_session', 'event_type', 'product_id', 'event_time'])['user_session'].count().sort_values(ascending=False)

In [None]:
# Aplicando o tratamento das duplicadas
df[['user_session', 'event_type', 'product_id', 'event_time']].drop_duplicates().shape

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df.shape

Podemos verificar que não temos mais duplicadas

In [None]:
# Verificando duplicadas apos tratamento
df.duplicated().sum()

In [None]:
# Verificando os dados nulos
df.isnull().sum()

event_time             0
event_type             1
product_id             1
category_id            1
category_code    2996002
brand            1307015
price                  1
user_id                1
user_session         586
dtype: int64

In [None]:
# Excluindo colunas com muitas NULL
df = df.drop(columns=['category_code', 'brand'])

Podemos verificar que existem 2 colunas com um numero muito grande de NULL **category_code** e **brand**, assim impossibilitando o preenchimento, logo, a melhor opção foi excluir essas colunas

In [None]:
#excluindo dados duplicados
df = df.drop_duplicates()

In [None]:
# Verificando se restaram valores duplicados
df.duplicated().sum()

0

In [None]:
df.dtypes

event_time        object
event_type        object
product_id       float64
category_id      float64
category_code     object
brand             object
price            float64
user_id          float64
user_session      object
dtype: object

Agora vamos fazer o tratamento da feature event_time, que está no formato object, vamos converter para datetime, para facilitar em futuras consultas.

In [None]:
# utilizado para alterar o formato de object para datetime
df['event_time']= pd.to_datetime(df['event_time'], format= '%Y-%m-%d %H:%M:%S UTC')

In [None]:
# Agora o fomato está correto
df.dtypes

tratamento da feature brand 'marcas'

In [None]:
df['brand'].value_counts()

In [None]:
df['brand'].isna().value_counts()

In [None]:
df.dropna(subset=['brand'], inplace=True)

In [None]:
df['brand'].isna().value_counts()

Tratamento de nulos da feature Price

In [None]:
df['price'].isna().value_counts()

In [None]:
# Calculando Quartis
df.describe(percentiles=[0.01, 0.1, 0.25, 0.5, 0.75, 0.99])

Vamos calcular o IQR para ajudar no tratamento. 
IQR = Q3-Q1

In [None]:
Q3 = df['price'].quantile(0.75)
Q1 = df['price'].quantile(0.25)
IQR = Q3-Q1
IQR

In [None]:
lower_bound = Q1 - 1.5*IQR
lower_bound

In [None]:
upper_bound = Q3 + 1.5*IQR
upper_bound

Verificando nulos event_type

In [None]:
df['event_type'].isna().value_counts()

In [None]:
x = df['event_type'].value_counts().index
x

In [None]:
y = df['event_type'].value_counts()
y

In [None]:
plt.figure(figsize=(10,5))
plt.title('Evento x Qnt')
sns.barplot(x, y, saturation= 0.5, order=[ 'view', 'cart','remove_from_cart', 'purchase'], palette= 'pastel')

Verificando quais foram os itens mais vendidos

In [None]:
mais_vendidas = df['brand'].value_counts()[0:5]
mais_vendidas

In [None]:
mais_vendidas = pd.DataFrame(mais_vendidas).reset_index()

In [None]:
mais_vendidas.head()

In [None]:
# Plotando itens mais vendidos

plt.figure(figsize=(10,5))
plt.title('Mais vendidas')
sns.barplot('index', 'brand', data= mais_vendidas)