<a href="https://colab.research.google.com/github/Yagomendonca/Dashboard_Phyton/blob/main/Data_Cleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Import das bibliotecas

In [None]:
import numpy as np
import pandas as pd
from datetime import datetime
import plotly.express as px


import seaborn as sns
import matplotlib.pyplot as plt

from sklearn import metrics
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import scale, minmax_scale, power_transform

### Import do Dataframe

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
df = pd.read_csv('/content/drive/MyDrive/CURSO ANALISE DE DADOS DNC/MÊS 08/Desafio 5/data.csv', encoding='unicode_escape')

In [None]:
df

### Entendendo os dados

Mudança no nome das colunas

In [None]:
df = df.rename(columns={'InvoiceNo':'Codigo_da_fatura', 'StockCode':'Codigo_de_estoque', 'InvoiceDate':'Data_do_Faturamento'})

Verificação dos dados

In [None]:
df.describe()

In [None]:
df.max()

In [None]:
df.info()

### Limpeza dos dados

Verificação dos dados nulos

In [None]:
df.isnull().sum()

Entendendo que o Customer ID é igual ao código de identificação do cliente, não há motivos de se ter códigos vazios, pois se o código é vazio não exite cliente, logo, a venda não foi realizada, ou foi realizada para um cliente fantasma

In [None]:
df[df['CustomerID'].isna()]

In [None]:
df[df['Description'].isna()]

Aqui entendeu-se que algumas descrições dos produtos são nulas quando o Customer ID é nulo. Logo, foi necessário excluir apenas os dados em que o Customer ID é nulo para que as descrições tambem sejam excluídas e assim o dataset ficará sem valores nulos

In [None]:
df.dropna(subset=['CustomerID'], inplace=True)

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df = df.query('UnitPrice > 0')

In [None]:
df = df.query('Quantity > 0')

In [None]:
df

In [None]:
df.describe()

Exclusão de valores <= 0

In [None]:
df.duplicated().sum()

In [None]:
df[df.duplicated()]

In [None]:
df = df.drop_duplicates()

In [None]:
df.duplicated().sum()

Exclusão de valores duplicados

In [None]:
df.info()

In [None]:
df.max()

### Mudando o tipo dos dados

In [None]:
df['Data_do_Faturamento'] =  df['Data_do_Faturamento'].astype('datetime64')

In [None]:
df

In [None]:
df['CustomerID'] = df['CustomerID'].astype(int)

In [None]:
df.info()

### Tratando os outliers

In [None]:
df.describe()

In [None]:
df.plot.box()

In [None]:
df[['UnitPrice', 'Quantity']].apply(scale).boxplot()

In [None]:
df.query('UnitPrice>=5000')

In [None]:
df.query('Quantity>10000')

In [None]:
df.describe(percentiles=[.01, .25, .5, .75, .9, .99])

In [None]:
def is_outlier(array, extreme=False):
  """Custom function to identify outliers in an array"""
  q1,q3 = np.quantile(array, [.25,.99])
  iqr = q3-q1

  factor = 400. if extreme else 350
  upper_outlier = q3 + factor*iqr
  lower_outlier = q1 - factor*iqr

  return (array < lower_outlier) | (array > upper_outlier)

In [None]:
df[['UnitPrice', 'Quantity']].apply(is_outlier).sum()

In [None]:
df= df[~df[['UnitPrice', 'Quantity']].apply(is_outlier).any(axis=1)]

In [None]:
df.query('UnitPrice>=5000')
df.query('Quantity>=10000')

### Análises matemáticas

Verificando o valor total em vendas

In [None]:
df['Preço_Total'] = df['Quantity'] * df['UnitPrice']

In [None]:
df.head()

In [None]:
df.info()

Verificando a ultima data

In [None]:
df.sort_values('Data_do_Faturamento', ascending=False)

Calculando o top 10 países com maior valor em vendas

In [None]:
Top10Países = df[['Country', 'Preço_Total']].groupby('Country').sum().sort_values('Preço_Total',ascending=False).head(10)

In [None]:
Top10Países

In [None]:
Top10Países.to_excel('Top_10_Paises.xlsx')

Top 10 produtos com maior valor em vendas

In [None]:
Top10Produtos = df[['Description', 'Quantity']].groupby('Description').sum('Quantity').sort_values('Quantity', ascending=False).head(10)

In [None]:
Top10Produtos

In [None]:
Top10Produtos.to_excel('Top_10_Produtos.xlsx')

Venda total po mês

In [None]:
UltimaData = df['Data_do_Faturamento'].max()

In [None]:
UltimaData

In [None]:
df_date_index = df.set_index('Data_do_Faturamento').sort_index()
df_date_index

In [None]:
Venda_Total_Mes = df_date_index[['Preço_Total']].resample('MS').sum()

In [None]:
Venda_Total_Mes

In [None]:
Venda_Total_Mes.to_excel('Venda_mes.xlsx')

Venda total por país e mês

In [None]:
Venda_Total_Mes2 = df.groupby([df['Data_do_Faturamento'].dt.strftime('%Y-%m'), 'Country'])['Preço_Total'].sum().reset_index()

In [None]:
Venda_Total_Mes2

In [None]:
Venda_Total_Pais_Mes = Venda_Total_Mes2.groupby('Country')['Preço_Total'].sum().nlargest(10).index
df_Top10 = Venda_Total_Mes2[Venda_Total_Mes2['Country'].isin(Venda_Total_Pais_Mes)].sort_values('Preço_Total', ascending=False)

In [None]:
df_Top10

In [None]:
df_Top10.to_excel('Top_10.xlsx')

### Dashboard

In [None]:
!pip install dash

In [None]:
from dash import Dash, html, dcc

In [None]:
fig_Top10Países = px.bar(Top10Países, color_discrete_sequence=px.colors.qualitative.Alphabet, title = 'Top 10 países')
fig_Top10Países.update_layout(title=dict(text='Top 10 Países', font=dict(size=35), xanchor = 'auto', yanchor ="top"))
fig_Top10Países.show();
fig_Top10Produtos = px.bar(Top10Produtos, y ='Quantity', color_discrete_sequence=px.colors.qualitative.Alphabet, title = 'Top 10 produtos')
fig_Top10Produtos.update_layout(title=dict(text='Top 10 Produtos', font=dict(size=35), xanchor = 'auto', yanchor ="top"))
fig_Top10Produtos.show();
fig_Venda_Total_Mes = px.area(Venda_Total_Mes, color_discrete_sequence=px.colors.qualitative.Alphabet, title = 'Venda total mês')
fig_Venda_Total_Mes.update_layout(title=dict(text='Venda Total Mes', font=dict(size=35), xanchor = 'auto', yanchor ="top"))
fig_Venda_Total_Mes.show()
fig_Venda_País_Mês = px.bar(df_Top10, x='Data_do_Faturamento', y='Preço_Total', color_discrete_sequence=px.colors.qualitative.Alphabet, color='Country', title = 'Top 10 País por mês ')
fig_Venda_País_Mês.update_layout(title=dict(text='Venda País Mês', font=dict(size=35), xanchor = 'auto', yanchor ="top"))

fig_Venda_País_Mês.show()

### Cálculo do RFM

In [None]:
df.groupby(['CustomerID', 'Description', 'Data_do_Faturamento'])[['Preço_Total']].mean()

Cálculo da Recência

In [None]:
df.groupby(['CustomerID'])[['Preço_Total']].mean()

In [None]:
Recencia = df.groupby(['CustomerID'])[['Data_do_Faturamento']].max()

In [None]:
Recencia.info()

In [None]:
UltimaData

In [None]:
Recencia.query('12347')

In [None]:
Recencia['Dias'] = abs(Recencia - UltimaData)

In [None]:
Recencia.info()

In [None]:
Recencia

Cálculo da Frequência

In [None]:
Frequencia = df.groupby(['CustomerID'])[['Quantity']].count()

In [None]:
Frequencia.sort_values('Quantity',ascending=False)

Cálculo do Ticket Médio

In [None]:
Ticket_medio = df.groupby(['CustomerID'])[['Preço_Total']].mean()

In [None]:
Ticket_medio.sort_values('Preço_Total', ascending=False)