<a href="https://colab.research.google.com/github/EvanilsonLJS/AVD/blob/master/AVD_2022_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Descrição**

Este Dataset, que vem da equipe de compras do CESAR, consiste de uma tabela a qual possui informações sobre diversos fornecedores, os compradores da equipe e as transações entre eles. Com este Dataset buscamos melhor entender as relações entre compradores e fornecedores, gerar insights que ajudem na tomada de decisões importantes.

# **Dicionário de Dados**

**O dicionário engloba apenas as colunas usadas na geração de insights.**

- Nome do Fornecedor: Nome da empresa fornecedora.

- A.F Principal: Autorização de Fornecimento Principal.

- Fornecedor: código do fornecedor na plataforma pirâmide.

- Nome do Comprador: Nome do integrante da equipe de compras do CESAR.

- Valor Total\nPedido (R$): Valor total da compra.

- Data Aceite: Data que o financeiro recebe o boleto da compra para realizar o pagamento.

# **Importando Libs e Conectando com o Google Drive**

In [3]:
#importando bibliotecas
import pandas as pd
import numpy as np
import seaborn as sn
import matplotlib.pyplot as pt

#conexão com o Drive
from google.colab import drive
drive.mount('/content/gdrive')
compras = pd.read_excel('/content/gdrive/Shared Drives/Colab Notebooks/CESAR - Compras–RelatórioPiramide2022_jan.jun.xlsx')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


FileNotFoundError: ignored

# **Estatística Descritiva**

**Sumário**

Primeiro foi realizada uma análise exploratória dos dataset, com o propósito de classificar os dados disponíveis, facilitando a análise no geral. 

Os conteúdos de cada coluna do Dataset foram divididos em diferentes tipos de dados, os quais podem ser vistos abaixo. Dessa forma, essa organização ajuda nas etapas seguintes de desenvolvimento por criar uma referência de fácil entendimento e visualização.

In [None]:
df = pd.DataFrame(compras)
df

In [None]:
df.columns.str.strip("\n ")

**Classificações dos Dados:**

**Dados Quantitativos**

In [None]:
df_quant = df[['Outras\nDespesas', 'Frete T1', 'Frete T2','Qtd dias','Val. Tot. Financeiro', 'Valor Total Integral', 'Total Valor Pendente', 'Total Qtde. Pendente']]
df_quant

**Dados Qualitativos**

In [None]:
df_qual = df[['Nome do Fornecedor', 'Nome da Filial', 'Nome do Comprador', 'Moeda', 'Recebto\nConfirmado', 'Aceita']]
df_qual

**Dados Categóricos**

In [None]:
df_categ = df[['Tipo', 'Tem\nFilha', 'Dados\nRepres.', 'Moeda']]
df_categ

**Séries Temporais**

In [None]:
df_temp = df[['Dt. Últ.\nReceb.', 'Data Aceite']]
df_temp

# **Bootstraping do Dataset.**

Através da utilização da técnica de bootstrap, são gerados insights com os dados do dataset, gerando valor para o cliente.

In [None]:
#relembrando todas as colunas:
data_frame_lista = df.columns.tolist()
data_frame_lista

In [None]:
#filtrando as colunas necessárias
df_derivado = df.filter(["Nome do Fornecedor", "A.F. Principal", "Fornecedor", "Nome do Comprador", "Valor Total\nPedido (R$)", "Data Aceite"])
df_derivado

In [None]:
df_derivado.describe() #gera a descrição das distribuições

In [None]:
#trabalhando com apenas 30% do dataframe.
df_30porcento = df_derivado.sample(frac = 0.3)
df_30porcento

**Métricas abordadas em sala:**

In [None]:
#selecionando apenas as colunas válidas para média e mediana
valores_dos_pedidos = df_30porcento.filter(["Valor Total\nPedido (R$)"])
valores_dos_pedidos

In [None]:
# Média dos valores
media_dos_valores = valores_dos_pedidos.mean()
media_dos_valores

In [None]:
# Mediana dos valores
mediana_dos_valores = valores_dos_pedidos.median()
mediana_dos_valores

**Boxplot:**

Abaixo, criamos um gráfico boxplot com os dados categoricos do dataset para visualizar como eles se relacionam.

Realizamos um boxplot usando séries temporais com as datas de aceitação e os valores do produtos.

In [None]:
#trocando tipo de dados da Data para datetime64:
df_30porcento["Data Aceite"] = df_30porcento["Data Aceite"].astype("datetime64")

#colocando a data como index do dataframe:
df_30porcento = df_30porcento.set_index("Data Aceite")
df_30porcento

Foi necessário decompor os elementos da coluna "Data Aceite" para poder usar especificamento os meses do ano.

In [None]:
#separando elementos da data:
df_30porcento["Data Aceite"] = df_30porcento.index
#df_30porcento["Ano"] = df_30porcento["Data Aceite"].dt.year
df_30porcento["Mes"] = df_30porcento["Data Aceite"].dt.month
df_30porcento["Mes"]

Dessa forma se torna possível criar o Boxplot abaixo.

In [None]:
# Criando o Boxplot com Seaborn
pt.figure( figsize=(15, 8)) # alterar tamanho
bx = sn.boxplot(df_30porcento["Mes"], df_30porcento["Valor Total\nPedido (R$)"])
bx.set_title("Valores dos pedidos por mês", fontsize=15, loc="center")
bx.set_xlabel("Mês")
bx.set_ylabel("Valores do pedidos(R$)")

In [None]:
pt.figure( figsize=(15, 8)) # alterar tamanho
bx = sn.boxplot(df_30porcento["Mes"], df_30porcento["Valor Total\nPedido (R$)"])
bx.set_title("Valores dos pedidos por mês", fontsize=15, loc="center")
bx.set_xlabel("Mês")
bx.set_ylabel("Valores do pedidos(R$)")
pt.ylim(0, 10000)

**Matriz de Correlação:**

Pode ser visto na matriz abaixo que as variáveis "A.F. Principal" e "Mes" possuem maior correlação. E as que possuem maior correlação são "Valor Total Pedido" e "Fornecedor".

In [None]:
#Criação da matriz
matriz_correlacao = df_30porcento.corr()
matriz_correlacao

**Representação visual**:

In [None]:
pt.figure(figsize=(15, 8))
sn.heatmap(matriz_correlacao, annot=True, linewidths=.6)
pt.show()

# **Visualização de Ocorrências**

Abaixo se pode ver quais os fornecedores com quem a equipe de contas mais teve contato entre os meses de Janeiro e Junho.

**Com qual fornecedor os compradores mais tiveram contato durante o semestre?**

Com quais fornecedores os compradores mais tiveram contato durante o semestre?)

In [None]:
ocorrencia_fornecedor = df_30porcento['Nome do Fornecedor'].value_counts()
print(ocorrencia_fornecedor)

In [None]:
#aqui limitamos o número de ocorrencias para aqueles fornecedores que aparecem 20 vezes ou mais.
ocorrencia_fornecedor = df_30porcento['Nome do Fornecedor'].value_counts().loc[lambda x : x>19]
print(ocorrencia_fornecedor)

**Representação Visual**

In [None]:
pt.figure(figsize=(15, 8))
ocorrencia_fornecedor.plot(kind="bar", alpha = 0.5)
pt.show()

**Aviso**

**Como há uma enorme quantidade de fornecedores com baixa ocorrência, o gráfico para estes fica quase impossível de se ler. Por causa disso, o mesmo foi omitido.**

# **Testes de Hipótese**


In [None]:
#Teste de Normalidade Shapiro-Wilk
from scipy.stats import shapiro

amostra = df_derivado["Valor Total\nPedido (R$)"].dropna()
stat, p = shapiro(amostra)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
	print('Provavelmente uma Distribuição Normal')
else:
	print('Provavelmente NÃO é uma Distribuição Normal')

In [None]:
#Teste de Correlação de Pearson
from scipy.stats import pearsonr

amostra1 = df_derivado["Valor Total\nPedido (R$)"].sample(frac=0.3).dropna()
amostra2 = df_derivado["Valor Total\nPedido (R$)"].sample(frac=0.3).dropna()
stat, p = pearsonr(amostra1, amostra2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
	print('Provavelmente Independente')
else:
	print('Provavelmente Dependente')

In [None]:
#Teste T-Student
from scipy.stats import ttest_ind

amostra1 = df_derivado["Valor Total\nPedido (R$)"].sample(frac=0.3).dropna()
amostra2 = df_derivado["Valor Total\nPedido (R$)"].sample(frac=0.3).dropna()
stat, p = ttest_ind(amostra1, amostra2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
	print('Provavelmente a mesma distribuição')
else:
	print('Provavelmentes as distribuições são diferentes')

**Hipótese: A maioria dos pedidos do CESAR tem valor abaixo dos R$2000,00**

In [None]:
# https://medium.com/the-researchers-guide/finding-the-best-distribution-that-fits-your-data-using-pythons-fitter-library-319a5a0972e9
!pip install fitter

In [None]:
from fitter import Fitter, get_common_distributions, get_distributions
dist = df_derivado["Valor Total\nPedido (R$)"].dropna().values
dist

In [None]:
f = Fitter(dist,
           distributions=['gamma',
                          "beta",
                          "burr",
                          "norm"])
f.fit()
f.summary()

In [None]:
f.get_best(method = 'sumsquare_error')