# Analisando as vendas da empresa
- Vamos utilizar a base disponível em:
    - https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce?select=olist_customers_dataset.csv
    - Essa é uma base de dados real, porém anonimizada
- Fizemos alguns tratamentos nos dados e disponibilizamos em 3 arquivos:
    - `base_vendas.xlsx`: todos os dados de venda por item da empresa, onde cada linha representa 1 item vendido
    - `base_pagamentos.xlsx`: base com as formas de pagamento usado naquela compra
    - `olist_order_reviews_dataset.csv`: base com o review dos pedidos, exatamente como baixada do Kaggle, onde cada linha representa a avaliação de uma pedido
- Uma base extra com o agrupamento das categorias também está disponível em `verifica_base.xlsx`

## Importando a base

In [50]:
# Importando o pandas

In [51]:
# Importando a base de vendas do excel

In [52]:
# Importando a base de grupos

In [53]:
# Podemos unir essas duas bases utilizando o merge

In [54]:
# E também apagar as colunas que não estamos usando

In [55]:
# Verificando as informações da tabela

### Tratando valores vazios e outliers

**Retirando valores nulos das vendas**

In [56]:
# Retirando os valores onde o preço é vazio

**Desconsiderando as vendas canceladas**

In [57]:
# Retirando as vendas que foram canceladas

**Retirando os outliers das datas**

In [58]:
# Retirando a black friday

In [59]:
# Retirando o dia após a black friday

**Atualizando categorias vazias como outros**

In [60]:
# Substituindo valores vazios no grupo por nulo

**Verificando valores vazios**

In [61]:
# Contando quantos valores vazios existem em cada coluna

In [62]:
# Entendendo as 15 colunas com order_approved_at vazias

In [63]:
# Apagando essas colunas

**Verificando os outliers**

In [64]:
# Criando um boxplot

# Qual pergunta eu quero responder?

### <font color='blue'>Qual vai ser a venda valor nos próximos dias?</font>

In [65]:
# Visualizando a venda pelo tempo

In [66]:
# Importando o matplotlib

In [67]:
# Podemos criar uma nova variável para a venda por dia

In [68]:
# E então traçar o gráfico dessa variável

In [69]:
# Eu posso traçar uma reta qualquer para estimar a venda

## Qual é a melhor forma de traçar essa reta?
- Utilizando a regressão linear do Scikit-Learn
    - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [70]:
# Antes de usar o Scikit-Learn, vamos tratar a data para conseguir colocar no modelo
# Importando o datetime

In [71]:
# Fazendo a diferença entre o dia atual e o menor dia

In [72]:
# Colocando esses valores em uma escala de 0 a 1

In [73]:
# Importando a regressão linear do Scikit-Learn

In [74]:
# Separando em X e y nossos dados

In [75]:
# Colocando nossos dados no modelo

In [76]:
# Verificando o score

In [77]:
# o coeficiente angular dessa reta

In [78]:
# e o coeficiente angular

In [79]:
# Podemos adicionar essa reta no gráfico que criamos

### <font color='blue'>Na verdade, eu quero saber qual a venda de determinados grupo</font>

In [80]:
# Visualizando novamente a base de vendas

In [81]:
# Agrupando a venda por grupo

In [82]:
# Visualizando o plot de alguns grupos

In [83]:
# Agrupando a venda por data e grupo

In [84]:
# Verificando a data máxima

In [85]:
# E o shape desse DataFrame

In [86]:
# Podemos então separar os nossos dados em treino e teste

# Verificando o tamanho da base de treino

# Verificando o tamanho da base de teste

# Verificando a proporção de teste da nossa base

In [87]:
# Podemos então visualizar essa base de treino e de teste

## Criando um modelo para estimar a venda desses pontos

In [88]:
# Visualizando a base de treino

In [89]:
# Separando X e y

In [90]:
# Fazendo a regressão para esses dados

**O primeiro erro indica que não podemos passar um `Timestamp` para o modelo** <br>
- Vamos então fazer o tratamento de datas que já mostramos anteriormente

In [91]:
# Utilizando o mesmo tratamento que fizemos na data

In [92]:
# Novamente separando X e y

In [93]:
# Novamente fazendo a regressão

**Já o segundo erro indica que também não podemos ter `valores em texto`** <br>
`ValueError: could not convert string to float`

- Para conseguir resolver, podemos usar o `.get_dummies()` do próprio pandas
    - https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [94]:
# Fazendo o get_dummies para a base de treino

In [95]:
# Separando X e y

In [96]:
# E fazendo a regressão

In [97]:
# Verificando o score

In [98]:
# o coeficiente angular

In [99]:
# e o coeficiente linear

In [100]:
# Salvando na base de treino a previsao que acabamos de fazer

In [101]:
# Podemos visualizar de forma gráfica essa previsão

### Será que meu modelo aprendeu ou apenas decorou?

In [102]:
# Verificando a base de teste

In [103]:
# Fazendo a mesma transformação da data

In [104]:
# E a transformação do grupo

In [105]:
# Separando X e y

In [106]:
# E fazendo a previsão para a base de teste

In [107]:
# Podemos visualizar de forma gráfica essa previsão

### Podemos usar qualquer um dos nossos dados, desde que tratados, para colocar no modelo

In [132]:
# Verificando novamente a base de venda

In [109]:
# Agora vamos utilizar as colunas mes_compra e ano_compra

In [110]:
# Separando em treino e teste

In [111]:
# Agora vamos criar novamente o nosso modelo

# Separando X e y para treino

# Fazendo o fit do modeo               

# Fazendo a previsão para a base de treino

# Fazendo a previsão para a base de teste

In [112]:
# Visualizando de forma gráfica

In [113]:
# Podemos agrupar esses valores por dia

In [114]:
# E também visualizar graficamente

In [115]:
# Adicionando a reta que fizemos anteriormente

## Testando a Árvore de Regressão
- https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html

In [116]:
# Verificando a base de treino

In [117]:
# Separando X e y de treino

In [118]:
# Importando o DecisionTreeRegressor

In [119]:
# Criando o nosso regressor

In [120]:
# Fazendo o fit do modelo

In [121]:
# Verificando o score

In [122]:
# Fazendo a previsão pro treino e teste

In [123]:
# Adicionando esses dados no gráfico anterior

**O próprio Scikit-Learn te ajuda a analisar os erros**
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html

In [124]:
# Importando o erro médio absoluto

In [125]:
# Analisando o erro na regressao

In [126]:
# Analisando o erro na regressao

## Agora testando o Support Vector Regression
- https://scikit-learn.org/stable/modules/svm.html#regression <br><br><br><br>

...na próxima aula!