# Módulo de estatística 

## Projeto B - Previsão do faturamento da empresa de acordo com os produtos

### Instruções

- O projeto deverá ser entregue até dia 22/11 antes do início da aula
- O projeto poderá ser feito em grupo com até 4 integrantes
- Serão 2 projetos A e B porém apenas 1 projeto deverá ser entregue e escolhido pelo grupo

- A entrega deve ser feita em jupyter notebook com os códigos explícitos e comentados. Além disso os conceitos, decisões e conclusões usadas devem estar destacadas no notebook

### Informações sobre o projeto

Dataset (conjunto de dados a ser utilizado) é um arquivo txt separado por tabulação e encontrasse no drive em:

./Modulo 4/aulas/data/sim_ts.txt

#### Case

Imagine que você trabalha numa empresa de benefícios que vende diversos produtos para os RHs clientes, com o intuito de melhorar a qualidade de vida de seus colaboradores por meio de alimentação saudável, transporte, saúde, entre outros.

Para ajudar no direcionamento e estratégia corporativa, bem como definir a meta do time comercial, você ficou encarregado de prever qual seria o faturamento mensal esperado para 2022. 

Utilizando as metodologias vistas em aula, sobretudo ligadas a séries temporais, faça o seguinte:

#### Etapa I

**EDA - Análise exploratória de dados**

- Análise das medidas de medidas de posição, dispersão, correlação (análises univaridas e bivariadas) - histograma, boxplot, mapa de calor, etc...
- Identificação e tratamento de outliers e missings, caso necessário (sempre explicando a opção)

#### Etapa II
a. Ajuste um modelo para o faturamento total (sem quebrar por produto) e realize a projeção para os meses faltantes até o final de 2022.

b. Faça ajustes indivíduais para cada produto e consolide os resultados para obter o faturamento total para os meses faltantes até o final de 2022.

c. Qual dos dois cenários obteve a melhor projeção? Qual cenário você usaria dentro da sua empresa pensando nos desdobramentos estratégicos citados acima? Justifique a sua resposta com base em métricas bem definidas e no entendimento do problema.

#### Informação sobre os atributos

- **vlr:** Vlr. faturado no mês
- **date:** Mês de referência do faturamento
- **produto:** Produto ao qual o faturamento diz respeito

## Importando bibliotecas

In [1]:
import pandas as pd
import numpy as np

from datetime import datetime


## Etapa I

**AED - Análise exploratória de dados**

### Carregando dataset

In [2]:
# Lista o dataset no repositório local
data_folder = ".\\Dataset\\Projeto-B\\"
!dir /ON /b /a-d $data_folder

sim_ts.txt


In [3]:
%%time
# Carrega o arquivo no dataframe
file = 'sim_ts.txt'

df = pd.read_csv(data_folder + file, sep="\t")

Wall time: 3.96 ms


In [4]:
lin, col = df.shape
print(f'Linhas.: {lin}\nColunas: {col}')

Linhas.: 511
Colunas: 3


In [5]:
df.head(5)

Unnamed: 0,vlr,date,produto
0,1006195000.0,2009-12-01,alimenticio
1,998698000.0,2010-01-01,alimenticio
2,999418200.0,2010-02-01,alimenticio
3,990000000.0,2010-03-01,alimenticio
4,994207500.0,2010-04-01,alimenticio


Podemos ver que cada linha do conjunto de dados tem os valores faturados de um produto, em uma determinada data, descritos em detalhe abaixo.

### Características dos dados

- **vlr:** Valor faturado no mês
- **date:** Mês de referência do faturamento
- **produto:** Nome de identificação do produto ao qual o faturamento diz respeito

In [None]:
# Obtendo as informações de colunas e tipo das colunas do dataframe
df.info(show_counts =True)

In [None]:
# Obtendo informações gerais dos valores que cada coluna numérica contém
df.describe()

In [None]:
# Obtendo informações gerais dos valores incluindo as variáveis do tipo object
df.describe(include=object)

### Pré-processamento

In [None]:
# Obtendo as informações de colunas e tipo das colunas do dataframe
df.info()

#### *Data Prep*

In [None]:
# Install dataprep

# conda install -c conda-forge dataprep
# or
# !pip install dataprep

from dataprep.eda import plot, plot_correlation, create_report, plot_missing

In [None]:
plot(df)

In [None]:
create_report(df)

#### *Autoviz*

In [None]:
# Install Autoviz

# conda install -c conda-forge autoviz
# conda install -c anaconda xlrd

# OR 

# !pip install Autoviz
# !pip install xlrd


from autoviz.AutoViz_Class import AutoViz_Class

In [None]:
AV = AutoViz_Class()
dftc = AV.AutoViz(
    filename='', 
    sep='' , 
    depVar='', 
    dfte=df, 
    header=0, 
    verbose=1, 
    lowess=False, 
    chart_format='bokeh', 
    max_rows_analyzed=150000, 
    max_cols_analyzed=30
)

#### *Pandas Profiling*

In [None]:
from pandas_profiling import ProfileReport

In [None]:
report = ProfileReport(df)
report

#### *SweetViz*

In [6]:
# Install sweetviz

# conda install -c conda-forge sweetviz
# or
#!pip install sweetviz

In [7]:
import sweetviz as sv

In [None]:
advert_report = sv.analyze([df, "Data"])

                                             |                                             | [  0%]   00:00 ->…