# 0 Imports

In [20]:
import numpy   as np
import pandas  as pd
import seaborn as sns

import datetime
import warnings
import inflection

from datetime             import datetime
from matplotlib           import pyplot as plt
from matplotlib.gridspec  import GridSpec
from IPython.display      import Image
from IPython.core.display import HTML

warnings.filterwarnings( 'ignore' )

## 0.1 Funções auxiliares

In [2]:
def jupyter_settings():
    %matplotlib inline
    
    plt.style.use( 'bmh' )
    plt.rcParams['figure.figsize'] = [18, 10]
    plt.rcParams['font.size'] = 24
    sns.set_palette("Reds") 
    
    display(HTML( '<style>.container { width:100% !important; }</style>'))
    pd.options.display.max_columns = None
    pd.options.display.max_rows = None
    pd.set_option( 'display.expand_frame_repr', False )
    
    sns.set()

In [3]:
jupyter_settings()

## 0.2 Carregamento dos dados

In [4]:
df_raw = pd.read_csv('../inputs/data.csv', encoding= 'unicode_escape')

In [36]:
df_raw.sample(10)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
466466,576329,37462E,"PET MUG, GOLDFISH",1,11/14/2011 15:22,0.83,,United Kingdom
56099,541021,21563,RED HEART SHAPE LOVE BUCKET,12,1/13/2011 12:03,2.95,13093.0,United Kingdom
522705,580434,22645,CERAMIC HEART FAIRY CAKE MONEY BANK,3,12/4/2011 12:17,0.39,17114.0,United Kingdom
118393,546429,22804,CANDLEHOLDER PINK HANGING HEART,3,3/13/2011 15:25,2.95,17611.0,United Kingdom
361794,568381,21818,GLITTER HEART DECORATION,36,9/27/2011 9:24,0.39,14321.0,United Kingdom
60480,541422,22064,PINK DOUGHNUT TRINKET POT,1,1/17/2011 17:48,3.29,,United Kingdom
58359,541238,22179,SET 10 LIGHTS NIGHT OWL,2,1/16/2011 10:42,6.75,16746.0,United Kingdom
343643,566952,23253,16 PIECE CUTLERY SET PANTRY DESIGN,1,9/15/2011 16:37,33.29,,United Kingdom
310518,564187,23346,SPACEBOY BEAKER,2,8/23/2011 15:24,1.25,15005.0,United Kingdom
128219,547250,22993,SET OF 4 PANTRY JELLY MOULDS,1,3/22/2011 9:30,2.46,,United Kingdom


# 1 Descrição dos dados

In [39]:
df1 = df_raw.copy()

## 1.1 Renomeando colunas

In [40]:
snakecase = lambda x: inflection.underscore(x)

cols_new = list(map(snakecase, df1.columns))

#rename
df1.columns = cols_new

## 1.2 Dimensão dos dados

In [41]:
print('Núm de Linhas: {}'.format(df1.shape[0]))
print('Núm de Colunas: {}'.format(df1.shape[1]))

Núm de Linhas: 541909
Núm de Colunas: 8


## 1.3 Tipo dos dados

In [42]:
df1.dtypes

invoice_no       object
stock_code       object
description      object
quantity          int64
invoice_date     object
unit_price      float64
customer_id     float64
country          object
dtype: object

## 1.4 Checagem de valores nulos

In [43]:
df1.isna().sum()

invoice_no           0
stock_code           0
description       1454
quantity             0
invoice_date         0
unit_price           0
customer_id     135080
country              0
dtype: int64

## 1.5 Preenchimento de nulos

In [44]:
df1 = df1.dropna(subset=['description', 'customer_id'])
print('Percentual de dados removidos: {:.2f}%'.format((1 - (df1.shape[0] / df_raw.shape[0]))*100))

Percentual de dados removidos: 24.93%


## 1.6 Mudando tipo dos dados

In [45]:
df1.head()

Unnamed: 0,invoice_no,stock_code,description,quantity,invoice_date,unit_price,customer_id,country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


In [51]:
# invoice_date
df1['invoice_date'] = pd.to_datetime(df1['invoice_date'], infer_datetime_format=True).dt.date.astype('datetime64')

# customer_id 
df1['customer_id'] = df1['customer_id'].astype('object')

## 1.7 Análise descritiva

In [None]:
num_attributes = df1.select_dtypes(include=['int64', 'float64'])
cat_attributes = df1.select_dtypes(exclude=['int64', 'float64', 'datetime64[ns]'])

In [None]:
num_attributes.columns

In [None]:
cat_attributes.columns

### 1.7.1 Atributos númericos

In [None]:
# Central Tendency - mean, mediana, 25%, 75% // dispersion - std, min, max, 
ctd1 = num_attributes.describe()

#dispersion - range, skew, kurtosis
d1 = pd.DataFrame(num_attributes.apply(lambda x: x.max() - x.min())).T
d2 = pd.DataFrame(num_attributes.apply(lambda x: x.skew())).T
d3 = pd.DataFrame(num_attributes.apply(lambda x: x.kurtosis())).T

#join
medidas = pd.concat([ctd1, d1, d2, d3]).T.reset_index()
medidas.columns = ['attributes', 'count','mean', 'std', 'min', '25%', 'median', '75%', 'max', 'range', 'skew', 'kurtosis']


medidas

In [None]:
plt.figure(figsize = (30,60))
num_attributes.hist(bins= 25, color= 'indianred');

### 1.7.2 Atributos categóricos

In [None]:
cat_attributes.apply(lambda x: x.unique().shape[0])

# 2 Feature engineering

In [None]:
df2 = df1.copy()

## 2.1 Mapa Mental de hipóteses

In [None]:
Image("../images/")

## 2.2 Criação das hipóteses

## 2.3 Lista final de hipóteses

## 2.4 Criação de novas variáveis

In [None]:
df2.head().T

# 3 Filtragem dos dados

In [None]:
df3 = df2.copy()

## 3.1 Filtragem das linhas

## 3.2 Filtragem das colunas

# 4. Análise exploratória de dados (EDA)

In [None]:
df4 = df3.copy()

In [None]:
num_attributes = df4.select_dtypes(include=['int64', 'float64'])
cat_attributes = df4.select_dtypes(exclude=['int64', 'float64', 'datetime64[ns]'])

## 4.1 Análise univariada

### 4.1.1 Variável resposta

### 4.1.2 Variáveis numéricas

### 4.1.3 Variável categóricas

## 4.2 Análise bivariada

### Hn: 
**VERDADEIRA/FALSA**

### 4.2.1 Resumo das hipóteses

In [None]:
tab =[['Hipoteses', 'Conclusao', 'Relevancia'],
      ['H1', 'Falsa', 'Baixa'],  
      ['H2', 'Falsa', 'Media'],  
      ['H3', 'Falsa', 'Media'],
      ['H4', 'Falsa', 'Baixa'],
      ['H5', '-', '-'],
      ['H6', 'Falsa', 'Baixa'],
      ['H7', 'Falsa', 'Media'],
      ['H8', 'Falsa', 'Alta'],
      ['H9', 'Falsa', 'Alta'],
      ['H10', 'Verdadeira', 'Alta'],
      ['H11', 'Verdadeira', 'Alta'],
      ['H12', 'Verdadeira', 'Baixa'],
     ]  
print(tabulate( tab, headers='firstrow'))

## 4.3 Análise multivariada

### 4.3.1 Variáveis númericas

### 4.3.2 Variáveis categóricas

# 5 Preparação dos dados

In [None]:
df5 = df4.copy()

## 5.1 Normalização

## 5.2 Rescaling

## 5.3 Transformação

### 5.3.1 Encoding

### 5.3.2 Transformação da variável resposta

### 5.3.3 Transformação de natureza

# 6 Seleção de variáveis

In [None]:
df6 = df5.copy()

## 6.1 Separação do conjunto de dados em treino e teste

## 6.2 Feature selector

## 6.3 Seleção de variáveis manual após feature selector

# 7 Otimização dos hiperparâmetros

## 7.1 Modelo-n

## 7.6 Comparando a perfomance dos modelos

### 7.6.1 Performance única fold

### 7.6.2 Performance cross validation

# 8 Machine learning

## 8.1 Método otimizador

## 8.2 Modelo final tunado

Tempo de execução: 1h09

# 9 Análise dos clusters

## 9.1 Performance do negócio

# 10 Deployment do modelo em produção

In [None]:
# Save Trained Model


## 10.1 Model class

## 10.2 API handler

## 10.3 API tester