<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/revisao2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Install as libraries necessárias

In [None]:
!pip install pycaret

In [None]:
!pip install shap

### Carregar as libraries

In [None]:
import pandas as pd
import numpy as np

from matplotlib import pyplot as plt # Gráficos

import seaborn as sns
sns.set_theme(style = 'ticks', palette = 'pastel')

from pycaret import regression, classification # Canivete suiço para Machine Learning
import shap

from collections import Counter

import tensorflow as tf
tf.__version__

In [None]:
from pycaret.utils import enable_colab
enable_colab()

### Configurações de ambiente

In [None]:
pd_options = pd.options.display # Objeto para configuração do ambiente: número de linhas, colunas, precisão e etc

In [None]:
pd_options.max_columns = 50 # número máximo de colunas
pd_options.max_rows = 50 # número máximo de linhas
pd_options.precision = 3 # número de casas decimais
pd_options.float_format = "{:,.2f}".format

### Facets - DataViz

In [None]:
from IPython.core.display import display, HTML
import base64

In [None]:
!pip install facets-overview==1.0.0

In [None]:
from facets_overview.feature_statistics_generator import FeatureStatisticsGenerator

### Carregar os dados de treinamento e teste

In [None]:
url_T = 'https://raw.githubusercontent.com/MathMachado/DataFrames/master/train_LABDATA.csv'
url_V = 'https://raw.githubusercontent.com/MathMachado/DataFrames/master/test_LABDATA.csv'

In [None]:
df_T = pd.read_csv(url_T, index_col = 'id')
df_V = pd.read_csv(url_V, index_col = 'id')

In [None]:
df_T.head()

### Tipos dos dados

In [None]:
df_T.dtypes

### Conversão de tipos
#### TotalCharges
* A variável TotalCharges é do tipo 'object'. Entretanto, esta variável deveria ser do tipo 'float'.         

In [None]:
df_T['TotalCharges3'] = pd.to_numeric(df_T['TotalCharges'])

dado que temos valores ' ' na variável TotalCharges, então precisamos usar errors = 'coerce'. Vamos olhar para a linha 161 que inviabiliza o uso do pd.astype(np.float):

In [None]:
df_T.iloc[161]

In [None]:
df_T['TotalCharges2'] = pd.to_numeric(df_T['TotalCharges'], errors = 'coerce')
df_T.dtypes

In [None]:
df_T[['TotalCharges2', 'TotalCharges']].head(50)

In [None]:
df_T.iloc[161]

Me parece que a conversão foi bem-sucedida.

Next: deletar a variável original.

In [None]:
df_T = df_T.drop(columns = ['TotalCharges'], axis = 1)

In [None]:
df_T.dtypes

#### SeniorCitizen
* A variável SeniorCitizen é do tipo 'int64'. Entretanto, esta variável deveria ser do tipo categórica.

In [None]:
Counter(df_T['SeniorCitizen'])

In [None]:
d_SeniorCitizen = {0 : 'No', 1: 'Yes'}

In [None]:
df_T['SeniorCitizen2'] = df_T['SeniorCitizen'].map(d_SeniorCitizen)
Counter(df_T['SeniorCitizen2'])

Alternativamente, poderíamos ter usado objeto.value_counts():

In [None]:
df_T['SeniorCitizen2'].value_counts()

In [None]:
df_T = df_T.drop(columns = ['SeniorCitizen'], axis = 1)

A seguir, listas por tipos de variáveis:

In [None]:
l_features_numericas = list(df_T.select_dtypes([np.float64, np.int64]))
l_features_numericas.remove('Churn')
l_features_numericas

In [None]:
l_features_categoricas = list(df_T.select_dtypes(np.object))
l_features_categoricas

### DataViz com Facets

In [None]:
def mostra_dados(df):
    fsg = FeatureStatisticsGenerator()
    dataframes = [{'table': df, 'name': 'dados de treinamento'}]

    censusProto = fsg.ProtoFromDataFrames(dataframes)
    protostr = base64.b64encode(censusProto.SerializeToString()).decode("utf-8")

    HTML_TEMPLATE = """<script src="https://cdnjs.cloudflare.com/ajax/libs/webcomponentsjs/1.3.3/webcomponents-lite.js"></script>
        <link rel="import" href="https://raw.githubusercontent.com/PAIR-code/facets/1.0.0/facets-dist/facets-jupyter.html">
        <facets-overview id="elem"></facets-overview>
        <script>
          document.querySelector("#elem").protoInput = "{protostr}";
        </script>"""
    html = HTML_TEMPLATE.format(protostr=protostr)
    display(HTML(html))

In [None]:
mostra_dados(df_T)

### Tratamento dos Missing Values
* Como vamos tratar os missing values?
    * **Proposição**: Construir modelos preditivos para estimar os valores missing em função das demais variáveis que NÃO SÃO missing.
    * Variáveis:
        * **Numéricas**:
            * TotalCharges2 (0.14% de missing values);
            * tenure (8.18% de missing values).
        * **Categóricas**:
            * PaymentMethod (1.76% de missing values);
            * Dependents (3.87% de missing values);

A seguir, funções para nos ajudar a construir os modelos de Machine Learning para estimar os missing values:

In [None]:
def prepara_dataframes(df, target, l_colunas_mv):
    df2 = 'df' + '_' + target + '_sem_mv'
    #print(df2)

    l_colunas_mv.remove(target)
    print(f'Features ignoradas: {l_colunas_mv}')
    df2 = df.copy()
    df3 = df.copy()

    df2 = df2.dropna() # Excluir todas as linhas com missing values
    df2 = df2.drop(columns = ['Churn'], axis = 1)

    # Para reduzir o viés, vamos dropar/deletar as features que são missing values
    df2 = df2.drop(columns = l_colunas_mv, axis = 1)
    #print(df2.isna().sum())

    # Apontar os missing values no dataframe original:
    df3[target+'_mv'] = np.where(df3[target].isna(), 1, 0)

    return df2, df3

In [None]:
l_colunas_mv = ['TotalCharges2', 'tenure', 'PaymentMethod', 'Dependents']

In [None]:
df_T_copia = df_T.copy()

In [None]:
l_colunas_mv = ['TotalCharges2', 'tenure', 'PaymentMethod', 'Dependents']

for target in l_colunas_mv:
    l_colunas_mv_2 = ['TotalCharges2', 'tenure', 'PaymentMethod', 'Dependents']
    exec(f"df_{target}_sem_mv, df_T = prepara_dataframes(df_T, target, l_colunas_mv_2)")

Quais são as alterações no dataframe orignial df_T?

In [None]:
df_T.head()

O procedimento acima construiu automaticamente os seguintes dataframes:
* df_TotalCharges2_sem_mv
* df_tenure_sem_mv
* df_PaymentMethod_sem_mv
* df_Dependents_sem_mv


In [None]:
df_tenure_sem_mv.head()

In [None]:
df_Dependents_sem_mv.head()

A seguir, desenvolver uma função pycaret_regressao() e pycaret_classificacao() para nos ajudar a encontrar os melhores modelos de Machine Learning para regressão e classificação, respetivamente.

In [None]:
def pycaret_regressao(df, target):
    print(f'Modelo: ml_{target}')
    print(f'Este é um problema de regressão')

    ml = regression.setup(data = df,
                          target = target,
                          session_id = 20111974,
                          feature_selection = True,
                          train_size = 0.8,
                          normalize = True, normalize_method = 'robust',
                          feature_interaction = True,
                          feature_ratio = True,
                          combine_rare_levels = True,
                          remove_multicollinearity = True,
                          profile = True)
    return ml

In [None]:
def pycaret_classificacao(df, target):
    print(f'Modelo: ml_{target}')
    print(f'Este é um problema de classificação')

    ml = classification.setup(data = df,
                          target = target,
                          session_id = 20111974,
                          feature_selection = True,
                          train_size = 0.8,
                          normalize = True, normalize_method = 'robust',
                          feature_interaction = True,
                          feature_ratio = True,
                          combine_rare_levels = True,
                          remove_multicollinearity = True,
                          profile = True,
                          fix_imbalance = False)
    return ml

### TotalCharges2 --> Numérica --> regressão

#### Setup

In [None]:
setup_TotalCharges2 = pycaret_regressao(df = df_TotalCharges2_sem_mv, target = 'TotalCharges2')

#### Modelos de Machine Learning candidatos

In [None]:
ml_TotalCharges2 = regression.compare_models(fold = 10, sort = 'R2') # , include = ['lasso', 'br', 'ridge', 'gbr', 'lightgbm', 'catboost', 'xgboost'])

Baseado no Pycaret, o melhor modelo baseline é...

In [None]:
ml_TotalCharges2.get_params

In [None]:
ml_lasso_TotalCharges2 = regression.create_model('lasso')

### Parameter Tuning

In [None]:
ml_lasso_pt_TotalCharges2 = regression.tune_model(ml_lasso_TotalCharges2)

### Gráficos

In [None]:
regression.evaluate_model(ml_lasso_TotalCharges2)

### Predição dos missing values usando o modelo construído

In [None]:
regression.predict_model(ml_lasso_TotalCharges2)

Abaixo, a aplicação do modelo desenvolvido para os missing values sob análise. O Pycaret constroi pipelines com todas as transformações feitas no dataframe de treinamento. desta forma, as mesmas transformações serão aplicadas no dataframe de teste.

In [None]:
df_T.head()

In [None]:
df_T2 = regression.predict_model(ml_lasso_TotalCharges2, data = df_T)

### Comparações

In [None]:
df_T2.isna().sum()

Alguns gráficos
* Variável original

In [None]:
sns.boxplot(x = df_T2['Churn'], y = df_T2['TotalCharges2'])

* Variável Estimada

In [None]:
sns.boxplot(x = df_T2['Churn'], y = df_T2['Label'])

In [None]:
df_T2['TotalCharges2'].describe()

In [None]:
df_T2['Label'].describe()

### Atribuição aos missing values

In [None]:
df_T2.head(3)

In [None]:
df_T2['TotalCharges3'] = np.where(df_T2['TotalCharges2'].isna(), df_T2['Label'], df_T2['TotalCharges2'])

In [None]:
df_T2['TotalCharges3'].describe()

In [None]:
df_T2['TotalCharges2'].describe()

### **Conclusão**
* Temos um modelo de ML para tratamento dos missing values da variável TotalCharges2 e as estatísticas descritivas não apontam distorções significativas.

### Salvar o modelo para uso futuro

In [None]:
regression.save_model(ml_lasso_TotalCharges2, 'ml_lasso_TotalCharges2')

### Carregar o modelo (que foi previamente salvo)

In [None]:
ml_lasso_TotalCharges2_load = regression.load_model(model_name = 'ml_lasso_TotalCharges2')

In [None]:
ml_lasso_TotalCharges2_load.get_params

### tenure --> Numérica --> regressão
* Amanhã discutimos os resultados!

### Segunda tentativa com PaymentMethod --> Categórica --> classificação

In [None]:
d_PaymentMethod = {'Bank transfer (automatic)': 1, 
                   'Credit card (automatic)': 2, 
                   'Electronic check': 3, 
                   'Mailed check': 4, 
                   np.nan: 0} # Neste caso, nossos missing values serão 0 (zero)!!!!

In [None]:
df_PaymentMethod_sem_mv['PaymentMethod2'] = df_T2['PaymentMethod'].map(d_PaymentMethod)
Counter(df_PaymentMethod_sem_mv['PaymentMethod2'])

In [None]:
df_PaymentMethod_sem_mv = df_PaymentMethod_sem_mv.drop(columns= ['PaymentMethod'], axis = 1)

#### Setup

In [None]:
setup_PaymentMethod2 = pycaret_classificacao(df = df_PaymentMethod_sem_mv, target = 'PaymentMethod2')

#### Modelos de Machine Learning candidatos

In [None]:
ml_PaymentMethod2 = classification.compare_models(fold = 10)

### **Conclusão**
* Temos um modelo de ML insatisfatório.

### PaymentMethod --> Categórica --> classificação

In [None]:
df_T3 = df_T2.copy()
df_PaymentMethod_sem_mv_copia = df_PaymentMethod_sem_mv.copy()

In [None]:
Counter(df_T3['PaymentMethod'])

In [None]:
Counter(df_PaymentMethod_sem_mv['PaymentMethod'])

#### Setup

In [None]:
setup_PaymentMethod = pycaret_classificacao(df = df_PaymentMethod_sem_mv, target = 'PaymentMethod')

#### Modelos de Machine Learning candidatos

In [None]:
ml_PaymentMethod = classification.compare_models(fold = 10)

### **Conclusão**
* Temos um modelo de ML insatisfatório.

### Alternativa
* Tentar um modelo com 2 classes, conforme a seguir:
    * Automatico: {'Bank transfer (automatic)', 'Credit card (automatic)'}
    * Check: {'Electronic check', 'Mailed check'}

* Discutir amanhã

Configuração para tratamento automático de missing values usando Pycaret:

In [None]:
 imputation_type = 'iterative', 
             iterative_imputation_iters = 20, 
             categorical_iterative_imputer = 'knn',
             numeric_iterative_imputer = 'knn'

In [None]:
df_T2.head()

In [None]:
df_T3 = df_T2.copy()
df_T3 = pd.get_dummies(df_T3, columns = ['PaymentMethod'], dummy_na = True)
df_T3.head()

In [None]:
df_T3.isna().sum()