<br><br><center><h1 style="font-size:4em;color:#2467C0">Modelo</h1></center>
<br>

## Objetivo da Story 3: 

Desenvolver Modelo Preditivo para operação Chat.

## Importar bibliotecas
<br> Começaremos importando as bibliotecas Python que usaremos nesta análise. Essas bibliotecas incluem:
<ul>
<li> <b> pyodbc </b> drive odbc para carregar os dados. </li>
<li> <b> pandas </b> e <b> numpy </b> para ingestão e manipulação de dados. </li>
<li> <b> matplotlib </b> e <b> seaborn </b> para visualização de dados </li>

</ul>

In [None]:
#Bibliotecas para conexão a base de dados via script SQL
import pyodbc

#Bibliotecas para criação e manipulação de DATAFRAMES e Algebra 
import pandas as pd 
import numpy as np

#Bibliotecas para geração de gráficos
import matplotlib.pyplot as plt 
import seaborn as sns
import pylab
#Bibliotecas para execução das metricas, modelo e tuning
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import StratifiedKFold, GridSearchCV
from sklearn.metrics import classification_report, confusion_matrix, precision_score, accuracy_score, recall_score, f1_score
from sklearn.metrics import precision_recall_curve, roc_curve , roc_auc_score
# Implementa o algoritmo gaussiano Naive Bayes para classificação. A probabilidade dos recursos é assumida como gaussiana:
from sklearn.naive_bayes import GaussianNB
# Tomada como entrada duas matrizes: uma matriz X de tamanho que prende as amostras de formação, 
# e um conjunto de etiquetas de classe y (cordas ou inteiros).
from sklearn import svm
# Encontra os vizinhos K de um ponto
from sklearn.neighbors import KNeighborsClassifier
# recebe como entrada duas matrizes: uma matriz X, esparsa ou densa, 
# de tamanho contendo as amostras de treinamento e uma matriz Y de valores inteiros, tamanho
from sklearn import tree
# Os recursos são sempre permutados aleatoriamente em cada divisão
from sklearn.ensemble import RandomForestClassifier
#Model persistence
import pickle
import warnings
warnings.filterwarnings("ignore")

#### Ingerir dados

* Agora, precisaremos ler o conjunto de dados usando os comandos abaixo.

<b> Nota: </b> Certifique-se de executar a célula de importação acima (shift + enter) antes de executar o código de inserção de dados abaixo.

In [None]:
data = pd.read_csv('02_data_train_1908_3110.csv', sep=';')
print ('This one dataset it has %s rows e %s columns' % (data.shape[0], data.shape[1]))

In [None]:
#Segmenta idade
data['jovem'] = 0
data['adulto'] = 0
data['meia_idade'] = 0
data['idoso'] = 0
data.loc[(data['idade_cliente']<35), 'jovem'] = 1
data.loc[(data['idade_cliente']>=35) & (data['idade_cliente']<49), 'adulto'] = 1
data.loc[(data['idade_cliente']>=49) & (data['idade_cliente']<66), 'meia_idade'] = 1
data.loc[(data['idade_cliente']>=66), 'idoso'] = 1

<h1 style="font-size:2em;color:#2467C0">Data Cleaning: Handling Missing Data</h1>

#### Fixando valores nulos por -1

In [None]:
# Tratando os valores ausentes.

data.fillna(-1, inplace=True)

<h1 style="font-size:2em;color:#2467C0">Data Preparation: </h1>

* Conversão de Categoricas; 
* Normalização;
* Exclusão de Colunas;
* Def X - Preditoras Perguntas and Y - Classes Resposta.

#### Label Encoder - Conversão de Categoricas;

In [None]:
# Transformar rótulos não numéricos (desde que sejam laváveis e comparáveis) em rótulos numéricos.

var_cat = data.select_dtypes('object')
for col in var_cat:
    data[col] = LabelEncoder().fit_transform(data[col].astype('str'))

#### Drop

In [None]:
to_drop = ['id_contact', 'phone']
data.drop(to_drop, axis=1, inplace=True)

#### def X - Preditoras Perguntas and Y - Classes Resposta

In [None]:
# def X and Y 

Y = np.array(data.venda.tolist())
df = data.drop('venda', axis=1)
X = np.array(df.to_numpy())
seed=42

In [None]:
X.shape

In [None]:
Y.shape

#### StratifiedKFold

In [None]:
# StratifiedKFold k = 5

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=seed)
for train_index, test_index in skf.split(X, Y):
    print("TRAIN:", train_index,  "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    Y_train, Y_test = Y[train_index], Y[test_index]

In [None]:
X_train.shape

In [None]:
X_test.shape

In [None]:
Y_train.shape

In [None]:
Y_test.shape

#### Standard Scaler

In [None]:
#dimensione cada atributo no vetor de entrada X

scaler = StandardScaler()
scaler.fit(X_train)  # Não trapaceie - ajuste apenas nos dados de treinamento 
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)  # aplica a mesma transformação aos dados de teste

<h1 style="font-size:2em;color:#2467C0">Metrics:</h1>

#### ROC curve

In [None]:
def plot_roc_curve(fpr, tpr):
    plt.plot(fpr, tpr, color='orange', label='ROC')
    plt.plot([0, 1], [0, 1], color='darkblue', linestyle='--')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('Receiver Operating Characteristic (ROC) Curve')
    plt.legend()
    plt.show()

#### Precision-recall curve

In [None]:
def plot_precision_recall():
    plt.step(recall, precision, color = 'b', alpha = 0.2,
             where = 'post')
    plt.fill_between(recall, precision, step ='post', alpha = 0.2,
                 color = 'b')

    plt.plot(recall, precision, linewidth=2)
    plt.xlim([0.0,1])
    plt.ylim([0.0,1.05])
    plt.xlabel('Recall')
    plt.ylabel('Precision')
    plt.title('Precision Recall Curve')
    plt.show();

<h1 style="font-size:2em;color:#2467C0">Tuning Models:</h1>

#### Grid Search

#### OBS: 

* O Naive Bayes não possui nenhum hiperparâmetro para ajustar.

#### Gaussian Naive Bayes

In [None]:
gnb = GaussianNB ()

gnb = gnb.fit(X_train, Y_train)

# Modelo prevendo os valores para o conjunto de teste
Y_pred_gnb = gnb.predict(X_test)

# Matriz de confusão
print("Confusion matrix:")
print(confusion_matrix(Y_test, Y_pred_gnb))

# Calculo Accuracy 
print("Accuracy:", accuracy_score(Y_test, Y_pred_gnb))

# Reportar para outras medidas de classificação
print("Classification report:")
print(classification_report(Y_test, Y_pred_gnb))

# ROC curve
fpr_gnb, tpr_gnb, thresholds = roc_curve(Y_test, Y_pred_gnb) #Test and probability
plot_roc_curve(fpr_gnb, tpr_gnb)

auc = roc_auc_score(Y_test, Y_pred_gnb)
print('AUC: %.2f' % auc)

print('A área coberta pela curva é a área entre a linha laranja (ROC) e o eixo. Esta área coberta é AUC. Quanto maior a área coberta, melhor os modelos de aprendizado de máquina distinguem as classes dadas. O valor ideal para AUC é 1.')

# Precision-recall curve
print('Plot the Precision-Recall curve')
precision, recall, thresholds = precision_recall_curve(Y_test, Y_pred_gnb) #Test and probability
plot_precision_recall()

#### KNeighbors Classifier

In [None]:
param_grid_knn = {
    'n_neighbors': [3, 5, 10],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

In [None]:
knn = KNeighborsClassifier(n_neighbors=3, n_jobs=-1)
knn = knn.fit(X_train, Y_train)

gs_knn = GridSearchCV(estimator = knn, param_grid = param_grid_knn, scoring = 'f1', verbose = 10, n_jobs = -1)
gs_knn = gs_knn.fit(X_train, Y_train)
best_parameters = gs_knn.best_params_
print("The best parameters for using this model KNN is", best_parameters)

#### KNeighbors Classifier - Best Parametrs

In [None]:
knn = KNeighborsClassifier(n_neighbors =3, weights ='distance', metric = 'euclidean', n_jobs = -1)

knn = knn.fit(X_train, Y_train)

# Modelo prevendo os valores para o conjunto de teste
Y_pred_knn = knn.predict(X_test)

# Matriz de confusão
print("Confusion matrix:")
print(confusion_matrix(Y_test, Y_pred_knn))

# Calculo Accuracy 
print("Accuracy:", accuracy_score(Y_test, Y_pred_knn))

# Reportar para outras medidas de classificação
print("Classification report:")
print(classification_report(Y_test, Y_pred_knn))

# ROC curve
fpr_knn, tpr_knn, thresholds = roc_curve(Y_test, Y_pred_knn) #Test and probability
plot_roc_curve(fpr_knn, tpr_knn)

auc = roc_auc_score(Y_test, Y_pred_knn)
print('AUC: %.2f' % auc)

print('A área coberta pela curva é a área entre a linha laranja (ROC) e o eixo. Esta área coberta é AUC. Quanto maior a área coberta, melhor os modelos de aprendizado de máquina distinguem as classes dadas. O valor ideal para AUC é 1.')

# Precision-recall curve
print('Plot the Precision-Recall curve')
precision, recall, thresholds = precision_recall_curve(Y_test, Y_pred_knn) #Test and probability
plot_precision_recall()

#### Decision Tree

In [None]:
param_grid_dtc = {
    'max_features': [2, 3, 5, 10, 13, 15, 20, 23],
    'min_samples_leaf': [2, 5, 10, 20],
    'min_samples_split': [2, 5, 10, 20]
}

In [None]:
dtc = tree.DecisionTreeClassifier(random_state=seed)
dtc = dtc.fit(X_train, Y_train)

gs_dtc = GridSearchCV(estimator = dtc, param_grid = param_grid_dtc, scoring = 'f1', verbose = 10, n_jobs = -1)
gs_dtc = gs_dtc.fit(X_train, Y_train)
best_parameters = gs_dtc.best_params_
print("The best parameters for using this model DTC is", best_parameters)

#### Decision Tree - Best Parametrs

In [None]:
dtc = tree.DecisionTreeClassifier(max_features = 20, min_samples_leaf = 2, min_samples_split = 10, criterion = 'entropy', 
                                  class_weight = 'balanced', random_state = seed)

dtc = dtc.fit(X_train, Y_train)

# Modelo prevendo os valores para o conjunto de teste
Y_pred_dtc = dtc.predict(X_test)

# Matriz de confusão
print("Confusion matrix:")
print(confusion_matrix(Y_test, Y_pred_dtc))

# Calculo Accuracy 
print("Accuracy:", accuracy_score(Y_test, Y_pred_dtc))

# Reportar para outras medidas de classificação
print("Classification report:")
print(classification_report(Y_test, Y_pred_dtc))

# ROC curve
fpr_dtc, tpr_dtc, thresholds = roc_curve(Y_test, Y_pred_dtc) #Test and probability
plot_roc_curve(fpr_dtc, tpr_dtc)

auc = roc_auc_score(Y_test, Y_pred_dtc)
print('AUC: %.2f' % auc)

print('A área coberta pela curva é a área entre a linha laranja (ROC) e o eixo. Esta área coberta é AUC. Quanto maior a área coberta, melhor os modelos de aprendizado de máquina distinguem as classes dadas. O valor ideal para AUC é 1.')

# Precision-recall curve
print('Plot the Precision-Recall curve')
precision, recall, thresholds = precision_recall_curve(Y_test, Y_pred_dtc) #Test and probability
plot_precision_recall()

#### Random Forest Classifier

In [None]:
param_grid_rfc = {
    'n_estimators': [50, 100, 200, 300],
    'max_features': [2, 3, 5, 10, 13, 15, 20, 23],
    'min_samples_leaf': [2, 5, 10, 20],
    'min_samples_split': [2, 5, 10, 20]
}

In [None]:
# Ajustar o modelo usando X como dados de treinamento e y como valores de destino
rf_clf = RandomForestClassifier(n_estimators=100, random_state=seed, n_jobs=-1)
rf_clf = rf_clf.fit(X_train, Y_train)

gs_rfc = GridSearchCV(estimator = rf_clf, param_grid = param_grid_rfc, scoring = 'recall', verbose = 10, n_jobs = -1)
gs_rfc = gs_rfc.fit(X_train, Y_train)
best_parameters = gs_rfc.best_params_
print("The best parameters for using this model RFC is", best_parameters)

#### Random Forest Classifier - Best Parametrs

In [None]:
# Ajustar o modelo usando X como dados de treinamento e y como valores de destino
rfc = RandomForestClassifier(n_estimators = 100, max_features = 23, min_samples_leaf = 30, min_samples_split = 30, 
                             criterion = 'entropy', class_weight = 'balanced', random_state = seed, n_jobs = -1)
                                
rfc = rfc.fit(X_train, Y_train)

# Modelo prevendo os valores para o conjunto de teste
Y_pred_rfc = rfc.predict(X_test)

# Matriz de confusão
print("Confusion matrix:")
print(confusion_matrix(Y_test, Y_pred_rfc))

# Calculo Accuracy 
print("Accuracy:", accuracy_score(Y_test, Y_pred_rfc))

# Reportar para outras medidas de classificação
print("Classification report:")
print(classification_report(Y_test, Y_pred_rfc))

# ROC curve
fpr_rfc, tpr_rfc, thresholds = roc_curve(Y_test, Y_pred_rfc) #Test and probability
plot_roc_curve(fpr_rfc, tpr_rfc)

auc = roc_auc_score(Y_test, Y_pred_rfc)
print('AUC: %.2f' % auc)

print('A área coberta pela curva é a área entre a linha laranja (ROC) e o eixo. Esta área coberta é AUC. Quanto maior a área coberta, melhor os modelos de aprendizado de máquina distinguem as classes dadas. O valor ideal para AUC é 1.')

# Precision-recall curve
print('Plot the Precision-Recall curve')
precision, recall, thresholds = precision_recall_curve(Y_test, Y_pred_rfc) #Test and probability
plot_precision_recall()

In [None]:
filename = 'chat_gnb.sav'
pickle.dump(gnb, open(filename, 'wb'))

In [None]:
filename = 'chat_knn.sav'
pickle.dump(knn, open(filename, 'wb'))

In [None]:
filename = 'chat_dtc.sav'
pickle.dump(dtc, open(filename, 'wb'))

In [None]:
filename = 'chat_rfc.sav'
pickle.dump(rfc, open(filename, 'wb'))