In [1]:
# Carregando Bibliotecas Python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
import plotly.express as px
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score, cross_val_predict
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import StackingClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.pipeline import make_pipeline

import warnings
warnings.filterwarnings("ignore")

ModuleNotFoundError: No module named 'plotly'

# <font color='blue'>Etapa 1 - Coletando os dados</font>

### Observações
<details><summary>CLICK</summary>
<p>
Também conhecido como Data Mungig, ETL, Manipulação de Dados, Data Wrangling <br>
O processo é cíclico. Ou seja, deve-se voltar ao início após o processamento dos dados.<br>
É sempre importante salvar os dados antes das transformações para comparações futuras. <br>
Perguntas:<br>
Os dados representam a população ou uma amostra?<br>
A fonte dos dados é primária ou secundária?<br>
Existem diversas considerações ao se carregar dados para o processo de Machine Learning. Por exemplo: seus dados possuem um header (cabeçalho)? Caso negativo, você vai precisar definir o título para cada coluna. Seus arquivos possuem comentários? Qual o delimitador das colunas? Alguns dados estão entre aspas, simples ou duplas?    

Link com os datasets do scikit learn
https://scikit-learn.org/stable/datasets/toy_dataset.html
</p>
</details>

In [None]:
# Leitura de arquivo CSV
# ficar atento ao separador de colunas (atributo "sep") pode ser ";", "," "|"
dados = pd.read_csv('dados\pima-data.csv', sep = ',', encoding = 'latin-1')

In [None]:
# Leitura de arquivo EXCELL
dados = pd.read_excel("dados\df_2020.xlsx", sheet_name="nome da planilha")

In [2]:
# Carregando um dataset Iris que já vem com o Seaborn
dados = sns.load_dataset("iris")

# <font color='blue'>Etapa 2: Explorando e Preparando os Dados</font>

### Observações
<details><summary>CLICK</summary>
<p>
Também conhecido como Data Mungig, ETL, Manipulação de Dados, Data Wrangling 
O processo é cíclico. Ou seja, deve-se voltar ao início após o processamento dos dados.
É sempre importante salvar os dados antes das transformações para comparações futuras.
Perguntas:
Os dados representam a população ou uma amostra?
A fonte dos dados é primária ou secundária?
</p>
</details>

In [None]:
# Visualizando os dados
dados

In [None]:
# Visualizando algumas linhas. O atributo "n" define a quantidade de linhas
#dados.head()
dados.head(n=20)

In [None]:
# Verificar se as variáveis estão nas colunas e se os registros estão nas linhas
# As variáveis devem ficar nas colunas e devem conter apenas uma informação
#   1 - Converter linha em coluna: 
dados.T

### Verificar os tipos de variáveis:
<details><summary>CLICK</summary>
<p>
    # Separar variáveis categóricas de variáveis numéricas. É bom criar gráficos e analisá-las separadamente. <br>
1 - qualitativas/categóricas: <br>
    a) nominais -  Não existe uma ordem implícita (Ex.: sexo, religião, profissão) <br>
    b) ordinais - Possuem uma ordem natural (Ex.: Escolaridade, classe social)<br>
2 - quantitativas: <br>
    a) discretas - pode ser obtida através de uma contagem simples (idade, ano, quantidade) <br>
    b) contínuas - precisa de um processo para ser obtida (peso, altura, tamanho) - representadas por valores decimais <br> 
    Verificar se existe duplicação nas linhas e colunas <br>
    Verificar se as variáveis numéricas possuem muitos valores únicos. Caso isso aconteça, talvez seja interessante converter essa variável para categórica.
</p>
</details>

In [None]:
# Visualizar qual o tipo de dado a variável foi classificada no momento da leitura do arquivo 
dados.dtypes

In [None]:
# Exibir resumo do data set
dados.describe()

In [None]:
# Verificar se as classes estão com divisão balanceada, ou seja, com a mesma quantidade para cada classe.
# fazer a mesma verificação nos dados de treino. Oversampling aumenta a quantidade da classe com menor quantidade (SMOTE). Undersampling diminui a quantidade da classe com maior quantidade. 
# A técnica SMOTE cria novas linhas baseado nas distâncias matemáticas dos atributos dos registros de uma determinada classe.
# Aplicar o balanceamento de classes somente aos dados de treino.
# Quantitativo da variável alvo 
dados["species"].value_counts()

In [None]:
# Instala e importa o pacote imblearn que contem o SMOTE
!pip install -q imblearn
import imblearn

In [None]:
# Shape
df_original.shape

In [None]:
# Variáveis explicativas
df_original.iloc[:, 0:17].head()

In [None]:
# Variável Target
df_original.iloc[:, 17].head()

Balanceamento de Classe - Oversampling

In [None]:
# Importa a função
from imblearn.over_sampling import SMOTE

# Seed para reproduzir o mesmo resultado
seed = 100

# Separa X e y
X = df_original.iloc[:, 0:17]  
y = df_original.iloc[:, 17] 

# Cria o balanceador SMOTE
smote_bal = SMOTE(random_state = seed)

# Aplica o balanceador
X_res, y_res = smote_bal.fit_resample(X, y)

In [None]:
# Gráfico do quantitativo da variável alvo 
ax = sns.countplot(x = "species", data = dados, palette = "Greens_d");
for p in ax.patches:
    ax.annotate(str(p.get_height()), (p.get_x() + 0.15, p.get_height() + 1))

In [None]:
# Checar se exite IDs duplicados. Comparar o resultado com a quantidade linhas do dataframe. "id" é o nome da coluna
dados.species.value_counts().count()

In [None]:
# Verifica o total de valores únicos por coluna
# Variáveis com poucos valores únicos provavelmente é uma variável categórica. Por outro lado, uma variável com muitos valores únicos provavelmente é uma variável numérica.
dados.nunique()

### Tratando dados missing
<details><summary>CLICK</summary>
<p>
O tratamento de dados missing é obrigatório. A presença dados NA prejudica o modelo. <br>
    Verificar se a variável com valor NA tem relação com outras variáveis antes de qualquer Modificação. <br>
    A imputação é realizada somente em variáveis quantitativas numéricas. Para variáveis qualitativas é melhor excluir a linha.<br>
    Quando o data set apresenta uma quantidade maior ou igual a 5%  de valores missing é melhor aplicar uma regra de imputação. Por outro lado, uma quantidade menor do que 5% é melhor apagar os dados missing.
</p>
</details>

In [None]:
# Verificar se existem dados missing NA
#dados.values.any()
#dados.isna() 
dados.isnull().sum() # Retorna a quantida de NA por coluna

In [None]:
# Retornando somente as linhas com valores NA
dados[dados.isnull().any(axis=1)]

In [None]:
# Imputation 1
# A função fillna percorre todo o dataset substituindo todos os valores NA com o valor desejado
n = 0
dados = dados.fillna(n)

In [None]:
# Imputation 2
# Substitui todos os valores NA com a média da respectiva coluna
dados = dados.fillna(dados.mean())

In [None]:
# Apaga todas as linhas do dataset com valores NA
dados = dados.dropna()

### Explorando relacionamento entre as variáveis: Matriz de Correlação
<details><summary>CLICK</summary>
<p>
Observar principalmente o coeficiente de correlação da variável alvo com as outras variáveis <br>
A correlação tem o mesmo conceito de grandezas diretamente e inversamente proporcionais. <br> 
Obs.: a correlação não gera causalidade. <br>
Visualizando relacionamento entre as variáveis: Scatterplot (analisa a relação entre duas variáveis x (independente) e y (dependente). <br>
</p>
</details>

In [None]:
df = dados.copy()
df

In [9]:
dados

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [22]:
dados.iloc[:, 1:2]

Unnamed: 0,sepal_width
0,3.5
1,3.0
2,3.2
3,3.1
4,3.6
...,...
145,3.0
146,2.5
147,3.0
148,3.4


In [None]:
df["Espécie"].value_counts()

In [None]:
dados["especie"].value_counts()

### Econding
<details><summary>CLICK</summary>
<p>
Converter as vaiáveis valores numéricos 
</p>
</details>

In [None]:
especie = pd.Series([]) 

In [None]:
# running a for loop and asigning some values to data 
for i in range(len(dados)): 
    if dados["species"][i] == "virginica": 
        especie[i] = 0
  
    elif dados["species"][i] == "setosa": 
        especie[i] = 1
      
    else: 
        especie[i] = 2 

In [None]:
# inserting new column with values of list made above         
dados.insert(5,"especie", especie) 

In [None]:
# Cria o encoder
lb = LabelEncoder()

# Aplica o encoder nas variáveis que estão com string
df_original['Month'] = lb.fit_transform(df_original['Month'])
df_original['VisitorType'] = lb.fit_transform(df_original['VisitorType'])

# Remove valores missing eventualmente gerados
df_original.dropna(inplace = True)

In [None]:
from sklearn.preprocessing import LabelEncoder
# Cria o encoder
lb = LabelEncoder()

# Aplica o encoder na variável target
dados["species"] = lb.fit_transform(dados.species)
dados

In [None]:
# pesquisar sobre OneHotEncoder para conversão das variáveis categóricas em números.
# não basta converter as variáveis em texto para o tipo númerico. As variáveis devem continuar como categórigas, mesmo sendo do tipo numérico.
# pesquisar sobre o método pd.get_dummies

from sklearn.preprocessing import OneHotEncoder

especies = ["virginica", "setosa", "versicolor"]

enc = OneHotEncoder(categories=[especies])

X = dados.species.values.reshape(-1, 1)
enc.fit(X)
enc.transform(dados.species.values.reshape(-1, 1))
SMOT

In [None]:
dados.corr()

In [None]:
# Criando um Correlation Plot
def visualize_correlation_matrix(data, hurdle = 0.0):
    R = np.corrcoef(data, rowvar = 0)
    R[np.where(np.abs(R) < hurdle)] = 0.0
    heatmap = plt.pcolor(R, cmap = mpl.cm.coolwarm, alpha = 0.8)
    heatmap.axes.set_frame_on(False)
    heatmap.axes.set_yticks(np.arange(R.shape[0]) + 0.5, minor = False)
    heatmap.axes.set_xticks(np.arange(R.shape[1]) + 0.5, minor = False)
    heatmap.axes.set_xticklabels(variables, minor = False)
    plt.xticks(rotation=90)
    heatmap.axes.set_yticklabels(variables, minor = False)
    plt.tick_params(axis = 'both', which = 'both', bottom = 'off', top = 'off', left = 'off', right = 'off') 
    plt.colorbar()
    plt.show()

In [None]:
# Analisar os dados setando a variável alvo (quando categórica) como índice
df = dados.groupby(["species"])
# df.aggregate([np.mean, np.median, np.min, np.max, np.sum, np.size])
df.aggregate(np.size)

In [None]:
df.aggregate([np.min, np.max])

In [None]:
import plotly.graph_objs as go

#Criando o gráfico
box1 = go.Box(y = dados['preg'],
              name = 'preg',
              marker = {'color': '#cd191e'})
box2 = go.Box(y = dados['plas'],
              name = 'plas',
              marker = {'color': '#f39c12'})
box3 = go.Box(y = dados['test'],
              name = 'test',
              marker = {'color': '#7f7f7f'})
box4 = go.Box(y = dados['mass'],
              name = 'mass',
              marker = {'color': '#836FFF'})
box5 = go.Box(y = dados['pedi'],
              name = 'pedi',
              marker = {'color': '#BDB76B'})
box6 = go.Box(y = dados['age'],
              name = 'age',
              marker = {'color': '#B0E0E6'})

data = [box1, box2, box3, box4, box5, box6]
# Criando Layout
layout = go.Layout(title='Analisando as variáveis',
                   yaxis={'title':'Valor'})
# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)
# Exibindo figura/gráfico
fig.show()

In [None]:
# Criar uma tabela cruzada com variáveis categóricas e analisar a relação entre elas. Tipo de Visitante x Revenue
pd.crosstab(df['VisitorType'], df['Revenue']).plot(kind = 'bar', 
                                                   figsize = (15, 5), 
                                                   color = ['red', 'green'])

In [None]:
# Função que normaliza os dados utilizando a técnica de mínimo e máximo
# col_name recebe uma lista de variáveis que serão normalizadas
# pddata recebe o dataset
# valoresAltos setado como True, significa que a normalização será feita com valores mais ALTOS
def normaliza(col_name, pddata, valoresAltos = False):
    pddata[col_name] -= pddata[col_name].min()
    pddata[col_name] /= pddata[col_name].max()
    if valoresAltos:
        pddata[col_name] = 1 - pddata[col_name]

In [None]:
# Chamando a função de normalização
# É uma boa prática fazer uma cópia dos dados com o objetivo de manter os dados originais
lista_colunas = ['preg', 'plas', 'test', 'mass', 'pedi', 'age']
dadosNormalizados = dados.copy()
# Normalizando com valores mais BAIXOS
normaliza(lista_colunas, dadosNormalizados)
dadosNormalizados.head()

In [None]:
# Padronizando os dados (0 para a média, 1 para o desvio padrão)

from sklearn.preprocessing import StandardScaler

array = dadosNormalizados.values

# Separando o array em componentes de input e output 
X = array[:,[0, 1, 4, 5, 6, 7]]
variavelAlvo = array[:,8]

# Gerando o novo padrão
scaler = StandardScaler().fit(X)
dadosNormalizadosPadronizados = scaler.transform(X)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", dados.values)
print("\nDados Padronizados: \n\n", dadosNormalizadosPadronizados[0:5,:])

## Pesquisar o método SelectKbest para selecionar as melhores variáveis

### Utilizando o Randon Forest para seleção de variáveis
<details><summary>CLICK</summary>
<p>
 O algoritmo Randon Forest é excelente para escolher as melhores variáveis
</p>
</details>

In [5]:
# Separando os dados utilizando dados de treino e dados de teste  
num_observ = len(dados)
# 4 é o número de variáveis (colunas)
X = dados[["sepal_length", "sepal_width", "petal_length", "petal_width"]].values.reshape((num_observ, 4)) # X deve sempre ser uma matriz e nunca um vetor
Y = dados['species'].values # y pode ser um vetor

# Utilizar matriz Numpy é melhor otmizado na memória do computador do que o Pandas, principalmente quando o dataset for grande

# o random_state é útil durante os teste para reproduzir os mesmos resultados após fechar  e abrir o Jupyter Lab. Pode ser retirando na versão final do modelo.
# Divide os dados em treino e teste
# Quanto menor o tamanho do dataset maior deve ser o tamanho dos dados de treino
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, shuffle = True, random_state = 5)

In [6]:
type(X)

numpy.ndarray

In [None]:
dadosTreino = pd.DataFrame(X_train)
dadosTreino

In [None]:
array = dados.values

# Definindo os valores para o número de folds
num_folds = 10
seed = 7

# Separando os dados em folds
kfold = KFold(num_folds, True, random_state = seed)

In [None]:
# Criando o modelo
modelo = RandomForestClassifier()

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Extraindo a importância
importances = modelo.feature_importances_
indices = np.argsort(importances)

In [None]:
# Obtém os índices
ind=[]
for i in indices:
    ind.append(dados.columns[i])

In [None]:
# Plot da Importância dos Atributos
plt.figure(1)
plt.title('Importância dos Atributos')
plt.barh(range(len(indices)), importances[indices], color = 'b', align = 'center')
plt.yticks(range(len(indices)),ind)
plt.xlabel('Importância Relativa')
plt.show()

In [None]:
fig = px.scatter(dados, x="petal_length", y="petal_width", color="species")
fig.update_traces(marker=dict(size=12,
                              line=dict(width=2,
                              color='DarkSlateGrey')),
                              selector=dict(mode='markers'))
fig.show()

In [None]:
# Verificar se as classes estão com divisão balanceada, ou seja, com a mesma quantidade para cada classe.
# fazer a mesma verificação nos dados de treino. Oversampling aumenta a quantidade da classe com menor quantidade. Undersampling diminui a quantidade da classe com maior quantidade.
# Quantitativo da variável alvo 
dadosTreino = pd.DataFrame(Y_train)
dadosTreino[0].value_counts()

### Clustering
<details><summary>CLICK</summary>
<p>
 O algoritmo KMeans agrupa os dados tentando separar amostras em n grupos de variância igual, minimizando um critério conhecido como inércia ou soma dos quadrados dentro do cluster. Este algoritmo requer que o número de clusters seja especificado. Ele se adapta bem a um grande número de amostras e tem sido usado em uma grande variedade de áreas de aplicação em muitos campos diferentes. <br>
    Para utilizar o K-means os dados devem estar padronizados.
</p>
</details>

In [None]:
df = dados.copy()
# Excluir colunas
df = df.drop(['species'], axis=1)
df

In [None]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, random_state=0).fit(df)
especies = kmeans.labels_
#df["especies"] = especies
#df

In [None]:
# Gráfico do quantitativo da variável alvo 
ax = sns.countplot(x = "especies", data = df, palette = "Greens_d");
for p in ax.patches:
    ax.annotate(str(p.get_height()), (p.get_x() + 0.15, p.get_height() + 1))

In [None]:
previsao = kmeans.predict(df)
previsao

In [None]:
# descobrindo a melhor quantidade de clusters

from sklearn.cluster import KMeans
from matplotlib import pylab

# Diferenças nos clusters de acordo com os valores de K
pylab.rcParams['figure.figsize'] = (20.0, 4.0)

# os valores para k é a quantidade de clusters
for K in [2, 3, 4]:
    
    # Criando o classificador e construindo o modelo
    modelo = KMeans(n_clusters = K, random_state = 101)
    y_pred = modelo.fit_predict(df)
    
    plt.subplot(1, 3, K-1)
    plt.title("K-means, K=%s" % K)
    plt.scatter(df.petal_length, df.petal_width, c = y_pred, edgecolors = 'none')
    # 2 e 3 são os centróides das variáveis petal_length e petal_width
    plt.scatter(modelo.cluster_centers_[:,2], modelo.cluster_centers_[:,3], marker = 'x', color = 'r', s = 100, linewidths = 4)

plt.show()

### Métricas de clusterização
<details><summary>CLICK</summary>
<p>
    As métricas de clusterização aqui utilizadas são homogeneidade, completude e Medida V.<br>
    Um resultado de cluster satisfaz a homogeneidade se todos os seus clusters contiverem apenas pontos de dados que são membros de uma única classe. <br>
    Um resultado de cluster satisfaz a completude se todos os pontos de dados que são membros de uma determinada classe são elementos do mesmo cluster. <br>
    Ambas as pontuações têm valores positivos entre 0,0 e 1,0, sendo desejáveis valores maiores.<br>
    Medida V é a média entre homogeneidade e completude. <br>
    Só é possível utilizar essa métricas se a variável alvo for previamente conhecida. Caso contrário, não será porssível utiliza-las. <br>
    Talvez seja interessante utiliza-las para validar a quantidade de classes atribuídas ao dataset. Ou seja, verificar se o dataset possui o número adequado de classes. <br>
    
    Inertia = Soma das distâncias das amostras para o seu centro de agrupamento mais próximo.
</p>
</details>

In [None]:
from sklearn.metrics import homogeneity_completeness_v_measure
from sklearn.cluster import KMeans
from matplotlib import pylab

pylab.rcParams['figure.figsize'] = (10.0, 4.0)

# Lista com os valores de K
valores_k = range(2, 10)

# Lista para receber as métricas
HCVs = []


for K in valores_k:
    
    # Criando o classificador e fazendo previsões sobre o cluster para cada ponto de dados
    y_pred = KMeans(n_clusters = K, random_state = 101).fit_predict(df)
    
    # Calculando as métricas
    HCVs.append(homogeneity_completeness_v_measure(dados.species, y_pred))

plt.plot(valores_k, [el[0] for el in HCVs], 'b', label = 'Homogeneidade')
plt.plot(valores_k, [el[1] for el in HCVs], 'g', label = 'Completude')
plt.plot(valores_k, [el[2] for el in HCVs], 'r', label = 'Medida V')
plt.ylim([0, 1])
plt.xlabel("Valor de K")
plt.ylabel("Score")
plt.legend(loc = 4)
plt.show()

In [None]:
# Inertia = Soma das distâncias das amostras para o seu centro de agrupamento mais próximo. Qaunto menor o  valor da Inertia melhor será a quatidade de clusters. 
# Muito cuidado, pois a Inertia deve ser comparada com outras métricas

from sklearn.cluster import KMeans

# Lista de valores de K
Ks = range(2, 10)

# Lista para as métricas
valores_metrica = []

# Loop por diferentes modelos com diferentes valores de K
for K in Ks:
    modelo = KMeans(n_clusters = K, random_state = 101)
    modelo.fit(df)
    valores_metrica.append(modelo.inertia_)

plt.plot(Ks, valores_metrica, 'o-')
plt.xlabel("Valor de K")
plt.ylabel("Inertia")
plt.show()

## DBSCAN

## Mean Shift

In [None]:
from sklearn.cluster import MeanShift

In [None]:
# bandwidth = Comprimento da Interação entre os exemplos, também conhecido como a largura de banda do algoritmo.

# Cria o modelo
modelo_v1 = MeanShift(bandwidth=0.85)

# Treina o modelo
previsoesMeanShift = modelo_v1.fit_predict(df)

In [None]:
# Coleta os labels, centróides e número de clusters
labels = modelo_v1.labels_
cluster_centers = modelo_v1.cluster_centers_
n_clusters_ = labels.max()+1

In [None]:
labels

In [None]:
from matplotlib import pylab

# Diferenças nos clusters de acordo com os valores de K
pylab.rcParams['figure.figsize'] = (6.0, 4.0)

for k  in zip(range(n_clusters_)):
    cluster_center = cluster_centers[k]
    plt.scatter(df.petal_length, df.petal_width, c= previsoesMeanShift, edgecolors = 'none')# col + '.')
    # 2 e 3 são os centróides das variáveis petal_length e petal_width
    plt.scatter(cluster_centers[:,2], cluster_centers[:,3], marker = 'x', color = 'r', s = 100, linewidths = 4)
    plt.title('Número Estimado de Clusters: %d' % n_clusters_)
plt.show()

# <font color='blue'>Etapa 3 - Criando, treinando e avaliando os Modelos </font>

### Criar primeiramente um modelo simples e depois alterar um parâmetro de cada vez, documentando e salvando os modelos

In [None]:
comparaAlgoritmo = {"Algoritmo": ["Regressão Logística", "Linear Discriminant Analysis", "KNN", "Naive Bayes", "CART", "SVM"],
                   "Erros": ["-", "-", "-", "-", "-", "-",]}
pdComparaAlgoritmo = pd.DataFrame(comparaAlgoritmo)
pdComparaAlgoritmo

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score, roc_auc_score
# Dicionário de métricas e metadados
# primeiro coloca-se como parâmetro as previsões e depois os valores reais da variável alvo, com exceção da métrica AUC
# As técnicas Precision e Recall devem ter valores próximos. Caso contrário, é possível que o modelo aprendeu mais de uma clase do que de outra.
# f1 score é uma proporção entre Precision e Recall

SVM_dict_v1 = {'Modelo':'SVM',
               'Versão':'1',
               'Kernel':'Linear',
               'Precision':precision_score(previsoes_v1, y_teste),
               'Recall':recall_score(previsoes_v1, y_teste),
               'F1 Score':f1_score(previsoes_v1, y_teste),
               'Acurácia':accuracy_score(previsoes_v1, y_teste),
               'AUC':roc_auc_score(y_teste, previsoes_v1)}

In [None]:
# Print
print("Métricas em Teste:\n")
SVM_dict_v1

### Regressão Logística
<details><summary>CLICK</summary>
<p>
Algoritmo Linear. O algoritmo de Regressão Logística assume que seus dados estão em uma Distribuição Normal para valores numéricos que podem ser modelados com classificação binária.
As variáveis devem estar na mesma escala
</p>
</details>

In [None]:
# Criando o modelo
modelo = LogisticRegression()

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)
previsoes = cross_val_predict(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Criando o modelo
modelo = LogisticRegression()

# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0],erros))

In [None]:
pdComparaAlgoritmo.iloc[0,1] = erros
pdComparaAlgoritmo

### Linear Discriminant Analysis
<details><summary>CLICK</summary>
<p>
Algoritmo Linear. Técnica estatística para classificação binária. Também assume que os dados estão em Distribuição Normal.
</p>
</details>

In [None]:
# Criando o modelo
modelo = LinearDiscriminantAnalysis()

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

In [None]:
pdComparaAlgoritmo.iloc[1,1] = erros
pdComparaAlgoritmo

### KNN - K-Nearest Neighbors
<details><summary>CLICK</summary>
<p>
Algoritmo Não-Linear que utiliza uma métrica de distância para encontrar o valor de K mais adequado as instâncias do dataset de treino. Os dados devem estar normalizados Os outliers devem ser tratados, pois influenciam bastante no algoritmo. É muito importante definir a quantidade de k (número de vizinhos). O algoritmo funciona melhor valores ímpares para k. Visto que, valores pares podem gerar empate e cair em votação prejudicando o modelo.

Os scripts abaixo ajudam a encontrar o melhor valor de k
</p>
</details>

In [None]:
# Divisão dos dados de treino em dados de treino e dados de validação
treinoData, validData, treinoLabels, validLabels = train_test_split(X_train, 
                                                                    Y_train, 
                                                                    test_size = 0.1, 
                                                                    random_state = 84)

In [None]:
# Range de valores de k que iremos testar
kVals = range(1, 30, 2)

In [None]:
# Lista vazia para receber as acurácias
acuracias = []

In [None]:
# Loop em todos os valores de k para testar cada um deles
for k in kVals:
    
    # Treinando o modelo KNN com cada valor de k
    modeloKNN = KNeighborsClassifier(n_neighbors = k)
    modeloKNN.fit(X_train, Y_train)
          
    # Avaliando o modelo e atualizando a lista de acurácias
    score = modeloKNN.score(validData, validLabels)
    print("Com valor de k = %d, a acurácia é = %.2f%%" % (k, score * 100))
    acuracias.append(score)

In [None]:
# Obtendo o valor de k que apresentou a maior acurácia
i = np.argmax(acuracias)
print("O valor de k = %d alcançou a mais alta acurácia de %.2f%% nos dados de validação!" % (kVals[i], 
                                                                                             acuracias[i] * 100))

In [None]:
# Criando o modelo
modelo = KNeighborsClassifier(n_neighbors = 5)

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

In [None]:
pdComparaAlgoritmo.iloc[2,1] = erros
pdComparaAlgoritmo

### Naive Bayes
<details><summary>CLICK</summary>
<p>
Algoritmo Não-Linear, probalístico. Calcula a Probabilidade de cada classe e a probabilidade condicional de cada classe dado uma variável de entrada. As probabilidades são então estimadas para os novos dados e multiplicadas, assumindo que são independentes (suposição simples ou Naive). 
Assume dados em distirbuição Gaussiana (Normal)
Excelente para previsões em tempo real.
O Naive Bayes possui apenas um parâmetro (priori), sendo assim exige uma boa preparação dos dados.
Muito útil para dados no formato de texto.
</p>
</details>

In [None]:
# Criando o modelo
modelo = GaussianNB()

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

In [None]:
pdComparaAlgoritmo.iloc[3,1] = erros
pdComparaAlgoritmo

### SVM - Support Vector Machines
<details><summary>CLICK</summary>
<p>
O objetivo deste algoritmo é buscar uma linha que melhor separa duas classes dentro de um conjunto de dados. As instâncias de dados que estão mais próximas desta linha que separa as classes, são chamadas support vectors. O SVM tem sido estendido para suportar multiclasses.<br>

    Support Vector Machines são algoritmos de classificação muito poderosos. Quando usados em conjunto com “Random forest” e outras ferramentas de aprendizagem de máquina, dão uma dimensão muito diferente para montagem de modelos. Assim, eles se tornam cruciais para os casos em que é necessária um poder de previsão muito elevado. Esses algoritmos são um pouco mais difíceis de visualizar devido à complexidade na formulação.
</p>
</details>



In [None]:
# Criando o modelo
modelo = SVC()

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

In [None]:
pdComparaAlgoritmo.iloc[5,1] = erros
pdComparaAlgoritmo

### Algoritmos de árvore de decisão
<details><summary>CLICK</summary>
<p>
A árvore é criada de cabeça para baixo, ou seja, a raiz (ponto de partida) é a parte de cima e as folhas em baixo. Os nós representam os atributos. A decisão ocorre nas folhas.  Existem diversos algoritmos de decisão, como por exmplo, CART. Podem ser usados em problemas de Regressão e Classificação.<br>
    Fazer o prunning da árvore após o treinamento do modelo. <br>
    Atribuir pesos aos erros. Atribuir o maior peso aos erros mais críticos, ou seja, aqueles que se acontecerem trarão mais prejuízo ao negócio.
    Estudar melhor Entropia e Índice Gini
</p>
</details>

### CART (Classification and Regression Trees)
<details><summary>CLICK</summary>
<p>
Algoritmo Não-Linear. O algoritmo CART constrói uma árvore binária a partir do dataset de treino. Cada atributo e cada valor de cada atributo são avaliados com o objetivo de reduzir a função de custo (Cost Function).
</p>
</details>

In [None]:
# Criando o modelo
modelo = DecisionTreeClassifier()

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

In [None]:
pdComparaAlgoritmo.iloc[4,1] = erros
pdComparaAlgoritmo

### Random Forest Classifier
<details><summary>CLICK</summary>
<p>
Os 5 principais parâmetros em Modelos de Random Forest são: <br>
    
criterion{“gini”, “entropy”}, default=”gini” <br>

n_estimators - número de árvores na floresta, quanto maior, melhor! Cada árvore é um modelo. No final é escolhido o melhor modelo <br>

max depth - o padrão é 'none' e nesse caso árvores completas são criadas. Ajustando esse parâmetro pode ajudar a evitar overfitting. <br>

max_features - diferentes valores devem ser testados, pois este parâmetro impacta na forma como os modelos RF distribuem os atributos pelas árvores. <br>

criterion - define a forma como o algoritmo fará a divisão dos atributos e a classificação dos nós em cada árvore. <br>
    
</p>
</details>

In [None]:
# Criando o modelo
modelo = RandomForestClassifier()

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

In [None]:
# mudar o índice
pdComparaAlgoritmo.iloc[4,1] = erros
pdComparaAlgoritmo

### Bagging
<details><summary>CLICK</summary>
<p>
    Bagging é usado para construção de múltiplos modelos (normalmente do mesmo tipo) a partir de diferentes subsets no dataset de treino. <br>
    Um classificador Bagging é um meta-estimador ensemble que faz o fit de classificadores base, cada um em subconjuntos aleatórios do conjunto de dados original e, em seguida, agrega suas previsões individuais (por votação ou por média) para formar uma previsão final.<br>
    Tal meta-estimador pode tipicamente ser usado como uma maneira de reduzir a variância de um estimador (por exemplo, uma árvore de decisão), introduzindo a randomização em seu procedimento de construção e fazendo um ensemble (conjunto) a partir dele.<br>
    
</p>
</details>

In [None]:
# Criando o modelo
# modelo = BaggingClassifier()
# É possível especificar qual algoritmo utilizar para criar os modelos
modelo = BaggingClassifier(LogisticRegression())

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

In [None]:
# mudar o índice
pdComparaAlgoritmo.iloc[4,1] = erros
pdComparaAlgoritmo

### Extremely Randomized Trees (ExtraTrees)
<details><summary>CLICK</summary>
<p>
    Método esemble com funcionamento muito pareceido ao Randon Forest, com a diferença que as árvores são criadas de forma randômica
    
</p>
</details>

In [None]:
# Criando o modelo
modelo = ExtraTreesClassifier()

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

In [None]:
# mudar o índice
pdComparaAlgoritmo.iloc[4,1] = erros
pdComparaAlgoritmo

### Adaboost
<details><summary>CLICK</summary>
<p>
    Um classificador AdaBoost é um meta-estimador que começa ajustando um classificador no conjunto de dados original e depois ajusta cópias adicionais do classificador no mesmo conjunto de dados, mas onde os pesos das instâncias classificadas incorretamente são ajustados para que os classificadores subsequentes se concentrem mais em casos difíceis.<br>
    learning_rate é um parâmetro muito importante. Alterá-lo pode melhor o resultado.
    
</p>
</details>

In [None]:
# Criando o modelo
modelo = AdaBoostClassifier()

# Cross Validation
resultado = cross_val_score(modelo, X, Y, cv = kfold)

# Print do resultado
print("Acurácia: %.3f" % (resultado.mean() * 100))

In [None]:
# Treinamento do modelo
modelo.fit(X_train, Y_train)

In [None]:
# Previsões com os dados de teste
previsoes = modelo.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

In [None]:
# mudar o índice
pdComparaAlgoritmo.iloc[4,1] = erros
pdComparaAlgoritmo

### StackingClassifier
<details><summary>CLICK</summary>
<p>
    A generalização empilhada é um método para combinar estimadores para reduzir seus vieses. Mais precisamente, as previsões de cada estimador individual são empilhadas e usadas como entrada para um estimador final para calcular a previsão. Este estimador final é treinado por meio de validação cruzada.
    
</p>
</details>

In [None]:
# Criando o modelo
# Definir os algoritmos que serão empilhados
estimators = [('rf', RandomForestClassifier(n_estimators=10, random_state=42)), ('svr', make_pipeline(StandardScaler(), SVC(random_state=42)))]

modeloStacking = StackingClassifier(estimators=estimators, final_estimator=LogisticRegression())

# Treinando o modelo
modeloStacking.fit(X_train, Y_train)

# Fazendo previsões
previsoes = modeloStacking.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

###  Gradient Boosting ou Gradient Boostted Regression Trees (GBRT)
<details><summary>CLICK</summary>
<p>
   
    Gradient Boosting ou Gradient Boostted Regression Trees (GBRT) é uma técnica de aprendizagem estatística não-paramétrica usada para problemas de classificação e regressão. 

Gradient Boosting = Gradient Descent + Boosting.  <br>

http://deeplearningbook.com.br/aprendizado-com-a-descida-do-gradiente/  <br>

Basicamente 3 etapas são realizadas na construção do modelo:  <br>

1- Gera um regressor  <br>

2- Computa o erro residual  <br>

3- Aprende a prever o resíduo <br>
    
    Parâmetros mais importantes:
    Número de árvores de regressão (n_estimators)
    Profundidade de cara árvore (max_depth)
    loss function (loss)
</p>
</details>

In [None]:
# Cria o modelo
modelo = GradientBoostingClassifier(n_estimators = 100, learning_rate = 1.0, random_state = 0)

# Treina o classificador
modelo.fit(X_train, Y_train)

# Calcula a acurácia (score)
modelo.score(X_test, Y_test)            

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0], erros))

### eXtreme Gradient Boosting 
<details><summary>CLICK</summary>
<p>
   
    eXtreme Gradient Boosting é uma biblioteca de código aberto que fornece uma otimização eficiente e eficaz do algoritmo Gradient Boosting, sendo mais rápido. 
    
    https://xgboost.readthedocs.io/en/latest/python/python_intro.html#
    
    Verificar o formato da Matriz. A matriz esparça não é a melhor opção para o algoritmo. A melhor alternativa é utilizar uma matriz densa.
</p>
</details>

###  Automatizando os modelos
<details><summary>CLICK</summary>
<p>
  

</p>
</details>

In [None]:
# Import dos módulos
import matplotlib.pyplot as plt
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from xgboost import XGBClassifier
import warnings
warnings.filterwarnings("ignore")

# Criando e Preparando a lista de modelos
modelos = []
modelos.append(('LR', LogisticRegression())) # Regressão Logistica
modelos.append(('LDA', LinearDiscriminantAnalysis())) # Linear Discriminant Analysis
modelos.append(('NB', GaussianNB())) # Naibe Bayes
modelos.append(('KNN', KNeighborsClassifier())) # KNN - K-Nearest Neighbors
modelos.append(('CART', DecisionTreeClassifier())) # Classification and Regression Trees
modelos.append(('SVM', SVC())) # Support Vector Machines
modelos.append(('XGB', XGBClassifier())) # XGBoost

# Treinando e avaliando cada modelo em um loop
resultados = []
nomes = []

# Definindo os valores para os folds
num_folds = 11
seed = 7

for nome, modelo in modelos:
    kfold = KFold(n_splits = num_folds, random_state = seed)
    cv_results = cross_val_score(modelo, dadosNormalizadosPadronizados, variavelAlvo, cv = kfold, scoring = 'accuracy')
    resultados.append(cv_results)
    nomes.append(nome)
    msg = "%s: %f (%f)" % (nome, cv_results.mean(), cv_results.std())
    print(msg)

# Boxplot para comparar os algoritmos
fig = plt.figure()
fig.suptitle('Comparação de Algoritmos de Classificação')
ax = fig.add_subplot(111)
plt.boxplot(resultados)
ax.set_xticklabels(nomes)
plt.show()

# <font color='blue'>Etapa 5 - Otimizando a Performance do Modelo</font>

### Ajuste de Hyperparâmetros
<details><summary>CLICK</summary>
<p>
       Todos os algoritmos de Machine Learning são parametrizados, o que significa que você pode ajustar a performance do seu modelo preditivo, através do tuning (ajuste fino) dos parâmetros. Seu trabalho é encontrar a melhor combinação entre os parâmetros em cada algoritmo de Machine Learning. Esse processo também é chamado de Otimização de Hyperparâmetros. O scikit-learn oferece dois métodos para otimização automática dos parâmetros: Grid Search Parameter Tuning e Random Search Parameter Tuning. 
</p>
</details>

### Grid Search Parameter Tuning
<details><summary>CLICK</summary>
<p>
       Este método realiza metodicamente combinações entre todos os parâmetros do algoritmo, criando um grid. Cada algoritmo possui seus parâmetros e o Grid Search precisa ser ajustado de acordo àquele utilizado.
</p>
</details>

In [None]:
# otimizando o algoritmo de Regerssão Logistica

# Import dos módulos
from sklearn.model_selection import GridSearchCV

# Definindo os valores que serão testados
valores_grid = {'penalty': ['l1','l2'], 'C': [0.001,0.01,0.1,1,10,100,1000]}

# Criando o modelo
modelo = LogisticRegression()

# Criando o grid
# n_jobs é o número de threads no processador
modelo_LR = GridSearchCV(estimator = modelo, param_grid = valores_grid, n_jobs = 4)
modelo_LR.fit(X_train, Y_train)

# Print do resultado
print("Acurácia: %.3f" % (modelo_LR.best_score_ * 100))
print("Melhores Parâmetros do Modelo:\n", modelo_LR.best_estimator_)

In [None]:
# salva o melhor modelo
modelo_final  = modelo_LR.best_estimator_
modelo_final

In [None]:
# Previsões com os dados de teste
previsoes = modelo_final.predict(X_test)

In [None]:
comparaResultado = pd.DataFrame(Y_test)
comparaResultado["previsões"] = previsoes
comparaResultado.rename(columns = {0:"Dados teste"}, inplace = True)
#comparaResultado

In [None]:
# Sumário
print(classification_report(Y_test, previsoes))
print(confusion_matrix(Y_test, previsoes))

In [None]:
# Calcula a quantidades de previsões erradas
erros = (comparaResultado["Dados teste"] != previsoes).sum()

In [None]:
# Imprime o resultado
print("Total de Observações: %d - Total de Previsões Incorretas : %d" 
      % (comparaResultado.shape[0],erros))

### Randomized Search CV
<details><summary>CLICK</summary>
<p>
       Este método gera amostras dos parâmetros dos algoritmos a partir de uma distribuição randômica uniforme para um número fixo de iterações. Um modelo é construído e testado para cada combinação de parâmetros.
</p>
</details>

In [None]:
from sklearn.model_selection import RandomizedSearchCV

# Definindo os valores que serão testados
valores_grid = {'penalty': ['l1','l2'], 'C': [0.001,0.01,0.1,1,10,100,1000]}

# Criando o modelo
modelo = LogisticRegression()

# Definindo os valores que serão testados
seed = 7
iterations = 14

# Criando o grid
rsearch = RandomizedSearchCV(estimator = modelo, 
                             param_distributions = valores_grid, 
                             n_iter = iterations, 
                             random_state = seed)
rsearch.fit(X_train, Y_train)

# Print dos resultados
print("Acurácia: %.3f" % (rsearch.best_score_ * 100))
print("Melhores Parâmetros do Modelo:\n", rsearch.best_estimator_)

# <font color='blue'>Etapa 6 -  Salvando/Carregando o modelo</font>

In [None]:
import pickle

# Salvando o modelo
arquivo = 'modelos/modelo_classificador_final.sav'
pickle.dump(modelo_LR, open(arquivo, 'wb'))
print("Modelo salvo!")


In [None]:
# Carregando o arquivo
modelo_classificador_final = pickle.load(open(arquivo, 'rb'))
#modelo_producao = modelo_classificador_final.score(X_teste, Y_teste)
print("Modelo carregado!")

# Print do resultado
#print("Acurácia: %.3f" % (modelo_producao.mean() * 100))