# 39. Pré-processamento dos dados: variáveis categóricas

In [None]:
# Pré-processamento
import numpy as np
import pandas as pd
df = pd.read_csv('Dataset/heart_tratado.csv', sep=',', encoding='utf-8')

In [None]:
df.head(10)

In [None]:
df.shape

In [None]:
# Transformando as variáveis categóricas nominais em variáveis categóricas ordinais
df2 = pd.DataFrame.copy(df)

In [None]:
df2['Sex'].replace({'M': 1, 'F': 0}, inplace=True)
df2['ChestPainType'].replace({'TA':0, 'ATA':1, 'NAP':2, 'ASY':3}, inplace=True)
df2['RestingECG'].replace({'Normal':0, 'ST':1, 'LVH':2}, inplace=True)
df2['ExerciseAngina'].replace({'N':0, 'Y':1}, inplace=True)
df2['ST_Slope'].replace({'Up':0, 'Flat':1 ,'Down':2}, inplace=True)

In [None]:
df2.head(10)

In [None]:
df2.dtypes

In [None]:
df2.shape

# 40. Pré-processamento: escalonamento e separação de variáveis

In [None]:
df2.head(10)

In [None]:
previsores = df2.iloc[:, 0:11].values

In [None]:
previsores

In [None]:
previsores.shape

In [None]:
alvo = df2.iloc[:, 11].values

In [None]:
alvo

In [None]:
alvo.shape

In [None]:
# Análise das escalas dos atributos (Escalonamento)
df2.describe()

In [None]:
# Padronização (utiliza a média e o desvio padrão como referência)
from sklearn.preprocessing import StandardScaler
previsores_esc = StandardScaler().fit_transform(previsores)
previsores_esc

In [None]:
previsoresdf = pd.DataFrame(previsores_esc)
previsoresdf

In [None]:
previsoresdf.describe()

# 41. Pré-processamento: LabelEncoder e OnehotEncoder

In [None]:
# Transformação de variáveis categóricas em numéricas automaticamente
from sklearn.preprocessing import LabelEncoder

In [None]:
df.head()

In [None]:
previsores2 = df.iloc[:, 0:11].values
previsores2

In [None]:
previsores2[:, 1] = LabelEncoder().fit_transform(previsores2[:, 1])
previsores2[:, 2] = LabelEncoder().fit_transform(previsores2[:, 2])
previsores2[:, 6] = LabelEncoder().fit_transform(previsores2[:, 6])
previsores2[:, 8] = LabelEncoder().fit_transform(previsores2[:, 8])
previsores2[:, 10] = LabelEncoder().fit_transform(previsores2[:, 10])
previsores2

In [None]:
previsores2.shape

In [None]:
# OneHotEncoder: Criação de variaveis Dummy (transformação de variáveis numéricas ordinais em binárias)
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

In [None]:
ColumnTransformer?

In [None]:
previsores3 = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(), [1, 2, 6, 8, 10])], remainder='passthrough').fit_transform(previsores2)
previsores3

In [None]:
previsores3.shape

In [None]:
previsores3df = pd.DataFrame(previsores3)
previsores3df.head(10)

In [None]:
df.head(10)

In [None]:
# Escalonamento
from sklearn.preprocessing import StandardScaler

In [None]:
previsores3_esc = StandardScaler().fit_transform(previsores3)
previsores3_esc

In [None]:
previsores3df = pd.DataFrame(previsores3_esc)
previsores3df

In [None]:
previsores3df.describe()

In [None]:
# Resumo do Pré-Processamento:
# alvo = variável que se pretende atingir (tem ou não tem doença cardiaca);
# previsores = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas manualmente, sem escalonar;
# previsores_esc = previsores escalonada;
# previsores2 = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas automaticamente pelo labelencoder;
# previsores3 = previsores2 aplicada onehotencoder (variáveis dummy);
# previsores3_esc = previsores3 escalonada.

# 42. Pré-processamento: Redução de dimensionalidade

In [None]:
# Análise dos componentes principais (Seleção de características vs Extração de características / aprendizagem não supervisionada)
from sklearn.decomposition import PCA
pca = PCA(n_components=3, svd_solver='auto')

In [None]:
previsores_pca = pca.fit_transform(previsores2)
previsores_pca.shape

In [None]:
previsores_pca # componentes principais

In [None]:
pca.explained_variance_ratio_ # razão das variáveis explicativas

In [None]:
pca.explained_variance_ratio_.sum() # Soma das variáveis explicativas

In [None]:
# Kernel PCA (Redução de dimensionalidade com aprendizagem não supervisionada)
from sklearn.decomposition import KernelPCA

In [None]:
kpca = KernelPCA(n_components=4, kernel='rbf')

In [None]:
previsores_kernel = kpca.fit_transform(previsores2)
previsores_kernel.shape

In [None]:
previsores_kernel

In [None]:
# Análise do Discriminante Linear (LDA - Aprendizagem Supervisionada)
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

In [None]:
lda = LinearDiscriminantAnalysis(n_components=1)

In [None]:
previsores_lda = lda.fit_transform(previsores2, alvo)
previsores_lda.shape

In [None]:
previsores_lda

In [None]:
lda.explained_variance_ratio_

In [None]:
lda.explained_variance_ratio_.sum()

# 43. Pré-processamento: Salvamento de variáveis

In [None]:
import pickle

In [None]:
arq1 = open('Dataset/heart.pkl', 'wb') # Criando o arquivo

In [None]:
pickle.dump(alvo, arq1) # Salvando a variável no arquivo

In [None]:
arq1.close() # Fechando o arquivo

In [None]:
arq1 = open('Dataset/heart.pkl', 'rb') # Abrindo o arquivo

In [None]:
alvo = pickle.load(arq1) # Lendo o arquivo

In [None]:
alvo

In [None]:
arq1.close() # Fechando o arquivo

# 44. Separação entre treino e teste

In [None]:
# Base de treino e teste
from sklearn.model_selection import train_test_split

In [None]:
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size=0.3, random_state=0)

In [None]:
x_treino.shape

In [None]:
x_teste.shape

In [None]:
y_treino.shape

In [None]:
y_teste.shape

# 45. Naive Bayes : Teoria
"""
P(A|B) = [P(B|A) * P(A)] / P(B)
P(A|B)*P(B) = P(A^B) = P(B^A)

Aplicações:
> Filtros de spam.
> Diagnostico médico.
> Classificação de imagens.
> Análise de crédito.
> Separação de documentos.
> Previsão de falhas.

Vantagens:
> Rápido e de fácil entendimento.
> Pouco esforço computacional.
> Bom desemprenho com muitos dados.
> Boas previsões com poucos dados.

Desvantagens:
> Considera atributos independentes.
> Atribuição de um valor nulo de probabilidade quando uma classe contida no conjunto de teste não se apresenta no conjunto de treino.
"""

# 46. Naive Bayes no Python
"https://scikit-learn.org/stable/modules/naive_bayes.html"

In [None]:
# Naive Bayes
from sklearn.naive_bayes import GaussianNB

In [None]:
# Treinamento do algoritmo
naive = GaussianNB()
naive.fit(x_treino, y_treino)

In [None]:
# Avaliação do algoritmo
previsoes_naive = naive.predict(x_teste)
previsoes_naive

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
accuracy_score(y_teste, previsoes_naive)

In [None]:
print(f'Acurácia: {accuracy_score(y_teste, previsoes_naive)*100:.2f}%')

In [None]:
confusion_matrix(y_teste, previsoes_naive)

In [None]:
print(classification_report(y_teste, previsoes_naive))

In [None]:
# Análise dos dados de treino
previsoes_treino = naive.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

In [None]:
print(classification_report(y_treino, previsoes_treino))

In [None]:
# Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

In [None]:
# Criando o modelo
modelo = GaussianNB()
resultado = cross_val_score(modelo, previsores3_esc, alvo, cv=kfold)
resultado

In [None]:
# Usando a média e o desvio padrão
print(f'Acurácia Média: {resultado.mean()*100:.2f}%')

# 47. Máquina de Vetor de Suporte (SVM): Teoria
"""
Equação:
w-> * x-> +b >= 0
Onde:
w = Vetor hiperplano;
x = vetor pertencente ao hiperplano;
b = deslocamento em relação à origem;

Aplicações:
> Classificação e Regressão.
> Categorização de textos.
> Reconhecimento de imagem.
> Detecção facial.
> Detecção e anomalias.
> Reconhecimento de letras manuscritas.

Constante de Penalização (custo)
> Hiperparâmetro C: controla a tolerância a erros.
    - Quanto maior o valor de C, maior a probabilidade de overfitting e o tempo.
    - Quanto menor o valor de C, maior o tempo de treinamento e maior a probabilidade de underfitting.
    
> Ajuste do hiperparâmetro Gama para otimização.

Vantagens: 
> Não é influenciado por dados discrepantes.
> Solução de problemas lineares e não lineares.
> Muito efetivo para datasets grandes.
> Consegue aprender com características não pertencentes aos dados.

Desvantagens:
> Difícil interpretação teórica devido à matemática complexa.
> Difícil visualização gráfica.
> É lento comparado a outros algoritmos.
"""

# 48. Máquina de Vetor de Suporte (SVM): Aplicação

In [None]:
# Máquinas de Vetores de Suporte (SVM)
"https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html"

In [None]:
from sklearn.svm import SVC

In [None]:
svm = SVC(kernel = 'rbf', random_state=1, C=2)
svm.fit(x_treino, y_treino)

In [None]:
previsoes_svm = svm.predict(x_teste)
previsoes_svm

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
accuracy_score(y_teste, previsoes_svm)

In [None]:
print(f'Acurácia: {accuracy_score(y_teste, previsoes_svm)*100:.2f}%')

In [None]:
confusion_matrix(y_teste, previsoes_svm)

In [None]:
print(classification_report(y_teste, previsoes_svm))

In [None]:
# Análise de dados de treino
previsoes_treino = svm.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

In [None]:
# Validaçõa Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

In [None]:
# Criando o modelo
modelo = SVC(kernel = 'rbf', random_state=1, C=2)
resultado = cross_val_score(modelo, previsores3_esc, alvo, cv=kfold)
resultado

In [None]:
# Usando a média e o desvio padrão
print(f'Acurácia Média: {resultado.mean()*100:.2f}%')

# 49. Regressão Logística: Aplicação

In [None]:
"""
Regressão Logística
> Algoritmo de classificação em aprendizagem supervisionada.
> Utiliza conceitos de regressão linear em seu modelo matemático
> Equação: p = 1/(1+e^-z) onde z=(b0+b1*x1+b2*x2+...+bn*xn)
p = probabilidade de pertencer a determinada classe;
e = número de euler;
b0 = intercepto;
bn = coeficientes;
xn = variáveis dependentes;

Aplicações:
> Está presente em diversas aplicações em várias áreas de estudo como na economia, bioestatística, psicometria, medicina, ciências sociais...

Vantagens:
> Fácil implementação;
> Teoria consolidada;
> Excelente desempenho;
> Indica o valor de probabilidade para cada instância:
"""

# 50. Regressão Logística no Python

In [None]:
"https: scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html"

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
logistica = LogisticRegression(random_state=1, max_iter=500, penalty="l2", tol=0.0001, C=1, solver="lbfgs") 
logistica.fit(x_treino, y_treino)

In [None]:
logistica.intercept_

In [None]:
logistica.coef_

In [None]:
previsoes_logistica = logistica.predict(x_teste)
previsoes_logistica

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print(f'''Acurácia: {accuracy_score(y_teste, previsoes_logistica)*100:.2f}%''')

In [None]:
confusion_matrix(y_teste, previsoes_logistica)

In [None]:
print(classification_report(y_teste, previsoes_logistica))

In [None]:
# Análise dados de treino
previsoes_treino = logistica.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

In [None]:
# Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

In [None]:
# Criando o modelo
modelo = LogisticRegression(random_state=1, max_iter=500, penalty="l2", tol=0.0001, C=1, solver="lbfgs") 
resultado = cross_val_score(modelo, previsores3_esc, alvo, cv=kfold)
resultado

In [None]:
# Usando a média e o desvio padrão
print(f'Acurácia Média: {resultado.mean()*100:.2f}%')

# 51. KNN (Aprendizagem Baseada em Instâncias)

In [None]:
# Aprendizagem baseada em instâncias (KNN)
"""
> Algoritmo de classificação em aprendizagem supervisionada.
> KNN é a sigla de K Nearest Neighbors (K vizinhos mais próximos).
> O Knn realiza classificação de instâncias (dados) em classes.
> Não possuí um modelo matemático, apenas classifica uma instância através de cálculos de distâncias

Vantagens:
> Fácil implementação;
> Fácil entendimento;
> Excelente desempenho em situações de dados com características complexas;
> Poucos parâmetros para ajustar;

Desvantagens:
> Alto custo computacional;
> Parâmetro k é ajustado na tentativa e erro;
"""

# 52. KNN no Python
'https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html'

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn = KNeighborsClassifier(n_neighbors=7, metric='minkowski', p=1)
knn.fit(x_treino, y_treino)

'https://scikit-learn.org/stable/modules/generated/sklearn.metrics.DistanceMetric.html'

In [None]:
previsoes_knn = knn.predict(x_teste)
previsoes_knn

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print(f'''Acurácia: {accuracy_score(y_teste, previsoes_knn)*100:.2f}%''')

In [None]:
confusion_matrix(y_teste, previsoes_knn)

In [None]:
print(classification_report(y_teste, previsoes_knn))

In [None]:
# Análise dados de treino
previsoes_treino = knn.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

In [None]:
# Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

In [None]:
# Criando o modelo
modelo = KNeighborsClassifier(n_neighbors=7, metric='minkowski', p=1)
resultado = cross_val_score(modelo, previsores3_esc, alvo, cv=kfold)
resultado

In [None]:
# Usando a média e o desvio padrão
print(f'Acurácia Média: {resultado.mean()*100:.2f}%')

# 53. Árvore de Decisão: Teoria

In [None]:
# Decision Tree
"""
> Aplicado em problemas de aprendizagem supervisionada tanto de classificação (mais utilizado) como de regressão.
> Seleciona a ordem que os atributos irão aparecer na árvore, sempre de cima para baixo, conforme sua importância para a predição, assim como determina a separação dos ramos da árvore.
> Para determinar o nível de importância de um atributo, denominado de ganho de informação, utiliza-se de várias métricas, sendo que as mais e aplicadas são a entropia (medida da falta de homogeneidade) e o índice de Gini (medida do grau de heterogeneidade).
> Cálculo da Entropia (E):
    E(S) = -∑ p(xi)log2p(xi), onde 
        p(xi) = probabilidade de ocorrer os atributos nos dados.
        n = número de classes que pode ser atingida.
> Cálculo do índice de Gini (Gi):
    Gi(S) = 1 - ∑ p(xi)^2, onde 
        p(xi) = probabilidade de ocorrer os atributos nos dados.
        n = número de classes que pode ser atingida.
> Cálculo do ganho de informação (G):
    G(S, A) = E(S) - ∑ p(a)*P(i|a) * log2(P(i|a)), onde
        p(a) = probabilidade de ocorrer o atributo a nos dados.
        p(i|a) = probabilidade de i ocorrer, dado que a já tenha ocorrido.
        n = número de classes que pode ser atingida.
        
Podagem das Árvores
> Objetiva a probabilidade de overfitting
> Processo de podagem:
    - percorre a árvore em profundidade.
    - para cada nó de decisão calcula o erro no nó e a soma dos erros nos nós descendentes.
    - se o erro do nó é menor ou igual à soma dos erros dos nós descendentes, então o nó é transformado em folha.
    
Vantagens:
> Fácil entendimento e interpretação.
> Normalmente não necessitam de preparações sofisticadas nos dados (label Encoder e OneHotEncoder).
> Trabalha com valores faltantes, variáveis categóricas e numéricas.
> Atua com dados não linearmente separáveis.

Desvantagens:
> Sujeito a problemas de overfitting.
> Os modelos são instáveis (possuem alta variância).
> Não garante a construção da melhor estrutura para os dados de treino em questão (Necessita treinar várias árvores distintas).
"""

# 54. Árvore de Decisão no Python

In [None]:
# Árvore de Decisão
"""
https://scikit-learn.org/stable/modules/tree.html
"""

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
arvore = DecisionTreeClassifier(criterion='entropy', random_state=0, max_depth=3)
arvore.fit(x_treino, y_treino)

In [None]:
previsoes_arvore = arvore.predict(x_teste)
previsoes_arvore

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print(f'''Acurácia: {accuracy_score(y_teste, previsoes_arvore)*100:.2f}%''')

In [None]:
confusion_matrix(y_teste, previsoes_arvore)

In [None]:
print(classification_report(y_teste, previsoes_arvore))

In [None]:
# Análise dados de treino
previsoes_treino = arvore.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

In [None]:
# Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

In [None]:
# Criando o modelo
modelo = DecisionTreeClassifier(criterion='gini', random_state=0, max_depth=3)
resultado = cross_val_score(modelo, previsores3_esc, alvo, cv=kfold)
resultado

In [None]:
# Usando a média e o desvio padrão
print(f'Acurácia Média: {resultado.mean()*100:.2f}%')

# 55. Random Forest: teoria

In [None]:
# Random Forest (Floresta Aleatória)
"""
> Criação aleatória de várias árvores de decisão;
> Utiliza o método Ensemble (construção de vários modelos para obter um resultado único);
> É mais robusto, complexo e normalmente propicia resultados melhores, mas possui maior custo computacional;
> Em problemas de classificação o resultado que mais aparece será o escolhido (moda), já em regressão será a média;

Vantagens:
> Resultados bastante precisos;
> Normalmente não necessitam de preparações sofisticadas nos dados (label Encoder e OneHotEncoder);
> Trabalha com valores faltantes, variáveis categóricas e numéricas;
> Pouca probabilidade de ocorrência de overfitting;

Desvantagens:
> Velocidade de processamento relativamente baixa;
> Difícil interpretação de como chegou no resultado;
"""

# 56. Random Forest no Python

In [None]:
# Random Forest
"""https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html"""

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
random_forest = RandomForestClassifier(n_estimators=150, criterion='entropy', random_state=0, max_depth=4)
random_forest.fit(x_treino, y_treino)

In [None]:
previsoes_random_forest = random_forest.predict(x_teste)
previsoes_random_forest

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print(f'''Acurácia: {accuracy_score(y_teste, previsoes_random_forest)*100:.2f}%''')

In [None]:
confusion_matrix(y_teste, previsoes_random_forest)

In [None]:
print(classification_report(y_teste, previsoes_random_forest))

In [None]:
# Análise dados de treino
previsoes_treino = random_forest.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

In [None]:
# Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

In [None]:
# Criando o modelo
modelo = RandomForestClassifier(n_estimators=150, criterion='entropy', random_state=0, max_depth=4)
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold)
resultado

In [None]:
# Usando a média e o desvio padrão
print(f'Acurácia Média: {resultado.mean()*100:.2f}%')

# 57. XGBoost: Teoria

In [None]:
# XGBOOST (eXtreme Gradient Boosting)
"""
> Algoritmo poderoso baseado em árvores de decisão;
> É uma evolução do algoritmo Gradient Boosting, que por sua vez é uma evolução do Random Forest;
> Apresenta aderência a grande variedade de aplicações;
> Roda em várias linguagens de programação, nos principais sistemas operacionais e em nuvem;
"""

# 58. XGBoost no Python

In [None]:
# XGBOOST
"""https//xgboost.readthedocs.io/en/stable/"""

In [None]:
from xgboost import XGBClassifier

In [None]:
xg = XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3)
xg.fit(x_treino, y_treino)

In [None]:
previsoes_xg = xg.predict(x_teste)
previsoes_xg

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print(f'''Acurácia: {accuracy_score(y_teste, previsoes_xg)*100:.2f}%''')

In [None]:
confusion_matrix(y_teste, previsoes_xg)

In [None]:
print(classification_report(y_teste, previsoes_xg))

In [None]:
# Análise dados de treino
previsoes_treino = xg.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

In [None]:
# Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

In [None]:
# Criando o modelo
modelo = XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3)
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold)
resultado

In [None]:
# Usando a média e o desvio padrão
print(f'Acurácia Média: {resultado.mean()*100:.2f}%')

# 59. Light GBM: teoria

In [None]:
# Light Gradient Boosting Machine
"""
> Baseado em árvores de decisão;
> É uma evolução do Gradient Boosting e do Random Forest;
> Alta velocidade de processamento;
> No LGBM a árvore cresce em folhas ao invés de níveis;

Observações:
> O LGBM é feito para trabalhar com grandes quantidades de dados.
> Possui mais de 100 hiperparâmetros;
"""

# 60. LGBM no Python

In [None]:
# LGMB
"""https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.train.html"""

In [None]:
import lightgbm as lgb

In [None]:
# Dataset para treino
dataset = lgb.Dataset(x_treino, label=y_treino)

In [None]:
# Parâmetros
parametros = {
    'num_leaves':250,
    'objective':'binary',
    'max_depth':2,
    'learning_rate':0.05,
    'max_bin':250
}

In [None]:
lgbm = lgb.train(parametros, dataset, num_boost_round=150)

In [None]:
"""# Marcação de tempo de execução
from datetime import datetime
inicio = datetime.now()
lgbm = lgb.train(parametros, dataset)
fim = datetime.now()
print(f'Tempo de execução: {fim - inicio}')"""

In [None]:
previsoes_lgbm = lgbm.predict(x_teste)
previsoes_lgbm

In [None]:
previsoes_lgbm.shape

In [None]:
# Quando for menor que 5 considera 0 e quando for maior ou igual a 5 considera 1
for i in range(0, 276):
    if previsoes_lgbm[i] >= 0.5:
        previsoes_lgbm[i] = 1
    else:
        previsoes_lgbm[i] = 0

In [None]:
previsoes_lgbm

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print(f'''Acurácia: {accuracy_score(y_teste, previsoes_lgbm)*100:.2f}%''')

In [None]:
confusion_matrix(y_teste, previsoes_lgbm)

In [None]:
print(classification_report(y_teste, previsoes_lgbm))

In [None]:
# Análise dados de treino
previsoes_treino = lgbm.predict(x_treino)
previsoes_treino

In [None]:
previsoes_treino.shape

In [None]:
# Quando for menor que 5 considera 0 e quando for maior ou igual a 5 considera 1
for i in range(0, 641):
    if previsoes_treino[i] >= 0.5:
        previsoes_treino[i] = 1
    else:
        previsoes_treino[i] = 0

In [None]:
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

In [None]:
# Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits =30, shuffle=True, random_state=5)

In [None]:
# Criando o modelo
modelo = lgb.LGBMClassifier(num_leaves=250, objective='binary', max_depth=2, learning_rate=0.05, max_bin=250)
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold)
resultado

In [None]:
# Usando a média e o desvio padrão
print(f'Acurácia Média: {resultado.mean()*100:.2f}%')

# 61. Catboost: Teoria

In [None]:
# Category Boosting
"""
> Baseado em árvores de decisão;
> É uma evolução do Gradient Boosting e do Random Forest;
> Alta velocidade de processamento;
> Executa automaticamente as transformações das variáveis categóricas;
> Trabalha com eficiência em grandes e baixos volumes de dados;

Vantagens
> Permite o treinamento de dados em várias GPUs;
> Fornece ótimos resultados com parâmetros padrão;
> Oferece maior precissão devido ao ajustr excessivo reduzido;
> Pode lidar com valores ausentes internamente;
> Pode ser usado para problemas de regressão e de classificação;
"""

# 62. Catboost no Python
'https://catboost.ai/en/docs/'

In [None]:
from catboost import CatBoostClassifier

In [None]:
df

In [None]:
previsores4 = df.iloc[:, 0:11]

In [None]:
previsores4.head()

In [None]:
alvo4 = df.iloc[:, 11]

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores4, alvo4, test_size=0.3, random_state=0)

In [None]:
categoricas = ['Sex', 'ChestPainType', 'RestingECG', 'ExerciseAngina', 'ST_Slope']

In [None]:
catboost = CatBoostClassifier(task_type='CPU', iterations=150, learning_rate=0.1, depth=5, random_state=5, eval_metric='Accuracy')

In [None]:
catboost.fit(x_treino, y_treino, cat_features=categoricas, plot=True, eval_set=(x_teste, y_teste))

In [None]:
previsoes_cat = catboost.predict(x_teste)
previsoes_cat

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print(f'''Acurácia: {accuracy_score(y_teste, previsoes_cat)*100:.2f}%''')

In [None]:
confusion_matrix(y_teste, previsoes_cat)

In [None]:
print(classification_report(y_teste, previsoes_cat))

In [None]:
# Análise dados de treino
previsoes_treino = catboost.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

In [None]:
# Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits =30, shuffle=True, random_state=5)

In [None]:
# Criando o modelo
modelo = CatBoostClassifier(task_type='CPU', iterations=150, learning_rate=0.1, depth=5, random_state=5, eval_metric='Accuracy')
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold)
resultado

In [None]:
# Usando a média e o desvio padrão
print(f'Acurácia Média: {resultado.mean()*100:.2f}%')

# 63. Salvando dados e simulando Deploy

In [None]:
# Salvando dados para Deploy

In [None]:
previsores

In [None]:
alvo

In [None]:
np.savetxt('Dataset/previsores.csv', previsores, delimiter=',')

In [None]:
np.savetxt('Dataset/alvo.csv', alvo, delimiter=',')

# 65. Otimização com Grid Search

In [None]:
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier

In [None]:
# Base de treino e teste
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size=0.3, random_state=0)
x_treino.shape

In [None]:
x_teste.shape

In [None]:
y_treino.shape

In [None]:
y_teste.shape

In [None]:
# Criando o algoritmo
gbm = GradientBoostingClassifier(random_state=0)

In [None]:
# Determinando o espaço do hiperparâmetro
param_grid = dict(
    n_estimators = [20, 50, 100, 250],
    learning_rate=[0.05, 0.1, 0.5],
    max_depth = [1, 2, 3, 4, 5]
)

In [None]:
print(f'Número de combinações de hiperparâmetros: {len(param_grid["n_estimators"])*len(param_grid["learning_rate"])*len(param_grid["max_depth"])}')

In [None]:
# Configurando a procura com o Grid Search
grid_search = GridSearchCV(gbm, param_grid, scoring='roc_auc', cv=4)

In [None]:
# Configurando os melhores hiperparâmetros
grid_search.fit(x_treino, y_treino)

In [None]:
# Melhores Hiperparâmetros
grid_search.best_params_

In [None]:
# Relação dos dados para todos os modelos
resultado = pd.DataFrame(grid_search.cv_results_)
print(resultado.shape)
resultado.head(3)

In [None]:
# Ordenando os melhores resultados
resultado.sort_values(by='mean_test_score', ascending=False, inplace=True)
resultado.reset_index(drop=True, inplace=True)
resultado[['param_max_depth', 'param_learning_rate', 'param_n_estimators', 'mean_test_score', 'std_test_score']].head()