# **DESAFIO 01 - APRENDIZAGEM SUPERVISIONADA: CLASSIFICAÇÃO DO DATASET CÂNCER DE MAMA DO REPOSITORIO KAGGLE**

Este projeto tem como objetivo desenvolver um modelo de Machine Learning para prever a probabilidade de um tumor mamário ser benigno ou maligno. A análise será conduzida com base em características extraídas de imagens digitalizadas de biópsias por aspiração com agulha fina (FNA) de massas mamárias. Utilizando o conjunto de dados do Breast Cancer Wisconsin (Diagnostic), empregaremos diversas técnicas de classificação para examinar variáveis clínicas e laboratoriais — incluindo raio, textura, perímetro, área, suavidade, compactação, concavidade e pontos concavos das células nucleares — com o intuito de construir um modelo preditivo robusto.

Para determinar a técnica mais eficaz, realizaremos uma comparação sistemática dos seguintes métodos, utilizando suas configurações padrão, para identificar aquele que oferece a melhor performance:

    Naive Bayes
    Máquinas de Vetores de Suporte (SVM)
    Regressão Logística
    Aprendizagem Baseada em Instâncias (KNN)
    Árvore de Decisão
    Random Forest
    XGBoost
    LightGBM
    CatBoost

Cada método será avaliado com base na sua precisão, recall, F1-score, e outras métricas relevantes, permitindo-nos selecionar o algoritmo mais adequado para nosso modelo preditivo.

Os dados foram extraídos do site do Kaggle:

https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data

# **EXPLORAÇÃO, ANÁLISE E TRATAMENTO DOS DADOS: PROJETO PREVISÃO DE CÂNCER DE MAMA**

## **Exploração dos Dados**

In [None]:
import numpy as np
import pandas as pd

In [None]:
dados = pd.read_csv('../database/data_cancer2.csv',
                    sep=',', encoding='utf-8')

In [None]:
dados.head()

In [None]:
dados.tail()

In [None]:
dados.shape

## **Análise das Variáveis (Atributos)**

## **Análise dos tipos de atributos.**

In [None]:
dados.dtypes

Após a análise inicial do DataFrame, identificamos duas colunas dispensáveis: a coluna ‘id’, que é redundante para nossa análise, e a coluna ‘Unnamed: 32’, que parece ser um artefato sem relevância gerado durante a importação dos dados. Ambas serão removidas para otimizar nosso conjunto de dados.

In [None]:
dados_relevante = pd.DataFrame.copy(dados)

In [None]:
dados_relevante.drop(dados.columns[0], axis=1, inplace=True)

In [None]:
dados_relevante.drop(dados.columns[-1], axis=1, inplace=True)

## **Valores Missing (NAN)**

In [None]:
dados_relevante.isnull().sum()

## **Análises Estatísticas Descritivas**

In [None]:
dados_relevante.describe()

In [None]:
dados_relevante.mode()

## **Salvando (Exportando) o Dataframe Tratado**

In [None]:
dados_relevante.to_csv('../database/data_cancer2_tratado.csv', sep=',', encoding='utf-8', index = False)

# **PRÉ-PROCESSAMENTO**

In [None]:
import numpy as np
import pandas as pd

In [None]:
df_original = pd.read_csv('../database/data_cancer2_tratado.csv',
                    sep=',', encoding='utf-8')

In [None]:
df_original.head()

In [None]:
df_original.shape

In [None]:
df_original.dtypes

## **Transformando as variáveis categóricas nominais em variáveis categóricas ordinais**

In [None]:
df_ordinal = pd.DataFrame.copy(df_original)

In [None]:
df_ordinal['diagnosis'].replace({'M':1, 'B': 0}, inplace=True)

In [None]:
df_ordinal.head()

In [None]:
df_ordinal.dtypes

In [None]:
df_ordinal.shape

## **LEGENDA**

Atributos:

- **id**: Um número inteiro que serve como identificador único para cada amostra.
- **diagnosis**: Uma string que representa o diagnóstico, onde 1 (‘M’) indica maligno e 0 (‘B’) indica benigno.
- **radius_mean**: Um número real que representa a média dos raios dos núcleos celulares.
- **texture_mean**: Um número real que representa a média do desvio padrão dos valores de escala de cinza.
- **perimeter_mean**: Um número real que representa a média dos perímetros dos núcleos celulares.
- **area_mean**: Um número real que representa a média das áreas dos núcleos celulares.
- **smoothness_mean**: Um número real que representa a média da variação local nos comprimentos dos raios dos núcleos celulares.
- **compactness_mean**: Um número real que representa a média da compacidade dos núcleos celulares, calculada como $$\text{perímetro}^2/\text{área} - 1.0$$.
- **concavity_mean**: Um número real que representa a média da gravidade das porções côncavas do contorno dos núcleos celulares.
- **concave points_mean**: Um número real que representa a média do número de porções côncavas do contorno dos núcleos celulares.
- **symmetry_mean**: Um número real que representa a média da simetria dos núcleos celulares.
- **fractal_dimension_mean**: Um número real que representa a média da “aproximação da linha costeira - 1” dos núcleos celulares.
- **radius_se**: Um número real que representa o erro padrão dos raios dos núcleos celulares.
- **texture_se**: Um número real que representa o erro padrão do desvio padrão dos valores de escala de cinza.
- **perimeter_se**: Um número real que representa o erro padrão dos perímetros dos núcleos celulares.
- **area_se**: Um número real que representa o erro padrão das áreas dos núcleos celulares.
- **smoothness_se**: Um número real que representa o erro padrão da variação local nos comprimentos dos raios dos núcleos celulares.
- **compactness_se**: Um número real que representa o erro padrão da compacidade dos núcleos celulares.
- **concavity_se**: Um número real que representa o erro padrão da gravidade das porções côncavas do contorno dos núcleos celulares.
- **concave points_se**: Um número real que representa o erro padrão do número de porções côncavas do contorno dos núcleos celulares.
- **symmetry_se**: Um número real que representa o erro padrão da simetria dos núcleos celulares.
- **fractal_dimension_se**: Um número real que representa o erro padrão da “aproximação da linha costeira - 1” dos núcleos celulares.
- **radius_worst**: Um número real que representa o maior valor médio dos raios dos núcleos celulares.
- **texture_worst**: Um número real que representa o maior valor médio do desvio padrão dos valores de escala de cinza.
- **perimeter_worst**: Um número real que representa o maior valor médio dos perímetros dos núcleos celulares.
- **area_worst**: Um número real que representa o maior valor médio das áreas dos núcleos celulares.
- **smoothness_worst**: Um número real que representa o maior valor médio da variação local nos comprimentos dos raios dos núcleos celulares.
- **compactness_worst**: Um número real que representa o maior valor médio da compacidade dos núcleos celulares.
- **concavity_worst**: Um número real que representa o maior valor médio da gravidade das porções côncavas do contorno dos núcleos celulares.
- **concave points_worst**: Um número real que representa o maior valor médio do número de porções côncavas do contorno dos núcleos celulares.
- **symmetry_worst**: Um número real que representa o maior valor médio da simetria dos núcleos celulares.
- **fractal_dimension_worst**: Um número real que representa o maior valor médio da “aproximação da linha costeira - 1” dos núcleos celulares.

## **ATRIBUTOS PREVISORES E ALVO**

In [None]:
df_ordinal.head()

In [None]:
previsores = df_ordinal.iloc[:, 1:32].values


In [None]:
previsores

In [None]:
previsores.shape

In [None]:
alvo = df_ordinal.iloc[:, 0].values

In [None]:
alvo

In [None]:
alvo.shape

## **Análise das escalas dos atributos (Escalonamento)**

In [None]:
df_ordinal.describe()

Padronização (utiliza a média e o desvio padrão como referência).

Normalização (utiliza os valores máximo e mínimo como referência).

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
previsores_esc = StandardScaler().fit_transform(previsores)

In [None]:
previsores_esc

In [None]:
previsores_esc_df = pd.DataFrame(previsores_esc)
previsores_esc_df

In [None]:
previsores_esc_df.describe()

## **Codificação de variáveis categóricas**

### **LabelEncoder: transformação de variáveis categóricas em numéricas**


In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
df_original.head()

In [None]:
previsores_labelencoder = df_original.iloc[:, 1:32].values
previsores_labelencoder

In [None]:
previsores_labelencoder.shape

In [None]:
alvo_labelencoder = df_original.iloc[:, 0].values
alvo_labelencoder

In [None]:
alvo_labelencoder_ordinal = LabelEncoder().fit_transform(alvo_labelencoder)
alvo_labelencoder_ordinal

In [None]:
alvo_labelencoder_ordinal.shape

## **Escalonamento**

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
previsores_labelencoder_esc = StandardScaler().fit_transform(previsores_labelencoder)

In [None]:
previsores_labelencoder_esc

In [None]:
previsores_labelencoder_esc_df = pd.DataFrame(previsores_labelencoder_esc)
previsores_labelencoder_esc_df

In [None]:
previsores_labelencoder_esc_df.describe()

## **RESUMO PRÉ-PROCESSAMENTO**

- **Variáveis do Conjunto de Dados:**

    - **Alvo (Target):** Variável dependente que indica a presença ou ausência de doença cardíaca, com 'M' para maligno e 'B' para benigno.
    - **Alvos com LabelEncoder:** Utiliza LabelEncoder para converter variáveis categóricas em numéricas sem alterar a escala.
    - **Alvos com OneHotEncoder:** Aplica LabelEncoder e OneHotEncoder para criar representações binárias das categorias sem introduzir hierarquia.
    - **Previsores:** Variáveis preditoras transformadas de categóricas para numéricas manualmente, sem normalização ou escalonamento.
    - **Previsores com LabelEncoder:** Converte variáveis categóricas em numéricas usando LabelEncoder sem alterar a escala.
    - **Previsores Escalonados:** Variáveis preditoras categóricas são convertidas para numéricas e escalonadas para um intervalo uniforme.
    - **Previsores com LabelEncoder (Scaled Predictors LabelEncoder):** Usa LabelEncoder para converter variáveis categóricas em numéricas e escalonar os dados.

- **Características dos Núcleos Celulares:**
    - **Raio:** Média das distâncias do centro aos pontos do perímetro.
    - **Textura:** Desvio padrão dos valores da escala de cinza.
    - **Perímetro, Área, Suavidade:** Medem a forma e a textura da célula.
    - **Compacidade:** Calculada como ...


## **BASE DE TREINO E TESTE**

In [None]:
from sklearn.model_selection import train_test_split

Parâmetros train_test_split:   
- arrays: nomes dos atributos previsores e alvo.   
- test_size: tamanho em porcentagem dos dados de teste. default é none.   
- train_size: tamanho em porcentagem dos dados de treinamento.default é none.  
- random_state: nomeação de um estado aleatório.   
- shuffle: embaralhamento dos dados aleatórios. Associado com o random_state ocorre o mesmo embaralhamento sempre. Default é True.  
- stratify: Possibilidade de dividir os dados de forma estratificada. Default é None (nesse caso é mantido a proporção, isto é, se tem 30% de zeros e 70% de 1 no dataframe, na separação em treinamento e teste se manterá essa proporção).

In [None]:
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size = 0.3, random_state = 0)

In [None]:
x_treino.shape

In [None]:
x_teste.shape

In [None]:
y_treino.shape

In [None]:
y_teste.shape

- **Alvos:**
- **1-:** alvo
- **2-:** alvo_labelencoder_ordinal
- 
- **Testes:**
- **1-** previsores
- **2-** previsores_esc
- **3-** previsores_labelencoder
- **4-** previsores_labelencoder_esc

# **NAIVE BAYES**

https://scikit-learn.org/stable/modules/naive_bayes.html

Treinamento do algoritmo

In [None]:
from sklearn.naive_bayes import GaussianNB

In [None]:
naive = GaussianNB()
naive.fit(x_treino, y_treino)

Avaliação do algoritmo

In [None]:
previsoes_naive = naive.predict(x_teste)
previsoes_naive

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
accuracy_score(y_teste, previsoes_naive)

In [None]:
print("Acurácia: %.2f%%" % (accuracy_score(y_teste, previsoes_naive) * 100.0))

In [None]:
confusion_matrix(y_teste, previsoes_naive)

In [None]:
print(classification_report(y_teste, previsoes_naive))

**Análise dados de treino**

In [None]:
previsoes_treino = naive.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
modelo = GaussianNB()
resultado = cross_val_score(modelo, previsores, alvo, cv = kfold)
resultado

In [None]:
# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores, alvo
Naive Bayes = 91.23% (treino e teste) - e 93.47% (validação cruzada) - previsores_esc, alvo
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores_labelencoder, alvo
Naive Bayes = 91.23% (treino e teste) - e 93.47% (validação cruzada) - previsores_labelencoder_esc, alvo

Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores, alvo_labelencoder_ordinal
Naive Bayes = 91.23% (treino e teste) - e 93.47% (validação cruzada) - previsores_esc, alvo_labelencoder_ordinal
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores_labelencoder, alvo_labelencoder_ordinal
Naive Bayes = 91.23% (treino e teste) - e 93.47% (validação cruzada) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores Naive Bayes: 
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores, alvo
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores_labelencoder, alvo
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores, alvo_labelencoder_ordinal
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores_labelencoder, alvo_labelencoder_ordinal**

# **MÁQUINAS DE VETORES DE SUPORTE (SVM)**

https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

In [None]:
from sklearn.svm import SVC

In [None]:
svm = SVC(kernel='rbf', random_state=1, C = 2)
svm.fit(x_treino, y_treino)

In [None]:
previsoes_svm = svm.predict(x_teste)
previsoes_svm

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print("Acurácia: %.2f%%" % (accuracy_score(y_teste, previsoes_svm) * 100.0))

In [None]:
confusion_matrix(y_teste, previsoes_svm)

In [None]:
print(classification_report(y_teste, previsoes_svm))

**Análise dados de treino**

In [None]:
previsoes_treino = svm.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
modelo = SVC(kernel='rbf', random_state=1, C = 2)
resultado = cross_val_score(modelo, previsores_labelencoder_esc, alvo_labelencoder_ordinal, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

SVM = 94.74% (treino e teste) - e 91.72% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores, alvo
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_esc, alvo
SVM = 94.74% (treino e teste) - e 91.72% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_labelencoder, alvo
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_labelencoder_esc, alvo

SVM = 94.74% (treino e teste) - e 91.72% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores, alvo_labelencoder_ordinal
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_esc, alvo_labelencoder_ordinal
SVM = 94.74% (treino e teste) - e 91.72% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_labelencoder, alvo_labelencoder_ordinal
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores SVM:
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_esc, alvo
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_labelencoder_esc, alvo
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_esc, alvo_labelencoder_ordinal
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_labelencoder_esc, alvo_labelencoder_ordinal**

# **REGRESSÃO LOGÍSTICA**

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
logistica = LogisticRegression(random_state=1, max_iter=2000, penalty="l2",
                               tol=0.0001, C=1,solver="lbfgs")
logistica.fit(x_treino, y_treino)

In [None]:
logistica.intercept_

In [None]:
logistica.coef_

In [None]:
previsoes_logistica = logistica.predict(x_teste)
previsoes_logistica

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print("Acurácia: %.2f%%" % (accuracy_score(y_teste, previsoes_logistica) * 100.0))

In [None]:
confusion_matrix(y_teste, previsoes_logistica)

In [None]:
print(classification_report(y_teste, previsoes_logistica))

**Análise dados de treino**

In [None]:
previsoes_treino = logistica.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
modelo = LogisticRegression(random_state=1, max_iter=2000, penalty="l2",
                               tol=0.0001, C=1,solver="lbfgs")
resultado = cross_val_score(modelo, previsores_labelencoder_esc, alvo_labelencoder_ordinal, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

Regressão logística = 95.91% (treino e teste) - e 98.06% (validação cruzada com previsores_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores, alvo
Regressão logística = 97.66% (treino e teste) - e 98.06%% (validação cruzada com previsores_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_esc, alvo
SRegressão logística = 95.91% (treino e teste) - e 98.06% (validação cruzada com previsores_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_labelencoder, alvo
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada com previsores_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_labelencoder_esc, alvo

Regressão logística = 95.91% (treino e teste) - e 98.06% (validação cruzada com previsores_labelencoder_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores, alvo_labelencoder_ordinal
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada com previsores_labelencoder_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_esc, alvo_labelencoder_ordinal
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada cruzada com previsores_labelencoder_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_labelencoder, alvo_labelencoder_ordinal
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada cruzada com previsores_labelencoder_esc) - LogisticRegression(random_state=1, max_iter=600, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores Regressão Logística:
Regressão logística = 97.66% (treino e teste) - e 98.06%% (validação cruzada com previsores_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_esc, alvo
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada com previsores_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_labelencoder_esc, alvo
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada com previsores_labelencoder_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_esc, alvo_labelencoder_ordinal
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada cruzada com previsores_labelencoder_esc) - LogisticRegression(random_state=1, max_iter=600, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_labelencoder_esc, alvo_labelencoder_ordinal**

# **APRENDIZAGEM BASEADA EM INSTÂNCIAS (KNN)**

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn = KNeighborsClassifier(n_neighbors=7, metric='minkowski', p=1)
knn.fit(x_treino, y_treino)

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.DistanceMetric.html

In [None]:
previsoes_knn = knn.predict(x_teste)
previsoes_knn

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print("Acurácia: %.2f%%" % (accuracy_score(y_teste, previsoes_knn) * 100.0))

In [None]:
confusion_matrix(y_teste, previsoes_knn)

In [None]:
print(classification_report(y_teste, previsoes_knn))

**Análise dados de treino**

In [None]:
previsoes_treino = knn.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
modelo = KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1)
resultado = cross_val_score(modelo, previsores_labelencoder, alvo_labelencoder_ordinal, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores, alvo
KNN = 95.91% (treino e teste) - e 96.65% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores_esc, alvo
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores_labelencoder, alvo
KNN = 95.91% (treino e teste) - e 96.65% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) -previsores_labelencoder_esc, alvo

KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores, alvo_labelencoder_ordinal
KNN = 95.91% (treino e teste) - e 96.65% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores_esc, alvo_labelencoder_ordinal
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores_labelencoder, alvo_labelencoder_ordinal
KNN = 95.91% (treino e teste) - e 96.65% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores KNN:
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores, alvo
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores_labelencoder, alvo
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores, alvo_labelencoder_ordinal
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores_labelencoder, alvo_labelencoder_ordinal**

# **ÁRVORE DE DECISÃO**

https://scikit-learn.org/stable/modules/tree.html

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
arvore = DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3)
arvore.fit(x_treino, y_treino)

In [None]:
previsoes_arvore = arvore.predict(x_teste)
previsoes_arvore

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print("Acurácia: %.2f%%" % (accuracy_score(y_teste, previsoes_arvore) * 100.0))

In [None]:
confusion_matrix(y_teste, previsoes_arvore)

In [None]:
print(classification_report(y_teste, previsoes_arvore))

**Análise dados de treino**

In [None]:
previsoes_treino = arvore.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
modelo = DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=7)
resultado = cross_val_score(modelo, previsores_esc, alvo, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_esc, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_labelencoder, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) -previsores_labelencoder_esc, alvo

Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores, alvo_labelencoder_ordinal
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_esc, alvo_labelencoder_ordinal
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_labelencoder, alvo_labelencoder_ordinal
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores Árvore de decisão:
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_esc, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_labelencoder, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) -previsores_labelencoder_esc, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores, alvo_labelencoder_ordinal
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_esc, alvo_labelencoder_ordinal
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_labelencoder, alvo_labelencoder_ordinal
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_labelencoder_esc, alvo_labelencoder_ordinal**

# **RANDOM FOREST**

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
random = RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4)
random.fit(x_treino, y_treino)

In [None]:
previsoes_random = random.predict(x_teste)
previsoes_random

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print("Acurácia: %.2f%%" % (accuracy_score(y_teste, previsoes_random) * 100.0))

In [None]:
confusion_matrix(y_teste, previsoes_random)

In [None]:
print(classification_report(y_teste, previsoes_random))

**Análise dados de treino**

In [None]:
previsoes_treino = random.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
modelo = RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4)
resultado = cross_val_score(modelo, previsores_labelencoder_esc, alvo, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

Random Forest = 96.49% (treino e teste)- e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) - previsores, alvo
Random Forest = 96.49% (treino e teste) - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) - previsores_esc, alvo
Random Forest = 96.49% (treino e teste) - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) - previsores_labelencoder, alvo
Random Forest = 96.49% (treino e teste) - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) -previsores_labelencoder_esc, alvo

Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores, alvo_labelencoder_ordinal
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores_esc, alvo_labelencoder_ordinal
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores_labelencoder, alvo_labelencoder_ordinal
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores Random Forest:
Random Forest = 96.49% (treino e teste)- e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) - previsores, alvo
Random Forest = 96.49% (treino e teste) - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) - previsores_esc, alvo
Random Forest = 96.49% (treino e teste) - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) - previsores_labelencoder, alvo
Random Forest = 96.49% (treino e teste) - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) -previsores_labelencoder_esc, alvo
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores, alvo_labelencoder_ordinal
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores_esc, alvo_labelencoder_ordinal
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores_labelencoder, alvo_labelencoder_ordinal
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores_labelencoder_esc, alvo_labelencoder_ordinal**

# **XGBOOST**

https://xgboost.readthedocs.io/en/stable/

In [None]:
from xgboost import XGBClassifier

In [None]:
xg = XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3)
xg.fit(x_treino,y_treino)

In [None]:
previsoes_xg = xg.predict(x_teste)
previsoes_xg

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print("Acurácia: %.2f%%" % (accuracy_score(y_teste, previsoes_xg) * 100.0))

In [None]:
confusion_matrix(y_teste, previsoes_xg)

In [None]:
print(classification_report(y_teste, previsoes_xg))

**Análise dados de treino**

In [None]:
previsoes_treino = xg.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
modelo = XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3)
resultado = cross_val_score(modelo, previsores_esc, alvo, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_esc, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder_esc, alvo

XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores, alvo_labelencoder_ordinal
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_esc, alvo_labelencoder_ordinal
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder, alvo_labelencoder_ordinal
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores XGboost:
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_esc, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder_esc, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores, alvo_labelencoder_ordinal
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_esc, alvo_labelencoder_ordinal
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder, alvo_labelencoder_ordinal
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder_esc, alvo_labelencoder_ordinal
Porem todos acertaram 100% no conjunto de teste, podendo ter a ocrrencia de overfitting**

https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.train.html

In [None]:
# Instalação do Algoritmo
!pip install lightgbm

In [None]:
import lightgbm as lgb

In [None]:
# Dataset para treino
dataset = lgb.Dataset(x_treino,label=y_treino)

# **LIGHTGBM**

In [None]:
https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.train.html

In [None]:
# Instalação do Algoritmo
!pip install lightgbm

In [None]:
import lightgbm as lgb

In [None]:
# Dataset para treino
dataset = lgb.Dataset(x_treino,label=y_treino)

**Hiperparâmetros**

**Controle de ajuste**

num_leaves : define o número de folhas a serem formadas em uma árvore. Não tem uma relação direta entre num_leaves e max_depth e, portanto, os dois não devem estar vinculados um ao outro.

max_depth : especifica a profundidade máxima ou nível até o qual a árvore pode crescer.

**Controle de velocidade**

learning_rate: taxa de aprendizagem, determina o impacto de cada árvore no resultado final.

max_bin : O valor menor de max_bin reduz muito tempo de procesamento, pois agrupa os valores do recurso em caixas discretas, o que é computacionalmente mais barato.

**Controle de precisão**

num_leaves : valor alto produz árvores mais profundas com maior precisão, mas leva ao overfitting.

max_bin : valores altos tem efeito semelhante ao causado pelo aumento do valor de num_leaves e também torna mais lento o procedimento de treinamento.

In [None]:
# Parâmetros
parametros = {'num_leaves':250, # número de folhas
              'objective':'binary', # classificação Binária
              'max_depth':2,
              'learning_rate':.05,
              'max_bin':100}

In [None]:
lgbm=lgb.train(parametros,dataset,num_boost_round=200)

In [None]:
# Marcação do tempo de execução
from datetime import datetime
inicio=datetime.now()
lgbm=lgb.train(parametros,dataset)
fim=datetime.now()

tempo = fim - inicio
tempo

In [None]:
previsoes_lgbm = lgbm.predict(x_teste)
previsoes_lgbm

In [None]:
previsoes_lgbm.shape

In [None]:
# Quando for menor que 5 considera 0 e quando for maior ou igual a 5 considera 1
for i in range(0, 171):
    if previsoes_lgbm[i] >= .5:
       previsoes_lgbm[i] = 1
    else:
       previsoes_lgbm[i] = 0

In [None]:
previsoes_lgbm

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print("Acurácia: %.2f%%" % (accuracy_score(y_teste, previsoes_lgbm) * 100.0))

In [None]:
confusion_matrix(y_teste, previsoes_lgbm)

**Análise dados de treino**

In [None]:
previsoes_treino = lgbm.predict(x_treino)
previsoes_treino

In [None]:
previsoes_treino.shape

In [None]:
# Quando for menor que 5 considera 0 e quando for maior ou igual a 5 considera 1
for i in range(0, 398):
    if previsoes_treino[i] >= .5:
       previsoes_treino[i] = 1
    else:
       previsoes_treino[i] = 0

In [None]:
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
modelo = lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',
                            max_depth = 2, learning_rate = .05, max_bin =100)
resultado = cross_val_score(modelo, previsores_labelencoder, alvo, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

LightGBM = 95.32% (treino e teste)- e 96.11% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores, alvo
LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_esc, alvo
LightGBM = 95.32% (treino e teste)- e 96.11% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_labelencoder, alvo
LightGBM = 97.08% (treino e teste)- e 85,93% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_labelencoder_esc, alvo

LightGBM = 95.32% (treino e teste)- e 96.11% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores, alvo_labelencoder_ordinal
LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_esc, alvo_labelencoder_ordinal
LightGBM = 95.32% (treino e teste)- e 96.11% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_labelencoder, alvo_labelencoder_ordinal
LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores LightGBM:
LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_esc, alvo
LightGBM = 97.08% (treino e teste)- e 85,93% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_labelencoder_esc, alvo
LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_esc, alvo_labelencoder_ordinal
LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_labelencoder_esc, alvo_labelencoder_ordinal**

# **CATBOOST**

https://catboost.ai/en/docs/

In [None]:
#Instalação
!pip install catboost

In [None]:
from catboost import CatBoostClassifier

In [None]:
df_original

In [None]:
previsores_catboost = df_original.iloc[:, 1:32]

In [None]:
previsores_catboost.head()

In [None]:
alvo_catboost = df_original.iloc[:, 0]
alvo_catboost

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores_catboost, alvo_catboost, test_size = 0.3, random_state = 0)

In [None]:
catboost = CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth = 8, random_state = 5,
                              eval_metric="Accuracy")

In [None]:
catboost.fit( x_treino, y_treino, plot=True, eval_set=(x_teste, y_teste))

In [None]:
previsoes_cat = catboost.predict(x_teste)
previsoes_cat

In [None]:
y_teste

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
print("Acurácia: %.2f%%" % (accuracy_score(y_teste, previsoes_cat) * 100.0))

In [None]:
confusion_matrix(y_teste, previsoes_cat)

**Análise dados de treino**

In [None]:
previsoes_treino = catboost.predict(x_treino)
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino)

In [None]:
confusion_matrix(y_treino, previsoes_treino)

### **Validação Cruzada**

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [None]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 5)

In [None]:
# Criando o modelo
modelo = CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth = 8, random_state = 5,
                              eval_metric="Accuracy")
resultado = cross_val_score(modelo, previsores, alvo, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

CatBoost = 97.08% (treino e teste) - e 97.16% (validação cruzada) - CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth = 8, random_state = 5, eval_metric="Accuracy") - previsores_catboost, alvo_catboost

**Melhores CatBoost:
CatBoost = 97.08% (treino e teste) - e 97.16% (validação cruzada) - CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth = 8, random_state = 5, eval_metric="Accuracy") - previsores_catboost, alvo_catboost**

# **Salvando dados para Deploy**

In [None]:
previsores

In [None]:
alvo

In [None]:
np.savetxt('../output/previsores.csv', previsores, delimiter=',')

In [None]:
np.savetxt('../output/alvo.csv', alvo, delimiter=',')

# **CONCLUSÃO DO DESAFIO 1**

DESENVOLVER E SELECIONAR O MELHOR ALGORITMO DE MACHINE LEARNING DE CLASSIFICAÇÃO PARA O DATASET DO LINK A SEGUIR:

https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

**Melhor Metodo:**
**-1º-** Regressão logística = 97.66% (treino e teste) - e 98.06%% (validação cruzada com previsores escalonados) com previsores escalonados
**-2ª-** SVM com 97.66% (treino e teste) - e 97.88% (validação cruzada) com previsores escalonados
**-3º-** LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - com previsores escalonados
**-4ª-** CatBoost = 97.08% (treino e teste) - e 97.16% (validação cruzada) - CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth = 8, random_state = 5, eval_metric="Accuracy") - com previsores gerados pelo catboos

**Melhores Naive Bayes:**
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores, alvo
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores_labelencoder, alvo
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores, alvo_labelencoder_ordinal
Naive Bayes = 92.40% (treino e teste) - e 93.82% (validação cruzada) - previsores_labelencoder, alvo_labelencoder_ordinal

**Melhores SVM:**
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_esc, alvo
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_labelencoder_esc, alvo
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_esc, alvo_labelencoder_ordinal
SVM = 97.66% (treino e teste) - e 97.88% (validação cruzada)- SVC(kernel='rbf', random_state=1, C = 2) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores Regressão Logística:**
Regressão logística = 97.66% (treino e teste) - e 98.06%% (validação cruzada com previsores_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_esc, alvo
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada com previsores_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_labelencoder_esc, alvo
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada com previsores_labelencoder_esc) - LogisticRegression(random_state=1, max_iter=2000, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_esc, alvo_labelencoder_ordinal
Regressão logística = 97.66% (treino e teste) - e 98.06% (validação cruzada cruzada com previsores_labelencoder_esc) - LogisticRegression(random_state=1, max_iter=600, penalty="l2", tol=0.0001, C=1,solver="lbfgs") - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores KNN:**
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores, alvo
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores_labelencoder, alvo
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores, alvo_labelencoder_ordinal
KNN = 96.49% (treino e teste) - e 93.13% (validação cruzada)- KNeighborsClassifier(n_neighbors=7, metric='minkowski', p = 1) - previsores_labelencoder, alvo_labelencoder_ordinal**

**Melhores Árvore de decisão:**
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_esc, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_labelencoder, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) -previsores_labelencoder_esc, alvo
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores, alvo_labelencoder_ordinal
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_esc, alvo_labelencoder_ordinal
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_labelencoder, alvo_labelencoder_ordinal
Árvore de decisão = 95.32% (treino e teste) - e 92.44% (validação cruzada) - DecisionTreeClassifier(criterion='entropy', random_state = 0, max_depth=3) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores Random Forest:**
Random Forest = 96.49% (treino e teste)- e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) - previsores, alvo
Random Forest = 96.49% (treino e teste) - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) - previsores_esc, alvo
Random Forest = 96.49% (treino e teste) - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) - previsores_labelencoder, alvo
Random Forest = 96.49% (treino e teste) - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) -previsores_labelencoder_esc, alvo
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores, alvo_labelencoder_ordinal
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores_esc, alvo_labelencoder_ordinal
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores_labelencoder, alvo_labelencoder_ordinal
Random Forest = 96.49% - e 95.76% (validação cruzada) - RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4) (treino e teste) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores XGboost: Porem todos acertaram 100% no conjunto de teste, podendo ter a ocrrencia de overfitting**
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_esc, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder_esc, alvo
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores, alvo_labelencoder_ordinal
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_esc, alvo_labelencoder_ordinal
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder, alvo_labelencoder_ordinal
XGboost = 96.49% - e 96.29% (validação cruzada) - XGBClassifier(max_depth=2, learning_rate=0.05, n_estimators=250, objective='binary:logistic', random_state=3) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores LightGBM:**
LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_esc, alvo
LightGBM = 97.08% (treino e teste)- e 85,93% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_labelencoder_esc, alvo
LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_esc, alvo_labelencoder_ordinal
LightGBM = 97.08% (treino e teste)- e 96.12% (validação cruzada) - lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',  max_depth = 2, learning_rate = .05, max_bin =100) - previsores_labelencoder_esc, alvo_labelencoder_ordinal

**Melhores CatBoost:**
CatBoost = 97.08% (treino e teste) - e 97.16% (validação cruzada) - CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth = 8, random_state = 5, eval_metric="Accuracy") - previsores_catboost, alvo_catboost