* https://www.kaggle.com/datasets/uciml/iris

# Exploração dos dados

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px

plt.rcParams['figure.figsize'] = (10,7) # definindo 'default' para o tamanho dos graficos

In [None]:
df = pd.read_csv('Iris.csv') # lendo o arquivo

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.shape # tamanho do dataset (linhas, colunas)

In [None]:
df.dtypes # tipos de dados

In [None]:
df.isnull().sum() # soma de nulos

In [None]:
df.describe() # analise estatistica

In [None]:
df['Species'].value_counts() # contagem de especies

# Visualização da distribuição de medidas e outliers em cada espécie

In [None]:
plt.style.available # estilos de gráficos disponíveis

In [None]:
df.head(0) # visualizando colunas

### *Iris-virginica*

In [None]:
iris_v = df.loc[df['Species'] == 'Iris-virginica'] # localizando especie iris-virginica

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_v['SepalLengthCm'].plot(kind='hist', bins=19, color='b', alpha=0.75)
plt.title('Sepal Lenght (Iris-virginica)', fontsize=16, fontfamily='serif') # titulo, cor, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif') # titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_v['SepalWidthCm'].plot(kind='hist', bins=17, color='b', alpha=0.75)
plt.title('Sepal Width (Iris-virginica)', fontsize=16, fontfamily='serif') # titulo, cor, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif') # titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_v['PetalLengthCm'].plot(kind='hist', bins=17, color='b', alpha=0.75)
plt.title('Petal Length (Iris-virginica)', fontsize=16, fontfamily='serif') # titulo, cor, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif') # titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_v['PetalWidthCm'].plot(kind='hist', bins=15, color='b', alpha=0.75) 
plt.title('Petal Width (Iris-virginica)', fontsize=16, fontfamily='serif')# titulo, cor, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif') # titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
import plotly.graph_objects as go

fig2 = go.Figure()

x = iris_v['Species'] # eixo x

# O método add_trace() nos permite adicionar varios traces em um unico grafico

fig2.add_trace(go.Box(y= iris_v['SepalLengthCm'], # eixo y
                      x=x, # eixo x
                      name='Sepal Length', # nome da legenda
                      marker_color='green')) # cor

fig2.add_trace(go.Box(y= iris_v['SepalWidthCm'], # eixo y
                      x=x,
                      name='Sepal Width', # nome da legenda
                      marker_color='yellow')) # cor

fig2.add_trace(go.Box(y= iris_v['PetalLengthCm'], # eixo y
                      x=x,
                      name='Petal Length', # nome da legenda
                      marker_color='blue')) # cor

fig2.add_trace(go.Box(y= iris_v['PetalWidthCm'], # eixo y
                      x=x, 
                      name='Petal Width', # nome da legenda
                      marker_color='red')) # cor

fig2.update_layout(boxmode='group', width=960, height=600, template='ggplot2')
# agrupar caixas dos diferentes traces para cada valor de x (boxmode='group')
fig2.show()

### *Iris-setosa*

In [None]:
iris_s = df.loc[df['Species'] == 'Iris-setosa'] # localizando especie iris-setosa

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_s['SepalLengthCm'].plot(kind='hist', bins=16, color='b', alpha=0.75)
plt.title('Sepal Lenght (Iris-setosa)', fontsize=16, fontfamily='serif') # titulo, tamanho da fonte, cor, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif') # titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_s['SepalWidthCm'].plot(kind='hist', bins=16, color='b', alpha=0.75)
plt.title('Sepal Width (Iris-setosa)', fontsize=16, fontfamily='serif') # titulo, tamanho da fonte, cor, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif') # titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_s['PetalLengthCm'].plot(kind='hist', bins=10, color='b', alpha=0.75)
plt.title('Petal Length (Iris-setosa)', fontsize=16, fontfamily='serif')
plt.xlabel('cm', fontsize=15, fontfamily='serif')
plt.ylabel('Frequency', fontsize=15, fontfamily='serif')
plt.tight_layout()
plt.show()

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_s['PetalWidthCm'].plot(kind='hist', bins=5, color='b', alpha=0.75)
plt.title('Petal Width (Iris-setosa)', fontsize=16, fontfamily='serif')
plt.xlabel('cm', fontsize=15, fontfamily='serif')
plt.ylabel('Frequency', fontsize=15, fontfamily='serif')
plt.tight_layout()
plt.show()

In [None]:
import plotly.graph_objects as go

fig2 = go.Figure()

x = iris_s['Species'] # eixo x

# O método add_trace() nos permite adicionar varios traços em um unico grafico

fig2.add_trace(go.Box(y= iris_s['SepalLengthCm'], # eixo y
                      x=x,
                      name='Sepal Length', # nome da legenda
                      marker_color='green')) # cor

fig2.add_trace(go.Box(y= iris_s['SepalWidthCm'], # eixo y
                      x=x,
                      name='Sepal Width', # nome da legenda
                      marker_color='yellow')) # cor

fig2.add_trace(go.Box(y= iris_s['PetalLengthCm'], # eixo y
                      x=x,
                      name='Petal Length', # nome da legenda
                      marker_color='blue')) # cor

fig2.add_trace(go.Box(y= iris_s['PetalWidthCm'], # eixo y
                      x=x,
                      name='Petal Width', # nome da legenda
                      marker_color='red')) # cor

fig2.update_layout(boxmode='group', width=1100, height=600, template='ggplot2')
# agrupar caixas dos diferentes traces para cada valor de x (boxmode='group')
fig2.show()

### *Iris-versicolor*

In [None]:
iris_ver = df.loc[df['Species'] == 'Iris-versicolor'] # localizando especie iris-versicolor

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_ver['SepalLengthCm'].plot(kind='hist', bins=19, color='b', alpha=0.75)
plt.title('Sepal Lenght (Iris-versicolor)', fontsize=16, fontfamily='serif') # titulo, fonte, tamanho da fonte, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif') # titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_ver['SepalWidthCm'].plot(kind='hist', bins=15, color='b', alpha=0.75)
plt.title('Sepal Width (Iris-versicolor)', fontsize=16, fontfamily='serif') # titulo, fonte, tamanho da fonte, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif') # titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_ver['PetalLengthCm'].plot(kind='hist', bins=19, color='b', alpha=0.75)
plt.title('Petal Length (Iris-versicolor)', fontsize=16, fontfamily='serif') # titulo, fonte, tamanho da fonte, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif') # titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
plt.style.use('ggplot') # estilo do grafico
iris_ver['PetalWidthCm'].plot(kind='hist', bins=10, color='b', alpha=0.75)
plt.title('Petal Width (Iris-versicolor)', fontsize=16, fontfamily='serif') # titulo, fonte, tamanho da fonte, etc
plt.xlabel('cm', fontsize=15, fontfamily='serif') # titulo do eixo x
plt.ylabel('Frequency', fontsize=15, fontfamily='serif')# titulo do eixo y
plt.tight_layout() # refinando
plt.show()

In [None]:
import plotly.graph_objects as go

fig2 = go.Figure()

x = iris_ver['Species'] # eixo x

# O método add_trace() nos permite adicionar varios traços em um unico grafico

fig2.add_trace(go.Box(y= iris_ver['SepalLengthCm'], # eixo y
                      x=x,
                      name='Sepal Length', # nome da legenda
                      marker_color='green')) # cor

fig2.add_trace(go.Box(y= iris_ver['SepalWidthCm'], # eixo y
                      x=x,
                      name='Sepal Width', # nome da legenda
                      marker_color='yellow')) # cor

fig2.add_trace(go.Box(y= iris_ver['PetalLengthCm'], # eixo y
                      x=x,
                      name='Petal Length', # nome da legenda
                      marker_color='blue')) # cor

fig2.add_trace(go.Box(y= iris_ver['PetalWidthCm'], # eixo y
                      x=x,
                      name='Petal Width', # nome da legenda
                      marker_color='red')) # cor

fig2.update_layout(boxmode='group', width=960, height=600, template='ggplot2')
# agrupar caixas dos diferentes traces para cada valor de x (boxmode='group')
fig2.show()

# Pré-processamento

In [None]:
df2 = pd.DataFrame.copy(df) # criando uma copia do dataframe

In [None]:
df2.head(3) # visualizando

In [None]:
df2 = df2.drop(columns=['Id']) # excluindo coluna 'Id'
df2.head(3) # verificando se a coluna foi realmente excluida

In [None]:
from sklearn.preprocessing import StandardScaler, LabelEncoder

Definindo previsores e alvo e transformando variáveis categóricas nominais em variáveis categóricas ordinais

In [None]:
previsores = df2.iloc[:, 0:4].values # selecionando previsores e colocando em forma de matriz

In [None]:
previsores.shape # tamanho (linhas, colunas)

In [None]:
alvo = df2.iloc[:, 4].values # selecionando variavel alvo
alvo = LabelEncoder().fit_transform(alvo) # transformando em categoricas ordinais

In [None]:
alvo.shape # tamanho (linhas, colunas

Escalonando valores (valores variam em torno de zero)

In [None]:
previsores_esc = StandardScaler().fit_transform(previsores) # escalonamento

# Base de Treino e Teste

### *Resumo do Pré-processamento*

* alvo = variável que se deseja atingir
* previsores = variável sem escalonar
* previsores_esc = variável escalonada

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
#train_test_split?

**As alterações dos previsores (previsores e previsores_esc) para procurar a variável com melhor acurácia será feita aqui (manualmente) para poupar tempo e espaço.**

In [None]:
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size=0.4, random_state=10) # separação de treino e teste
# (previsores/previsores_esc)

# Naive Bayes

### Treinamento

In [None]:
from sklearn.naive_bayes import GaussianNB

In [None]:
naive = GaussianNB() # nomeando metodo
naive.fit(x_treino, y_treino) # treinamento

### Previsões com dados de teste

In [None]:
previsoes_naive = naive.predict(x_teste) # previsões com dados de teste
previsoes_naive

In [None]:
y_teste

In [None]:
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

In [None]:
accuracy_score(y_teste, previsoes_naive) # acuracia

In [None]:
confusion_matrix(y_teste, previsoes_naive) # matriz de confusão

In [None]:
print(classification_report(y_teste, previsoes_naive)) # dados do treino

### Previsões com dados de treino

In [None]:
previsoes_treino = naive.predict(x_treino) # previsoes com dados de treino

In [None]:
accuracy_score(y_treino, previsoes_treino) # acuracia da previsao com dados de treino

In [None]:
confusion_matrix(y_treino, previsoes_treino) # matriz de confusao

In [None]:
print(classification_report(y_treino, previsoes_treino)) # relatório de classificação

* previsores = acurácia de 93%
* previsores_esc = acurácia de 93%

### Validação cruzada

Validação cruzada é uma técnica para avaliar modelos de ML por meio de treinamento de vários modelos de ML em subconjuntos de dados de entrada disponíveis e avaliação deles no subconjunto complementar dos dados. Use a validação cruzada para detectar sobreajuste, ou seja, a não generalização de um padrão.

In [None]:
from sklearn.model_selection import KFold, cross_val_score

In [None]:
kfold = KFold(n_splits=5, random_state=0, shuffle=True) # separaçao em folds

In [None]:
modelo = GaussianNB() # modelo

In [None]:
resultado = cross_val_score(modelo, previsores_esc, alvo, cv=kfold) # acuracia em cada fold

In [None]:
print('Acurácia média: {:.2f}%' .format(resultado.mean() * 100)) # media de todas as acuracias

Naive Bayes = 93.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

O valor de acurácia entre os modelos de treino e teste deve estar relativamente próximo ao da validação cruzada, caso contrário, a separação dos mesmos não foi feita adequadamente.

# SVM

### Treinamento

In [None]:
from sklearn.svm import SVC

In [None]:
svm = SVC(C=2, kernel='rbf', random_state=5) # nomeando metodo de treinamento
svm.fit(x_treino, y_treino) # treinamento

### Previsões com dados de teste

In [None]:
previsoes_svm = svm.predict(x_teste) # prevendo dados de teste
previsoes_svm

In [None]:
accuracy_score(y_teste, previsoes_svm) # acuracia

In [None]:
confusion_matrix(y_teste, previsoes_svm) # matriz de confusao

In [None]:
print(classification_report(y_teste, previsoes_svm)) # relatorio

### Previsões com dados de treino

In [None]:
previsoes_treino = svm.predict(x_treino) # prevendo dados de treino

In [None]:
accuracy_score(y_treino, previsoes_treino) # acuracia

In [None]:
confusion_matrix(y_treino, previsoes_treino) # matriz de confusao

In [None]:
print(classification_report(y_treino, previsoes_treino)) # relatorio

Melhor combinação encontrada:
* previsores = 96% (C=2, kernel='rbf', random_state=5)
* previsores_esc = 95% (C=2, kernel='poly', random_state=5)

### Validação cruzada

Validação cruzada é uma técnica para avaliar modelos de ML por meio de treinamento de vários modelos de ML em subconjuntos de dados de entrada disponíveis e avaliação deles no subconjunto complementar dos dados. Use a validação cruzada para detectar sobreajuste, ou seja, a não generalização de um padrão.

In [None]:
from sklearn.model_selection import KFold, cross_val_score

In [None]:
kfold = KFold(n_splits=5, random_state=0, shuffle=True) # separando em folds

In [None]:
modelo = SVC(C=2, kernel='rbf', random_state=5) # modelo

In [None]:
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold) # acuracia em cada fold

In [None]:
print('Acurácia média: {:.2f}%' .format(resultado.mean() * 100)) # media de todas as acuracias

Naive Bayes = 93.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

SVM = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores

O valor de acurácia entre os modelos de treino e teste deve estar relativamente próximo ao da validação cruzada, caso contrário, a separação dos mesmos não foi feita adequadamente.

# Regressão Logística

### Treinamento

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
logistica = LogisticRegression(penalty='l2', tol=0.0001, C=2, random_state=5, solver='lbfgs', max_iter = 200) # nomeando algoritmo
logistica.fit(x_treino, y_treino) # treinamento

### Previsões com dados de teste

In [None]:
previsoes_logis = logistica.predict(x_teste) # prevendo dados de teste
previsoes_logis

In [None]:
accuracy_score(y_teste, previsoes_logis) # acuracia

In [None]:
confusion_matrix(y_teste, previsoes_logis) # matriz de confusao

In [None]:
print(classification_report(y_teste, previsoes_logis)) # relatorio

### Previsões com dados de treino

In [None]:
previsoes_treino = logistica.predict(x_treino) # prevendo dados de treino

In [None]:
accuracy_score(y_treino, previsoes_treino) # acuracia

In [None]:
confusion_matrix(y_treino, previsoes_treino) # matriz de confusao

Melhor combinação encontrada:
* previsores = 98.33% (penalty='l2', tol=0.0001, C=2, random_state=5, solver='lbfgs', max_iter = 200)
* previsores_esc = 98.33% (penalty='l1', tol=0.0001, C=2, random_state=5, solver='saga', max_iter = 100)

### Validação cruzada

Validação cruzada é uma técnica para avaliar modelos de ML por meio de treinamento de vários modelos de ML em subconjuntos de dados de entrada disponíveis e avaliação deles no subconjunto complementar dos dados. Use a validação cruzada para detectar sobreajuste, ou seja, a não generalização de um padrão.

In [None]:
from sklearn.model_selection import KFold, cross_val_score

In [None]:
kfold = KFold(n_splits=5, random_state=0, shuffle=True) # separando em folds

In [None]:
modelo = LogisticRegression(penalty='l2', tol=0.0001, C=2, random_state=5, solver='lbfgs', max_iter = 200) # modelo

In [None]:
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold) # acuracia em cada fold

In [None]:
print('Acurácia média: {:.2f}%' .format(resultado.mean() * 100)) # media de todas as acuracias

Naive Bayes = 93.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

SVM = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores

Regressão Logística = 98.33% (treino e teste) e 96% (validação cruzada) - previsores ou previsores_esc

O valor de acurácia entre os modelos de treino e teste deve estar relativamente próximo ao da validação cruzada, caso contrário, a separação dos mesmos não foi feita adequadamente.

# KNN 

### Treinamento 

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn = KNeighborsClassifier(n_neighbors=10, leaf_size=1, p=2, metric='minkowski') # nomeando algoritmo
knn.fit(x_treino, y_treino) # treinamento

### Previsões com dados de teste

In [None]:
previsoes_knn = knn.predict(x_teste) # prevendo com dados de teste
previsoes_knn

In [None]:
accuracy_score(y_teste, previsoes_knn) # acuracia

In [None]:
confusion_matrix(y_teste, previsoes_knn) # matriz de confusao

In [None]:
print(classification_report(y_teste, previsoes_knn)) # relatorio

### Previsões com dados de treino 

In [None]:
previsoes_treino = knn.predict(x_treino) # prevendo dados de treino

In [None]:
accuracy_score(y_treino, previsoes_treino) # acuracia

In [None]:
confusion_matrix(y_treino, previsoes_treino) # matriz de confusao

Melhor combinação encontrada:
* previsores = 96.66% (n_neighbors=7, leaf_size=1, p=2, metric='minkowski')
* previsores_esc = 96.66% (n_neighbors=10, leaf_size=1, p=2, metric='minkowski')

### Validação cruzada

Validação cruzada é uma técnica para avaliar modelos de ML por meio de treinamento de vários modelos de ML em subconjuntos de dados de entrada disponíveis e avaliação deles no subconjunto complementar dos dados. Use a validação cruzada para detectar sobreajuste, ou seja, a não generalização de um padrão.

In [None]:
from sklearn.model_selection import KFold, cross_val_score

In [None]:
kfold = KFold(n_splits=5, random_state=0, shuffle=True) # separando em folds

In [None]:
modelo = KNeighborsClassifier(n_neighbors=7, leaf_size=1, p=2, metric='minkowski') # modelo

In [None]:
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold) # acuracia em cada fold

In [None]:
print('Acurácia média: {:.2f}%' .format(resultado.mean() * 100)) # media de todas as acuracias

Naive Bayes = 93.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

SVM = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores

Regressão Logística = 98.33% (treino e teste) e 96% (validação cruzada) - previsores ou previsores_esc

KNN = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

O valor de acurácia entre os modelos de treino e teste deve estar relativamente próximo ao da validação cruzada, caso contrário, a separação dos mesmos não foi feita adequadamente.

# Árvore de Decisão

### Treinamento

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
tree = DecisionTreeClassifier(random_state=5, criterion='gini', max_depth=2) # nomeando algoritmo
tree.fit(x_treino, y_treino) # treinamento

### Previsões com dados de teste

In [None]:
previsoes_tree = tree.predict(x_teste) # prevendo dados de teste
previsoes_tree

In [None]:
accuracy_score(y_teste, previsoes_tree) # acuracia

In [None]:
confusion_matrix(y_teste, previsoes_tree) # matriz de confusao

In [None]:
print(classification_report(y_teste, previsoes_tree)) # relatorio

### Previsões com dados de treino 

In [None]:
previsoes_treino = tree.predict(x_treino) # prevendo com dados de treino

In [None]:
accuracy_score(y_treino, previsoes_treino) # acuracia

In [None]:
confusion_matrix(y_treino, previsoes_treino) # matriz de confusao

Melhor combinação encontrada:
* previsores = 93.33% (random_state=5, criterion='gini', max_depth=2)
* previsores_esc = 93.33% (random_state=5, criterion='gini', max_depth=2)

### Validação cruzada 

Validação cruzada é uma técnica para avaliar modelos de ML por meio de treinamento de vários modelos de ML em subconjuntos de dados de entrada disponíveis e avaliação deles no subconjunto complementar dos dados. Use a validação cruzada para detectar sobreajuste, ou seja, a não generalização de um padrão.

In [None]:
from sklearn.model_selection import KFold, cross_val_score

In [None]:
kfold = KFold(n_splits=5, random_state=0, shuffle=True) # separando em folds

In [None]:
modelo = DecisionTreeClassifier(random_state=5, criterion='gini', max_depth=2) # modelo

In [None]:
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold) # acuracia em cada fold

In [None]:
print('Acurácia média: {:.2f}%' .format(resultado.mean() * 100)) # media de todas as acuracias

Naive Bayes = 93.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

SVM = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores

Regressão Logística = 98.33% (treino e teste) e 96% (validação cruzada) - previsores ou previsores_esc

KNN = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

Árvore de Decisão = 93.33% (treino e teste) e 94.67% (validação cruzada) - previsores ou previsores_esc

O valor de acurácia entre os modelos de treino e teste deve estar relativamente próximo ao da validação cruzada, caso contrário, a separação dos mesmos não foi feita adequadamente.

# Random Forest

### Treinamento 

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
random_b = RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=2, random_state=5) # nomeando algoritmo
random_b.fit(x_treino, y_treino) # treinamento

### Previsões com dados de teste 

In [None]:
previsoes_rb = random_b.predict(x_teste) # prevendo dados de teste
previsoes_rb

In [None]:
accuracy_score(y_teste, previsoes_rb) # acuracia

In [None]:
confusion_matrix(y_teste, previsoes_rb) # matriz de confusao

In [None]:
print(classification_report(y_teste, previsoes_rb)) # relatorio

### Previsões com dados de treino 

In [None]:
previsoes_treino = random_b.predict(x_treino) # prevendo dados de treino

In [None]:
accuracy_score(y_treino, previsoes_treino) # acuracia

In [None]:
confusion_matrix(y_treino, previsoes_treino) # matriz de confusao

Melhor combinação encontrada:
* previsores = 93.33% (n_estimators=10, criterion='gini', max_depth=2, random_state=5)
* previsores_esc = 95% (n_estimators=10, criterion='gini', max_depth=2, random_state=5)

### Validação cruzada 

Validação cruzada é uma técnica para avaliar modelos de ML por meio de treinamento de vários modelos de ML em subconjuntos de dados de entrada disponíveis e avaliação deles no subconjunto complementar dos dados. Use a validação cruzada para detectar sobreajuste, ou seja, a não generalização de um padrão.

In [None]:
from sklearn.model_selection import KFold, cross_val_score

In [None]:
kfold = KFold(n_splits=5, random_state=0, shuffle=True) # separando em folds

In [None]:
modelo = RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=2, random_state=5) # modelo

In [None]:
resultado = cross_val_score(modelo, previsores_esc, alvo, cv=kfold) # acuracia em cada fold

In [None]:
print('Acurácia média: {:.2f}%' .format(resultado.mean() * 100)) # media de todas as acuracias

Naive Bayes = 93.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

SVM = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores

Regressão Logística = 98.33% (treino e teste) e 96% (validação cruzada) - previsores ou previsores_esc

KNN = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

Árvore de Decisão = 93.33% (treino e teste) e 94.67% (validação cruzada) - previsores ou previsores_esc

Random Forest = 95% (treino e teste) e 96% (validação cruzada) - previsores_esc

O valor de acurácia entre os modelos de treino e teste deve estar relativamente próximo ao da validação cruzada, caso contrário, a separação dos mesmos não foi feita adequadamente.

# XGBoost 

### Treinamento

In [None]:
from xgboost import XGBClassifier

In [None]:
xgb = XGBClassifier(learning_rate=0.1, random_state=5, n_estimators=10, objective='binary:logistic', max_depth=2) # nomeando algoritmo
xgb.fit(x_treino, y_treino) # treinamento

### Previsões com dados de teste

In [None]:
previsoes_xgb = xgb.predict(x_teste) # prevendo dados de teste
previsoes_xgb

In [None]:
accuracy_score(y_teste, previsoes_xgb) # acuracia

In [None]:
confusion_matrix(y_teste, previsoes_xgb) # matriz de confusao

In [None]:
print(classification_report(y_teste, previsoes_xgb)) # relatorio

### Previsões com dados de treino 

In [None]:
previsoes_treino = xgb.predict(x_treino) # prevendo dados de treino

In [None]:
accuracy_score(y_treino, previsoes_treino) # acuracia

In [None]:
confusion_matrix(y_treino, previsoes_treino) # matriz de confusao

Melhor combinação encontrada:
* previsores = 93.33% (learning_rate=0.05, random_state=5, n_estimators=10, objective='binary:logistic', max_depth=2)
* previsores_esc = 93.33% (learning_rate=0.1, random_state=5, n_estimators=10, objective='binary:logistic', max_depth=2)

### Validação cruzada 

Validação cruzada é uma técnica para avaliar modelos de ML por meio de treinamento de vários modelos de ML em subconjuntos de dados de entrada disponíveis e avaliação deles no subconjunto complementar dos dados. Use a validação cruzada para detectar sobreajuste, ou seja, a não generalização de um padrão.

In [None]:
from sklearn.model_selection import KFold, cross_val_score

In [None]:
kfold = KFold(n_splits=5, random_state=0, shuffle=True) # separando em folds

In [None]:
modelo = XGBClassifier(learning_rate=0.1, random_state=5, n_estimators=10, objective='binary:logistic', max_depth=2) # modelo

In [None]:
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold) # acuracia em cada fold

In [None]:
print('Acurácia média: {:.2f}%' .format(resultado.mean() * 100)) # media de todas as acuracias

Naive Bayes = 93.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

SVM = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores

Regressão Logística = 98.33% (treino e teste) e 96% (validação cruzada) - previsores ou previsores_esc

KNN = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

Árvore de Decisão = 93.33% (treino e teste) e 94.67% (validação cruzada) - previsores ou previsores_esc

Random Forest = 95% (treino e teste) e 96% (validação cruzada) - previsores_esc

XGBoost = 93.33% (treino e teste) e 94.67% (validação cruzada) - previsores ou previsores_esc

O valor de acurácia entre os modelos de treino e teste deve estar relativamente próximo ao da validação cruzada, caso contrário, a separação dos mesmos não foi feita adequadamente.

# LightGBM 

### Treinamento 

In [None]:
import lightgbm as lgb

In [None]:
dataset = lgb.Dataset(x_treino, label=y_treino) # especificando dataset de treino

In [None]:
parametros ={'num_leaves':100, # número de folhas
            'objective':'binary', # classificaçã binária
            'max_depth':2,
            'learning_rate':.1,
            'max_bin': 200,
            'force_col_wise': True}

In [None]:
lgbm = lgb.train(parametros, dataset, num_boost_round=150) # treinamento

### Previsões dos dados de teste 

In [None]:
previsoes_lgbm = lgbm.predict(x_teste) # prevendo dados de teste
previsoes_lgbm

Perceba que os valores estão diferentes, a saída não esta sendo mais 1 ou 0. Para resolver isso, temos que configurar da seguinte forma:
 * Quando o valor for maior ou igual a 0.5, então 1, caso seja menor, então 0.

In [None]:
previsoes_lgbm.shape # tamanho

In [None]:
# fazendo as devidas alterações
for i in range(0,60):
    if previsoes_lgbm[i] >= .5:
        previsoes_lgbm[i] = 1
    else:
        previsoes_lgbm[i] = 0
        
previsoes_lgbm

In [None]:
accuracy_score(y_teste, previsoes_lgbm) # acuracia

In [None]:
confusion_matrix(y_teste, previsoes_lgbm) # matriz de confusao

In [None]:
print(classification_report(y_teste, previsoes_lgbm)) # relatorio

### Previsões com dados de treino

In [None]:
previsoes_treino = lgbm.predict(x_treino) # prevendo dados de treino
previsoes_treino

In [None]:
previsoes_treino.shape # tamanho

In [None]:
# fazendo as mesmas alteraçoes feitas ante, so que agora com dados de treino
for i in range(0,90):
    if previsoes_treino[i] >= .5:
        previsoes_treino[i] = 1
    else:
        previsoes_treino[i] = 0
        
previsoes_treino

In [None]:
accuracy_score(y_treino, previsoes_treino) # acuracia

* previsores = 70% 
* previsores_esc = 70%

### Validação cruzada 

Validação cruzada é uma técnica para avaliar modelos de ML por meio de treinamento de vários modelos de ML em subconjuntos de dados de entrada disponíveis e avaliação deles no subconjunto complementar dos dados. Use a validação cruzada para detectar sobreajuste, ou seja, a não generalização de um padrão.

In [None]:
from sklearn.model_selection import KFold, cross_val_score

In [None]:
kfold = KFold(n_splits=5, random_state=0, shuffle=True) # separando em folds

In [None]:
modelo = lgb.LGBMClassifier(num_leaves=100, objective='binary', max_depth=2, 
                            learning_rate=.1, max_bin=200, force_col_wise=True) # modelo

In [None]:
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold) # acuracia em cada fold

In [None]:
print('Acurácia média: {:.2f}%' .format(resultado.mean() * 100)) # media de todas as acuracias

Naive Bayes = 93.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

SVM = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores

Regressão Logística = 98.33% (treino e teste) e 96% (validação cruzada) - previsores ou previsores_esc

KNN = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

Árvore de Decisão = 93.33% (treino e teste) e 94.67% (validação cruzada) - previsores ou previsores_esc

Random Forest = 95% (treino e teste) e 96% (validação cruzada) - previsores_esc

XGBoost = 93.33% (treino e teste) e 94.67% (validação cruzada) - previsores ou previsores_esc

~~LGBM = 70% (treino e teste) e 96% (validação cruzada) - previsores ou previsores_esc~~

O valor de acurácia entre os modelos de treino e teste deve estar relativamente próximo ao da validação cruzada, caso contrário, a separação dos mesmos não foi feita adequadamente.

# CatBoost

In [None]:
df = df.drop(columns=['Id']) # excluindo coluna id

In [None]:
alvo = df.iloc[:, 4].values # selecionando variavel alvo
alvo = LabelEncoder().fit_transform(alvo) # transformando em categoricas ordinais

In [None]:
df.head(0) # visualizando colunas

### Treinamento

In [None]:
from catboost import CatBoostClassifier

In [None]:
catboost = CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth=8,
                             random_state=5, eval_metric='Accuracy') # nomeando algoritmo

In [None]:
catboost.fit(x_treino, y_treino, eval_set=(x_teste,y_teste)) # treinamento

### Previsões com dados de teste

In [None]:
previsoes_cat= catboost.predict(x_teste) # prevendo dados de teste
previsoes_cat

In [None]:
accuracy_score(y_teste, previsoes_cat) # acuracia

In [None]:
confusion_matrix(y_teste, previsoes_cat) # matriz de confusao

In [None]:
print(classification_report(y_teste, previsoes_cat)) # relatorio

### Previsões com dados de treino

In [None]:
previsoes_treino = catboost.predict(x_treino) # prevendo dados de treino

In [None]:
accuracy_score(y_treino, previsoes_treino) # acuracia

In [None]:
confusion_matrix(y_treino, previsoes_treino) # matriz de confusao

Melhor combinação encontrada:
* previsores = 98.33% (CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth=8, random_state=5, eval_metric='Accuracy')
* previsores_esc = 98.33% (CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth=8, random_state=5, eval_metric='Accuracy')

### Validação cruzada 

Validação cruzada é uma técnica para avaliar modelos de ML por meio de treinamento de vários modelos de ML em subconjuntos de dados de entrada disponíveis e avaliação deles no subconjunto complementar dos dados. Use a validação cruzada para detectar sobreajuste, ou seja, a não generalização de um padrão.

In [None]:
from sklearn.model_selection import KFold, cross_val_score

In [None]:
kfold = KFold(n_splits=5, random_state=0, shuffle=True) # separando em folds

In [None]:
modelo = CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth=8,
                             random_state=5, eval_metric='Accuracy')

In [None]:
resultado = cross_val_score(modelo, previsores, alvo, cv=kfold)

In [None]:
print('Acurácia média: {:.2f}%' .format(resultado.mean() * 100)) # media de todas as acuracias

Naive Bayes = 93.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

SVM = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores

Regressão Logística = 98.33% (treino e teste) e 96% (validação cruzada) - previsores ou previsores_esc

KNN = 96.66% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc

Árvore de Decisão = 93.33% (treino e teste) e 94.67% (validação cruzada) - previsores ou previsores_esc

Random Forest = 95% (treino e teste) e 96% (validação cruzada) - previsores_esc

XGBoost = 93.33% (treino e teste) e 94.67% (validação cruzada) - previsores ou previsores_esc

LGBM = 70% (treino e teste) e 96% (validação cruzada) - previsores ou previsores_esc

**CatBoost = 98.33% (treino e teste) e 95.33% (validação cruzada) - previsores ou previsores_esc**

O valor de acurácia entre os modelos de treino e teste deve estar relativamente próximo ao da validação cruzada, caso contrário, a separação dos mesmos não foi feita adequadamente.

# Salvando

### Salvando arquivos

In [None]:
# np.savetxt('previsores.csv', previsores, delimiter=',') # salvando previsores

In [None]:
# np.savetxt('alvo.csv', alvo, delimiter=',') # salvando alvo

### Salvando o algoritmo

 from catboost import CatBoostClassifier

catboost = CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth=8,
                             random_state=5, eval_metric='Accuracy')

catboost.fit(x_treino, y_treino, eval_set=(x_teste,y_teste))

# Simulação de classificação

QUAL É A ESPÉCIE DA FLOR ?

### Abertura dos atributos previsores e alvo

In [None]:
previsores = pd.read_csv('previsores.csv', header=None) # lendo arquivo (sem cabeçalho)
previsores

In [None]:
alvo = pd.read_csv('alvo.csv', header=None) # lendo alvo (sem cabeçalho)
alvo

In [None]:
# tranformando em matriz
previsores = previsores.values 
alvo = alvo.values

### Carregando o classificador CatBoost

In [None]:
# CONFIGURAÇOES
from catboost import CatBoostClassifier

catboost = CatBoostClassifier(task_type='CPU', iterations=100, learning_rate=0.1, depth=8, random_state=5, eval_metric='Accuracy')

catboost.fit(x_treino, y_treino, eval_set=(x_teste,y_teste))

### Simulando medidas 

In [None]:
flor1 = [[6, 2.93, 3.63, 1,23]] # predição (com valores aleatorios)
flor2 = [[4.6, 3.2, 1.4, 0.2]] # iris-setosa (0) (teste) (com valores do dataset)
flor3 = [[7.7, 3.0, 6.1, 2.3]] # iris-virginica (2) (teste) (com valores do dataset)
flor4 = [[4.9, 2.4, 3.3, 1.0]] # iris-versicolor (1) (teste) (com valores do dataset)

In [None]:
# função de predição
def flower_classifier(x):
    resultado = catboost.predict(x)
    if resultado == 0:
        return print('Íris-setosa')
    elif resultado == 1:
        return print('Íris-versicolor')
    else:
        return print('Íris-virgínica')
    
flower_classifier(flor1) # com as determindas medidas provavelmente seria da especie iris-versicolor
flower_classifier(flor2) # iris-setosa
flower_classifier(flor3) # iris-virginica
flower_classifier(flor4) # iris-versicolor

---

---------------------------------------------------------------------------------FIM--------------------------------------------------------------------------------------------------------

---