In [1]:
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import accuracy_score


# Dataset Iris

O **dataset Iris** é um dos conjuntos de dados mais clássicos e amplamente utilizados em aprendizado de máquina e estatística. Ele contém 150 amostras de flores da espécie **Iris**, divididas igualmente em três classes diferentes:

## Atributos
O dataset possui 4 características (ou variáveis explicativas) para cada amostra:
- **Comprimento da sépala** (*sepal length*) em centímetros.
- **Largura da sépala** (*sepal width*) em centímetros.
- **Comprimento da pétala** (*petal length*) em centímetros.
- **Largura da pétala** (*petal width*) em centímetros.

## Classes
As amostras estão classificadas em três categorias:
- *Iris setosa*
- *Iris versicolor*
- *Iris virginica*

Cada uma das três espécies tem 50 amostras.

# Problema: Utilizando os atributos, como prever a espécie da planta?

## Análise dos Dados

In [2]:
iris = sns.load_dataset('iris')


In [3]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
# Separar as features e o target
X = iris.drop(columns=['species'])
y = iris['species']

In [5]:
X.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [6]:
y

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: object

## Separação em treino, calibração e teste

In [9]:
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.8, random_state=41, stratify=y)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=41, stratify=y_temp)

## Escolhemos o melhor modelo treinando no TREINO e validando no VAL

In [10]:
# Modelo 1: Regressão Logística
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
y_train_pred_log = log_reg.predict(X_train)
y_val_pred_log = log_reg.predict(X_val)
train_accuracy_log = accuracy_score(y_train, y_train_pred_log)
val_accuracy_log = accuracy_score(y_val, y_val_pred_log)

# Modelo 2: AdaBoost
ada_clf = AdaBoostClassifier()
ada_clf.fit(X_train, y_train)
y_train_pred_ada = ada_clf.predict(X_train)
y_val_pred_ada = ada_clf.predict(X_val)
train_accuracy_ada = accuracy_score(y_train, y_train_pred_ada)
val_accuracy_ada = accuracy_score(y_val, y_val_pred_ada)




In [11]:
# Escolher o modelo com base na performance de validação
best_model = log_reg if val_accuracy_log > val_accuracy_ada else ada_clf
worst_model = log_reg if val_accuracy_log <= val_accuracy_ada else ada_clf

# Avaliar o modelo escolhido no conjunto de teste
y_test_pred_best = best_model.predict(X_test)
test_accuracy_best = accuracy_score(y_test, y_test_pred_best)

# Avaliar o pior modelo no conjunto de teste
y_test_pred_worst = worst_model.predict(X_test)
test_accuracy_worst = accuracy_score(y_test, y_test_pred_worst)

best_model_name = "Logistic Regression" if best_model == log_reg else "AdaBoost"

# Exibir os resultados
print(f"Acurácia no Treino (Logistic Regression): {train_accuracy_log:.4f}")
print(f"Acurácia na Validação (Logistic Regression): {val_accuracy_log:.4f}\n")

print(f"Acurácia no Treino (AdaBoost): {train_accuracy_ada:.4f}")
print(f"Acurácia na Validação (AdaBoost): {val_accuracy_ada:.4f}\n")

print(f"Modelo Escolhido: {best_model_name}")
print(f"Acurácia no Teste (Modelo Escolhido): {test_accuracy_best:.4f}")
print(f"Acurácia no Teste (Modelo não Escolhido): {test_accuracy_worst:.4f}")

Acurácia no Treino (Logistic Regression): 1.0000
Acurácia na Validação (Logistic Regression): 0.9333

Acurácia no Treino (AdaBoost): 1.0000
Acurácia na Validação (AdaBoost): 0.9667

Modelo Escolhido: AdaBoost
Acurácia no Teste (Modelo Escolhido): 0.9667
Acurácia no Teste (Modelo não Escolhido): 0.9333
