# Resumo

In [1]:
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import accuracy_score


ModuleNotFoundError: No module named 'seaborn'

## Dataset Iris

O **dataset Iris** é um dos conjuntos de dados mais clássicos e amplamente utilizados em aprendizado de máquina e estatística. Ele contém 150 amostras de flores da espécie **Iris**, divididas igualmente em três classes diferentes:

### Atributos
O dataset possui 4 características (ou variáveis explicativas) para cada amostra:
- **Comprimento da sépala** (*sepal length*) em centímetros.
- **Largura da sépala** (*sepal width*) em centímetros.
- **Comprimento da pétala** (*petal length*) em centímetros.
- **Largura da pétala** (*petal width*) em centímetros.

### Classes
As amostras estão classificadas em três categorias:
- *Iris setosa*
- *Iris versicolor*
- *Iris virginica*

Cada uma das três espécies tem 50 amostras.

## Problema: Utilizando os atributos, como prever a espécie da planta?

### Análise dos Dados

In [None]:
iris = sns.load_dataset('iris')


In [None]:
iris.head()

In [None]:
# Separar as features e o target
X = iris.drop(columns=['species'])
y = iris['species']

In [None]:
X.head()

In [None]:
y

### Separação em treino, calibração e teste

In [None]:
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.8, random_state=41, stratify=y)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=41, stratify=y_temp)

### Escolhemos o melhor modelo treinando no TREINO e validando no VAL

In [None]:
# Modelo 1: Regressão Logística
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
y_train_pred_log = log_reg.predict(X_train)
y_val_pred_log = log_reg.predict(X_val)
train_accuracy_log = accuracy_score(y_train, y_train_pred_log)
val_accuracy_log = accuracy_score(y_val, y_val_pred_log)

# Modelo 2: AdaBoost
ada_clf = AdaBoostClassifier()
ada_clf.fit(X_train, y_train)
y_train_pred_ada = ada_clf.predict(X_train)
y_val_pred_ada = ada_clf.predict(X_val)
train_accuracy_ada = accuracy_score(y_train, y_train_pred_ada)
val_accuracy_ada = accuracy_score(y_val, y_val_pred_ada)


In [None]:
# Escolher o modelo com base na performance de validação
best_model = log_reg if val_accuracy_log > val_accuracy_ada else ada_clf
worst_model = log_reg if val_accuracy_log <= val_accuracy_ada else ada_clf

# Avaliar o modelo escolhido no conjunto de teste
y_test_pred_best = best_model.predict(X_test)
test_accuracy_best = accuracy_score(y_test, y_test_pred_best)

# Avaliar o pior modelo no conjunto de teste
y_test_pred_worst = worst_model.predict(X_test)
test_accuracy_worst = accuracy_score(y_test, y_test_pred_worst)

best_model_name = "Logistic Regression" if best_model == log_reg else "AdaBoost"

# Exibir os resultados
print(f"Acurácia no Treino (Logistic Regression): {train_accuracy_log:.4f}")
print(f"Acurácia na Validação (Logistic Regression): {val_accuracy_log:.4f}\n")

print(f"Acurácia no Treino (AdaBoost): {train_accuracy_ada:.4f}")
print(f"Acurácia na Validação (AdaBoost): {val_accuracy_ada:.4f}\n")

print(f"Modelo Escolhido: {best_model_name}")
print(f"Acurácia no Teste (Modelo Escolhido): {test_accuracy_best:.4f}")
print(f"Acurácia no Teste (Modelo não Escolhido): {test_accuracy_worst:.4f}")