# Esteira de Aprendizado de Máquina

Este notebook implementa uma esteira completa de aprendizado de máquina, desde a obtenção dos dados até a avaliação e predição com um modelo treinado. O conjunto de dados utilizado será o famoso **Iris Dataset** do UCI Machine Learning Repository.

In [2]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, ConfusionMatrixDisplay

ModuleNotFoundError: No module named 'matplotlib'

In [None]:
# Carregar o dataset Iris do UCI
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
df = pd.read_csv(url, names=columns)
df.head()

In [None]:
# Estatísticas descritivas gerais
df.describe()

In [None]:
# Visualizar a distribuição das classes
df['class'].value_counts().plot(kind='bar', title='Distribuição das classes')
plt.xlabel('Classe')
plt.ylabel('Quantidade')
plt.show()

In [None]:
# Normalização das features numéricas
scaler = StandardScaler()
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
df[features] = scaler.fit_transform(df[features])
df.head()

In [None]:
# Remover outliers (z-score > 3)
from scipy.stats import zscore
z_scores = np.abs(zscore(df[features]))
df = df[(z_scores < 3).all(axis=1)]
df.reset_index(drop=True, inplace=True)
df.shape

In [None]:
# Divisão em treino, validação e teste
X = df[features]
y = df['class']

# Primeiro, separa treino (60%) e temp (40%)
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42, stratify=y)
# Depois, separa temp em validação (20%) e teste (20%)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp)

print(f'Treino: {X_train.shape}, Validação: {X_val.shape}, Teste: {X_test.shape})'

In [None]:
# Treinamento do modelo
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)

# Avaliação na validação
y_val_pred = clf.predict(X_val)
acc_val = accuracy_score(y_val, y_val_pred)
print(f'Acurácia na validação: {acc_val:.2f}')

In [None]:
# Avaliação no conjunto de teste
y_test_pred = clf.predict(X_test)
acc_test = accuracy_score(y_test, y_test_pred)
print(f'Acurácia no teste: {acc_test:.2f}')

cm = confusion_matrix(y_test, y_test_pred, labels=clf.classes_)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=clf.classes_)
disp.plot(cmap=plt.cm.Blues)
plt.title('Matriz de Confusão - Teste')
plt.show()

In [None]:
# Predição com o modelo treinado
sample = X_test.iloc[[0]]
pred = clf.predict(sample)
print(f'Classe real: {y_test.iloc[0]}')
print(f'Classe predita: {pred[0]}')

## Conclusão

Este notebook demonstrou uma esteira completa de aprendizado de máquina, incluindo obtenção, análise, transformação, divisão, treinamento, avaliação e predição usando o dataset Iris.