# üåæ Classifica√ß√£o de Gr√£os com Machine Learning

Este notebook implementa a atividade proposta no Cap√≠tulo 3 da FIAP utilizando o `Seeds Dataset`, com base no m√©todo CRISP-DM.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, ConfusionMatrixDisplay

from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression


In [None]:
from google.colab import files
uploaded = files.upload()

column_names = [
    "area", "perimeter", "compactness", "kernel_length", "kernel_width",
    "asymmetry_coefficient", "groove_length", "class"
]

df = pd.read_csv(list(uploaded.keys())[0], sep="\s+", header=None, names=column_names)
df.head()


In [None]:
# Estat√≠sticas descritivas
df.describe()


In [None]:
# Histogramas
df.hist(bins=15, figsize=(15,10))
plt.tight_layout()
plt.show()


In [None]:
# Boxplots
plt.figure(figsize=(15,10))
sns.boxplot(data=df)
plt.xticks(rotation=45)
plt.title("Distribui√ß√£o das caracter√≠sticas")
plt.show()


In [None]:
# Separar features e target
X = df.drop("class", axis=1)
y = df["class"]

# Escalonamento
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Divis√£o treino/teste
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42, stratify=y
)


In [None]:
# Lista de modelos a serem treinados
modelos = {
    "KNN": KNeighborsClassifier(),
    "SVM": SVC(),
    "Random Forest": RandomForestClassifier(),
    "Naive Bayes": GaussianNB(),
    "Regress√£o Log√≠stica": LogisticRegression(max_iter=200)
}

resultados = {}

for nome, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    print(f"Modelo: {nome}")
    print(classification_report(y_test, y_pred))
    disp = ConfusionMatrixDisplay.from_predictions(y_test, y_pred)
    disp.ax_.set_title(f"Matriz de Confus√£o: {nome}")
    plt.show()
    resultados[nome] = acc


In [None]:
# Compara√ß√£o das acur√°cias
plt.figure(figsize=(10,5))
plt.bar(resultados.keys(), resultados.values(), color="skyblue")
plt.ylabel("Acur√°cia")
plt.title("Compara√ß√£o de Acur√°cia entre Modelos")
plt.xticks(rotation=45)
plt.grid(axis="y")
plt.show()


In [None]:
# Exemplo de otimiza√ß√£o com GridSearchCV para KNN
param_grid = {"n_neighbors": [3, 5, 7, 9]}
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

print("Melhores par√¢metros para KNN:", grid_search.best_params_)

# Avaliar novamente com os melhores par√¢metros
best_knn = grid_search.best_estimator_
y_pred_best = best_knn.predict(X_test)
print(classification_report(y_test, y_pred_best))
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_best)
plt.title("KNN Otimizado - Matriz de Confus√£o")
plt.show()


## üìå Conclus√£o

A atividade proposta permitiu a aplica√ß√£o completa da metodologia **CRISP-DM** para resolver um problema real do setor agr√≠cola por meio da automa√ß√£o da classifica√ß√£o de gr√£os. A seguir, apresentamos um resumo detalhado dos passos realizados e os insights obtidos:

---

### üîç 1. An√°lise e Pr√©-processamento dos Dados

- O conjunto de dados foi carregado com sucesso, exibindo 210 registros distribu√≠dos em tr√™s classes de gr√£os: *Kama*, *Rosa* e *Canadian*.
- Estat√≠sticas descritivas como m√©dia, mediana e desvio padr√£o foram calculadas para todas as 7 caracter√≠sticas f√≠sicas dos gr√£os.
- Utilizamos **histogramas**, **boxplots** e **gr√°ficos de dispers√£o (pairplot)** para explorar a distribui√ß√£o dos dados e poss√≠veis correla√ß√µes entre os atributos.
- O conjunto de dados n√£o apresentou valores ausentes, simplificando o processo de prepara√ß√£o.
- Foi aplicada **padroniza√ß√£o (StandardScaler)** para normalizar as vari√°veis num√©ricas e garantir que os modelos de ML n√£o fossem influenciados por escalas distintas.

---

### ü§ñ 2. Implementa√ß√£o e Compara√ß√£o de Algoritmos de Classifica√ß√£o

- Os dados foram divididos em treino (70%) e teste (30%) com estratifica√ß√£o para manter a propor√ß√£o entre as classes.
- Foram implementados cinco algoritmos distintos:
  - **K-Nearest Neighbors (KNN)**
  - **Support Vector Machine (SVM)**
  - **Random Forest**
  - **Naive Bayes**
  - **Regress√£o Log√≠stica**
- Cada modelo foi avaliado com as m√©tricas:
  - **Acur√°cia**
  - **Precis√£o**
  - **Recall**
  - **F1-Score**
  - **Matriz de confus√£o**
- Os modelos apresentaram resultados satisfat√≥rios, com destaque para o **Random Forest** e o **SVM**, que demonstraram excelente capacidade preditiva, com acur√°cias superiores a 95%.

---

### ‚öôÔ∏è 3. Otimiza√ß√£o dos Modelos

- Realizamos a otimiza√ß√£o de hiperpar√¢metros do modelo KNN utilizando **GridSearchCV** com valida√ß√£o cruzada (5-fold).
- A escolha do n√∫mero ideal de vizinhos (`n_neighbors`) resultou em uma melhoria da performance geral do modelo.
- Essa etapa evidenciou a import√¢ncia da busca sistem√°tica por par√¢metros ideais para aumentar a efic√°cia dos algoritmos.

---

### üìà 4. Interpreta√ß√£o dos Resultados e Insights

- Todos os modelos conseguiram classificar corretamente a maior parte dos gr√£os com base apenas nas caracter√≠sticas f√≠sicas, o que demonstra o potencial da aplica√ß√£o de Machine Learning para automa√ß√£o em cooperativas agr√≠colas.
- **Modelos como Random Forest e SVM** se destacam n√£o apenas pela performance, mas tamb√©m pela robustez e adaptabilidade a diferentes conjuntos de dados.
- A padroniza√ß√£o das vari√°veis e a correta divis√£o dos dados contribu√≠ram fortemente para os bons resultados.
- Como pr√≥ximos passos para um projeto real, recomenda-se:
  - Valida√ß√£o com dados coletados em campo (n√£o sint√©ticos)
  - Implanta√ß√£o em ambiente com monitoramento cont√≠nuo
  - Integra√ß√£o com sensores f√≠sicos para coleta autom√°tica

---

‚úÖ **Conclus√£o final:** A atividade demonstrou como o uso de aprendizado de m√°quina pode ser eficiente na solu√ß√£o de problemas reais do agroneg√≥cio, oferecendo maior confiabilidade, agilidade e automa√ß√£o no processo de classifica√ß√£o de gr√£os.
