# sumario

# 1. Introdução

A classificação de grãos é uma etapa fundamental no controle de qualidade dentro da cadeia produtiva agrícola. Atualmente, em muitas cooperativas de pequeno e médio porte, esse processo ainda é realizado de forma manual por especialistas, utilizando inspeção visual e ferramentas simples. Isso gera desafios como alta demanda de tempo, custos operacionais elevados e possíveis erros humanos, afetando diretamente a eficiência e a qualidade do produto final.

Este projeto tem como foco o desenvolvimento de um sistema inteligente capaz de realizar a classificação automática de grãos de trigo com base em suas características físicas. A solução utiliza algoritmos de Machine Learning aplicados ao "Seeds Dataset" do UCI Machine Learning Repository, com amostras de três tipos de trigo: Kama, Rosa e Canadian.

Além do desenvolvimento dos modelos, será criado um dashboard interativo utilizando Streamlit, que permitirá que qualquer usuário — mesmo sem conhecimento técnico — possa realizar classificações, visualizar análises e extrair informações úteis sobre os grãos analisados.

# 1.2 instalação das bibliotecas

In [4]:
# Instalação de pacotes necessários (rode apenas se ainda não tiver eles instalados no seu ambiente)

# Para quem usa pip
!pip install pandas numpy matplotlib seaborn scikit-learn

# Para quem usa conda
# !conda install pandas numpy matplotlib seaborn scikit-learn -y





## 1.3 importação das bibliotecas

In [5]:
# Verificar o interpretador em uso (opcional, só pra conferência)
import sys
print(sys.executable)

# Manipulação de dados
import pandas as pd
import numpy as np

# Visualização
import matplotlib.pyplot as plt
import seaborn as sns

# Machine Learning
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Ignorar warnings
import warnings
warnings.filterwarnings("ignore")


C:\Users\vitor\anaconda3\envs\cap3-iralem\python.exe


# 2. processamento de dados

## 2.1 Carregando dados

In [6]:
import os
print(os.getcwd())

colunas = ['Area', 'Perimeter', 'Compactness', 'Kernel_Length',
           'Kernel_Width', 'Asymmetry_Coeff', 'Groove_Length', 'Class']

df = pd.read_csv('../dados/processados/seeds_dataset.txt', delim_whitespace=True, names=colunas)
df.head()

C:\Users\vitor\Documents\GitHub\Cap3-ImplementandoalgoritmosdeMachineLearningcomScikitlearn\notebooks


Unnamed: 0,Area,Perimeter,Compactness,Kernel_Length,Kernel_Width,Asymmetry_Coeff,Groove_Length,Class
0,15.26,14.84,0.871,5.763,3.312,2.221,5.22,1
1,14.88,14.57,0.8811,5.554,3.333,1.018,4.956,1
2,14.29,14.09,0.905,5.291,3.337,2.699,4.825,1
3,13.84,13.94,0.8955,5.324,3.379,2.259,4.805,1
4,16.14,14.99,0.9034,5.658,3.562,1.355,5.175,1


In [7]:
df.describe()

Unnamed: 0,Area,Perimeter,Compactness,Kernel_Length,Kernel_Width,Asymmetry_Coeff,Groove_Length,Class
count,210.0,210.0,210.0,210.0,210.0,210.0,210.0,210.0
mean,14.847524,14.559286,0.870999,5.628533,3.258605,3.700201,5.408071,2.0
std,2.909699,1.305959,0.023629,0.443063,0.377714,1.503557,0.49148,0.818448
min,10.59,12.41,0.8081,4.899,2.63,0.7651,4.519,1.0
25%,12.27,13.45,0.8569,5.26225,2.944,2.5615,5.045,1.0
50%,14.355,14.32,0.87345,5.5235,3.237,3.599,5.223,2.0
75%,17.305,15.715,0.887775,5.97975,3.56175,4.76875,5.877,3.0
max,21.18,17.25,0.9183,6.675,4.033,8.456,6.55,3.0


## 2.2 dados faltantes ou nulos

nessa etapa seraverificado se existem valores ausentes (nulos).

In [8]:
df.isnull().sum()

Area               0
Perimeter          0
Compactness        0
Kernel_Length      0
Kernel_Width       0
Asymmetry_Coeff    0
Groove_Length      0
Class              0
dtype: int64

pode-se concluir que nenhuma coluna de dados apresenta valores nulos