# ***Classificação de Maças - Machine Learning Direto ao Ponto***

### **Projeto Complementar e Não Extenso para Classificação da Qualidade das Maças entre Boa ou Ruim (Good, Bad)**
### **Direto ao Ponto porém Documentado**
### **Principais Etapas**
### **- Análise Exploratória de Dados**
### **- Tratamento de Dados**
### **- Análise Estatística**
### **- Machine Learning**

### **Importando Bibliotecas**

In [1]:
import numpy as np  # Para Álgebra Linear
import pandas as pd  # Carregamento do Arquivo e Métodos de Análise

# ***Análise Exploratória de Dados - Tratamento de Dados***

### **Carregando o Conjunto de Dados e Visualizando as 5 Primeiras Linhas**

In [3]:
df = pd.read_csv('apple_quality.csv')
df.head(5)

Unnamed: 0,A_id,Size,Weight,Sweetness,Crunchiness,Juiciness,Ripeness,Acidity,Quality
0,0.0,-3.970049,-2.512336,5.34633,-1.012009,1.8449,0.32984,-0.491590483,good
1,1.0,-1.195217,-2.839257,3.664059,1.588232,0.853286,0.86753,-0.722809367,good
2,2.0,-0.292024,-1.351282,-1.738429,-0.342616,2.838636,-0.038033,2.621636473,bad
3,3.0,-0.657196,-2.271627,1.324874,-0.097875,3.63797,-3.413761,0.790723217,good
4,4.0,1.364217,-1.296612,-0.384658,-0.553006,3.030874,-1.303849,0.501984036,good


### **Verificando a Quantidade de Valores Nulos de Cada Coluna**

In [4]:
df.isna().sum()

A_id           1
Size           1
Weight         1
Sweetness      1
Crunchiness    1
Juiciness      1
Ripeness       1
Acidity        0
Quality        1
dtype: int64

### **Removendo os Valores Nulos das Colunas e Visualizando se foi Removido**

In [5]:
df = df.dropna()

df.isna().sum()

A_id           0
Size           0
Weight         0
Sweetness      0
Crunchiness    0
Juiciness      0
Ripeness       0
Acidity        0
Quality        0
dtype: int64

# ***Análise Estatística - Tratamento de Dados***

### **Verificando o Conjunto de Modo Estatístico (Média, Désvio Padrão, Mediana, etc)** 

In [6]:
df.describe()

Unnamed: 0,A_id,Size,Weight,Sweetness,Crunchiness,Juiciness,Ripeness
count,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0
mean,1999.5,-0.503015,-0.989547,-0.470479,0.985478,0.512118,0.498277
std,1154.844867,1.928059,1.602507,1.943441,1.402757,1.930286,1.874427
min,0.0,-7.151703,-7.149848,-6.894485,-6.055058,-5.961897,-5.864599
25%,999.75,-1.816765,-2.01177,-1.738425,0.062764,-0.801286,-0.771677
50%,1999.5,-0.513703,-0.984736,-0.504758,0.998249,0.534219,0.503445
75%,2999.25,0.805526,0.030976,0.801922,1.894234,1.835976,1.766212
max,3999.0,6.406367,5.790714,6.374916,7.619852,7.364403,7.237837


### **Removendo a Coluna "A_id" que é Irrelevante e Desnecessária para o Projeto podendo até Prejudicar na Classificação**
### **Verificando se foi Removida de Fato**

In [7]:
df = df.drop("A_id", axis=1)
df.columns

Index(['Size', 'Weight', 'Sweetness', 'Crunchiness', 'Juiciness', 'Ripeness',
       'Acidity', 'Quality'],
      dtype='object')

# ***Machine Learning***

### **A Coluna Target ou Coluna de Classificação é a "Quality", Chamamos de Coluna Alvo, pois ela que irá Classificar se as Maças são Boas ou Ruins**

### **Vamos Padronizar os Dados dela para o Modelo Aprender Corretamente**

In [8]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

df['Quality'] = label_encoder.fit_transform(df['Quality'])

print(df)

          Size    Weight  Sweetness  Crunchiness  Juiciness  Ripeness  \
0    -3.970049 -2.512336   5.346330    -1.012009   1.844900  0.329840   
1    -1.195217 -2.839257   3.664059     1.588232   0.853286  0.867530   
2    -0.292024 -1.351282  -1.738429    -0.342616   2.838636 -0.038033   
3    -0.657196 -2.271627   1.324874    -0.097875   3.637970 -3.413761   
4     1.364217 -1.296612  -0.384658    -0.553006   3.030874 -1.303849   
...        ...       ...        ...          ...        ...       ...   
3995  0.059386 -1.067408  -3.714549     0.473052   1.697986  2.244055   
3996 -0.293118  1.949253  -0.204020    -0.640196   0.024523 -1.087900   
3997 -2.634515 -2.138247  -2.440461     0.657223   2.199709  4.763859   
3998 -4.008004 -1.779337   2.366397    -0.200329   2.161435  0.214488   
3999  0.278540 -1.715505   0.121217    -1.154075   1.266677 -0.776571   

           Acidity  Quality  
0     -0.491590483        1  
1     -0.722809367        1  
2      2.621636473        0  
3  

### **Importando as Bibliotecas de Machine Learning para Definição de Dados, Algoritmo, Pré-Processamento, Padronização de Dados, Seleção de Modelo, etc**

In [9]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

### **Definindo o X e y para o Modelo Classificar. Definindo os Dados a Classificação (X é a Coluna para os Algoritmos Aprenderem e y é a Coluna para Classificação)**

In [10]:
X = df[['Size','Weight','Sweetness','Crunchiness','Juiciness','Ripeness','Acidity']]
y = df['Quality']

### **Definindo os Classificadores**

In [11]:
classifiers = {
    'Logistic Regression': LogisticRegression(),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'KNN': KNeighborsClassifier()
}

### **Definindo o Pipeline para a Validação Cruzada**

In [12]:
results = {}

for clf_name, clf in classifiers.items():
    pipeline = Pipeline([('clf', clf)])
    cv_scores = cross_val_score(pipeline, X, y, cv=5)
    results[clf_name] = cv_scores.mean()

### **Exibindo os Resultados e o Melhor Modelo**

In [14]:
for clf_name, score in results.items():
    print(f"{clf_name}: Acurácia = {score:.2f}%")
    
best_model = max(results, key=results.get)
print(f"\n\nO Melhor Modelo é: {best_model}")

Logistic Regression: Acurácia = 0.75%
Decision Tree: Acurácia = 0.81%
Random Forest: Acurácia = 0.89%
SVM: Acurácia = 0.89%
KNN: Acurácia = 0.89%


O Melhor Modelo é: KNN


### **Definindo o Pipeline para o Modelo de Seleção (Qual será o Melhor)**
### **Definindo a Grade de Parâmetros a ser Pesquisada**
### **Executando a Grade de Parâmetros**

In [15]:
from sklearn.model_selection import GridSearchCV

pipeline = Pipeline([
    ('clf', KNeighborsClassifier())
])

param_grid = {
    'clf__n_neighbors': [3, 5, 7],
    'clf__weights': ['uniform', 'distance']
}

grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X, y)


### **Visualizando Melhor Parâmetro e Melhor Acurácia**

In [17]:
print("O Melhor Parâmetro é:", grid_search.best_params_)
print(f"A Melhor Acurácia é: {grid_search.best_score_:.2}%")

O Melhor Parâmetro é: {'clf__n_neighbors': 7, 'clf__weights': 'distance'}
A Melhor Acurácia é: 0.89%


## **A Acurárica Final é Igual a 89%**
# ***Fim***