# **Classificação das Flores**

**Objetivo**
* Construir um algoritmo de Machine Learning capaz de prever a espécie das flores.

### **1. Introdução**

<p align="justify">
A classificação de espécies de flores é um desafio clássico e fundamental no campo da aprendizagem de máquina. Neste projeto, exploraremos a aplicação do algoritmo K-Nearest Neighbors (KNN) para abordar essa tarefa, utilizando o conjunto de dados Iris. O objetivo principal é desenvolver um modelo de classificação preciso que seja capaz de distinguir entre três espécies de flores com base em um conjunto de atributos específicos.

<p align="justify">
O conjunto de dados Iris é amplamente reconhecido e utilizado em projetos de aprendizado de máquina, devido à sua simplicidade e relevância. Ele consiste em medidas de quatro características botânicas de diferentes amostras de flores Iris, juntamente com suas respectivas espécies: Iris-setosa, Iris-versicolor e Iris-virginica. Essas características incluem o comprimento e largura das sépalas e pétalas.

<p align="justify">
O algoritmo K-Nearest Neighbors (KNN) é uma escolha adequada para este projeto, uma vez que é um método de classificação simples, mas eficaz, que se baseia na proximidade dos pontos de dados no espaço de características. O KNN atribui a classe de uma amostra com base na classe majoritária das K amostras mais próximas no conjunto de treinamento. Esta abordagem torna o KNN particularmente útil para conjuntos de dados de classificação, como o conjunto de dados Iris, onde a similaridade entre amostras desempenha um papel crucial na diferenciação das espécies.

In [1]:
# Carregando bibliotecas

import numpy as np
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt

from sklearn.metrics import classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

In [2]:
# Carregando base de dados

dados = pd.read_csv('/content/drive/MyDrive/Ciência de Dados com Python/Projetos/Dados/Iris_Dataset.csv', sep = ',')

In [3]:
# Visualizando base de dados

dados.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### **2. Análise Exporatória de Dados**

In [4]:
# Informação sobre o conjunto de dados

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [5]:
# Verificando a existência de valores faltantes

dados.isnull().sum()

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

In [6]:
# Estatística descritiva dos dados

dados.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [7]:
# Gráfico 1: sepal_width x sepal_length

fig = px.scatter(dados,
                 x = "sepal_width",
                 y = "sepal_length",
                 color = "species")
fig.show()

In [8]:
# Gráfico 2: sepal_width x sepal_length

fig = px.scatter(dados,
                 x = "petal_width",
                 y = "petal_length",
                 color = "species")
fig.show()

### **Pré-Processamento de Dados**

In [9]:
# Separando os dados em previsores e classes

previsores = np.array(dados.drop('species', axis = 1))
classes = np.array(dados['species'])

In [10]:
# Separando os dados em treino e teste

X_treino, X_teste, y_treino, y_teste = train_test_split(previsores,
                                                        classes,
                                                        test_size = 0.3,
                                                        random_state = 0)

In [11]:
# Verificando distribuição dos dados

print(X_treino.shape)
print(y_treino.shape)
print(X_teste.shape)
print(y_teste.shape)

(105, 4)
(105,)
(45, 4)
(45,)


### **Construindo Modelo**

In [12]:
# Instânciando modelo

modelo = KNeighborsClassifier()

In [13]:
# Treinando modelo

modelo.fit(X_treino, y_treino)

In [14]:
# Aplicando modelo treinado aos dados de teste

y_predito = modelo.predict(X_teste)

### **5. Avaliando e Testando o Modelo**

In [15]:
# Métricas de Avaliação

print(classification_report(y_teste, y_predito))

                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        16
Iris-versicolor       1.00      0.94      0.97        18
 Iris-virginica       0.92      1.00      0.96        11

       accuracy                           0.98        45
      macro avg       0.97      0.98      0.98        45
   weighted avg       0.98      0.98      0.98        45



In [16]:
# Matriz de Confusão

print(pd.crosstab(y_teste, y_predito,
                  rownames = ['Real'],
                  colnames = ['              Predito']))

              Predito  Iris-setosa  Iris-versicolor  Iris-virginica
Real                                                               
Iris-setosa                     16                0               0
Iris-versicolor                  0               17               1
Iris-virginica                   0                0              11


In [17]:
# Aplicando modelo a novos dados

## Novos dados
new_data = np.array([[3, 2.7, 4, 1.5]])

## Realizando previsão
previsao = modelo.predict(new_data)

## Imprimindo resultado
print('Classificação: {}'.format(previsao))

Classificação: ['Iris-versicolor']


### **6. Considerações Finais**

<p align="justify">
O projeto de classificação de espécies de flores do conjunto de dados Iris usando o algoritmo KNN obteve um desempenho muito bom. Isso é um indicativo do poder da aprendizagem de máquina para resolver problemas de classificação, mesmo em conjuntos de dados relativamente simples.

<p align="justify">
A escolha do algoritmo KNN foi baseada em sua simplicidade e eficácia, especialmente em conjuntos de dados pequenos a médios. O KNN se mostrou uma escolha sólida para este projeto de classificação de espécies de flores, e sua flexibilidade permitiu ajustar o número de vizinhos para otimizar o desempenho.

<p align="justify">
Durante o projeto, realizamos uma avaliação rigorosa do desempenho do modelo. Isso incluiu métricas como acurácia, precisão, recall, F1-score e matriz de confusão. Essas métricas nos permitiram entender o quão bem o modelo estava classificando as diferentes espécies de flores.