# Iris Dataset Analysis - Classification Problem

O conjunto de dados Iris é um dos mais conhecidos e utilizados na área de análise de dados. Ele é amplamente utilizado para fins educacionais e também em tarefas de classificação. O conjunto de dados Iris contém informações sobre diferentes características de amostras de três espécies de plantas Iris: setosa, versicolor e virginica.

O conjunto de dados Iris é composto por 150 instâncias, onde cada instância representa uma flor Iris. Cada instância possui quatro atributos: comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala. Esses atributos são medidas em centímetros.

As três espécies de flores Iris presentes no conjunto de dados são classificadas com base em suas características. O objetivo comum é construir um modelo de classificação capaz de identificar corretamente a espécie de uma flor Iris desconhecida com base em seus atributos.

![iris](src/iris.jpg)

In [None]:
import pandas as pd # Pandas eh a biblioteca que permite facil manipulacao e operacao de dados em formato tabular
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')
%matplotlib inline

## Abrir o arquivo iris.csv

In [None]:
df = pd.read_csv(r".\src\iris.csv").set_index('Id')

## Aplicar algumas exploracoes basicas

In [None]:
# Ver as primeiras n entradas
# Por default aparecem 5 entradas
df.head()

In [None]:
# Ver as ultimas n entradas
# Por default aparecem 5 entradas


df.tail()

## Informacoes gerais sobre o dataset

In [None]:
df.info()

In [None]:
df.describe() # Aplicado a colunas numericas.

## Como acessar uma coluna especifica

In [None]:
# variavel_que_guarda_o_dataset['nome_da_coluna']
# variavel_que_guarda_o_dataset.nome_da_coluna - Nao funciona para todos os nomes de colunas
df['SepalLengthCm']

In [None]:
df.SepalWidthCm

## Contagem de diferentes valores em uma coluna

In [None]:
df['Species'].value_counts()

Essa informacao eh muito importante pois em um problema de classificacao eh importante que os grupos estejam balanceados. Isso faz com que o modelo seja mais capaz de fazer predicoes pelos diferentes grupos.

Em casos onde ha desbalanceamento, eh preciso usar tecnicas para aumentar ou reduzir o numero de amostras de um determinado grupo. 

## Numero de entradas em uma coluna

In [None]:
df.Species.count()

## Avaliacao de dados faltantes em uma coluna

In [None]:
df.Species.isna().sum()

## Avaliacao de dados faltantes em todo o dataset

In [None]:
df.isna().sum()

## Calculo de estatisticas basicas em uma coluna

### Media

In [None]:
df.SepalLengthCm.mean()

### Mediana

In [None]:
df.SepalLengthCm.median()

### Maior valor

In [None]:
df.SepalLengthCm.max()

### Menor valor

In [None]:
df.SepalLengthCm.min()

### Numero de elementos unicos

In [None]:
df.SepalLengthCm.nunique()

In [None]:
# Posso utilizar sempre estruturas built-in do python
len(set(df.SepalLengthCm))

### Desvio padrao

In [None]:
df.SepalLengthCm.std()

### Como criar novas colunas?

In [None]:
df['nova_coluna'] = df.SepalLengthCm + df.SepalWidthCm

In [None]:
df.head()

In [None]:
del df['nova_coluna']
df.head()

### Como filtrar dados em um dataset

In [None]:
df[df['Species'] == 'Iris-setosa'].count()

In [None]:
df['Species'] == 'Iris-setosa'

### Analises feitas somente nos dados filtrados

In [None]:
df[df['Species'] == 'Iris-setosa'].SepalLengthCm.mean()

In [None]:
df.SepalLengthCm.mean()

### Analise grafica

#### Box Plot

Nota-se o quao simples eh gerar um grafico a partir da propria biblioteca pandas

In [None]:
df.boxplot()

#### Pontos de analise de um box plot

1) Mediana: A linha no centro da caixa representa a mediana, que indica o valor central dos dados. Uma mediana mais próxima do centro da caixa indica uma distribuição simétrica.

2) Quartis: A caixa do box plot representa o intervalo interquartil (IQR), que é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1). Ele contém o meio 50% dos dados. Quanto maior a extensão da caixa, maior é a dispersão dos dados.

3) Whiskers: As linhas que se estendem a partir da caixa são os "whiskers" e mostram a extensão dos dados. Eles podem ser calculados de diferentes maneiras. Uma opção comum é estender até 1,5 vezes o IQR a partir da caixa. Valores fora desses limites são considerados "outliers" e são representados como pontos separados.

4) Outliers: Os pontos individuais além dos whiskers são chamados de outliers. Eles representam valores que estão significativamente distantes dos demais. É importante investigar a presença de outliers, pois eles podem indicar valores incomuns ou erros nos dados.

#### Scatter plot

No caso de um problema de classificacao o scatter plot ou grafico de dispersao eh muito utilizado para ver quais variaveis sao capazes de separar os diferentes grupos.
Eh interessante que meu modelo seja capaz de fazer predicoes corretas com o menor numero de entradas (variaveis possivel) tendo em vista diminuir o custo computacional.

In [None]:
sns.pairplot(df,hue='Species')
plt.legend()

Eh possivel tirar algumas conclusoes  desse grafico:

- Provavelmente a entrada SepalWidthCm nao eh capaz de separar os grupos de especies.
- PetalWidthCm e PetalLengthCm sao boas candidatas para serem usadas em nosso modelo de classificacao.

### Conclusao:

Vamos construir um modelo capaz de predizer a especie de iris a partir das dimensoes de Sepala e Petala, baseado na analise grafica vamos usar apenas duas entradas, PedalWidthCm e PetalLengthCm

Para este exercicio vamos usar o modelo KNN (k-Nearest Neighbors). 
De onde vem esse modelo? -> scikit-learn, a biblioteca mais utilizada quando o assunto eh machine learning em python

In [None]:
knn = KNeighborsClassifier(n_neighbors=5) # Por default analisa-se 5 vizinhos

# Dado um conjunto de dados, preciso de um conjunto de treino e um conjunto de teste
# Dividir o dataset entre entradas (features) e saida (target)
X = df[['PetalWidthCm', 'PetalLengthCm']]
y = df['Species']

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Treinamento do modelo

In [None]:
knn.fit(X_train, y_train)

### Fazendo predicoes

In [None]:
y_predict = knn.predict(X_test)

### Analise dos resultados

In [None]:
# Create a confusion matrix
cm = confusion_matrix(y_test, y_predict)

# Create a heatmap of the confusion matrix
# '0: Iris-setosa', '1: Iris-versicolor', '2: Iris-virginica'
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.xlabel("Predicted")
plt.ylabel("Actual")
plt.title("Confusion Matrix")
'0: Iris-setosa', '1: Iris-versicolor', '2: Iris-virginica'
plt.show()