# Análise Exploratória Dataset Iris

#### Um Breve resumo sobre o dataset:
<p> O dataset <i>Iris</i> consiste em um conjuto de dados que com 150 amostras dividido por diferentes espécies de <i>Iris</i> que veremos ao decorrer da análise </p>
<p>O objetivo principal do tabalho é o estudo de técnicas estatísticas e machine learning.</p>

## Importar Bibliotecas necessárias

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
sns.set() # Pega as configurações padrão do seaborn.

plt.rcParams["figure.figsize"] = [10, 5] #Aumentar tamanho das imagens

## Carregando e Entendendo os Dados

In [None]:
data_iris = pd.read_csv('../input/iris-dataset/iris.csv') 

data_iris.head()

In [None]:
#Checando mais informações:
data_iris.info()

In [None]:
data_iris.isna().sum()

Mudando os nomes dos atributos para um melhor entendimento do estudo.

In [None]:
colunas = {
    'sepal length': 'comprimento_sepala', 
    'sepal width': 'largura_sepala',
    'petal length': 'comprimento_petala',
    'petal width': 'largura_petala',
    'class': 'especies'
}
data_iris.rename(columns = colunas, inplace = True)

* A partir dessas informações vemos que a base tem um total de 150 linhas com 5 colunas.
* Vemos também os tipos dos atributos e que a base não contém nenhum valor nulo.
* Dicionário de dados:
    * comprimento_sepala - Indica o comprimento da sépala.
    * largura_sepala - Indica a largura da sépala.
    * comprimento_petala - Indica o comprimento da pétala.
    * largura_petala - Indica a largura da pétala.
    * especies - Indica a espécie.

In [None]:
# Analisando o atributo de estudo:
data_iris['especies'].unique()

In [None]:
data_iris['especies'].value_counts() # Contagem de valores contidos.

In [None]:
data_iris['especies'].describe()

In [None]:
plt.title('Contagem de Espécies')
hist_class = sns.histplot(data = data_iris['especies'], shrink=.6);
hist_class.set(xlabel=None)
hist_class.set(ylabel=None)
plt.show()

Percebemos que o atributo **class** é do tipo categórico e irá ser o nosso objeto de estudo.

In [None]:
data_iris.columns

In [None]:
#Análise dos outros atributos
data_iris.select_dtypes(float).describe()

In [None]:

ax = sns.boxplot(data = data_iris.select_dtypes(float))
ax.set_title('Boxplot', fontsize=20)
ax.set_xlabel('Espécies')
ax.set_ylabel('Contagem')
plt.show()

Sumarizando e visualizando o boxplot os atributos contínuos e tendo um *background* de conhecimento nas espécies, vemos que os dados fazem sentidos.
<p>Percebe-se que no atributo "largura_sepala", contém alguns <i>outliers</i>, vamos analisa-la.</p>

In [None]:
plt.figure(figsize=(5,2.5))
sns.boxplot(data = data_iris['largura_sepala'], showfliers = False);

<p>Pegando a ocorrência de outliers, analisaremos se é viável o tratamento do atributo em questão e para saber a ocorrência vamos calcular o limite inferior e superior do boxplot.</p>

In [None]:
# Calculo do 1° Quartil
q1 = data_iris['largura_sepala'].quantile(0.25)

# Calculo do 3° Quartil
q3 = data_iris['largura_sepala'].quantile(0.75)

# Calculo do Intervalo Interquartil
iqr = q3 - q1

# Calculando Limite inferior
li = q1 - 1.5*iqr

# Calculando limite superior
ls = q3 + 1.5*iqr

print(f'''
    -1°Quartil = {q1}, 3°Quartil = {q3}, Intervalo Interquartil = {iqr}.
    -Limite inferior = {li}, limite superior = {ls}
''')

In [None]:
# Contando outliers
data_iris.loc[(data_iris['largura_sepala'] > 4.05), 'largura_sepala'].count() + \
data_iris.loc[(data_iris['largura_sepala'] < 2.05), 'largura_sepala'].count()

Visto que o dataset contém 150, os outliers do atributo "sepal width", são irrelevantes.

#### Análisando com mais variáveis relacionadas

<p> Vamos fazer a comparação da largura e comprimento da sépala relacionada a espécie e posteriormente a comparação dos atributos da pétala com a espécie.</p> 

In [None]:
plt.figure(figsize=(12, 6))
ax = sns.scatterplot(data=data_iris, x="comprimento_sepala", y="largura_sepala", hue="especies")
ax.set_title('Comparação e análise entre comprimento e largura da sépala com as espécies', fontsize=15)
ax.set_xlabel('Comprimento da sépala')
ax.set_ylabel('Largula da sépala')
plt.show()

<p>A partir da análise do gráfico acima, vemos que a espécie iris-setosa tem uma largura maior, porém um comprimento menor que as demais espécies, a espécie iris-virginica tem maiores comprimentos e largura menor e a espécie iris-versicolor quando comparadas com as demais no quesito sépala fica praticamente no meio das outras duas espécies. </p>

<p> Vamos analisar os atributos relacionados a pétala para melhorar o entendimento. </p> 

In [None]:
plt.figure(figsize=(12, 6))
ax = sns.scatterplot(data=data_iris, x="comprimento_petala", y="largura_petala", hue="especies")
ax.set_title('Comparação e análise entre comprimento e largura da sépala com as espécies', fontsize=15)
ax.set_xlabel('Comprimento da pétala')
ax.set_ylabel('Largula da pétala')
plt.show()

A partir da análise do gráfico acima, vemos que a espécie iris-setosa tem comprimento e largura de pétala menor que as demais espécies, a espécie iris-virginica tem maiores comprimentos e larguras e a espécie iris-versicolor quando comparadas com as demais no quesito pétala fica praticamente no meio das outras duas espécies, porém com valores bem próximos a espécie iris-virginica.

# Análise por Classficação
<p>Já analisado e conhecido os dados, vamos realizar o objetivo principal de prever a espécie da flor com base em outros atributos disponíveis.</p>

In [None]:
# Mudando o tipo da coluna especies
data_iris['especies'] = data_iris['especies'].astype('category')

In [None]:
data_iris.corr()

In [None]:
corr = sns.heatmap (data_iris.corr(), cmap = 'Blues', annot = True)
corr.set_title('Gráfico de Correlação', fontsize = 15)
plt.show()

<p>Com o gráfico e a tabela acima, analisando somente os atributos, podemos dividir entre relações fortes e fracas.</p>
<p>
    <ol>
        <li>Relações fortes:</li>
        <ul>
            <li>comprimento_petala X comprimento_sepala.</li>
            <li>comprimento_petala X largura_petala.</li>
            <li>comprimento_sepala X largura_petala.</li>
        </ul>
        <li>Relações fracas:</li>
        <ul>
            <li>largura_sepala X largura_petala.</li>
            <li>largura_sepala X comprimento_petala.</li>
        </ul>
    </ol>
    Vamos enxergar graficamente essas disperções:
</p>

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(16,12))
sns.scatterplot(  x="comprimento_petala", y="comprimento_sepala", data=data_iris , ax=axes[0, 0]).set_title('comprimento_petala X comprimento_sepala')
sns.scatterplot(  x="comprimento_petala", y="largura_petala", data=data_iris , ax=axes[0, 1]).set_title('comprimento_petala X comprimento_petala')
sns.scatterplot(  x="comprimento_sepala", y="largura_petala", data=data_iris , ax=axes[1, 0]).set_title('comprimento_sepala X largura_petala')
sns.scatterplot(  x="largura_sepala", y="largura_petala", data=data_iris , ax=axes[1, 1]).set_title('largura_sepala X largura_petala')
sns.scatterplot(  x="largura_sepala", y="comprimento_petala", data=data_iris , ax=axes[0, 2]).set_title('largura_sepala X comprimento_petala')
plt.show()

Com o gráfico e tabela acima, podemos ver as relações entre as variáveis.

## Separando e dataset em treino e teste, preparando os modelos.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import metrics

treino, teste = train_test_split(data_iris, test_size=0.30, random_state=2021)

In [None]:
print(f'''Tamanho dataset: {data_iris.shape[0]},
Tamanho treino: {treino.shape[0]},
Tamanho teste: {teste.shape[0]}.''')

### Arvore de Decisão
Primeira técnica a ser utilizada, onde cria-se um modelo estruturado em árvore separando-a em classes com a representação de possíveis decisões que podem ou não ser tomadas.

In [None]:
#Biblioteca necessária
from sklearn.tree import DecisionTreeClassifier

In [None]:
# Separando o target do treino
columns_treino = treino.select_dtypes(float).copy()
target_treino = treino['especies'].copy()

columns_teste = teste.select_dtypes(float).copy()
target_teste = teste['especies'].copy()
# Utilizaremos os mesmos para os próximos métodos

Utilizaremos o dataset inteiro pois além de haver poucos dados, será feito uma **avaliação por validação cruzada**, cujo a própria biblioteca separa o dataset em diferentes amostras

In [None]:
classificador = DecisionTreeClassifier(criterion='entropy', random_state=1, max_depth=3)

classificador.fit(columns_treino, target_treino)

#### Predição:
<p>É uma das formas mais utilizadas para validar o quanto o modelo está conseguindo aprender e classificar os dados.</p>

In [None]:
pred = classificador.predict(columns_teste)
print(f'Predição: {pred[0:5]}',end='\n\n')

acuracia = metrics.accuracy_score(pred, target_teste)
print(f'A acurácia é de {acuracia}')

### Arvore de Decisão Aleatória (Random Forest)

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
classificador = RandomForestClassifier(n_estimators=100)

# Treinando o modelo
classificador.fit(columns_treino, target_treino)

#### Predição:

In [None]:
pred = classificador.predict(columns_teste)
print(f'Predição: {pred[0:5]}',end='\n\n')

acuracia = metrics.accuracy_score(pred, target_teste)
print(f'A acurácia é de {acuracia}')

### K-Nearest Neighbors (KNN)
K-vizinhos mais próximos

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn = KNeighborsClassifier(n_neighbors=1)

#treinando o modelo
knn.fit(columns_treino, target_treino)

In [None]:
pred = knn.predict(columns_teste)
print(f'Predição: {pred[0:5]}',end='\n\n')

acuracia = metrics.accuracy_score(pred, target_teste)
print(f'A acurácia é de {acuracia}')

# Conclusão
<p> A análise foi feita utilizando três metodos de classificação para o mesmo dataset, vimos que o <b>knn</b>.</p>

<p>Este projeto foi feito voltado para estudo e aplicação de técnicas relacionadas a <i>data science</i> e estatística utilizando a linguagem python.</p>