# Análise Exploratória do Data Set

É interessante explorar alguns aspectos da base de dados antes de avançar com um modelo que produza os agrupamentos de plantas.

## Objetivos

- Carregar a base de dados
- Explorar alguns aspectos estatísticos
---

## Inicializando o Notebook e carregando as bibliotecas

A célula abaixo inicializa o ambiente no Google Drive e instala as bibliotecas necessárias neste notebook

In [1]:
# Preparando ambiente
from google.colab import drive
drive.mount('/content/gdrive')

%cd /content/gdrive/My Drive/Github/iris-clustering/

!pip install -q --upgrade plotly 
!pip install -q jupyter-dash


Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).
/content/gdrive/My Drive/Github/iris-clustering


In [2]:
# Carregando Bibliotecas
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

from plotly.subplots import make_subplots
from sklearn import datasets

# Carregando modulo local
import main

## Carregando o _Iris Dataset_

O dataset é tão famoso que algumas bibliotecas Python disponibilizam ele de forma nativa.

Vamos utilizar a biblioteca [Scikit-Learn](https://scikit-learn.org/stable/) para carregar a base de dados.

> As células abaixo inicializam o ambiente executando a montagem do sistema de arquivos do Google Drive e movendo o sessão para dentro do diretório onde os arquivos se encontram


In [3]:
iris = datasets.load_iris()
iris_data = pd.DataFrame(iris.data, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width'])

print("\n".join(iris.DESCR.splitlines()))

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [4]:
iris_data.describe().round(2)

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width
count,150.0,150.0,150.0,150.0
mean,5.84,3.06,3.76,1.2
std,0.83,0.44,1.77,0.76
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## Plotando as Características

Uma boa maneira de investigar as características do dataset é plotar algumas informações a respeito dele.

### Box Plot

Uma forma interessante de se observar a variância de cada uma das caracteristicas é utilizar o gráfico box plot.

In [5]:
fig = px.box(iris_data)

fig.update_xaxes(title_text='Característica')
fig.update_yaxes(title_text='cm')
fig.update_layout(title_text="Estatísticas das Características")

fig.show()

### Dispersão

Como as plantas possuem duas estruturas principais (pétalas e sépalas), agrupá-las em um gráfico de dispersão pode indicar possíveis grupos de plantas que compartilham características similares.

In [6]:
main.plot_caracteristicas(iris_data)