# <span style="color:red">Iris </span>Dataset.
>O Iris Dataset pode ser baixado no [link](https://archive.ics.uci.edu/ml/datasets/iris)
- - -
<span style="color:purple">Desenvolvido por </span>:**Leonardo Goshi Sanches**
- - -

- Este notebook tem como objetivo buscar o Dataset, formatar e verificar a necessidade de tratamento dos dados.

- A descrição e representação visual das colunas encontram-se no final deste notebook.

- Por tratar-se de um dataset "clássico" na ciência de dados, este também encontra-se disponível no próprio *sklearn*.

In [6]:
from sklearn import datasets
import pandas as pd
import pprint

iris = datasets.load_iris() #Busca o dataset IRIS

## <span style="color:red">1.</span> Transformando em DataFrame
- - -
Utilizando o dataset disponibilizado pelo *sklearn*, é necessário um pequeno ajuste para o formato de DataFrame.

Note que:

1. **data**: são os dados da IRIS com suas respectivas colunas.
2. **target**: são as classes de cada amostra. Para obter o nome real de cada classe faz-se o mapeamento dos valores.

In [3]:
data = pd.DataFrame(iris['data'], columns=iris['feature_names'])
target = pd.DataFrame(iris['target'], columns=['target'])
dict_names = {0:iris['target_names'][0], 1:iris['target_names'][1], 2:iris['target_names'][2]}
target['target_names'] = target.replace(dict_names)

### <span style="color:red">1.1.</span> Verificando o conteúdo dos dataframes

In [4]:
data.sample(15)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
48,5.3,3.7,1.5,0.2
5,5.4,3.9,1.7,0.4
21,5.1,3.7,1.5,0.4
18,5.7,3.8,1.7,0.3
109,7.2,3.6,6.1,2.5
23,5.1,3.3,1.7,0.5
144,6.7,3.3,5.7,2.5
70,5.9,3.2,4.8,1.8
6,4.6,3.4,1.4,0.3
2,4.7,3.2,1.3,0.2


In [5]:
target.sample(15)

Unnamed: 0,target,target_names
50,1,versicolor
74,1,versicolor
41,0,setosa
98,1,versicolor
140,2,virginica
4,0,setosa
102,2,virginica
101,2,virginica
133,2,virginica
45,0,setosa


### <span style="color:red">1.2.</span> Informações do Dataset
- - -
A amostragem não contém valores nulos e estão todos no formato de interesse.

Os dois primeiros outputs mostram a contagem de valores não-nulos e o tipo do dado. Por fim, a contagem das classes mostram que o dataset está bem balanceado.

In [57]:
print(data.info())
print(target.info())
print("\n Contagem de Classes: \n",target.value_counts())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   target        150 non-null    int64 
 1   target_names  150 non-null    object
dtypes: int64(1), object(1)
memory usage: 2.5+ KB
None

 Contagem de Classes: 
 target  target_names
0       setosa          50
1       versicolor      50
2       virginica       50
dtype: int64


### <span style="color:red">1.3.</span> Descrição das colunas
 - - -
 
Note que:

> **Sepal Length** (Comprimento da Sépala): Tem valores entre 4.3 e 7.9

> **Sepal Width** (Largura da Sépala): Varia entre 2.0 e 4.4

> **petal length** (Comprimento da Pétala) : Tem valores entre 1 e 6.9

> **petal width** (Largura da Pétala): Varia entre 0.1 e 2.5

In [48]:
data.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


### <span style="color:red">1.4.</span> Descrição do dataset
- - -
A descrição do dataset é proveniente do próprio *sklearn*, aqui mostra-se a descrição das colunas, alguns valores estatísticos e as referências.

In [53]:
print(iris['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

### <span style="color:red">1.5.</span> Sobre a amostragem
- - -

As colunas de **data** são referentes ao tamanho das Pétalas e Sépalas, como exemplificado na imagem a seguir

![iris](https://kedro.readthedocs.io/en/stable/_images/iris_measurements.png)
- - -

Já as classes encontradas em **target** são referentes ao tipo da flor, como mostra a imagem abaixo:

![iris2](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Machine+Learning+R/iris-machinelearning.png)
