# Introdução a Aprendizado de Máquina

## Introdução

Utilizaremos a base de dados iris para esse tutorial. Essa é uma base de dados bastante conhecida contendo medidas das pétalas e sépalas da flor de íris. Os dados estão contidos em um arquivo chamado `Iris_Data.csv` encontrado no diretório [data](data).

In [1]:
import os
data_path = ['data']

## Exercício 1

Carregue os dados do arquivo usando as técnicas do tutorial *Introduction_to_Machine_Learning_and_Toolkit*. Examine o arquivo.

Indique o seguinte:

* O número de pontos (linhas) (*Dica:* verifique o atributo `.shape` do dataframe.)
* O nome das colunas. (*Dica:* verifique o atributo `.columns` do dataframe.)
* Os tipos associados a cada coluna. (*Dica:* verifique o atributo `.dtypes` do dataframe.)

In [None]:
import pandas as pd

filepath = 'data'
data = pd.read_csv(filepath)

print(data.shape)
print(data.columns)
print(data.dtypes)

## Exercício 2

Examine os nomes das espécies e note que todas elas começam com 'Iris-'. Remova essa parte do nome para tornar o nome mais curto. 

*Dica:* tem várias maneiras de fazer isso, você pode usar o [string processing methods](http://pandas.pydata.org/pandas-docs/stable/text.html) ou o [apply method](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.apply.html), por exemplo.

In [None]:
import pandas as pd

filepath = 'data'
data = pd.read_csv(filepath)

data['species'] = (data.species.apply(lambda x: x.replace('Iris-', '')))

print(data)

## Exercício 3

Determine:
* A quantidade de cada espécie presente na base. (*Dica:* verifique o método `.value_counts` da série.)
* A média, mediana, quantis e faixas (máximo-mínimo) para cada medida de pétala e sépala.

*Dica:* para a última parte, o método `.describe` tem mediana, mas é chamada de *50%* quantile. `.describe` não tem faixa, portanto você precisará criar uma nova entrada na tabela com `max - min`.

In [None]:
import pandas as pd

filepath = 'data'
data = pd.read_csv(filepath)

print(data['species'].value_counts())
print(data['sepal.length'].mean())

## Exercício 4

Calcule **para cada espécie** em um dataframe separado:

* A média de cada medida (sepal_length, sepal_width, petal_length, e petal_width).
* A mediana dessas medidas.

*Dica:* você pode usar o método [`groupby`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html) do Pandas para agrupar as espécies antes de calcular as estatísticas.

Se você terminar ambos os cálculos, tente calcular a média e mediana em uma única tabela (com uma única chamada de groupby). Veja a seção da documentação [applying multiple functions at once](http://pandas.pydata.org/pandas-docs/stable/groupby.html#applying-multiple-functions-at-once) para algumas dicas.

In [None]:
In [78]: import pandas as pd
In [79]: filepath = 'C:/USers/julia/Documents/data/Iris_data.csv'
In [80]: data = pd.read_csv(filepath)
In [81]: dt1 = data['sepal_length']
In [82]: dt1.mean()
Out[82]: 5.843333333333335
In [83]: dt1.median()
Out[83]: 5.8
In [84]: dt2 = data['sepal_width']
In [85]: dt2.mean()
Out[85]: 3.0540000000000007
In [86]: dt2.median()
Out[86]: 3.0
In [87]: dt3 = data['petal_length']
In [88]: dt3.mean()
Out[88]: 3.7586666666666693
In [89]: dt3.median()
Out[89]: 4.35
In [90]: dt4 = data['petal_width']
In [91]: dt4.mean()
Out[91]: 1.1986666666666672
In [92]: dt4.median()
Out[92]: 1.3

## Exercício 5

Faça um scatter plot de `sepal_length` vs `sepal_width` usando Matplotlib. Coloque um `label` nos eixos e dê um título ao gráfico.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

filepath = 'data'
data = pd.read_csv(filepath)

x = data['sepal_length']
y = data['sepal_width']

plt.scatter(x, y)
plt.title('sepal_length vs sepal_width')
plt.xlabel('sepal_length')
plt.ylabel('sepal_width')
plt.show()

## Exercício 6

Faça um histograma de qualquer um dos quatro atributos. Nomeie os eixos e dê um título apropriado.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

filepath = 'data'
data = pd.read_csv(filepath)

plt.figure()
data['sepal_length'].plot.hist(alpha = 0.5)
plt.title('Frequencia do atributo sepal_length')
plt.xlabel('valore de sepal_length')
plt.show()

## Exercício 7

Agora crie um único gráfico com histogramas para cada atributo (`petal_width`, `petal_length`, `sepal_width`, `sepal_length`) sobrepostos. 

Dicas para fazer isso com os métodos de plotagem do Pandas se encontram em [visualization guide](http://pandas.pydata.org/pandas-docs/version/0.18.1/visualization.html).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

filepath = 'data'
data = pd.read_csv(filepath)

plt.figure()
data.plot.hist(alpha = 0.5)

## Exercício 8

Usando Pandas, faça um boxplot de cada medida da pétala e sépala. Veja a documentação para algumas dicas [Pandas boxplot method](http://pandas.pydata.org/pandas-docs/version/0.18.1/visualization.html#visualization-box).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

filepath = 'data'
data = pd.read_csv(filepath)

data.plot.box()

## Exercício 9

Agora faça um único boxplot onde os atributos estão separados no eixo-x e as espécies são coloridas por tons de cores diferentes.

*Dica:* veja a documentação para [Seaborn boxplots](http://seaborn.pydata.org/generated/seaborn.boxplot.html). 

Note que o Seaborn é bem exigente quanto ao formato dos dados--para esse plot funcionar, o dataframe de entrada precisa ser manipulado para que cada linha contenha um único ponto (uma espécie, um tipo de medida e um valor da medida). Veja o Pandas [stack](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.stack.html) como uma dica.

Um exemplo desse formato para essa base:

|   | species | measurement  | size |
| - | ------- | ------------ | ---- |
| 0	| setosa  | sepal_length | 5.1  |
| 1	| setosa  | sepal_width  | 3.5  |

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

filepath = 'data'
data = pd.read_csv(filepath)

iris = sns.load_dataset("iris")

ax = sns.boxplot(data = iris, orient = "h", palette = "Set3")

## Exercício 10

Faça um  [pairplot](http://seaborn.pydata.org/generated/seaborn.pairplot.html) com o Seaborn para examinar a correlação entre cada uma das medidas.

*Dica:* esse plot pode parecer complicado, mas é na verdade uma única linha de código. Esse é o poder de expressabilidade do Seaborn junto do Pandas.

In [None]:
import pandas as pd
import seaborn as sns

filepath = 'data'
data = pd.read_csv(filepath)

s = sns.pairplot(data)