<a href="https://colab.research.google.com/github/Flaviaestat/Phyton/blob/master/introducaoML_pandas_respostas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução a Machine Learning e ferramentas

## Introdução

Nós estaremos usando o conjunto de dados chamado Íris para este tutorial. Este é um conjunto de dados bem conhecidos contendo espécies de íris e medidas de sépala e pétala. Os dados que usaremos estão em um arquivo chamado `Iris_Data.csv`.

In [0]:
import os

## Questão 1

Carregue os dados do arquivo usando as técnicas aprendidas hoje. Examine-os.

Determine o seguinte:

* O número de pontos de dados (linhas). (* Dica: * confira o atributo do dataframe `.shape`.)
* Os nomes das colunas. (* Dica: * confira o atributo do dataframe `.columns`).
* Os tipos de dados para cada coluna. (* Dica: * confira o atributo `.dtypes` do dataframe.)

In [0]:
import numpy as np
import pandas as pd

filepath = 'Iris_Data.csv'
print(filepath)
data = pd.read_csv(filepath)
data.head()

In [0]:
# Número de linhas
print(data.shape[0])

# Nome das colunas
print(data.columns.tolist())

# Tipo dos dados
print(data.dtypes)


## Questão 2

Examine os nomes das espécies e observe que todos começam com 'Iris'. Remova essa parte do nome para que o nome da espécie seja menor. 

* Dica:  existem várias maneiras de fazer isso, mas você pode usar o [string processing methods](http://pandas.pydata.org/pandas-docs/stable/text.html) ou o [apply method](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.apply.html).

In [0]:
# O método str mapeia a seguinte função para cada entrada como uma string
data['species'] = data.species.str.replace('Iris-', '')
# alternativamente
# data['species'] = data.species.apply(lambda r: r.replace('Iris-', ''))

data.head()

## Questão 3

Determine o seguinte:
* O número de cada espécie presente. (* Dica: * confira o método `.value_counts` da série.)
* A média, mediana e intervalos (max-min) para cada medição de pétala e sépala.

* Dica: para a última pergunta, o método `.describe` tem mediana, mas não é chamado de mediana.

In [0]:
#Estudante escreve código aqui
data['species'].value_counts()

In [0]:
print(data.describe())

## Questão 4

Calcule o seguinte ** para cada espécie ** em um dataframe separado:

* A média de cada medição (sepal_length, sepal_width, petal_length e petal_width).
* A mediana de cada uma dessas medições.

* Dica: * você pode usar o método Pandas [`groupby`] (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html) para agrupar por espécies antes de calcular o estatística.

Se você concluir ambos, tente calcular as duas estatísticas (média e mediana) em uma única tabela (ou seja, com uma única chamada groupbyby). Veja a seção da documentação do Pandas sobre [applying multiple functions at once](http://pandas.pydata.org/pandas-docs/stable/groupby.html#applying-multiple-functions-at-once) para uma dica.


In [0]:
# O cálculo da média
data.groupby('species').mean()

In [0]:
# O cálculo da mediana
data.groupby('species').median()

In [0]:
# aplicação de múltiplas funções de uma só vez - 2 métodos

data.groupby('species').agg(['mean', 'median'])  # passando uma lista de strings reconhecidas
data.groupby('species').agg([np.mean, np.median])  # passando uma lista de funções de agregação explícitas

## Question 5

Make a scatter plot of `sepal_length` vs `sepal_width` using Matplotlib. Label the axes and give the plot a title.

In [0]:
import matplotlib.pyplot as plt
%matplotlib inline

In [0]:
# Um simples gráfico de dispersão com o Matplotlib
ax = plt.axes()

ax.scatter(data.sepal_length, data.sepal_width)

# Label the axes
ax.set(xlabel='Sepal Length (cm)',
       ylabel='Sepal Width (cm)',
       title='Sepal Length vs Width');

## Question 6

Make a histogram of any one of the four features. Label axes and title it as appropriate. 

In [0]:
#Estudante escreve código aqui

In [0]:
plt.hist(data.sepal_length, bins=25)
plt.xlabel('x')
plt.ylabel('y')

## Questão 7

Agora crie um único gráfico com histogramas para cada característica (`petal_width`,` petal_length`, `sepal_width`,` sepal_length`) sobreposta.

Para obter algumas dicas sobre como fazer isso com os métodos de plotagem do Pandas, confira [visualization guide](http://pandas.pydata.org/pandas-docs/version/0.18.1/visualization.html) para Pandas.

In [0]:
import seaborn as sns

sns.set_context('notebook')

# Isso usa o método `.plot.hist`
ax = data.plot.hist(bins=25, alpha=0.5)
ax.set_xlabel('Size (cm)');

## Questão 8

Usando Pandas, faça um boxplot de cada pétala e medição de sépala. Aqui está a documentação para [Pandas boxplot method](http://pandas.pydata.org/pandas-docs/version/0.18.1/visualization.html#visualization-box).

In [0]:
#Estudante escreve código aqui

color = dict(boxes='DarkGreen', whiskers='DarkOrange',medians='DarkBlue')

data.plot.box(color=color, sym='r+')

## Questão 9

Agora faça um único boxplot onde as características são separadas no eixo x as espécies são coloridas com matizes diferentes.

* Dica: * você pode querer verificar a documentação para [Seaborn boxplots](http://seaborn.pydata.org/generated/seaborn.boxplot.html). 

Note também que o Seaborn é muito exigente quanto ao formato dos dados - para este gráfico funcionar, o dataframe de entrada precisará ser manipulado para que cada linha contenha um único ponto de dados (uma espécie, um tipo de medição e o valor de medição). Confira os métodos do pandas como ponto de partida [stack](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.stack.html).

Aqui está um exemplo de um formato de dados que funcionará:

|   | species | measurement  | size |
| - | ------- | ------------ | ---- |
| 0	| setosa  | sepal_length | 5.1  |
| 1	| setosa  | sepal_width  | 3.5  |

In [0]:
# Primeiro temos que reformular os dados para que haja apenas uma única medida em cada coluna

plot_data = (data
             .set_index('species')
             .stack()
             .to_frame()
             .reset_index()
             .rename(columns={0:'size', 'level_1':'measurement'})
            )

plot_data.head()

In [0]:
# Agora traçar o dataframe a partir de cima usando Seaborn

sns.set_style('white')
sns.set_context('notebook')
sns.set_palette('dark')

f = plt.figure(figsize=(6,4))
sns.boxplot(x='measurement', y='size', 
            hue='species', data=plot_data);

## Questão 10

Faça um [pairplot](http://seaborn.pydata.org/generated/seaborn.pairplot.html) com Seaborn para examinar a correlação entre cada uma das medições.

*Dica: * este enredo pode parecer complicado, mas na verdade é apenas uma única linha de código. Este é o poder do Seaborn e da plotagem consciente do dataframe! Veja as notas das palestras para referência.

In [0]:
#Estudante escreve código aqui

In [0]:
sns.pairplot(data)