<a href="https://colab.research.google.com/github/ufrpe-bcc-ia/material-aulas/blob/master/aprendizagem_maquina/01_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

O pacote [pandas](https://pandas.pydata.org) é uma das ferramentas mais importantes para iniciar o estudo e aplicação de aprendizagem de máquina com Python. 

## O que é o Pandas?
O pandas é essencialmente a casa dos seus dados. Através dos pandas, você se familiariza com seus dados lendo, limpando, transformando e analisando.

Por exemplo, digamos que você queira explorar um conjunto de dados armazenado em um CSV no seu computador. O pandas automatiza o processo de leitura e extração de dados desse CSV para um DataFrame - basicamente, uma tabela - e permite que você faça coisas como:

- Calcule estatísticas e responda a perguntas sobre os dados, como
- Qual é a média, mediana, máximo ou mínimo de cada coluna?
- A coluna A está correlacionada com a coluna B?
- Como é a distribuição de dados na coluna C?
- Limpe os dados fazendo coisas como remover valores ausentes e filtrar linhas ou colunas por alguns critérios
- Visualize os dados com a ajuda do Matplotlib. Plotar barras, linhas, histogramas, bolhas e muito mais.
- Armazene os dados limpos e transformados de volta em um arquivo CSV, outro ou banco de dados

Antes de entrar na modelagem ou nas visualizações complexas, você precisa ter uma boa compreensão da natureza do seu conjunto de dados e o pandas é atualmente a melhor ferramenta gratuita para isso.

## Lendo / Baixando um csv
A função `read_csv` permite a leitura de arquivos locais e de arquivos remotos (URLs).

No exemplo abaixo, utilizaremos uma amostragem dos dados produzidos no estudo [Long-term monitoring and experimental manipulation of a Chihuahuan Desert ecosystem near Portal, Arizona, USA.](http://www.esapubs.org/archive/ecol/E090/118/default.htm)


In [None]:
import pandas as pd

url="../data/surveys.csv"
df=pd.read_csv(url, sep=',')

O arquivo contém um estudo de espécies capturadas na área estudada, incluindo o peso de cada animal. 
Os dados estão armazenados no formato CSV, estruturado em colunas, as quais contém informação acerca de um animal:

--------------------
| Coluna | Descrição| 
| :---: | :---: |
|record_id 	| Unique id da observação |
|month     	| Mês da observação |
|day   		| Dia da observação |
|year		| Ano da observação |
|plot_id	| ID do local |
|species_id	| 2-letter code |
|sex		| sexo do animal (“M”, “F”) |
|hindfoot_length	| comprimento do 'calcanhar'/*hindfoot* (?) mm |
|weight		|peso do animal em gramas |

## Imprimindo algumas linhas do Dataframe na tela 

In [None]:
print(df[0:3])

Como estamos utilizando o Jupyter, podemos usar o `display`:

In [None]:
display(df[0:3])

ou simplesmente acessar a variável contendo o dataframe:

In [None]:
df[0:3]

## Acessando uma coluna específica

In [None]:
df['hindfoot_length']

## Acessando uma (ou mais) linhas
## Pelo índice

In [None]:
df.loc[1]

### Por uma condição

In [None]:
df.loc[df['species_id'] == 'NL' ]

## Descrição geral do dataframe

In [None]:
df.describe(include='all')


## Head / Tail

In [None]:
# imprime as 5 primeiras linhas
df.head()

In [None]:
# imprime as 5 últimas linhas
df.tail()

## Visualizando a contagem de elementos

In [None]:
df['species_id'].value_counts()

## Plotando gráficos

In [None]:
%matplotlib inline

# gráfico de barras
df['species_id'].value_counts().plot(kind='bar', figsize=(15,5))

In [None]:
# histograma
df['weight'].plot(kind='hist', figsize=(15,5), bins=50)

## Boxplots
O Box Plot (também chamado de box e whisker plot) é um método alternativo ao histograma e ao ramo-e-folha para representar os dados.

O Box Plot fornece informação sobre as seguintes características do conjunto de dados: localização, dispersão, assimetria, comprimento da cauda e outliers (medidas discrepantes).

Embora o Boxplot forneça informação sobre localização e dispersão, seu verdadeiro valor está na informação que fornece sobre a cauda da distribuição.

Pontos desgarrados (Outliers) podem afetar de forma adversa as decisões a serem tomadas a partir da análise dos dados se não forem devidamente considerados.

In [None]:
# boxplot
df.loc[:,['sex','hindfoot_length']].boxplot(by='sex')

## Exercício 1

Plote um histograma da coluna `hindfoot_length`

## Exercício 2

Plote um gráfico de barras da coluna `sex`

# Explorando correlações

In [None]:
df.corr()

In [None]:
from pandas.plotting import scatter_matrix
scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal='kde')


## Funções de agregação
### Group By