# Aula 3: Matplotlib e Seaborn

Na aula de hoje veremos as bibliotecas `matplotlib` e a `seaborn`, que são usadas para visualização de dados e tratamento de imagens. No nosso curso, focaremos apenas em visualização dos dados contidos nos *dataframes*. Essas bibliotecas podem ser instaladas com a ajuda do `pip`:
```
pip install matplotlib seaborn
```
Mais informações das bibliotecas podem ser encontradas no site de ambas:
 > https://matplotlib.org/
 
e

> https://seaborn.pydata.org/

A `matplotlib` é uma biblioteca gigantesca; por isso, fazer alguns gráficos simples pode virar uma tarefa muito complicada. Aí que entra a biblioteca `seaborn`, que permite visualizações muito bonitas sem cógigos muito complexos.

## Importando as bibliotecas

Como sempre, começamos importando as bibliotecas. No caso usaremos o `numpy`, `pandas` e o módulo `pyplot` da biblioteca `matplotlib`:

In [None]:
import numpy as np
import pandas as pd
import datetime as dt
import matplotlib.pyplot as plt

Para que os gráficos apareçam no *output* do Jupyter, usamos o seguinte código:

In [None]:
%matplotlib inline

# ESTILO
from matplotlib import style
plt.style.use('ggplot')

## Gráficos a partir de DataFrames e Séries

O `pandas` conversa muito bem com a `matplotlib` e vice-versa. Podemos criar gráficos a partir de dataframes e séries com métodos desses objetos: 

In [None]:
pbr = pd.read_csv('PBR.csv', index_col=0)

In [None]:
pbr.index = pd.to_datetime(pbr.index)

In [None]:
type(pbr)

In [None]:
pbr.Open.plot() 

### Tipo do gráfico 

O método `.plot()` pode receber um parâmetro `kind` que especifica o tipo de gráfico a ser realizado. Podemos escolher entre:
 - `scatter` gráfico pontilhado;
 - `'line'`: para gráficos de linha;
 - `'bar'`: para gráficos de barras verticais;
 - `'barh'`: para gráficos de barras horizontais;
 - `'hist'`: histogramas;
 - `'pie'`: gráfico de pizza; entre outros. 
 
 Cada um dos tipos de gráfico exige um tipo de parâmetros. 

In [None]:
pbr[['Open','Close']].plot(kind='line')

In [None]:
imoveis = pd.read_csv('imoveis_Rio_de_Janeiro.csv',sep=';')

In [None]:
imoveis.head()

In [None]:
imoveis.plot(kind='scatter', x='condominio',y='pm2')

In [None]:
imoveis.quartos.plot(kind='hist')

Podemos especificar a cor que cada coluna deve ter no gráfico. No caso, passamos o parâmetro `'color'` do método `.plot()` como uma lista de cores:

In [None]:
pbr[['Open','Close']].plot(kind='line',color=['blue','red'])

In [None]:
imoveis.groupby('bairro')['pm2'].mean().to_frame().plot(kind='bar', rot=0, legend=False)

In [None]:
turista.info()

In [None]:
continente = turista.groupby('Continent')['Count'].sum().sort_values()

In [None]:
continente.plot(kind='bar')

In [None]:
tips = pd.read_csv('tips.csv')
tips.head()

### Título do gráfico e nome dos eixos x e y

Um dos parâmetros do método `.plot()` é `title` que recebe uma *string* e aloca um título para o gráfico.

In [None]:
pbr['Close'].plot(kind='line',title='Gráfico do Close para PBR')

### Exercícios

Em cada exercício abaixo, adicione o título do gráfico e mude os *labels* dos eixos.

__Exercício 1:__ Usando o dataframe **tips**,  faça um gráfico do tipo *scatter* com `total_bill` no eixo x e `tip` no eixo y. 

__Exercício 2:__ Calcule a média de gorjeta por sexo e guarde-as em um dataframe. Faça um gráfico de pizza com os resultados.

### *Axes*

O retorno de uma execução correta do método `.plot()` é um *axes* do matplotlib (um objeto do tipo `matplotlib.axes._subplots.AxesSubplot`).  

In [None]:
type(pbr.Open.plot())

Manipulando métodos e atributos dos *axes* é possível adicionar informação ao gráfico e melhorar a visualização.

In [None]:
ax = imoveis.plot(kind='scatter',x='condominio',y='pm2',color='DarkGreen',marker='+', s=60)
titulo = r'Scatterplot: condominio x preço por $m^2$'
nome_x = r'condomínio'
nome_y = r'preço por $m^2$'
ax.set(title=titulo, xlabel=nome_x,ylabel=nome_y)

Podemos usar o *axes* gerado para adicionar mais gráficos:

In [None]:
start = dt.datetime(2018,1,1)
end = dt.datetime(2018,5,1)
pbr2 = pbr.loc[(pbr.index > start) & (pbr.index < end)]

In [None]:
ax = pbr2.Close.plot(kind='line',color='blue', legend=True)
pbr2.Open.plot(kind='line',ax=ax, color='red', legend=True)
ax.set(title='PBR Close e Open',xlabel='Datas',ylabel='Preço em US$')
ticks = pd.date_range(start=start, end=end, periods=10)
ax.set_xticks(ticks)

In [None]:
turista.head()

In [None]:
ax = turista.groupby('Continent')['Count'].sum().sort_values().plot(kind='bar')
ax.ticklabel_format(axis='y', style='plain')

### Exercícios

Em cada exercício abaixo, adicione o título do gráfico e mude os *labels* dos eixos.

__Exercício 3:__ Com o dataframe tourists, faça um gráfico de pizza da soma das contagens de cada continent de origem. Faça um de barra para o estado de chegada. Use notação normal para os valores.

__Exercício 4:__ Do dataframe urban-population, crie uma série com os dados do Brasil e use o método `.iloc` para eliminar os dados desnecessários. Faça um gráfico mostrando a evolução da população urbana brasileira em função do tempo.

## Gráficos gerais

In [None]:
#Criando array sequencial de 0 a 10
lista = np.arange(0,10)
quad = lista **2

In [None]:
plt.scatter(x=lista,y=quad)

In [None]:
x = np.linspace(0,2*np.pi,1000)
seno = np.sin(x)
cos = np.cos(x)
plt.plot(x,seno)
plt.plot(x,cos)

### Figuras e *axes*



In [None]:
#mudando tamanho e titulo
figure = plt.figure(figsize=(20,10))
plt.title("Função Seno")
plt.plot(seno)
plt.plot(seno*-1)

In [None]:
#tando nomes Label x e y
figure = plt.figure(figsize=(20,10))
plt.title("Função Seno")
plt.plot(seno)
plt.plot(seno*-1)
plt.xlabel("Eixo X")
plt.ylabel("Eixo Y")

In [None]:
#mudando mudando cor, e colocando pontos e font
figure = plt.figure(figsize=(20,10))
plt.title("Função Seno", fontsize=18)
plt.plot(seno,color='green',marker='o')
plt.plot(array*10,seno*-1,'r--')

## Subplots

In [None]:
# Criando os subplots
fig, axes = plt.subplots(ncols=2,nrows=3)

In [None]:
# Adicionando os eixos
fig, axes = plt.subplots(ncols=2,nrows=2)
axes[0,0].plot(x, c='b')
axes[0,1].scatter(x=imoveis.pm2,y=imoveis.condominio,marker='d', color='red', s=10)
axes[1,0].plot(x,x**2, c='purple')
axes[1,1].plot(pbr.Volume,color='green')


In [None]:
# Espaçamento entre os axes
fig, axes = plt.subplots(ncols=2,nrows=2, figsize=(12,8))
axes[0,0].plot(x, c='b')
axes[0,1].scatter(x=imoveis.pm2,y=imoveis.condominio,marker='d', color='red', s=10)
axes[1,0].plot(x,x**2, c='purple')
pbr2.Volume.plot(kind='line',color='green',rot=90,ax=axes[1,1])
plt.subplots_adjust(wspace=0.2, hspace=0.7) # ESPAÇAMENTO ENTRE OS SUBPLOTS
axes[1,1].ticklabel_format(axis='y', style='plain') # FORMATA EM CIENTÍFICO OU COMUM
axes[1,1].set_xticks(ticks) # ARRUMA OS TICKS DO PLOT

__Exercício 5:__ Escolha um intervalo de datas e recorte o dataframe pbr nesse período. Crie um gráfico em subplots para esse dataframe com as colunas `Open`, `Close`, `High` e `Low`. Dê os títulos a cada subgráfico, o título geral da figura com o intervalo escolhido, os *labels* para os eixos e arrume os *ticks* das datas se necessário. 

In [None]:
fig, axes = plt.subplots(ncols=2,nrows=2, figsize=(12,6)) 
#fig.set_figheight(6)
#fig.set_figwidth(12)
pbr.Open.plot(kind='line', ax=axes[0,0], title='Open', color='green')
pbr.Close.plot(kind='line', ax=axes[0,1], title='Close', color='orange')
pbr.High.plot(kind='line',ax=axes[1,0], title='High', color='Blue')
pbr.Low.plot(kind='line',ax=axes[1,1],title='Low', color='red')
plt.subplots_adjust(wspace=0.1, hspace=0.7)