# Módulo 4 - Técnicas de Programação II
## Aula 1
- Cronograma
- Introdução
- Gráficos com Pandas

### Cronograma
  
* 15/07: Introdução, Gráficos com Pandas
* 18/07: Gráficos com Pandas + Exercícios
* 20/07: Matplotlib
* 22/07: Seaborn
* 25/07: Plotly
* 27/07: Plotly
* 29/07: Streamlit
* 01/08: Apresentação Projeto
* 03/08: Avaliação por rubrica

### Introdução

Gráficos são representações visuais dos dados, que buscam facilitar o entendimento dos mesmos. Podem ser muito úteis na identificação de variáveis importantes para uma modelagem ou tomada de decisão.


**Tipos de gráficos mais usuais:**
- **Scatter plot (ou gráfico de dispersão):**
Dadas duas variáveis X e Y, cada observação (par de valores (x,y)) é representado por um ponto no gráfico. Na imagem abaixo, uma observação (x,y) = (4,5) é representada pelo X vermelho.
<img src="./images/img_scatterplot_editada.png" alt="Drawing" style="width: 500px;"/>

- **Gráfico de linhas:**
O gráfico de linhas é muito utilizado quando estamos querendo encontrar tendências de um conjunto de variáveis. No geral, a variável alocada no eixo horizontal representa categorias ordinais, geralmente temporais (como por exemplo: meses, anos, dias, semanas, lotes em ordem de fabricação etc). Para construí-lo, primeiro aplica-se um gráfico de dispersão dessas variáveis, e depois unem-se os pontos por linhas, como mostra a imagem abaixo. Podemos imaginar que cada categoria é um lote de produção de uma mercadoria (em que o lote 1 foi produzido antes do lote 2, e assim por diante), e no eixo vertical, têm se a quantidade vendida de cada lote. Ainda, há 3 séries representadas por cores, que podem representar, por exemplo, três clientes diferentes que adquiriram as mercadorias.
<img src="./images/grafico_linhas.jpg" alt="Drawing" style="width: 500px;"/>

- **Gráfico de pizza/Pie plot (ou gráfico de setores):**
Este gráfico tem como objetivo representar um valor relativo de cada categoria em relação a um todo. Exemplo: de todo o lucro de uma empresa revendedora de aparelhos celular, quantos porcento são relativos a cada marca de produto comercializado.
<img src="./images/grafico_pizza.png" alt="Drawing" style="width: 400px;"/>

- **Gráfico de barras (horizontal e vertical):**
Um gráfico de barras é uma forma de visualização de dados categóricos, em que cada categoria é representada por uma barra, cujo tamanho representa sua frequência/quantidade de observações. Pode ser representado de forma vertical (conhecido também como gráfico de colunas) ou de forma horizontal (em que o gráfico parece "deitado". No exemplo abaixo, o mesmo conjunto de dados é representado das duas formas. 

Observação: Aqui, os valores "1", "2" e "3" das barras representam categorias, e não uma variável contínua.
<img src="./images/grafico_barras.png" alt="Drawing" style="width: 500px;"/>

- **Histograma:** 
Um histograma é muito parecido com um gráfico de barras, e possui a mesma ideia: cada coluna representa uma frequência/quantidade. Entretanto, o eixo horizontal deste tipo de gráfico é uma variável contínua, e a ideia é observar a distribuição das observações desta variável. Exemplos de perguntas que podemos estar tentando responder ao analisar esse tipo de gráfico, são: "quais são os valores mais frequentes nessa variável contínua?" e "Qual a probabilidade de uma nova observação ter determinado valor?"

Para se construir as barras deste gráfico, a variável contínua é agrupada em intervalos, e o tamanho da barra representa o número de observações que possuem valores dentro deste intervalo. É comum encontrar histogramas com um traço linear ligando o topo dessas barras pelo meio, de forma a facilitar a identificação de uma distribuição estatística.
<img src="./images/histograma.png" alt="Drawing" style="width: 500px;"/>

- **Box-Plot:**
Os box-plot, assim como os histogramas, são gráficos estatísticos que permitem analisar uma distribuição dos dados, mas com uma representação diferente. Apesar de muito utilizados por estatísticos e cientistas de dados, a maioria das pessoas que não estão acostumadas a eles, têm dificuldade em interpretá-los. 

A representação do box-plot se baseia em medidas de quartis: uma caixinha central é desenhada ligando o primeiro (Q1) e terceiro (Q3) quartis (25% e 75%, respectivamente), e uma reta corta essa 'caixa' no quartil central (Q2 = 50%). Na parte inferior e superior do gráfico, é traçada uma reta de tamanho máximo 1.5xIQ, em que IQ = Q3-Q1. Essa reta é traçada até o último valor da variável que ainda esteja dentro desse limite. Observações acima ou abaixo dele, são representadas por bolinhas, e muito chamadas de 'outliers' (valor atípico). Abaixo, uma representação dos componentes de um box-plot, e um gráfico exibindo box-plots das distribuições de temperaturas de diferentes cidades.
<img src="./images/boxplot2.png" alt="Drawing" style="width: 500px;"/>
<img src="./images/boxplot.png" alt="Drawing" style="width: 500px;"/>

## Gráficos com pandas

A biblioteca pandas, que estudamos no módulo 4, permite realizar alguns gráficos simples, baseados na biblioteca matplotlib. Vamos aprender a aplicá-los utilizando a base de dados do titanic como exemplo.  

**Documentação:** https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html

In [None]:
import pandas as pd
import numpy as np

df_size = pd.read_csv('./data/penguins_size.csv')

In [None]:
df_size.head()

In [None]:
df_size.info()

<img src="./images/culmen_depth.png" alt="Drawing" style="width: 350px;"/>
<img src="./images/fliper_lenght.jpg" alt="Drawing" style="width: 250px;"/>

### Gráfico de dispersão (scatter plot)

In [None]:
df_size.plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter');

In [None]:
df_size.plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter', s = 'flipper_length_mm', c = 'red');

#### Criando gráficos com filtros

In [None]:
df_size[df_size['sex'] == 'FEMALE'].head()

In [None]:
df_size[df_size['sex'] == 'FEMALE'].plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter');

In [None]:
df_size[df_size['sex'] == 'MALE'].plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter');

#### Unindo dois gráficos

In [None]:
ax1 = df_size[df_size.sex == 'FEMALE'].plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter', c = 'red',
                                           label='Femea', title='Dispersão das dimensões do bico')
ax2 = df_size[df_size.sex == 'MALE'].plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter', c = 'blue', ax=ax1,
                                         label='Macho', xlabel='Comprimento do bico', ylabel='Altura do bico')

#### Ajustando os labels

In [None]:
ax1 = df_size[df_size.sex == 'FEMALE'].plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter', c = 'red', label = 'Femea', )
ax2 = df_size[df_size.sex == 'MALE'].plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter', c = 'blue', label = 'Macho', 
                                ax=ax1)

ax1.set_xlabel('tamanho do bico')
ax1.set_ylabel('altura do bico')
ax1.set_title('Scatter plot - dimensões do bico');

In [None]:
df_size.plot(x='flipper_length_mm', y='culmen_depth_mm', kind='scatter');

#### Tamanho do gráfico

In [None]:
ax1 = df_size[df_size.sex == 'FEMALE'].plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter', c = 'red', label = 'Feminino', figsize=(12,6))
ax2 = df_size[df_size.sex == 'MALE'].plot(x='culmen_length_mm', y='culmen_depth_mm', kind='scatter', c = 'blue', label = 'Masculino', 
                                ax=ax1)


ax1.set_xlabel('Tamanho do bico')
ax1.set_ylabel('Altura do bico')
ax1.set_title('Scatter plot - dimensões do bico')
ax1.legend(loc='lower left', bbox_to_anchor = (1.05, 0.6));

## Gráfico de linhas

In [None]:
df_vendas = pd.DataFrame({'Mês' : ['Jan', 'Fev', 'Mar', 'Abr', 'Jan', 'Fev', 'Mar', 'Abr', 'Jan', 'Fev', 'Mar', 'Abr'],
                         'Quantidade' : np.random.randint(low=100, size=12),
                          'Veículo' : np.repeat(['HB20', 'Onix', 'Sandero'],4)})
df_vendas

In [None]:
df_vendas[df_vendas['Veículo'] == 'HB20'].plot(x='Mês', y='Quantidade');

In [None]:
ax1 = df_vendas[df_vendas['Veículo'] == 'HB20'].plot(x='Mês', y='Quantidade', c='green')
ax2 = df_vendas[df_vendas['Veículo'] == 'Onix'].plot(x='Mês', y='Quantidade', c='red', ax=ax1)
ax3 = df_vendas[df_vendas['Veículo'] == 'Sandero'].plot(x='Mês', y='Quantidade', c='blue', ax=ax1)

In [None]:
ax1 = df_vendas[df_vendas['Veículo'] == 'HB20'].plot(x='Mês', y='Quantidade', c='green', label = 'HB20')
ax2 = df_vendas[df_vendas['Veículo'] == 'Onix'].plot(x='Mês', y='Quantidade', c='red', ax=ax1, label = 'Onix')
ax3 = df_vendas[df_vendas['Veículo'] == 'Sandero'].plot(x='Mês', y='Quantidade', c='blue', ax=ax1, label = 'Sandero')

ax1.set_ylabel('Quantidade de veículos vendidos')
ax1.set_title('Vendas de veículos populares');

In [None]:
df_vendas.pivot(index='Mês', columns='Veículo', values='Quantidade')

In [None]:
df_vendas.pivot(index='Mês', columns='Veículo', values='Quantidade').plot(kind='line');

In [None]:
df_vendas['Mês'] = pd.Categorical(df_vendas['Mês'], categories=["Jan", "Fev", "Mar", "Abr"], ordered=True)
df_vendas.pivot(index='Mês', columns='Veículo', values='Quantidade')

In [None]:
df_vendas.pivot(index='Mês', columns='Veículo', values='Quantidade').plot(kind='line', ylabel='Quantidade', figsize=(10,5), color={'Onix': 'red', 'Sandero': 'blue', 'HB20': 'green'});

Inverter o eixo X

In [None]:
df_vendas[df_vendas['Veículo'] == 'HB20'].plot(x='Mês', y='Quantidade').invert_xaxis()

## Gráfico de pizza

In [None]:
df_vendas.groupby(['Veículo']).sum()

In [None]:
df_vendas.groupby(['Veículo']).sum().plot(y='Quantidade', kind='pie');

In [None]:
df_vendas.groupby(['Veículo']).sum().plot(y='Quantidade', kind='pie', autopct='%1.0f%%',
                                colors = ['red', 'pink', 'steelblue'], figsize=(10,5), labeldistance=None,
                                         title='Distribuição de vendas de carros populares');

In [None]:
df_vendas.pivot_table(index='Veículo', values='Quantidade', aggfunc='sum').plot(y='Quantidade', kind='pie');

In [None]:
df_vendas.pivot_table(index='Mês', values='Quantidade', aggfunc='sum')

In [None]:
df_vendas.pivot_table(index='Mês', values='Quantidade', aggfunc='sum').plot(y='Quantidade', kind='pie',
                                                                           labeldistance=None);

In [None]:
df_vendas.pivot(index='Mês', columns='Veículo', values='Quantidade')

In [None]:
df_vendas.pivot(index='Mês', columns='Veículo', values='Quantidade').plot(subplots=True, kind='pie', figsize=(20,10), 
                                                                      autopct='%1.0f%%', labeldistance=None);

In [None]:
df_vendas.pivot(index='Veículo', columns='Mês', values='Quantidade').plot(subplots=True, kind='pie', figsize=(25,20), 
                                                                      autopct='%1.0f%%', fontsize=25, labeldistance=None);

In [None]:
df_vendas.pivot(index='Veículo', columns='Mês', values='Quantidade').plot(subplots=True, kind='pie', figsize=(25,20), 
                                                                      autopct='%1.0f%%', fontsize=15, legend=None);

## Gráfico de barras

In [None]:
df_vendas.groupby('Veículo').sum().plot(kind='bar');

In [None]:
df_vendas.groupby('Mês').sum()

In [None]:
df_vendas.groupby('Mês').sum().plot(kind='bar', title='Vendas de veículos por mês', legend=None, ylabel='Quantidade de veículos');

#### Subplots

In [None]:
ax_bar = df_vendas.pivot(index='Mês', columns='Veículo', values='Quantidade').plot(subplots=True, kind='bar', figsize=(15,15), 
                                                                      fontsize=15, sharey=True);

#### Multiplotagem

In [None]:
ax_bar = df_vendas.pivot(index='Veículo', columns='Mês', values='Quantidade').plot(kind='bar', figsize=(25,15), 
                                                                      fontsize=15)

ax_bar.set_ylabel('Quantidade', fontsize=30)
ax_bar.set_xlabel('Veículo', fontsize=30);

In [None]:
pd.crosstab(index=df_vendas['Veículo'], columns=df_vendas['Mês'],values=df_vendas['Quantidade'], aggfunc='sum', normalize='index').plot(kind='bar', stacked=True);

In [None]:
ax_bar = df_vendas.pivot(index='Veículo', columns='Mês', values='Quantidade').plot(kind='bar', figsize=(15,5), 
                                                                      stacked=True, title = 'Vendas de veículos do primeiro quadrimestre')

ax_bar.set_ylabel('Quantidade', fontsize=10)
ax_bar.set_xlabel('Veículo')
ax_bar.legend(loc='upper left', fontsize=10);

#### Barras Horizontais

In [None]:
ax_bar = df_vendas.pivot(index='Veículo', columns='Mês', values='Quantidade').plot(kind='barh', figsize=(25,15), 
                                                                      fontsize=15)

ax_bar.set_xlabel('Quantidade', fontsize=20)
ax_bar.set_ylabel('Veículo', fontsize=20);

In [None]:
ax_bar = df_vendas.pivot(index='Veículo', columns='Mês', values='Quantidade').plot(kind='barh', figsize=(12,6), 
                         fontsize=15, stacked=True)

ax_bar.set_xlabel('Quantidade', fontsize=20)
ax_bar.set_ylabel('Veículo', fontsize=20);