# Módulo 5 - Técnicas de Programação II
## Aula 4
- Gráficos com Plotly
- Exercícios

## Gráficos com Plotly
O módulo *plotly.express* (geralmente importado como px) contém funções que podem criar figuras inteiras de uma só vez e é chamado de Plotly Express ou PX. Plotly Express é uma parte interna da biblioteca plotly, e é o ponto de partida recomendado para a criação de figuras mais comuns. Cada função Plotly Express usa objetos de gráfico internamente e retorna uma instância plotly.graph_objects.Figure. Em toda a documentação de plotagem, você encontrará a maneira Plotly Express de construir figuras no topo de qualquer página aplicável, seguida por uma seção sobre como usar objetos de gráfico para construir figuras semelhantes. 
  
**Documentação**: https://plotly.com/python-api-reference/plotly.express.html

### Instalação
Caso não tenha instalado o pacote do **Plotly** ou está na dúvida, basta rodar o seguinte código:

In [None]:
!pip install plotly

### Import da biblioteca
  
Nos estudos referentes ao **Plotly** utilizaremos o submódulo *express*. Como padrão, damos o alias de *px*.

In [None]:
import plotly.express as px

Assim como foi feito no matplotlib, utilizaremos primeiramente exemplos didáticos com apenas duas listas de dados para exemplificarmos o uso das funções do pacote **plotly.express**.

In [None]:
x = [1, 2, 3, 4, 5 ,6]
y = [10, 5, 3, 4, 6, 8]
px.scatter(x,y)

Repare que para simplificar o trabalho o plotly já inicia com uma figura e área de desenho padrão, que você não precisa definir, e assim o código para gerar um gráfico pode ser simplesmente.  
Além disso, há diversas funcionalidades para interação com o gráfico plotado.

Vamos importar também outros pacotes padrões

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

## Scatter (dispersão)
**Documentação**: https://plotly.com/python-api-reference/generated/plotly.express.scatter

In [None]:
x = [1, 2, 3, 4, 5 ,6]
y = [10, 5, 3, 4, 6, 8]
z=['a', 'b', 'c', 'c', 'a', 'a']
px.scatter(x,y, color=z)

Importando o dataset dos pinguins

In [None]:
df_size = pd.read_csv('./data/penguins_size.csv')
df_size.head()

In [None]:
px.scatter(data_frame=df_size, x='body_mass_g', y='culmen_depth_mm')

Vamos utilizar o matplotlib para obter o mesmo gráfico e assim podermos comparar visualmente as diferenças.

In [None]:
plt.scatter(x=df_size['body_mass_g'], y=df_size['culmen_depth_mm']);

Nota-se que a diferença visual entre os gráficos é enorme, porém a sintaxe que os gera não se diferencia tanto.

Podemos alterar as cores dos marcadores através de alguma variável do próprio dataframe como por exemplo o sexo dos pinguins.  
  
Por padrão o parâmetro *color* do px.scatter necessita de uma das colunas do próprio dataframe para realizar a marcação em cores das categorias.

In [None]:
from sklearn import preprocessing

df_size.dropna(inplace=True)

In [None]:
px.scatter(data_frame=df_size, x='body_mass_g', y='culmen_depth_mm', color='sex')

Estilizando o gráfico.

In [None]:
px.scatter(data_frame=df_size, x='body_mass_g', y='culmen_depth_mm', color='sex')

## Linhas
**Documentação**: https://plotly.com/python-api-reference/generated/plotly.express.line

In [None]:
df_supermarket = pd.read_csv('.\data\supermarket_sales.csv')
df_supermarket.head()

In [None]:
df_supermarket.info()

In [None]:
df_supermarket['Date'] = pd.to_datetime(df_supermarket['Date'])

In [None]:
px.line(df_supermarket, 'Date', 'Total')

In [None]:
df_total=df_supermarket.pivot_table(index='Date', values='Total', aggfunc='sum')
px.line(x=df_total.index, y=df_total['Total'])

**No mesmo Eixo**

In [None]:
df_payment=df_supermarket.pivot_table(index='Date', columns='Payment', values='Total', aggfunc='sum')
px.line(df_payment)

Podemos estilizar o gráfico

In [None]:
df_payment=df_supermarket.pivot_table(index='Date', columns='Payment', values='Total', aggfunc='sum')
fig=px.line(df_payment, title='Vendas no supermercado por meio de pagamento')

fig.update_layout(xaxis_title=None,
    yaxis_title="Valor total vendido",
    legend_title="Método de Pagamento",
    title={
        'y':0.85,
        'x':0.3,
        'font_family': 'Times New Roman',
        'font_color': 'black'
    })


**Em vários eixos**  
Para realizar o plot do gráfico acima, porém agora em três gráficos separados, o Plotly Express possui um parâmetro chamado *facet_col* e *facet_row* cujas funções é manter os gráficos em face com outros, seja pela linha (horizontal), seja pela coluna (vertical). Estes parâmetros necessitam de alguma coluna do DataFrame da qual será separado o gráfico, de forma semelhante como é feito utilizando o parâmetro color.

In [None]:
px.line(df_payment, facet_col='Payment')

Agora um exemplo do uso do *facet_row*, ou seja, uso dos gráficos em face horizontalmente.

In [None]:
fig=px.line(df_payment, facet_row='Payment', markers=True)

fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))
fig.update_layout(legend_title="Método de Pagamento")

## Pizza
**Documentação**: https://plotly.com/python-api-reference/generated/plotly.express.pie

In [None]:
df_pizza=df_supermarket.pivot_table(index='Branch', values='Quantity', aggfunc='sum')
df_pizza

In [None]:
fig=px.pie(names=df_pizza.index)

fig.show()

## Barras
**Documentação**: https://plotly.com/python-api-reference/generated/plotly.express.bar.html

In [None]:
df_bar = df_supermarket.pivot_table(index='Branch', values='Total', columns='Gender', aggfunc='sum')
fig = px.bar(df_bar)

fig.update_layout(
    xaxis_title="Marca",
    yaxis_title="Total de vendas (R$)",
    legend_title="Gênero",
    title={
        'text': 'Distribuição das vendas das marcas por gênero',
        'y':0.95,
        'x':0.5,
        'font_color': 'grey'
    })

In [None]:
df_bar = df_supermarket.pivot_table(index='Branch', values='Total', columns='Gender', aggfunc='sum')
fig = px.bar(df_bar, barmode='group')

fig.update_layout(
    xaxis_title="Marca",
    yaxis_title="Total de vendas (R$)",
    legend_title="Gênero",
    title={
        'text': 'Distribuição das vendas das marcas por gênero',
        'y':0.95,
        'x':0.5,
        'font_color': 'grey'
    })

In [None]:
df_bar = df_supermarket.pivot_table(index='Branch', values='Total', columns='Gender', aggfunc='sum')
fig = px.bar(df_bar, facet_col='Gender')

fig.update_layout(
    yaxis_title="Total de vendas (R$)",
    legend_title="Gênero",
    title={
        'text': 'Distribuição das vendas das marcas por gênero',
        'y':0.95,
        'x':0.5,
        'font_color': 'grey'
    })

fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))

**Barras Horizontais**
Para criar o gráfico de barras horizontais basta utilizar o parâmetro *orientation* como sendo 'h'

In [None]:
df_bar = df_supermarket.pivot_table(index='Branch', values='Total', columns='Gender', aggfunc='sum')
fig = px.bar(df_bar, orientation='h')

fig.update_layout(
    xaxis_title="Total de vendas (R$)",
    yaxis_title="Marca",
    legend_title="Gênero",
    title={
        'text': 'Distribuição das vendas das marcas por gênero',
        'y':0.95,
        'x':0.5,
        'font_color': 'grey'
    })

## Histograma
**Documentação**: https://plotly.github.io/plotly.py-docs/generated/plotly.express.histogram.html

In [None]:
px.histogram(df_size, 'body_mass_g', nbins=50)

In [None]:
px.scatter(data_frame=df_size, x='body_mass_g', y='culmen_depth_mm', )

## Boxplot
**Documentação**: https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.boxplot.html

In [None]:
px.box(data_frame=df_size, y='body_mass_g')

In [None]:
fig=px.box(data_frame=df_size, x='body_mass_g', orientation='h')

fig.update_layout(
    xaxis_title="Massa Corporal",
    title={
        'text': 'Boxplot',
        'y':0.95,
        'x':0.5,
        'font_color': 'grey'
    })

É possível automaticamente concatenar gráficos

In [None]:
px.scatter(data_frame=df_size, x='body_mass_g', y='culmen_depth_mm', marginal_x='box')

## Exercício
Agora é hora de praticar!  
  
Faremos os mesmos exercícios praticados na aula passada, porém agora com o Plotly, para verificarmos as diferenças entre ambos.
  
Os bancos obtêm uma receita importante com empréstimos concedidos. Mas muitas vezes está associado ao risco. O mutuário pode não pagar o empréstimo. Para mitigar esse problema, os bancos decidiram usar o Machine Learning para superar esse problema. Eles coletaram dados anteriores sobre os tomadores de empréstimos e gostariam que você desenvolvesse um modelo de ML forte para classificar se algum novo devedor provavelmente entrará em default ou não.  
  
O conjunto de dados é enorme e consiste em vários fatores determinísticos, como renda do mutuário, gênero, finalidade do empréstimo, etc. O conjunto de dados está sujeito a uma forte multicolinearidade e valores vazios. Você pode superar esses fatores e construir um classificador forte para prever inadimplentes?

Importe a base **Loan_Default.csv** que está em csv dentro do diretório **data**.

Verifique com a função .info os campos presentes na tabela

Imprima as estatísticas padrões do dataframe com a função .describe

### Gráficos

1) Verifique sua variável de interesse (Status) como a contagem de distribuição

2) Construa um gráfico de barras que permita verificar a Bad Rate (média da coluna Status) por tipo de crédito oferecido (credit_type). 

3) Faça um gráfico de dispersão da Credit Score pela média do Status

3) Por meio de um gráfico de dispersão, identifique o comportamento da média da variável de interesse (Status) por faixa etária

4) Construa o histograma do montante de dívida (loan_amount) e verifique como está sua distribuição. Observe o mesmo com um gráfico boxplot.

5) Como se encontra a distribuição das faixas-etárias nesta base de dados.  
*Obs.: utilize o gráfico de pizza*

**Extra**: Primeiramente imagine uma hipótese de relação entre idade, renda e score de crédito dos indivíduos presenes neste dataframe. Agora, com auxílio gráfico, entenda se a relação que existe está dentro da hipótese ou não.