# Técnicas de Programação I
## Aula 8 - assunto extra
- Gráficos com Matplotlib

## Gráficos com Matplotlib
O matplotlib é uma biblioteca com recursos para a geração de gráficos 2D a partir de arrays. Gráficos comuns podem ser criados com alta qualidade a partir de comandos simples, inspirados nos comandos gráficos do MATLAB.  
Devido a sua alta qualidade e simplicidade de uso é a biblioteca gráfica mais popular para análise de dados. 
  
**Documentação**: https://matplotlib.org/

### Instalação
Caso já tenha instalado o pacote do **Matplotlib** ou está na dúvida, basta rodar o seguinte código:

In [1]:
import matplotlib

Se este código não rodou por erro ou se você não possui este pacote, para obtê-lo é simples, rode a célula abaixo

In [None]:
!pip install matplotlib

### Import da biblioteca
  
Para utilizarmos o matplotlib importamos o submódulo **pyplot** conforme podem observar na célula abaixo.

In [3]:
import matplotlib.pyplot as plt

O conjunto de funções disponível em **matplotlib.pyplot** permite a criação de uma figura, uma área para exibir o gráfico na figura, desenho de linhas na área do gráfico, decoração do gráfico com rótulos, etc. A sintaxe utilizada é semelhante ao MATLAB.  
   
Para simplificar o trabalho ainda mais, o pyplot já inicia com uma figura e área de desenho padrão, que você não precisa definir, e assim o código para gerar um gráfico pode ser simplesmente:

In [None]:
x = [1, 2, 3, 4, 5 ,6]
y = [10,5,3,4,6,8]
plt.plot(x, y)
plt.show()

Vamos importar também outros pacotes padrões

In [5]:
import pandas as pd
import numpy as np

## Scatter (dispersão)
**Documentação**: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html

Importando o dataset dos pinguins

In [None]:
df_size = pd.read_csv('./dados/penguins_size.csv')
df_size.head()

Criando gráfico com Matplotlib

In [None]:
# A criação de gráficos com matplotlib é simples, exige que sejam preenchidos parâmetros necessários, mas
# vale ressaltar que alguns gráficos por natureza possuem dois eixos como o scatter, porém outros não
# como o histograma
plt.scatter(x=df_size['body_mass_g'], y=df_size['culmen_depth_mm']);

### Estrutura  
No matplotlib, temos dois conceitos importantes:  
  
* Área de plotagem (eixos ou Axes)
    área onde os gráficos (linhas, barras, pontos, labels, ticks, etc) aparecem. Cada Axes possui um eixo-x e eixo-y.
* Figure
    é o container de nível superior que mantém toda a estrutura. É a janela onde tudo é desenhado e controlado. Dentro dele podemos ter vários gráficos independentes.
  
  
Antes de gerarmos múltiplos gráficos, precisamos decidir:

* podemos imprimir dois gráficos, ex: duas linhas, na mesma área de plotagem
* ou em áreas de plotagens diferentes.

Para exemplificar este conceito criaremos três novos dataframes separados pelas espécies dos pinguins.

In [8]:
df_size_Adelie = df_size[df_size['species'] == 'Adelie']
df_size_Gentoo = df_size[df_size['species'] == 'Gentoo']
df_size_Chinstrap = df_size[df_size['species'] == 'Chinstrap']

**No mesmo Eixo**

In [None]:
plt.figure(figsize=(12, 8))

plt.scatter(x=df_size_Adelie['body_mass_g'], y=df_size_Adelie['culmen_depth_mm']) # criando primeiro gráfico
plt.scatter(x=df_size_Gentoo['body_mass_g'], y=df_size_Gentoo['culmen_depth_mm']) # criando segundo gráfico
plt.scatter(x=df_size_Chinstrap['body_mass_g'], y=df_size_Chinstrap['culmen_depth_mm']) # criando terceiro gráfico

plt.xlabel('Massa corporal') # inserindo nome para o eixo X
plt.ylabel('Altura do bico') # inserindo nome para o eixo Y
plt.title('Relação entre massa corporal e altura do bico dos pinguins por espécie', fontsize=15); # inserindo título para o gráfico

**Em vários eixos**  
Para plotar os gráficos em vários eixos utilizaresmos o método *plt.subplots*, cuja função é gerar uma figura e um conjunto de eixos pré-posicionados num formato de grade.  
  
Para isso, ao chamarmos essa função, iremos passar dois argumentos:
* nrows: indica quantas linhas. 
* ncols: indinca quantas colunas.
  
No exemplo abaixo teremos 4 gráficos sendo, portanto, 2 linhas e 2 colunas. Desta forma, retornará uma tupla de dois elementos:  
  
* um objeto do tipo Figure que representa a figura  
* lista ou matriz de eixos  
  
Podemos acessar cada eixo usando a notação de colchetes, e invocar a função de plot normalmente.

In [None]:
fig, axs = plt.subplots(2, 2)
axs[0,0].text(0.4, 0.5, 'Gráfico[0,0]')
axs[0,1].text(0.4, 0.5, 'Gráfico[0,1]')
axs[1,0].text(0.4, 0.5, 'Gráfico[1,0]')
axs[1,1].text(0.4, 0.5, 'Gráfico[1,1]');

## Tipos de gráficos
Gráficos são representações visuais dos dados, que buscam facilitar o entendimento dos mesmos. Podem ser muito úteis na identificação de variáveis importantes para uma modelagem ou tomada de decisão.

- **Scatter plot (ou gráfico de dispersão):**
Dadas duas variáveis X e Y, cada observação (par de valores (x,y)) é representado por um ponto no gráfico. Na imagem abaixo, uma observação (x,y) = (4,5) é representada pelo X vermelho.

<p align='center'>
<img src="./images/img_scatterplot_editada.png" alt="Drawing" style="width: 500px;"/>
</p>

- **Gráfico de linhas:**
O gráfico de linhas é muito utilizado quando estamos querendo encontrar tendências de um conjunto de variáveis. No geral, a variável alocada no eixo horizontal representa categorias ordinais, geralmente temporais (como por exemplo: meses, anos, dias, semanas, lotes em ordem de fabricação etc). Para construí-lo, primeiro aplica-se um gráfico de dispersão dessas variáveis, e depois unem-se os pontos por linhas, como mostra a imagem abaixo. Podemos imaginar que cada categoria é um lote de produção de uma mercadoria (em que o lote 1 foi produzido antes do lote 2, e assim por diante), e no eixo vertical, têm se a quantidade vendida de cada lote. Ainda, há 3 séries representadas por cores, que podem representar, por exemplo, três clientes diferentes que adquiriram as mercadorias.
<p align='center'>
<img src="./images/grafico_linhas.jpg" alt="Drawing" style="width: 500px;"/>
</p>

- **Gráfico de pizza/Pie plot (ou gráfico de setores):**
Este gráfico tem como objetivo representar um valor relativo de cada categoria em relação a um todo. Exemplo: de todo o lucro de uma empresa revendedora de aparelhos celular, quantos porcento são relativos a cada marca de produto comercializado.
<p align='center'>
<img src="./images/grafico_pizza.png" alt="Drawing" style="width: 400px;"/>
</p>

- **Gráfico de barras (horizontal e vertical):**
Um gráfico de barras é uma forma de visualização de dados categóricos, em que cada categoria é representada por uma barra, cujo tamanho representa sua frequência/quantidade de observações. Pode ser representado de forma vertical (conhecido também como gráfico de colunas) ou de forma horizontal (em que o gráfico parece "deitado"). No exemplo abaixo, o mesmo conjunto de dados é representado das duas formas. 

Observação: Aqui, os valores "1", "2" e "3" das barras representam categorias, e não uma variável contínua.
<p align='center'>
<img src="./images/grafico_barras.png" alt="Drawing" style="width: 500px;"/>
</p>

- **Histograma:** 
Um histograma é muito parecido com um gráfico de barras, e possui a mesma ideia: cada coluna representa uma frequência/quantidade. Entretanto, o eixo horizontal deste tipo de gráfico é uma variável contínua, e a ideia é observar a distribuição das observações desta variável. Exemplos de perguntas que podemos estar tentando responder ao analisar esse tipo de gráfico, são: "quais são os valores mais frequentes nessa variável contínua?" e "Qual a probabilidade de uma nova observação ter determinado valor?"

Para se construir as barras deste gráfico, a variável contínua é agrupada em intervalos, e o tamanho da barra representa o número de observações que possuem valores dentro deste intervalo. É comum encontrar histogramas com um traço linear ligando o topo dessas barras pelo meio, de forma a facilitar a identificação de uma distribuição estatística.
<p align='center'>
<img src="./images/histograma.png" alt="Drawing" style="width: 500px;"/>
</p>

- **Box-Plot:**
Os box-plot, assim como os histogramas, são gráficos estatísticos que permitem analisar uma distribuição dos dados, mas com uma representação diferente. Apesar de muito utilizados por estatísticos e cientistas de dados, a maioria das pessoas que não estão acostumadas a eles, têm dificuldade em interpretá-los. 

A representação do box-plot se baseia em medidas de quartis: uma caixinha central é desenhada ligando o primeiro (Q1) e terceiro (Q3) quartis (25% e 75%, respectivamente), e uma reta corta essa 'caixa' no quartil central (Q2 = 50%). Na parte inferior e superior do gráfico, é traçada uma reta de tamanho máximo 1.5xIQ, em que IQ = Q3-Q1. Essa reta é traçada até o último valor da variável que ainda esteja dentro desse limite. Observações acima ou abaixo dele, são representadas por bolinhas, e muito chamadas de 'outliers' (valor atípico). Abaixo, uma representação dos componentes de um box-plot, e um gráfico exibindo box-plots das distribuições de temperaturas de diferentes cidades.
<p align='center'>
<img src="./images/boxplot2.png" alt="Drawing" style="width: 500px;"/> 
</p>

<p align='center'>
<img src="./images/boxplot.png" alt="Drawing" style="width: 500px;"/>
</p>


**Documentação**
  
**Linhas**: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html  
**Pizza**: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html  
**Barras**: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html  
**Histograma**: https://matplotlib.org/stable/gallery/statistics/hist.html  
**Boxplot**: https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.boxplot.html


## EDA com Matplotlib
Os bancos obtêm uma receita importante com empréstimos concedidos. Mas muitas vezes está associado ao risco. O mutuário pode não pagar o empréstimo. Para mitigar esse problema, os bancos decidiram usar o Machine Learning para superar esse problema. Eles coletaram dados anteriores sobre os tomadores de empréstimos e gostariam que você desenvolvesse um modelo de ML forte para classificar se algum novo devedor provavelmente entrará em default ou não.  
  
O conjunto de dados é enorme e consiste em vários fatores determinísticos, como renda do mutuário, gênero, finalidade do empréstimo, etc. O conjunto de dados está sujeito a uma forte multicolinearidade e valores vazios. Você pode superar esses fatores e construir um classificador forte para prever inadimplentes?

Importe a base **Loan_Default.csv** que está em csv dentro do diretório **data**.

In [None]:
import pandas as pd
df_loan = pd.read_csv('./dados/loan_default.csv')
df_loan.head()

In [None]:
df_loan.columns

Verifique com a função .info os campos presentes na tabela

In [None]:
df_loan.info()

Imprima as estatísticas padrões do dataframe com a função .describe

In [None]:
df_loan.describe()

### Gráficos

In [None]:
df_loan.pivot_table(index='credit_type', values='Status', aggfunc='mean')['Status']

1) Verifique sua variável de interesse (Status) como a contagem de distribuição

2) Construa um gráfico de barras que permita verificar a Bad Rate (média da coluna Status) por tipo de crédito oferecido (credit_type). 

3) Faça um gráfico de dispersão da Credit Score pela média do Status

3) Por meio de um gráfico de dispersão, identifique o comportamento da média da variável de interesse (Status) por faixa etária

4) Como se encontra a distribuição das faixas-etárias nesta base de dados.  
*Obs.: utilize o gráfico de pizza*