# Módulo 5 - Técnicas de Programação II
## Aula 3
- Gráficos com Matplotlib
- Exercícios

## Gráficos com Matplotlib
O matplotlib é uma biblioteca com recursos para a geração de gráficos 2D a partir de arrays. Gráficos comuns podem ser criados com alta qualidade a partir de comandos simples, inspirados nos comandos gráficos do MATLAB.  
Devido a sua alta qualidade e simplicidade de uso é a biblioteca gráfica mais popular para análise de dados. 
  
**Documentação**: https://matplotlib.org/

### Instalação
Caso já tenha instalado o pacote do **Matplotlib** ou está na dúvida, basta rodar o seguinte código:

In [None]:
import matplotlib

Se este código não rodou por erro ou se você não possui este pacote, para obtê-lo é simples, rode a célula abaixo

In [None]:
!pip install matplotlib

### Import da biblioteca
  
Para utilizarmos o matplotlib importamos o submódulo **pyplot** conforme podem observar na célula abaixo.

In [None]:
import matplotlib.pyplot as plt

O conjunto de funções disponível em **matplotlib.pyplot** permite a criação de uma figura, uma área para exibir o gráfico na figura, desenho de linhas na área do gráfico, decoração do gráfico com rótulos, etc. A sintaxe utilizada é semelhante ao MATLAB.  
   
Para simplificar o trabalho ainda mais, o pyplot já inicia com uma figura e área de desenho padrão, que você não precisa definir, e assim o código para gerar um gráfico pode ser simplesmente:

In [None]:
x = [1, 2, 3, 4, 5 ,6]
y = [10,5,3,4,6,8]
plt.plot(x, y)
plt.show()

Para não haver necessidade de rodar o comando **plt.show()** em todas as plotagens de gráficos utilizamos uma função mágica do matplotlib cujo objetivo é de que a saída dos comandos de plotagem é exibida em linha diretamente abaixo da célula de código que o produziu.

In [None]:
%matplotlib inline

Vamos importar também outros pacotes padrões

In [None]:
import pandas as pd
import numpy as np

## Scatter (dispersão)
**Documentação**: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html

In [None]:
x = np.random.rand(10)
y = np.random.rand(10)
color = [1, 1, 2, 2, 2, 2, 3, 4, 1, 4]
plt.scatter(x, y, c=color);

Importando o dataset dos pinguins

In [None]:
df_size = pd.read_csv('./data/penguins_size.csv')
df_size.head()

In [None]:
plt.scatter(x=df_size['body_mass_g'], y=df_size['culmen_depth_mm']);

É possíve verificar a diferença entre as plotagens através do Pandas e Matplotlib por meio do código abaixo.

In [None]:
plt.scatter(x=df_size['body_mass_g'], y=df_size['culmen_depth_mm'])
df_size.plot(x='body_mass_g', y='culmen_depth_mm', kind='scatter');

Nota-se que visualmente não há muita diferença, porém a sintaxe que gera os gráficos possui certas diferenças.

Podemos alterar as cores dos marcadores através de alguma variável do próprio dataframe como por exemplo o sexo dos pinguins.  
  
Por padrão o parâmetro *c* do scatter necessita de uma lista apenas com cores ou números. Como no nosso dataframe as categorias são MALE, FEMALE e NaN, apenas alteramos estes valores para 0, 1 e 2. 

In [None]:
from sklearn import preprocessing

In [None]:
df_size.dropna(inplace=True)

In [None]:
## Gráfico de dispersão das medidas do bico do Pinguim, com tamanho variando pelo tamanho do tronco
le = preprocessing.LabelEncoder()
df_size['sex_encoded'] = le.fit_transform(df_size['sex'])

In [None]:
df_size['sex'].value_counts()

In [None]:
df_size['sex_encoded'].value_counts()

In [None]:
ax = plt.scatter(x=df_size['body_mass_g'], y=df_size['culmen_depth_mm'], c=df_size['sex_encoded'])
plt.legend(handles=ax.legend_elements()[0], labels=['None', 'Female', 'Male'])
plt.xlabel('Massa corporal')
plt.ylabel('Altura do bico')
plt.title('Relação entre massa corporal e altura do bico dos pinguins');

Ajustando o tamanho da figura na qual o gráfico será plotado

In [None]:
plt.figure(figsize=(12,6))

ax = plt.scatter(x=df_size['body_mass_g'], y=df_size['culmen_depth_mm'], c=df_size['sex_encoded'])
plt.legend(handles=ax.legend_elements()[0], labels=['None', 'Female', 'Male'])

plt.xlabel('Massa corporal')
plt.ylabel('Altura do bico')
plt.title('Relação entre massa corporal e altura do bico dos pinguins', fontsize=15);

## Linhas
**Documentação**: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html

In [None]:
df_vendas = pd.DataFrame({'Mês' : ['Jan', 'Fev', 'Mar', 'Abr', 'Jan', 'Fev', 'Mar', 'Abr', 'Jan', 'Fev', 'Mar', 'Abr'],
                         'Quantidade' : np.random.randint(low=100, size=12),
                          'Veículo' : np.repeat(['HB20', 'Onix', 'Sandero'],4)})
df_vendas.head()

In [None]:
plt.plot(df_vendas[df_vendas['Veículo']=='HB20']['Mês'], df_vendas[df_vendas['Veículo']=='HB20']['Quantidade']);

### Estrutura  
No matplotlib, temos dois conceitos importantes:  
  
* Área de plotagem (eixos ou Axes)
    área onde os gráficos (linhas, barras, pontos, labels, ticks, etc) aparecem. Cada Axes possui um eixo-x e eixo-y.
* Figure
    é o container de nível superior que mantém toda a estrutura. É a janela onde tudo é desenhado e controlado. Dentro dele podemos ter vários gráficos independentes.
  
  
Antes de gerarmos múltiplos gráficos, precisamos decidir:

* podemos imprimir dois gráficos, ex: duas linhas, na mesma área de plotagem
* ou em áreas de plotagens diferentes.

**No mesmo Eixo**

In [None]:
plt.plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='HB20'])
plt.plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='Onix'])
plt.plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='Sandero']);

**Em vários eixos**  
Para plotar os gráficos em vários eixos utilizaresmos o método *plt.subplots*, cuja função é gerar uma figura e um conjunto de eixos pré-posicionados num formato de grade.  
  
Para isso, ao chamarmos essa função, iremos passar dois argumentos:
* nrows: indica quantas linhas. 
* ncols: indinca quantas colunas.
  
No exemplo abaixo teremos 4 gráficos sendo, portanto, 2 linhas e 2 colunas. Desta forma, retornará uma tupla de dois elementos:  
  
* um objeto do tipo Figure que representa a figura  
* lista ou matriz de eixos  
  
Podemos acessar cada eixo usando a notação de colchetes, e invocar a função de plot normalmente.

In [None]:
fig, axs = plt.subplots(2, 2)
axs[0,0].text(0.4, 0.5, 'Gráfico[0,0]')
axs[0,1].text(0.4, 0.5, 'Gráfico[0,1]')
axs[1,0].text(0.4, 0.5, 'Gráfico[1,0]')
axs[1,1].text(0.4, 0.5, 'Gráfico[1,1]');

No exemplo de vendas temos 3 gráficos, por isso é possível fazer os subplots com 3 linhas e 1 coluna ou 1 linha e 3 colunas. Aqui, seguiremos com o segundo cas (1 linha e 3 colunas).  

Repare que ao passar nrows=1, espertamente, o matplotlib não devolve uma matriz e sim uma lista.  

In [None]:
fig, axs = plt.subplots(1, 3, figsize=(12,4))
fig.suptitle('Vendas de carros', fontsize=20)
axs[0].plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='HB20'], c='red', label = 'HB20')
axs[1].plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='Onix'], c='blue', label = 'Onix')
axs[2].plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='Sandero'], c='green', label = 'Sandero')

axs[0].legend()
axs[1].legend()
axs[2].legend();

Para diferenciarmos os gráficos podemos utilizar os parâmetros linewidth, linestyle e color. Estes parâmetros podem ser utilizados por meio de abreviações de linewidth = lw, linestyle = ls e color = c.

In [None]:
fig, ax = plt.subplots(figsize=(12,6))

ax.plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='HB20'], c='red', ls='--', label='HB20')
ax.plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='Onix'], c='blue', ls=':', label='Onix')
ax.plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='Sandero'], c='green', ls='-.', label='Sandero', lw=3);

ax.set_xlabel('Mês')
ax.set_ylabel('Quantidade')
ax.set_title('Quantidade de veículos vendidos por mês')

ax.legend(loc='upper left');

In [None]:
x = range(10)
y1 = [n ** 2 for n in x]
y2 = [n ** 3 for n in x]

figure = plt.figure(figsize=(8,5))

ax1 = figure.add_axes([0.1, 0.05, 0.8, 0.8])
ax2 = figure.add_axes([0.2, 0.5, 0.3, 0.3])
ax1.plot(x, y1, c='#66CDAA', ls='--', lw=5)
ax2.plot(x, y2, c='#FF00FF', marker='o')
plt.show()

Para utilizar cores hexadecimal é possível consultar alguns códigos no link https://celke.com.br/artigo/tabela-de-cores-html-nome-hexadecimal-rgb

## Pizza
**Documentação**: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html

In [None]:
df_veiculo = df_vendas.pivot_table(index='Veículo', values='Quantidade', aggfunc='sum')
df_veiculo.head()

In [None]:
plt.pie('Quantidade', data=df_veiculo);

In [None]:
plt.pie('Quantidade', data=df_veiculo, autopct='%1.0f%%')
plt.legend(labels=['HB20', 'Onix', 'Sandero']);

In [None]:
df_vendas['Mês'] = pd.Categorical(df_vendas['Mês'], categories=["Jan", "Fev", "Mar", "Abr"], ordered=True)
df_mes = df_vendas.pivot_table(index='Mês', values='Quantidade', aggfunc='sum')
df_mes.head()

In [None]:
plt.pie('Quantidade', data=df_mes, autopct='%1.0f%%')
plt.legend(labels=['Jan', 'Fev', 'Mar', 'Abr']);

## Barras
**Documentação**: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html

In [None]:
plt.bar(df_veiculo.index, df_veiculo['Quantidade'], color=['#ADD8E6', '#4682B4', '#4169E1']);

In [None]:
ax = plt.bar(df_mes.index, df_mes['Quantidade'], color=['#7FFFD4', '#66CDAA', '#5F9EA0', '#008080'])
plt.title('Quantidade de vendas por mês');

**Barras Horizontais**

In [None]:
plt.barh(df_vendas['Veículo'], df_vendas['Quantidade']);

## Histograma
**Documentação**: https://matplotlib.org/stable/gallery/statistics/hist.html

In [None]:
fig, ax = plt.subplots()
graf = ax.hist(x=df_size['body_mass_g'], alpha=0.5, color='green', bins=10);

In [None]:
plt.hist(df_size['body_mass_g'], alpha=0.5, color='green', edgecolor='black')
plt.xlabel('Massa dos Pinguins', fontsize=12);

## Boxplot
**Documentação**: https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.boxplot.html

In [None]:
plt.boxplot(df_size['body_mass_g'], );

## Exemplo de EDA com Pandas
Para exemplificar o processo de Análise Exploratória de Dados utilizaremos um survey respondido por profissionais de TI da União Europeia, com informações pessoais como idade, gênero, cidade e também relacionadas às respectivas carreiras como posição na empresa, anos de experiência.

In [None]:
df_red = pd.read_csv('./Wine Quality/winequality-red.csv', sep=';')
df_white = pd.read_csv('./Wine Quality/winequality-white.csv', sep=';')

In [None]:
df_white.head()

In [None]:
fig, ax = plt.subplots(figsize=(12,6))

ax.plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='HB20'], c='red', ls='--', label='HB20')
ax.plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='Onix'], c='blue', ls=':', label='Onix')
ax.plot('Mês', 'Quantidade', data=df_vendas[df_vendas['Veículo']=='Sandero'], c='green', ls='-.', label='Sandero', lw=3);

ax.set_xlabel('Mês')
ax.set_ylabel('Quantidade')
ax.set_title('Quantidade de veículos vendidos por mês')

ax.legend(loc='upper left');

## Exercício
Agora é hora de praticar!  
  
Os bancos obtêm uma receita importante com empréstimos concedidos. Mas muitas vezes está associado ao risco. O mutuário pode não pagar o empréstimo. Para mitigar esse problema, os bancos decidiram usar o Machine Learning para superar esse problema. Eles coletaram dados anteriores sobre os tomadores de empréstimos e gostariam que você desenvolvesse um modelo de ML forte para classificar se algum novo devedor provavelmente entrará em default ou não.  
  
O conjunto de dados é enorme e consiste em vários fatores determinísticos, como renda do mutuário, gênero, finalidade do empréstimo, etc. O conjunto de dados está sujeito a uma forte multicolinearidade e valores vazios. Você pode superar esses fatores e construir um classificador forte para prever inadimplentes?

Importe a base **Loan_Default.csv** que está em csv dentro do diretório **data**.

Verifique com a função .info os campos presentes na tabela

Imprima as estatísticas padrões do dataframe com a função .describe

### Gráficos

1) Verifique sua variável de interesse (Status) como a contagem de distribuição

2) Construa um gráfico de barras que permita verificar a Bad Rate (média da coluna Status) por tipo de crédito oferecido (credit_type). 

3) Faça um gráfico de dispersão da Credit Score pela média do Status

3) Por meio de um gráfico de dispersão, identifique o comportamento da média da variável de interesse (Status) por faixa etária

4) Construa o histograma do montante de dívida (loan_amount) e verifique como está sua distribuição. Observe o mesmo com um gráfico boxplot.

5) Como se encontra a distribuição das faixas-etárias nesta base de dados.  
*Obs.: utilize o gráfico de pizza*