![PPGI_UFRJ](imagens/ppgi-ufrj.png)
# Fundamentos de Ciência de Dados

---
[![DOI](https://zenodo.org/badge/335308405.svg)](https://zenodo.org/badge/latestdoi/335308405)

---
# PPGI/UFRJ 2020.3, 2022.2, 2024.2
## Prof Sergio Serra e Jorge Zavaleta

---
# Módulo 3 - Gráficos Simples

## Matplolib
> **Matplotlib** é uma biblioteca Python especializada em de gráficos bidimensionais (incluindo gráficos 3D), muito conhecida nos círculos científicos e de engenharia. Maiores detalhes em [Matplotlib](https://matplotlib.org/)

> ### Recursos de Matplotlib:

> * Extrema simplicidade em seu uso
> * Desenvolvimento gradual e visualização interativa de dados
> * Expressões e texto em LaTeX
> * Maior controle sobre os elementos gráficos
> * Exporte para vários formatos, como PNG, PDF, SVG e EPS

### Importando as bibliotecas

In [1]:
# importando as bibliotecas
import matplotlib as mpl                       # usada ocasionalmente 3D
import matplotlib.pyplot as plt                # importar a biblioteca matplotlib
import numpy as np                             # importar numpy
import pandas as pd                            # importat pandas
#                                              # estilo da biblioteca
%matplotlib inline                            
#%config InlineBackend.figure_format='svg'
#plt.style.use('classic')                       # estilo da biblioteca

## Gráficar diferentes tipos de curvas

In [None]:
# exemplo - grafico de curvas
x = np.linspace(-6, 3, 100)
y1 = x**4 + 5*x**3 + 5*x
y2 = 4*x**3 + 15*x**2 + 5
y3 = 12*x**2 + 30*x
#
fig, ax = plt.subplots()
ax.plot(x, y1, color="blue", label="y(x)")
ax.plot(x, y2, color="red", label="y'(x)")
ax.plot(x, y3, color="green", label="y”(x)")
ax.set_xlabel("x")
ax.set_ylabel("y")
ax.set_title('Polinomios')
ax.legend();

In [None]:
# ipython notebook
x1 = np.linspace(-1,4,50)
y1 = 3*(np.power(x1,4)) - 16*(np.power(x1,3))+18*(np.power(x1,2))
# para gravar a figura
fig = plt.figure(figsize=(7,4))
plt.plot(x1,y1,'-')
plt.plot(x1,y1+6,'r--')
plt.xlabel('x')
plt.ylabel('y'); ## ;->show()
#plt.style.use('ggplot')              # mudar de estilo de gráfico
#fig.savefig('imagens/figura1.png')

In [None]:
# verificando se a imagem foi gerada
from IPython.display import Image
Image('imagens/figura1.png')

In [None]:
#fig = plt.figure(figsize=(8, 2.5), facecolor="#f1f1f1")
fig = plt.figure(figsize=(8, 2.5))
# axes coordinates as fractions of the canvas width and height
left, bottom, width, height = 0.1, 0.1, 0.8, 0.8
# valores de x, y
x = np.linspace(-2, 2, 1000)
y1 = np.cos(40 * x)
y2 = np.exp(-x**2)
# figure
ax = fig.add_axes((left, bottom, width, height),facecolor="#fff0ed")
ax.plot(x, y1 * y2)
ax.plot(x, y2, 'g')
ax.plot(x, -y2, 'g')
ax.set_xlabel("x")
ax.set_ylabel("y")
# save figure
#fig.savefig("imagens/figura2.png", dpi=100, facecolor="#e1e1e1")

In [None]:
# verificando se a imagem foi gerada
from IPython.display import Image
Image('imagens/figura2.png')

### Tipos de gráficos suportados por Matplotlib

In [None]:
# tipos de formatos de graficos suportados
print('Tipos de gráficos suportados pelo MatplotLib:')
fig.canvas.get_supported_filetypes()

### Usando Varias Interfaces - Subplots

In [None]:
# exemplo de subplots
plt.figure() # criar a figura
# criando a painel 1
plt.subplot(3, 1, 1) # (linhas, colunas, numero do panel)
plt.plot(x, y1,'r')
#plt.ylabel('y1');
# criando o painel 2
plt.subplot(3, 1, 2)
plt.plot(x, y1+6,'b');
# criando o painel 3
plt.subplot(3, 1, 3)
plt.plot(x, y1-6,'g');

### Interfaces Orientadas a Objetos

In [None]:
# intercaes orientadas como objetos
# grid de subplots
fig, ax = plt.subplots(2)
fig.suptitle('Subplot Horizontal')
ax[0].plot(x, y1,'r')
ax[1].plot(x, y1-6);

In [None]:
# subplot vertical
x1 = np.linspace(-2, 2, 100)
y1 = x1**3+ x1*2 + 4
fig, (ax1, ax2) = plt.subplots(1, 2)
fig.suptitle('Subplot Vertical')
ax1.plot(x1, y1,'.r')
ax2.plot(x1, y1-6);
#fig.savefig('imagens/fx.png')

In [None]:
# grid de subplots
fig,ax =  plt.subplots(2,2,figsize=(8,8),constrained_layout=True)
ax[0][0].plot(x1,y1,'r')
ax[0][0].set_title('$f(x)=3x^4-16x^3+18x^2$')
ax[0][0].set_ylabel('y')
ax[0][0].set_xlabel('x')
#
ax[0][1].plot(x1,y1-6,'g')
ax[0][1].set_title('$f(x)=3x^4-16x^3+18x^2-6$')
#
ax[1][0].plot(x1,y1+6,'orange')
ax[1][0].set_title('$f(x)=3x^4-16x^3+18x^2+6$')
#
ax[1][1].plot(x1,y1+10,'blue')
ax[1][1].set_title('$f(x)=3x^4-16x^3+18x^2+10$')
ax[1][1].set_xlabel('x')
#
plt.show()
#fig.savefig('imagens/subpots.png')

### Graficar linhas simples

In [None]:
# grid de linhas
plt.style.use('ggplot')
fig = plt.figure()
fig.suptitle('Style: ggplot')
ax = plt.axes()
plt.plot(x1,y1,'-');

### Cores e Estilos de Linhas

In [None]:
# graficos de diversas cores
plt.plot(x1, y1, color='blue') # specify color by name
plt.plot(x1, y1-5, color='g') # short color code (rgbcmyk)
plt.plot(x1, y1-10, color='0.75') # Grayscale between 0 and 1
plt.plot(x1, y1-15, color='#FFDD44') # Hex code (RRGGBB from 00 to FF)
plt.plot(x1, y1+5, color=(1.0,0.2,0.3)) # RGB tuple, values 0 and 1
plt.plot(x1, y1+10, color='chartreuse');

In [None]:
# Graficos e estilos de linhas
plt.style.use('default')                #reset el estilo de gráfico
plt.plot(x1, x1 + 0, linestyle='solid')
plt.plot(x1, x1 + 2, linestyle='dashed')
plt.plot(x1, x1 + 4, linestyle='dashdot')
plt.plot(x1, x1 + 6, linestyle='dotted');
# usando codigos
plt.plot(x1, x1 + 8, linestyle='-') # solid
plt.plot(x1, x1 + 10, linestyle='--') # dashed
plt.plot(x1, x1 + 12, linestyle='-.') # dashdot
plt.plot(x1, x1 + 14, linestyle=':'); # dotted

### Ajustando os limites do eixos

In [None]:
# Ajustando limites de eixos
plt.plot(x1, y1)
plt.xlim(-1.5, 4.5)
plt.ylim(-35, 45);

In [None]:
# Ajustando eixos
plt.plot(x1, y1,'r')
# [xmin,xmax, ymin,ymax]
plt.axis([-1, 5, -30, 40]);

### Melhorando os gráficos - subplot

In [None]:
# exemplo de subplots - problema
# gerando os valores
x = np.linspace(-6, 3, 100)
y1 = x**4 + 5*x**3 + 5*x
# plot
fig = plt.figure() # criar a figura
# criando a painel 1
plt.subplot(3, 1, 1) # (linha, coluna, numero do panel)
plt.plot(x, y1,'r')
plt.xlabel('eixo x')
plt.ylabel('y')
plt.title('Três subplots')
# criando o painel 2
plt.subplot(3, 1, 2)
plt.plot(x, y1+6,'b')
plt.xlabel('x2')
# criando o painel 3
plt.subplot(3, 1, 3)
plt.plot(x, y1-6,'g')
plt.xlabel('x3')
#
# melhorar o plot
#fig.tight_layout()   # melhorar
plt.show()

In [None]:
# grid de subplots
# valores
x1 = np.linspace(-1,4,50)
y1 = 3*(np.power(x1,4)) - 16*(np.power(x1,3))+18*(np.power(x1,2))
#
fig,ax =  plt.subplots(2,2,figsize=(8,8),constrained_layout=False)  # True
ax[0][0].plot(x1,y1,'r')
ax[0][0].set_title('$f(x)=3x^4-16x^3+18x^2$')
ax[0][0].set_ylabel('y')
ax[0][0].set_xlabel('Polinomio em x')
#
ax[0][1].plot(x1,y1-6,'g')
ax[0][1].set_title('$f(x)=3x^4-16x^3+18x^2-6$')
#
ax[1][0].plot(x1,y1+6,'orange')
ax[1][0].set_title('$f(x)=3x^4-16x^3+18x^2+6$')
#
ax[1][1].plot(x1,y1+10,'blue')
ax[1][1].set_title('$f(x)=3x^4-16x^3+18x^2+10$')
#
plt.suptitle('$f(x)=3x^4-16x^3+18x^2$', verticalalignment='bottom', fontsize=14)
# melhorar
#plt.subplots_adjust(left=0.125,bottom=0.1, right=0.9, top=0.9, wspace=0.2, hspace=0.35) #
plt.show()
#fig.savefig('imagens/subpots.png')

### Gráficos 3D

In [None]:
# gerando os eixos 3D
#from mpl_toolkits import mplot3d
#
fig = plt.figure(figsize=(10,7))
ax = plt.axes(projection="3d")
plt.show()

### Curva 3D

In [34]:
# matplotlib-exemplo-30
# define uma função
def f(x, y):
    return np.sin(x) ** 10 + np.cos(10 + y * x) * np.cos(x)

In [None]:
# curva 3D
x = np.linspace(0, 5, 50)
y = np.linspace(0, 5, 50)
Z = f(x, y)
#
x1 = np.linspace(0, 4.8, 50)
y1 = np.linspace(0, 4.8, 50)
Z1 = f(x1,y1)
#
fig = plt.figure(figsize=(10,7))
ax =  plt.axes(projection='3d')
ax.set_xlabel('seno-coseno')
#
ax.plot3D(x, y, Z,'red')
ax.plot3D(x1+1, y1-1, Z1,'blue')
plt.show()

### Superficie 3D

In [None]:
# superficie 3D
x = np.linspace(0, 5, 50)
y = np.linspace(0, 5, 50)
X, Y = np.meshgrid(x, y) 
Z = f(X, Y)
#
fig = plt.figure(figsize=(10,7))
ax =  plt.axes(projection='3d')
ax.set_xlabel('Imagem 3D')
#
ax.plot_surface(X, Y, Z, cmap=plt.cm.jet, rstride=1, cstride=1, linewidth=0)
#ax.plot_surface(X, Y, Z, cmap='RdGy', rstride=1, cstride=1, linewidth=0)
plt.show()

### Contorno

In [None]:
# matplotlib-exemplo-31
# gerando os valores usando meshgrid
x = np.linspace(0, 5, 50)
y = np.linspace(0, 5, 50)
X, Y = np.meshgrid(x, y) 
Z = f(X, Y)
plt.contour(X, Y, Z, colors='blue'); #grafico 3-D

In [None]:
# matplotlib-exemplo-32
# usando contornos
plt.contour(X, Y, Z, 20, cmap='RdGy');

In [None]:
# matplotlib-exemplo-32
# Graficando barra de cores
plt.contourf(X, Y, Z, 20, cmap='RdGy')
plt.colorbar(orientation='horizontal');

### Curva 3D e Pontos discretos

In [None]:
# linha 3D + scatter
x = np.linspace(0, 5, 50)
y = np.linspace(0, 5, 50)
#X, Y = np.meshgrid(x, y) 
Z = f(x, y)
#
fig = plt.figure(figsize=(10,7))
ax =  plt.axes(projection='3d')
ax.set_xlabel('seno-coseno')
#
ax.plot3D(x, y, Z, 'red')
# scatter
x = x + 0.1 * np.random.randn(50)
y = y + 0.1 * np.random.randn(50)
zdata = f(x,y)
ax.scatter3D(x, y, zdata, c=zdata, cmap='Greens')
ax.set_xlabel('seno')
plt.show()

## Histogramas

In [None]:
# matplotlib-exemplo-33
# graficando um histograma
%matplotlib inline
plt.style.use('seaborn-v0_8')
data = np.random.randn(900)
plt.hist(data)
plt.title('Style: seaborn-v0_8')
plt.show()

In [None]:
# matplotlib-exemplo-34
# Histograma customizado
plt.hist(data, bins=30, density=True, alpha=0.5,histtype='stepfilled', color='steelblue',edgecolor='none')
plt.title('Histograma customizado')
plt.show()

In [None]:
# matplotlib-exemplo-35
# histogramas sobrepostos
x1 = np.random.normal(0, 0.8, 1000)
x2 = np.random.normal(-2, 1, 1000)
x3 = np.random.normal(3, 2, 1000)
kwargs = dict(histtype='stepfilled', alpha=0.8, density=True, bins=40)
plt.hist(x1, **kwargs)
plt.hist(x2, **kwargs)
plt.hist(x3, **kwargs);
plt.title('Histogramas sobrepostos')
plt.show()

## Customizando as Legendas

In [None]:
# matplotlib-exemplo-36
# Personalizando as legendas
%matplotlib inline
#plt.style.use('classic')
plt.style.use('default')
x2 = np.linspace(0, 10, 1000)
fig, ax2 = plt.subplots()
ax2.plot(x2, np.sin(x2), '-b', label='Seno()')
ax2.plot(x2, np.cos(2*x2), '--r', label='Coseno()')
ax2.axis('equal')
leg = ax2.legend()
plt.show()

In [None]:
# matplotlib-exemplo-37
# mudando a legenda de posição e colunas =2
ax2.legend(loc='upper left', frameon=False, ncol=2)
fig

In [None]:
# matplotlib-exemplo-38
#
#plt.style.use('seaborn-v0_8')
x3 = np.arange(10)
y3 = (20, 35, 30, 35, 27, 40, 45, 41, 39, 30)
plt.bar(x3,y3)
plt.show() # Try commenting this an run
#
plt.scatter(x3,y3) # scatter plot
plt.show()

### Exemplo IRIS

In [None]:
# imagem iris
# creditos Sebastian Raschka: https://sebastianraschka.com/Articles/2015_pca_in_3_steps.html
from IPython.display import Image
Image('imagens/iris.png')

In [None]:
# matplotlib-exemplo-39
# Graficando um dataset conhecido com pandas
df = pd.read_csv('data/iris.csv')
df.hist()# Histograma
print('\n')
df.plot(); # grafico linear

### Gráfico de Barras

In [None]:
# matplotlib-exemplo-40
# Histogramas de cores
pre = np.array([19, 6, 11, 9])
post = np.array([15, 11, 9, 8])
labels=['Pesquisa '+x for x in list('ABCD')]
fig, ax = plt.subplots(figsize=(8, 3.5))
width = 0.4 # largura da barra
xlocs = np.arange(len(pre))
ax.bar(xlocs-width, pre, width, color='green', label='Verde')
ax.bar(xlocs, post, width, color='#1f10ed', label='Azul')
# labels, grids, titulos e grvar a figura
ax.set_xticks(ticks=range(len(pre)))
ax.set_xticklabels(labels)
ax.yaxis.grid(True)
ax.legend(loc='best')
ax.set_ylabel('Quantidade')
fig.suptitle('Barras Simples')
fig.tight_layout(pad=1)
#fig.savefig('data/barra.png', dpi=125)

### Gráfico de PIE

In [None]:
# matplotlib-exemplo-41
# grafico de pizza
datax = np.array([15,8,4])
labels = ['Engenharia', 'Matemática', 'Física']
explode = (0, 0.1, 0)
colrs=['cyan', 'tan', 'wheat']
# graficos
fig, ax = plt.subplots(figsize=(8, 3.5))
ax.pie(datax, explode=explode, labels=labels, autopct='%1.1f%%',startangle=270, colors=colrs)
ax.axis('equal') # mantenha um circulo
fig.suptitle("Pizza de Cursos");
#fig.savefig('data/pizza.png', dpi=125)

In [None]:
# matplotlib-exemplo-42
# grafico de pizza usando opção 'shadow'
xp = np.array([1,2,3,4,5,6,7,8,9,0])
label = ['a','b','c','d','e','f','g','h','i','j']
explode = [0.2, 0.1, 0.5, 0, 0, 0.3, 0.3, 0.2, 0.1,0]
# grafico
fig, axx = plt.subplots(figsize=(6, 6))
axx.pie(xp, labels=label, explode = explode, shadow=True, autopct ='%2.2f%%')
plt.title('Gráfico de Pizza')
plt.show()
#fig.savefig('data/pizzashadow.png', dpi=125)

In [None]:
# matplotlib-exemplo-43
#  graficando coordenadas polares
r = np.arange(0, 10.0, 0.1)
theta = 2* np.pi * r
plt.polar(theta, r, color ='r')
plt.title('Coordenadas polares')
plt.show()

### Decorando os gráficos com textos, setas e anotações

In [None]:
# matplotlib-exemplo-44
# decorando: texto, setas e anotações
sx = np.arange(0, 2*np.pi, .01)
sy = np.sin(sx)
plt.plot(sx, sy, color = 'r')
plt.text(0.1, -0.04, '$sin(0) = 0$')
plt.text(1.5, 0.9, '$sin(90) = 1$')
plt.text(2.0, 0, '$sin(180) = 0$')
plt.text(4.5, -0.9, '$sin(270) = -1$')
plt.text(6.0, 0.0, '$sin(360) = 1$')
#plt.annotate('$sin(theta)=0$', xy=(3, 0.1), xytext=(5, 0.7),arrowprops=dict(facecolor='blue', shrink=0.05))
plt.title('Insertando texto e anotações no Gráfico')
plt.xlabel('$theta$')
plt.ylabel('$sy = sin(theta)$')
plt.show()

### Gráficos Usando os datasets do PROUNI

In [None]:
# Dataset prouni 2020
prouni =  pd.read_csv('data/cursos-prouni2020.csv',delimiter=',')
prouni.head()

In [None]:
# valores dos eixos
print(len(prouni))
x = range(0,len(prouni),1)
print(len(x))

In [None]:
y = prouni['bolsa_integral_cotas']
y1 = prouni['nota_integral_ampla']
len(y1)

In [None]:
plt.plot(x,y,'r')
#plt.plot(x,y1,'+b')
plt.ylabel('Bolsa Integral Cotas')
plt.xlabel('Prouni 2020')
plt.title('Exame PROUNI 20/02/2021')
plt.show()

## Seaborn

> **Seaborn** é uma biblioteca de visualização de dados Python baseada em matplotlib e fornece uma interface de alto nível para desenhar gráficos estatísticos atraentes e informativos. Maiores informações em [Seaborn](https://seaborn.pydata.org/index.html)
>> Importar a biblioteca:```import seaborn as sns```

In [70]:
# importar a bibliteca
import seaborn as sns
#plt.style.use('seaborn-whitegrid')
sns.set_theme()   # tema

In [None]:
# dados
tips = sns.load_dataset("tips")
tips

In [None]:
# Create a visualization
sns.relplot(data=tips, x="total_bill", y="tip", col="time",
            hue="smoker", style="smoker", size="size");

In [None]:
# dados prouni
prouni.head()

In [None]:
dados_rj = prouni[prouni['uf_busca']=='RJ']
dados_rj.head()
#print(len(dados_rj))

In [None]:
# visualização do prouni
sns.relplot(data=dados_rj, x="bolsa_integral_cotas", y="nota_integral_ampla", col="turno",
            hue="nome", style="nome", size="turno");

### API em visualizações

In [None]:
# exmplo
dots = sns.load_dataset("dots")      # dados embutidos no seaborn
# cria o gráfico
sns.relplot(data=dots, kind="line", x="time", y="firing_rate", col="align", hue="choice", size="coherence", style="choice",
            facet_kws=dict(sharex=False),);

### Estimativa estatística e barras de erro

In [None]:
# Exemplo de estimativa
fmri = sns.load_dataset("fmri")   # dados embutidos no seaborn
# cria o gráfico
sns.relplot(data=fmri, kind="line", x="timepoint", y="signal", col="region",
            hue="event", style="event",);

In [None]:
# dados prouni = RJ
sns.relplot(data=dados_rj, kind="line", x="nota_integral_ampla", y="bolsa_integral_cotas", 
            col="turno", hue='cidade_busca',style ="cidade_busca",);

#### Usando o modelo de regressão linear - lmplot()

In [None]:
# exemplo: modelo de regressão linear
sns.lmplot(data=tips, x="total_bill", y="tip", col="time", hue="smoker");

In [None]:
# dados prouni = RJ
sns.lmplot(data=dados_rj, x="nota_integral_ampla", y="bolsa_integral_cotas", col="turno", hue='cidade_busca');

### Resumos informativos de distribuição
> As análises estatísticas requerem conhecimento sobre a distribuição de variáveis no conjunto de dados.

In [None]:
sns.displot(data=tips, x="total_bill", col="time", kde=True);

In [None]:
sns.displot(data=dados_rj, x="nota_integral_cotas", col="turno", kde=True);

### Gráficos especializados para dados categóricos

In [None]:
# exemplo seaborn
sns.catplot(data=tips, kind="swarm", x="day", y="total_bill", hue="smoker");

In [None]:
# exemplo dados prouni
#sns.catplot(data=dados_rj, kind="swarm", x="grau", y="nota_integral_cotas", hue="turno");
sns.stripplot(data=dados_rj, x="grau", y="nota_integral_cotas", hue="turno");

In [None]:
# exemplo dados prouni
sns.stripplot(data=dados_rj, x="grau", y="nota_integral_cotas", hue="turno",);

In [None]:
# Exemplo dados prouni
sns.stripplot(data=dados_rj, x="grau", y="nota_integral_cotas", hue="turno",jitter=0.5);

In [None]:
# exemplo embutido no seaborn
sns.catplot(data=tips, kind="bar", x="day", y="total_bill", hue="smoker");

In [None]:
# Exemplo dados prouni
sns.catplot(data=dados_rj, kind='bar', x="grau", y="nota_integral_cotas", hue="turno");

### Visualizações compostas de conjuntos de dados multivariados

In [None]:
# exemplo do seaborn
penguins = sns.load_dataset("penguins")
sns.jointplot(data=penguins, x="flipper_length_mm", y="bill_length_mm", hue="species");

In [None]:
# Exemplo dados prouni
sns.jointplot(data=dados_rj, x="bolsa_integral_cotas", y="nota_integral_cotas", hue="turno");

In [None]:
# dados prouni
sns.pairplot(data=dados_rj, hue="grau");

### Classes e funções para fazer gráficos complexos

Estas ferramentas funcionam combinando funções de plotagem no nível dos eixos com objetos que gerenciam o layout da figura, ligando a estrutura de um conjunto de dados a uma grade de eixos.

In [None]:
# exemplo
g = sns.PairGrid(dados_rj, hue="grau", corner=True)
g.map_lower(sns.kdeplot, hue=None, levels=5, color=".2")
g.map_lower(sns.scatterplot, marker="+")
g.map_diag(sns.histplot, element="step", linewidth=0, kde=True)
g.add_legend(frameon=True)
g.legend.set_bbox_to_anchor((.61, .6))

---
#### Fudamentos para Ciência Dados &copy; Copyright 2021, 2022, 2024 - Sergio Serra & Jorge Zavaleta