# Aula 14 - Visualização de Dados

Nesta aula iremos aprender a plotar gráficos utilizando bibliotecas Python.

Além de olhar na documentação das bibliotecas como fazer aquilo que queremos precisamos treinar nossa capacidade analítica para entender gráficos e saber propor as melhores visualizações.



In [None]:
import math
import numpy as np               # Para trabalhar com números, vetores, matrizes e funções matemáticas
import matplotlib.pyplot as plt  # Para trabalhar com gráficos

In [None]:
# @title Função Geradora de Dados

# Essa parte pode não mostrar
# Definindo uma função linear arbitraria (perceba que a=4 e b=5)
def func_linear(x): return(4*x-5)

x = np.array([i for i in range(-50, 50)])

## Adicionando um ruído branco nos dados
mean_noise = 0
sigma_x = 25
y = func_linear(x) + np.random.normal(mean_noise, sigma_x, len(x))

# Definindo uma função quadrática (perceba que a=0.5 e b=-5 e c=50)
def func_quadratica(x): return(0.5*x**2-5*x+50)

## Adicionando um ruído branco nos dados
mean_noise = 0
sigma_x = 25
z = func_quadratica(x) + np.random.normal(mean_noise, sigma_x, len(x))

linhas = [str(int(x[i]))+';'+str(int(y[i]))+';'+str(int(z[i]))+'\n' for i in range(0, len(x))]

with open('dados1.txt', 'w') as file:
    file.writelines(linhas)


In [None]:
linhas

In [None]:
x = np.array([i for i in range(-50, 50)])
for i in range(0, len(x)):
  print(i, str(int(x[i]))+';'+str(int(y[i]))+';'+str(int(z[i])))


In [None]:
# CSV = Comma separated values

## Exemplo 1

Carregando dados de um arquivo txt:

In [None]:
# Carregando o arquivo
with open('dados1.txt', 'r') as file:
    dados = file.readlines()

In [None]:
for linha in dados:
  print(linha)

In [None]:
linha.split(';')

In [None]:
X.append(float(linha.split(';')[0]))

In [None]:
# Passando os dados para vetores
X:list = list()
Y = []
Z = []

for linha in dados:
    X.append(float(linha.split(';')[0]))
    Y.append(float(linha.split(';')[1]))
    Z.append(float(linha.split(';')[2].replace('\n','')))

In [None]:
type(X), type(Y), type(Z)

In [None]:
# Transformando em vetores do numpy
x = np.array(X)
y = np.array(Y)
z = np.array(Z)

In [None]:
type(x), type(y), type(z)

In [None]:
len(x), len(y), len(z)

## 1.1 - Distribuição

A distribuição é um gráfico de barras, bidimensional (2D), de **uma única variável**, onde o eixo X é a variável  (atributo) que se está estudando e o eixo Y é a quantidade de vezes que um determinado valor do atributo aparece nos dados.

Ela é útil para nos dizer como os valores do nosso atributo estão distribuídos, se de maneira concetranda em torno de uma média ou de maneira uniforme por toda a faixa de valores. Inclusive nos permite saber se temos mais de uma média nos dados, indicando que é possível fazer uma separação dos dados.

In [None]:
plt.hist(z, bins=100)

In [None]:
n_bins = 20

fig, axs = plt.subplots(1, 4)

fig.set_size_inches(12, 5)

axs[0].hist(x, bins=n_bins) # Aqui estamos chamando o método .hist para plotar um histograma
axs[1].hist(y, bins=n_bins)
axs[2].hist(z, bins=n_bins)

# Aqui estamos explicitamente dando nome aos eixos do gráfico
axs[0].set_xlabel('x')
axs[1].set_xlabel('y')
axs[2].set_xlabel('z')

axs[0].set_ylabel('Contagem eixo Y')
axs[1].set_ylabel('Contagem')
axs[2].set_ylabel('Contagem')

# Colocando grid
axs[0].grid()
axs[1].grid()
axs[2].grid()

# Vamos aumentar a separação entre os gráficos
plt.subplots_adjust(wspace = 0.8)

# OBS: histogramas são curvas de distribuição discretas

Vejamos como fazer o mesmo gráfico usando o Seaborn.

In [None]:
import seaborn as sns

In [None]:
n_bins

In [None]:
n_bins = 20
ax = sns.displot(data=x,
                 kde=False,
                 facet_kws = dict(margin_titles=True, despine=False),
                 bins=n_bins,
                 linewidth=0.3,
                )

ax.set(xlabel='x', ylabel='Contagem', title='Distribuição')

In [None]:
ax = sns.displot(data=y,
                 kind="hist",
                 kde=True,
                 facet_kws = dict(margin_titles=True,despine=False),
                 bins=n_bins,
                 linewidth=0.7,
                )

ax.set(xlabel='y', ylabel='Freq', title='Distribuição')

In [None]:
ax = sns.displot(data=z,
                 #hist=True,
                 kde=True,
                 facet_kws = dict(margin_titles=True, despine=False),
                 bins=n_bins,
                 linewidth=0.7,
                )

ax.set(xlabel='z', ylabel='Contagem', title='Distribuição')

In [None]:
xpto = [i ** 3 for i in range(0, 100)]

In [None]:
xpto_np = np.array(xpto)

In [None]:
xpto_np

In [None]:
sns.displot(data={'xpto': xpto_np},
            kde=True,
            facet_kws = dict(margin_titles=True,despine=False),
            linewidth=0.7
           )

ax.set(xlabel='valor da variável', ylabel='Contagem', title='Distribuição')

## 1.2 - Densidade Acumulada (ou Distribuição Acumulada)

A densidade acumulada é uma forma de ver a distribuição dos dados no qual o eixo x está ordenado. No eixo y de vez de colocarmos as contagens, colocamos a proporção das contagem sendo que o total é 1 (100%).

In [None]:
ax = sns.displot(data={'x':x,'y':y, 'z':z},
            kind="hist",
            kde=True,
            facet_kws = dict(margin_titles=False, despine=False),
            linewidth=0.7)

ax.set(xlabel='valor da variável', ylabel='Proporção do Total', title='Densidade Acumulada')

## 1.3 - Dispersão

Dispersão é um gráfico onde temos duas variáveis (atributos). Queremos saber se existe alguma relação entre elas, isto é, se um depende da outra de alguma maneira, formando algum tipo de curva matemática que possamos descobrir ou utilizar para fazer predições.

In [None]:
fig, ax = plt.subplots(1,2, figsize=(16, 6))

# Tamanho do gráfico
# fig.set_size_inches(16, 6)

# Plot de dispersão (scatter)
ax[0].scatter(x, y, c='blue', alpha=0.5)
ax[1].scatter(x, z, c='green', alpha=0.5)

# Aqui estamos explicitamente dando nome aos eixos do gráfico
ax[0].set_xlabel('x')
ax[1].set_xlabel('x')
ax[0].set_ylabel('y')
ax[1].set_ylabel('z')

# Colocando grid
ax[0].grid()
ax[1].grid()

# Arrumando os limites dos gráficos
ax[0].set_xlim([-75,75])
ax[0].set_ylim([-250,250])
ax[1].set_xlim([-75,75])
ax[1].set_ylim([-600,2000])

# Vamos aumentar a separação entre os gráficos
plt.subplots_adjust(wspace = 0.25)

# Aumentando o tamanho da fonte (letra)
plt.rcParams.update({'font.size': 12})

In [None]:
# Fazendo ambos no mesmo plot

plt.scatter(x, y, c='blue', alpha=0.5)
plt.scatter(x, z, c='red', alpha=0.5)
plt.xlabel('x')
plt.ylabel('valor')
plt.legend(['y','z'])
plt.xlim([-75, 75])
plt.ylim([-600,2000])
plt.grid()

In [None]:
plt.scatter(y, z, c='green', alpha=0.5)
plt.xlabel('y')
plt.ylabel('z')
plt.xlim([-250,250])
plt.ylim([-600,2000])
plt.grid()

## 1.4 - Dispersão e Distribuição

In [None]:
sns.jointplot(data={'x':x,'y':y, 'z':z},
              x="x",
              y="y",
              height=5,
              ratio=2,
              marginal_ticks=True,
              kind="reg"
             )

In [None]:
sns.jointplot(data={'x':x,'y':y, 'z':z},
              x="x",
              y="z",
              height=5,
              ratio=2,
              marginal_ticks=True,
              kind="reg"
             )

-----------------------------------

In [None]:
fig, axes = plt.subplots(1, 3, sharey='row')
x = np.linspace(-2, 2, 20) # entre 0 e 2 com 100 quebras iguais

axes[0].plot(x, x, 'r') # Linha Linear Red
axes[0].set_title('Linear')
axes[0].set_xlabel('eixo x')
axes[0].set_ylabel('eixo y') # somente setando no primeiro axes

axes[1].plot(x, x**2, 'g') # Linha Quadrática Green
axes[1].set_title('Quadrática')
axes[1].set_xlabel('eixo x')

axes[2].plot(x, x**3, 'b') # Linha Cúbica Blue
axes[2].set_title('Cúbica')
axes[2].set_xlabel('eixo x')

fig.suptitle('Este é o título da Figura!', fontsize=16)

plt.tight_layout() # Ajusta o padding dos subplots

plt.show()

# Box-Plot

Um **Box-Plot**, ou diagrama de caixa, é uma representação gráfica que resume a distribuição de um conjunto de dados em termos de cinco números estatísticos: mínimo, primeiro quartil (Q1), mediana (Q2), terceiro quartil (Q3), e máximo. Ele também identifica outliers que podem estar presentes nos dados.

## Elementos de um Box-Plot

Os principais componentes de um Box-Plot são:

1. **Mínimo**: O menor valor dos dados, excluindo outliers.

2. **Primeiro Quartil (Q1)**: Também conhecido como o 25º percentil, $( Q_1 $) é o valor abaixo do qual 25% dos dados caem.

3. **Mediana (Q2)**: Também conhecido como o 50º percentil, $( Q_2 $) é o valor central dos dados, onde 50% dos dados estão abaixo e 50% estão acima.

4. **Terceiro Quartil (Q3)**: Também conhecido como o 75º percentil, $( Q_3 )$ é o valor abaixo do qual 75% dos dados caem.

5. **Máximo**: O maior valor dos dados, excluindo outliers.

6. **Outliers**: Valores que estão significativamente distantes do restante dos dados. São geralmente definidos como valores que estão além de ($ 1.5 \times IQR $) (Intervalo Interquartil) abaixo de ($ Q_1 $) ou acima de ($ Q_3 $).

## Fórmulas Relacionadas

### 1. **Mediana (Q2)**

A **mediana** ($ Q_2 $) de um conjunto de dados ordenado é o valor que divide o conjunto ao meio.

- Se o número de observações ( $n $) for ímpar, ($ Q_2 $) é o valor da posição central.
- Se $( n )$ for par, ($ Q_2 $) é a média dos dois valores centrais.

### 2. **Quartis (Q1 e Q3)**

- **Primeiro Quartil (Q1)**:
  - O 25º percentil dos dados.
  - $( Q_1 = \text{mediana da primeira metade dos dados (excluindo Q2)} )$.

- **Terceiro Quartil (Q3)**:
  - O 75º percentil dos dados.
  - $( Q_3 = \text{mediana da segunda metade dos dados (excluindo Q2)} )$.

### 3. **Intervalo Interquartil (IQR)**

O **Intervalo Interquartil (IQR)** mede a dispersão do meio dos dados e é calculado como:

$$
\text{IQR} = Q_3 - Q_1
$$

### 4. **Limites para Identificação de Outliers**

Outliers são geralmente identificados usando os seguintes limites:

- **Limite Inferior**:
  $$
  \text{LI} = Q_1 - 1.5 \times \text{IQR}
  $$
  
- **Limite Superior**:
  $$
  \text{LS} = Q_3 + 1.5 \times \text{IQR}
  $$

Valores abaixo do **Limite Inferior** ou acima do **Limite Superior** são considerados outliers.

### 5. **Extensões do Bigode (Whiskers)**

Os "bigodes" do Box-Plot se estendem até o menor e o maior valor dentro dos limites inferior e superior:

- **Extensão Inferior do Bigode**:
  $$
  \text{Min. (sem outliers)} = \min(\{x \in X : x \geq Q_1 - 1.5 \times \text{IQR}\})
  $$

- **Extensão Superior do Bigode**:
  $$
  \text{Max. (sem outliers)} = \max(\{x \in X : x \leq Q_3 + 1.5 \times \text{IQR}\})
  $$

### Exemplo de Cálculo

Dado o conjunto de dados ordenado \( X = [7, 10, 15, 36, 39, 41, 48, 49, 52, 56] \):

1. **Mediana (Q2)**:
   $$ Q_2 = \frac{39 + 41}{2} = 40 $$

2. **Primeiro Quartil (Q1)**:
   $$ Q_1 = \frac{10 + 15}{2} = 12.5 $$

3. **Terceiro Quartil (Q3)**:
   $$ Q_3 = \frac{48 + 49}{2} = 48.5 $$

4. **Intervalo Interquartil (IQR)**:
   $$ \text{IQR} = 48.5 - 12.5 = 36 $$

5. **Limites para Outliers**:
   - **Limite Inferior**:
     $$ \text{LI} = 12.5 - 1.5 \times 36 = -41.5 $$
   - **Limite Superior**:
     $$ \text{LS} = 48.5 + 1.5 \times 36 = 102.5 $$

6. **Extensões dos Bigodes**:
   - **Extensão Inferior**: 7
   - **Extensão Superior**: 56

### Interpretação

- **Caixa (Box)**: Representa o intervalo interquartil (Q1 a Q3) contendo 50% dos dados.
- **Linha na Caixa**: Representa a mediana (Q2).
- **Bigodes (Whiskers)**: Se estendem até o valor máximo e mínimo dentro dos limites calculados.
- **Pontos Fora dos Bigodes**: Representam os outliers.

In [None]:
# Customizando o Boxplot
plt.figure(figsize=(8, 6))  # Aumenta o tamanho da figura

# Cria o boxplot com cores personalizadas
box = plt.boxplot([x, y, z],
                 patch_artist=True,  # Permite preencher as caixas
                 labels=['x', 'y', 'z'],  # Rótulos para cada caixa
                 showfliers=True, # Remove os outliers
                #  medianprops=dict(color='black', linewidth=2),  # Personaliza a mediana
                #  boxprops=dict(facecolor='lightblue', color='blue', linewidth=2),  # Personaliza as caixas
                #  whiskerprops=dict(color='blue', linewidth=2),  # Personaliza os whiskers
                #  capprops=dict(color='blue', linewidth=2)  # Personaliza as extremidades dos whiskers
                )

# Preenche as caixas com cores diferentes
colors = ['lightblue', 'lightgreen', 'lightpink']
for patch, color in zip(box['boxes'], colors):
    patch.set_facecolor(color)

# Adiciona setas e anotações para os quartis de y e z
plt.annotate('Q1', xy=(2.1, np.percentile(y, 25)), xytext=(2.3, np.percentile(y, 25)),
             arrowprops=dict(facecolor='black', arrowstyle='->'))

plt.annotate('Q3', xy=(2.1, np.percentile(y, 75)), xytext=(2.3, np.percentile(y, 75)),
             arrowprops=dict(facecolor='black', arrowstyle='->'))

plt.annotate('Q1', xy=(3.1, np.percentile(z, 25)), xytext=(3.3, np.percentile(z, 25)),
             arrowprops=dict(facecolor='black', arrowstyle='->'))

plt.annotate('Q3', xy=(3.1, np.percentile(z, 75)), xytext=(3.3, np.percentile(z, 75)),
             arrowprops=dict(facecolor='black', arrowstyle='->'))

# Adiciona título e rótulos dos eixos
plt.title('Boxplot Customizado com Quantis', fontsize=16)
plt.xlabel('Variáveis')
plt.ylabel('Valores')

plt.grid(True, linestyle='--', alpha=0.7)  # Adiciona uma grade

plt.show()


In [None]:
x = [x * 0.1 for x in range(-100, 100)]
senx = [math.sin(xs) for xs in x]
cosx = [math.cos(xs) for xs in x]

In [None]:
fig = plt.figure(figsize=(20, 10))

plt.plot(x, senx, 'r-', label="seno")
plt.plot(x, cosx, 'b--', label="cosseno");
plt.legend(loc=2)
plt.show()

In [None]:
import numpy as np
import pandas as pd

import plotly
import cufflinks as cf
import plotly.offline as py
import plotly.graph_objs as go
from plotly.offline import plot, iplot

cf.go_offline()
plotly.offline.init_notebook_mode(connected = True)

In [None]:
import plotly.io as pio
pio.renderers

In [None]:
pio.renderers.default = 'colab'

In [None]:
df = pd.DataFrame({"SEN": senx, "COS": cosx})

In [None]:
df = pd.DataFrame(np.random.randn(50,4), columns=['Alfa','Beta','Creta','Delta'])
df.head()

In [None]:
# @title SENO vs COS

from matplotlib import pyplot as plt
df.plot(kind='scatter', x='COS', y='SEN', s=32, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
df.iplot()

In [None]:
df.iplot(kind='barh', x='COS',y='SEN', mode='markers')

In [None]:
z_data

In [None]:
# Read data from a csv
z_data = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/api_docs/mt_bruno_elevation.csv')

fig = go.Figure(data=[go.Surface(z=z_data.values)])

fig.update_layout(title=' Amostra de Elevação', autosize=False,
                  width=800, height=600,
                  margin=dict(l=65, r=50, b=65, t=90))

fig.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Exemplo 2 - (Exercício)

In [None]:
idades = [20,12,15,30,15,13,14,12,10,12,14,19,5]
alturas = [1.80,1.59,1.65,1.69,1.72, 1.45,2,1.70,1.67,1.78,1.90,1.85,1.54]
sexo = ['M','F','M','F','M','F','M','F','M','F','M','F','M']

In [None]:
len(idades), len(alturas), len(sexo)

## 2.0 - Estatística

In [None]:
np.mean(idades), np.mean(alturas)

## 2.1 - Distribuição

## 2.2 - Densidade Acumulada (ou Distribuição Acumulada)

## 2.3 - Dispersão

## 2.4 - Dispersão e Distribuição

-----------------------------