# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas


# Fundamentos de Visualização de Dados

Este notebook apresenta os fundamentos da visualização de dados com `matplotlib` e `seaborn`.


## 1. Introdução ao `matplotlib`

O `matplotlib` é uma biblioteca utilizada para criação de visualizações de dados em Python. Ela fornece uma estrutura flexível, permitindo a criação de gráficos simples até visualizações personalizadas.

A interface mais comum é o módulo `pyplot`, normalmente importado como plt, que oferece uma sintaxe semelhante à do MATLAB e facilita a criação rápida de gráficos.

Documentação oficial:  
https://matplotlib.org/stable/users/index.html

Dica:  
Um excelente ponto de partida para conhecer os diferentes tipos de gráficos disponíveis está no guia visual oficial:  
https://matplotlib.org/stable/plot_types/index.html


In [None]:
# Importação das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(7) # fixa a aleatoriedade para que os resultados sejam sempre os mesmos

### 1.1. Primeiro gráfico: linha simples

Vamos começar com um gráfico de linha, o tipo mais simples de visualização.

In [None]:
# Exemplo
x = np.arange(0, 10, 0.5)
y = x ** 2

# Gráfico
plt.figure(figsize=(6, 4)) # Tamanho
plt.grid(True) # Grade
plt.plot(x, y) # "Plota" o gráfico
plt.show()

### 1.2. Adicionando título, rótulos e legenda
Um bom gráfico precisa de contexto. Vamos adicionar título, rótulos de eixos e uma legenda.

In [None]:
#Exemplo
plt.plot(x, y, label='y = x²')
plt.title('Gráfico de Linha: y = x²')
plt.xlabel('Eixo X')
plt.ylabel('Eixo Y')
plt.legend() # Mostra legenda
plt.show()

### 1.3. Personalizando cores, estilos e marcadores
Podemos alterar cores, linhas e marcadores com argumentos simples.

Opções de personalização:

- Cores

  | Tipo | Exemplo | Como usar |
  |------|----------|---------|
  | Nome da cor | `red`, `green`, `blue`, `black`, `white`, `gray`, `orange`, `purple` | `color='red'` |
  | Abreviação | `r`, `g`, `b`, `k`, `w`, `y`, `m`, `c` | `color='r'` |
  | Hexadecimal | `#FF0000`, `#00FF00`, `#0000FF` | `color='#1f77b4'` |
  | RGB (tupla) | `(1.0, 0.0, 0.0)` (vermelho) | `color=(0.2, 0.4, 0.6)` |
  | Paleta "tab" | `tab:blue`, `tab:orange`, `tab:green`, `tab:red` | `color='tab:blue'` |

<br>

- Estilos de Linha

  | Estilo | Código curto | Alternativo | Visual esperado | Como usar |
  |---------|--------------|--------------|-----------------|-----------|
  | Linha contínua | `'-'` | `'solid'` | ───────────── | `linestyle='solid'` |
  | Tracejada | `'--'` | `'dashed'` | - - - - - - - | `linestyle='dashed'` |
  | Ponto-tracejada | `'-. '` | `'dashdot'` | ─ · ─ · ─ · ─ | `linestyle='dashdot'` |
  | Pontilhada | `':'` | `'dotted'` | ·············· | `linestyle='dotted'` |
  | Sem linha | `''` | `'None'` | (somente marcadores) | `linestyle='None'`  ou omitir |

<br>

- Espessura da linha

  Como usar: `linewidth=2`  

<br>

- Marcadores

  | Símbolo | Código | Como usar |
  |----------|---------|-----------|
  | `.` | Ponto pequeno | `marker='.'` |
  | `o` | Círculo | `marker='o'` |
  | `s` | Quadrado | `marker='s'` |
  | `^` | Triângulo para cima | `marker='^'` |
  | `v` | Triângulo para baixo | `marker='v'` |
  | `<` | Triângulo para esquerda | `marker='<'` |
  | `>` | Triângulo para direita | `marker='>'` |
  | `*` | Estrela | `marker='*'` |
  | `x` | Cruz inclinada | `marker='x'` |
  | `+` | Cruz reta | `marker='+'` |
  | `D` | Losango | `marker='D'` |
  | `p` | Pentágono | `marker='p'` |
  | `h` | Hexágono | `marker='h'` |
  | `None` | Nenhum marcador | `marker=None` ou omitir |

<br>

- Cores e tamanho dos Marcadores

  Cor de preenchimento do marcador: `markerfacecolor=red`  
  Cor da borda do marcador: `markeredgecolor=black`  
  Tamanho do marcador: `markersize=8`  

<br>

- Cor da borda

  Define a cor da borda (contorno) dos elementos gráficos, como barras, pontos ou áreas.

  Como usar: `edgecolor='black'`

<br>

- Cor de preenchimento (interno)

  Define a cor de preenchimento dos elementos.

  Como usar: `facecolor='green'`


<br>

- Transparência

  Controla a transparência (opacidade) do elemento.

  Como usar: `alpha=0.7`



In [None]:
# Exemplo
plt.plot(x, y, color='red', linestyle='--', marker='o', label='y = x²')
plt.title('Personalização de Linha, Cor e Marcadores')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend()
plt.show()

In [None]:
# Exemplo
x = np.linspace(0, 10, 20)
y1 = np.sin(x)
y2 = np.cos(x)

plt.plot(x, y1, color='tab:orange', linestyle='--', marker='o', label='Seno')
plt.plot(x, y2, color='green', linestyle=':', marker='s', label='Cosseno')
#plt.plot(x, x/10, color=(0.2, 0.4, 0.6), linestyle='-.', marker='*', label='Reta')
plt.title('Combinando Cores, Linhas e Marcadores')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.show()

In [None]:
# Exemplo
plt.plot(x, y1, color='tab:orange', linestyle='--', linewidth=2.5, marker='o', markersize=9, markerfacecolor='white', markeredgecolor='tab:orange', alpha=0.75, label='Seno')
plt.plot(x, y2, color='green', linestyle=':', linewidth=2, marker='s', markersize=12, markerfacecolor='lightgreen', markeredgecolor='black', alpha=0.5, label='Cosseno')

plt.title('Combinando Cores, Linhas e Marcadores com Efeitos')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.show()

## 2. Tipos de gráficos

### 2.1. Gráfico de Dispersão (Scatter Plot)

Mostra a relação entre duas variáveis. Útil para identificar padrões e correlações.

In [None]:
#Exemplo
x = np.random.rand(50)
y = 2 * x + np.random.randn(50) * 0.2

plt.scatter(x, y, color='green')
plt.title('Gráfico de Dispersão')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

### 2.2. Gráfico de Barras
Use gráficos de barras para comparar categorias.

In [None]:
# Exemplo
categorias = ['A', 'B', 'C', 'D']
valores = [23, 45, 56, 32]

plt.bar(categorias, valores)
plt.title('Gráfico de Barras Simples')
plt.xlabel('Categoria')
plt.ylabel('Valor')
plt.show()

### 2.3. Histograma
O histograma mostra a distribuição de uma variável contínua.

In [None]:
# Exemplo
dados = np.random.randn(200)
plt.hist(dados, bins=15, edgecolor='black')
plt.title('Distribuição de Dados Aleatórios')
plt.xlabel('Valor')
plt.ylabel('Frequência')
plt.show()

### 2.4. Gráfico de "caixa" (boxplot)
Mostra distribuição de uma variável, evidenciando outliers, quartis e mediana. Ideal para comparar grupos.

In [None]:
# Exemplo
grupo_a = np.random.normal(50, 10, 100)
grupo_b = np.random.normal(55, 12, 100)
grupo_c = np.random.normal(52, 8, 100)

plt.figure(figsize=(6, 4))
plt.boxplot([grupo_a, grupo_b, grupo_c], tick_labels=['Grupo A', 'Grupo B', 'Grupo C'])
plt.title('Boxplot - Distribuição por Grupo')
plt.ylabel('Valores')
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()

### 2.5. Gráfico "pizza" (piechart)

Mostra proporções entre categorias. Útil para proporções simples, mas deve ser usado com poucas categorias.

In [None]:
# Exemplo
categorias = ['A', 'B', 'C', 'D']
valores = [30, 25, 25, 20]

plt.figure(figsize=(5, 5))
plt.pie(valores, labels=categorias, autopct='%1.1f%%', startangle=90)
plt.title('Gráfico de Pizza - Proporções')
plt.show()


### 2.6. Mapa de calor

Exibe uma matriz de valores usando cores para representar a intensidade. Ótimo para correlação e matrizes de confusão.

In [None]:
# Exemplo
matriz = np.random.rand(5, 5)

plt.figure(figsize=(5, 4))
plt.imshow(matriz, cmap='viridis', interpolation='nearest')
plt.colorbar(label='Intensidade')
plt.title('Heatmap - Mapa de Calor')
plt.show()


### 2.7. Gráfico de erros (errorbar)

Mostra médias e desvios (ou intervalos de confiança).

In [None]:
# Exemplo
x = np.arange(5)
y = np.random.randint(10, 20, size=5)
erro = np.random.uniform(1, 3, size=5)

plt.figure(figsize=(6, 4))
plt.errorbar(x, y, yerr=erro, fmt='o', capsize=5, color='tab:red', ecolor='black')
plt.title('Errorbar - Valores com Incerteza')
plt.xlabel('Amostra')
plt.ylabel('Valor')
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()


### 2.8. Gráfico de área

Mostra áreas preenchidas sob uma curva, ideal para demonstrar crescimento acumulado ou volume ao longo do tempo.

In [None]:
# Exemplo
x = np.linspace(0, 10, 100)
y = np.sin(x) + 1

plt.figure(figsize=(6, 4))
plt.plot(x, y, color='tab:blue')
plt.fill_between(x, y, color='skyblue', alpha=0.4)
plt.title('Gráfico de Área - Evolução de Magnitude')
plt.xlabel('Tempo')
plt.ylabel('Valor')
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()


### 2.9. Múltiplos gráficos (subplots)
Podemos mostrar vários gráficos lado a lado com `plt.subplots()`.

In [None]:
# Exemplo
fig, axs = plt.subplots(1, 2, figsize=(10, 4))

axs[0].plot(x, y, color='orange')
axs[0].set_title('Gráfico de Linha')

axs[1].bar(categorias, valores, color='purple')
axs[1].set_title('Gráfico de Barras')

plt.tight_layout()
plt.show()

### 2.10. Personalização avançada: anotações e limites
Podemos destacar pontos específicos ou ajustar o foco do gráfico.

In [None]:
# Exemplo
plt.plot(x, y, label='y = x²', color='teal')
plt.title('Gráfico com Anotação')
plt.xlabel('X')
plt.ylabel('Y')

# Anotar o ponto máximo
x_max = x[np.argmax(y)]
y_max = max(y)
plt.scatter(x_max, y_max, color='blue')
plt.annotate('Ponto Máximo',
             xy=(x_max, y_max), # ponto que a seta aponta
             xytext=(7.2, 2.5), # posição do texto
             arrowprops=dict(color='red', shrink=0.07))
plt.legend()
plt.show()

## Resumo

| Categoria                    | Gráficos abordados      | Principais usos                    |
| ---------------------------- | ----------------------- | ---------------------------------- |
| **Distribuição**             | `boxplot`, `violinplot` | comparar grupos, detectar outliers |
| **Proporção**                | `pie`, `barh`           | proporções e categorias longas     |
| **Tendência / Área**         | `fill_between`          | evolução ao longo do tempo         |
| **Discreto / Engenharia**    | `stem`                  | dados pontuais, sinais             |
| **Correlação / Intensidade** | `heatmap`, `contour`    | matrizes, funções                  |
| **Análise com Erros**        | `errorbar`              | incertezas                         |
| **Dashboards**               | `subplots`              | painéis visuais completos          |


Documentação oficial:  
https://matplotlib.org/stable/users/index.html

### Exercícios práticos com o matplotlib
1. Crie um gráfico de linha mostrando `y = 3x + 2`.
2. Plote um histograma com 30 bins de uma distribuição normal.
3. Faça um gráfico de barras com 5 categorias e rótulos de valor.
4. Crie dois subplots: um `scatter` e um `hist`.
5. Adicione anotações em um ponto importante de um gráfico.

> Observação: explore as opções `color`, `linestyle`, `marker`, `xlim`, `ylim`, e `annotate()`.

### 3. Introdução ao Seaborn

O `seaborn` é uma biblioteca de visualização de dados baseada no `matplotlib`, com foco em análise estatística e estilo aprimorado.

Enquanto o `matplotlib` oferece controle detalhado sobre cada elemento do gráfico, o `seaborn` fornece "atalhos inteligentes" para gráficos estatísticos e layouts mais elegantes.

Documentação oficial:  
https://seaborn.pydata.org/tutorial.html

In [None]:
# Importação da biblioteca
import seaborn as sns

In [None]:
# Dataset exemplo
dados = sns.load_dataset('tips') # Gorjetas em restaurantes
dados.head()

Outros datasets exemplo presentes no `seaborn`

| Dataset    | Tema                       | Uso típico                          |
| ---------- | -------------------------- | ----------------------------------- |
| `penguins` | Pinguins da Antártica      | Regressão e classificação           |
| `iris`     | Flores Iris                | Clássico de aprendizado de máquina  |
| `flights`  | Passageiros de voo por mês | Séries temporais                    |
| `diamonds` | Preço de diamantes         | Regressão e outliers                |
| `titanic`  | Sobreviventes do Titanic   | Análise categórica                  |
| `exercise` | Exercício físico           | Gráficos condicionais (`FacetGrid`) |


In [None]:
# Estilos prontos
sns.set_style('whitegrid')  # Opções: white, dark, whitegrid, darkgrid, ticks

# Paletas de cores
sns.color_palette('Set1') # 1, 2 e 3

#sns.palplot(sns.color_palette("coolwarm", 7))
#sns.palplot(sns.color_palette("viridis", 7))
#sns.palplot(sns.color_palette("pastel"))


### 3.1. Gráficos básicos — equivalentes ao Matplotlib

| Tipo de gráfico | Função Seaborn      | Equivalente Matplotlib |
| --------------- | ------------------- | ---------------------- |
| Dispersão       | `sns.scatterplot()` | `plt.scatter()`        |
| Linha           | `sns.lineplot()`    | `plt.plot()`           |
| Barras          | `sns.barplot()`     | `plt.bar()`            |
| Histograma      | `sns.histplot()`    | `plt.hist()`           |
| Boxplot         | `sns.boxplot()`     | `plt.boxplot()`        |
| Violinplot      | `sns.violinplot()`  | `plt.violinplot()`     |
| Heatmap         | `sns.heatmap()`     | `plt.imshow()`         |


### 3.2. Histograma

In [None]:
# Exemplo
sns.histplot(dados['total_bill'], bins=20, kde=True, color='blue') # kde = densidade
plt.title('Distribuição de Contas (Total Bill)')
plt.show()

### 3.3. Gráfico de dispersão

In [None]:
# Exemplo
sns.scatterplot(data=dados, x='total_bill', y='tip', hue='sex', style='time')
plt.title('Relação entre Conta e Gorjeta')
plt.show()

# hue = mapeia uma variável categórica (ou contínua) para cores diferentes dentro do mesmo gráfico
# style = serve para diferenciar grupos (categorias) através de formas geométricas diferentes

### 3.4. Gráfico de barras

In [None]:
# Exemplo
sns.barplot(data=dados, x='day', y='total_bill', hue='sex', errorbar='sd')
plt.title('Valor médio das contas por dia e sexo')
plt.show()


### 3.5. Gráfico de "caixa"

In [None]:
# Exemplo
sns.boxplot(data=dados, x='day', y='total_bill', hue='sex')
plt.title('Boxplot - Distribuição de Contas por Dia e Sexo')
plt.show()

### 3.6. Mapa de calor

In [None]:
# Exemplo
sns.heatmap(dados.corr(numeric_only=True), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Mapa de Calor - Correlação das Variáveis')
plt.show()

### 3.7. Layouts e Grids — Múltiplos Gráficos Automáticos

#### FacetGrid

Permite gerar vários gráficos condicionais com base em variáveis categóricas. O FacetGrid cria uma grade (grid) de subplots, onde cada gráfico mostra um subconjunto dos dados, filtrado de acordo com uma ou mais variáveis categóricas.

In [None]:
g = sns.FacetGrid(dados, col='sex', row='time')
g.map(sns.scatterplot, 'total_bill', 'tip')


#### Pairplot

Mostra a relação entre todas as variáveis numéricas de um dataset, duas a duas, em uma matriz de dispersão (scatter matrix). Além disso, ele exibe a distribuição univariada de cada variável nos gráficos da diagonal principal.

In [None]:
sns.pairplot(dados, hue='sex', diag_kind='kde')
plt.show()


#### Gráficos de Relação (`relplot`)

Gráficos que mostram relações entre variáveis numéricas.

Ele combina dois conceitos principais:

- Um tipo de gráfico (dispersão ou linha)

- Com um layout condicional (várias categorias mostradas automaticamente em colunas/linhas)

Em resumo: *relplot = FacetGrid + (scatterplot ou lineplot)*

In [None]:
sns.relplot(
    data=dados,
    x="total_bill", y="tip", col="time",
    hue="smoker", style="smoker", size="size", kind='scatter'
)
plt.show()

#### Exemplos de perguntas exploratórias

Estas perguntas são típicas de uma análise exploratória de dados (EDA) — o processo de entender o comportamento dos dados por meio de visualizações. O `seaborn` facilita essa análise, transformando hipóteses em gráficos intuitivos.

Quem dá mais gorjeta: homens ou mulheres?  
→ `sns.barplot(x='sex', y='tip', data=dados)`

As gorjetas aumentam com o valor da conta?  
→ `sns.scatterplot(x='total_bill', y='tip', hue='sex', data=dados)`

O número de pessoas na mesa influencia a gorjeta?  
→ `sns.boxplot(x='size', y='tip', data=dados)`

Existe diferença entre almoço e jantar?  
→ `sns.violinplot(x='time', y='tip', data=dados)`

Há correlação entre variáveis numéricas?  
→ `sns.heatmap(dados.corr(numeric_only=True), annot=True)`

### Exercícios práticos com Seaborn

#### Aplicação prática: Análise visual com o dataset Titanic

O dataset Titanic contém informações sobre passageiros do navio, incluindo idade, sexo, classe, tarifa e se sobreviveram ou não. Ele é amplamente usado em Ciência de Dados para explorar relações entre variáveis categóricas e numéricas.

Nos exercícios a seguir, aplicaremos os conceitos aprendidos de visualização para responder perguntas exploratórias com base nesse conjunto de dados.

1. Crie um gráfico de dispersão entre `age` (idade) e `fare` (tarifa), colorindo por `sex` e com formatos (`style`) diferentes para `survived`.  
Interprete: há alguma diferença no padrão de tarifas ou idades entre sobreviventes e não sobreviventes? As mulheres tendem a pagar tarifas maiores ou menores?  
<br>

2. Faça um gráfico de barras mostrando o valor médio da tarifa (`fare`) por classe (`class`), separado por sexo (`hue='sex'`), incluindo o desvio padrão (`errorbar='sd'`).  
Descreva: as tarifas variam muito entre as classes? Há diferença entre homens e mulheres dentro da mesma classe?  
<br>

3. Crie um boxplot comparando a distribuição de idades (`age`) por classe (`class`), colorindo por sobrevivência (`survived`).  
Analise: as idades médias diferem entre as classes? Há indícios de que a sobrevivência se relaciona à idade?  
<br>

4. Utilize o FacetGrid para visualizar a relação entre `age` e `fare`, segmentando por sexo (`sex`) nas colunas e sobrevivência (`survived`) nas linhas.  
Observe: existe algum padrão de idade ou tarifa associado à sobrevivência dentro de cada sexo?  
<br>

5. Gere um mapa de calor (heatmap) mostrando as correlações entre as variáveis numéricas do dataset `titanic`.  
Explique: quais variáveis numéricas apresentam maior correlação? Alguma delas parece estar associada ao preço da passagem (`fare`)?

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

dados = sns.load_dataset('titanic')
dados.head()