## Papel da visualização na EDA
Visualizações são essenciais na EDA porque nos ajudam a identificar padrões, correlações entre os dados e distribuições de maneira clara e eficiente. <br>
Como vimos antes, boxplot é um ótimo exemplo para reforçar essa frase. <br>
Dentre as ferramentas mais populares para criar visualizações em Python, Matplotlib se destaca como uma das mais versáteis e amplamente utilizadas. <br>

## Matplotlib
O Matplotlib é uma biblioteca poderosa de visualização 2D em Python, amplamente usada para criar gráficos. Ela permite a criação de gráficos como histogramas, scatter plots, gráficos de barras, entre outros. Vamos falar desses gráficos agora.

1. Gráfico de linha
- Um gráfico de linha simples pode ser feito com o Matplotlib para mostrar a relação entre duas variáveis ao longo do tempo ou outra sequência contínua. Exemplo:

In [None]:
import matplotlib.pyplot as plt

# Dados de exemplo
anos = [2015, 2016, 2017, 2018, 2019, 2020, 2021]
vendas = [50, 55, 60, 58, 65, 70, 75]

# Criando o gráfico de linha
plt.plot(anos, vendas, marker='o')

# Adicionando título e rótulos
plt.title('Vendas ao Longo dos Anos')
plt.xlabel('Ano')
plt.ylabel('Vendas (em milhares)')

# Exibindo o gráfico
plt.show()

Saída: <br><br>
![image.png](attachment:image.png)

2. Gráfico de barra
- Um gráfico de barras é uma visualização utilizada para comparar diferentes categorias ou grupos de dados. Ele é muito útil para destacar variações entre categorias discretas. Em um gráfico de barras, os comprimentos das barras representam a magnitude de cada categoria, permitindo uma fácil comparação visual. Exemplo:

In [None]:
import matplotlib.pyplot as plt

# Dados de exemplo
categorias = ['Categoria A', 'Categoria B', 'Categoria C', 'Categoria D']
valores = [40, 70, 30, 85]

# Criando o gráfico de barras
plt.bar(categorias, valores, color='skyblue')

# Adicionando título e rótulos
plt.title('Exemplo de Gráfico de Barras')
plt.xlabel('Categorias')
plt.ylabel('Valores')

# Exibindo o gráfico
plt.show()

Saída: <br><br>
![image.png](attachment:image.png)

3. Histogramas
- Um histograma é um tipo de gráfico de barras usado para visualizar a distribuição de uma variável numérica contínua. Ao invés de exibir categorias discretas, como nos gráficos de barras, os histogramas agrupam os dados em intervalos (ou "bins") e mostram a frequência ou a contagem de valores que caem dentro de cada intervalo. <br>
- Características do Histograma:
    - Eixo X: Representa os intervalos (bins) em que os dados são agrupados.
    - Eixo Y: Representa a frequência (quantidade de ocorrências) de dados em cada intervalo.
    - Barras Adjacentes: As barras de um histograma são adjacentes, sem espaços, pois os valores são contínuos.

Exemplo:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Definindo a semente para a reprodutibilidade (basicamente é para gerar sempre os mesmos 'dados aleatórios')
np.random.seed(42)

# Gerando dados de exemplo
dados = np.random.randn(1000)  # 1000 valores aleatórios com distribuição normal

# Criando o histograma
plt.hist(dados, bins=30, color='blue', edgecolor='black')

# Adicionando título e rótulos
plt.title('Histograma de Distribuição de Dados')
plt.xlabel('Valor')
plt.ylabel('Frequência')

# Exibindo o gráfico
plt.show()

Saída: <br><br>
![image.png](attachment:image.png)

4. Scatterplot
- Um scatterplot (gráfico de dispersão) é uma visualização que mostra a relação entre duas variáveis numéricas, representadas por pontos em um gráfico. Cada ponto no gráfico representa um par de valores correspondentes às duas variáveis. Scatterplots são amplamente usados para detectar correlações ou padrões entre variáveis. Exemplo:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Gerando dados de exemplo
np.random.seed(42)  # Definindo a semente para reprodutibilidade
x = np.random.rand(100)  # 100 valores aleatórios para o eixo X
y = x * 2 + np.random.normal(0, 0.1, 100)  # Relacionando X com Y com algum ruído

# Criando o scatterplot
plt.scatter(x, y, color='blue', edgecolor='black')

# Adicionando título e rótulos
plt.title('Exemplo de Scatterplot')
plt.xlabel('X')
plt.ylabel('Y')

# Exibindo o gráfico
plt.show()

Saída: <br><br>
![image.png](attachment:image.png)

### Adendo: 
O que são **ruídos**?
O ruído refere-se a variações aleatórias e indesejadas nos dados que podem obscurecer ou distorcer a relação real entre as variáveis, dificultando a análise e a interpretação. <br>

- O ruído foi gerado no exemplo do scatterplot para simular a variabilidade que frequentemente ocorre em dados do mundo real. A inclusão de ruído ajuda a:
    - Refletir a Realidade: Na prática, as medições raramente são perfeitas; sempre existem fatores que podem causar variações. O ruído simula essas incertezas.
    - Testar Modelos: Ao adicionar ruído, é possível avaliar a robustez de modelos e algoritmos de análise de dados, já que eles precisam ser capazes de identificar padrões mesmo na presença de variações.
    - Visualizar a Dispersão: O ruído ajuda a mostrar como os pontos se dispersam em relação a uma tendência, o que pode ser útil para entender melhor a relação entre as variáveis.

### Outros gráficos
Existem muitos outros gráficos que podemos criar no matplot. Vou citá-los e explicar em qual ocasião devemos utilizá-los.

1. Box Plot (Gráfico de Caixa):
Excelente para mostrar a distribuição, mediana e outliers de um conjunto de dados. É útil para comparar a distribuição de várias categorias.

2. Heatmap (Mapa de Calor):
Usado para representar dados em matrizes, mostrando a intensidade de valores através de cores. É muito usado em análise de correlação ou quando se trabalha com grandes quantidades de dados.

3. Gráfico de Pizza:
Mostra a proporção de diferentes categorias em um todo. É útil para visualizar a participação percentual de cada categoria em um total.

4. Scatterplot Matrix:
Uma grade de gráficos de dispersão que permite visualizar relações entre várias variáveis simultaneamente.

5. Gráfico de Área:
Similar ao gráfico de linhas, mas a área abaixo da linha é preenchida. É útil para mostrar o volume de dados ao longo do tempo.


#### Para saber como aplicá-los no matplot, veja a documentação da biblioteca: https://matplotlib.org/
