# Visualização de Dados – Distribuição, Dispersão e Correlação

---

### Este notebook faz parte do portfólio acadêmico do curso de Análise de Dados – EBAC.

---


#### Neste notebook realizamos a visualização da variável `salario` e sua relação com `anos_experiencia`.
#### Utilizamos `matplotlib` e `seaborn` para criar histogramas, gráficos de dispersão e mapas de calor.

## 1. Leitura dos Dados

Importamos o dataset `clientes-v3-preparado.csv` e visualizamos as primeiras linhas.

- `pandas` – manipulação de dados
- `matplotlib.pyplot` – criação de gráficos
- `seaborn` – visualizações estatísticas
-  `pathlib` – gerenciamento de caminhos de arquivos

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

data_path = Path('../dataset/clientes-v3-preparado.csv')
df = pd.read_csv(data_path)
print(df.head().to_string())

## 2. Histograma – Distribuição de Salários

Visualizamos a distribuição da variável `salario` com diferentes configurações de estilo.


O histograma é uma representação gráfica da distribuição de uma variável numérica.
E é útil para entender a distribuição dos dados, presença de outliers ou valores extremos e frequência de faixas específicas de valores.

Use histogramas quando quiser:
- Verificar se os dados seguem uma distribuição normal
- Identificar padrões de concentração ou dispersão
- Avaliar a necessidade de transformação de variáveis (como logaritmo ou padronização)
- Explorar dados antes de aplicar modelos estatísticos ou de machine learning

Neste notebook, usamos o histograma para visualizar a variável `salario`.
Esse tipo de gráfico nos permite observar a distribuição dos salários entre os clientes, identificando se há concentração em faixas específicas e se existem valores extremos que destoam da maioria.

In [None]:
# Histograma
plt.hist(df['salario'])
plt.show()

# Histograma - Parâmetros
plt.figure(figsize=(10, 6))
plt.hist(df['salario'], bins=100, color='green', alpha=0.8)
plt.title('Histograma - Distribuição de Salários')
plt.xlabel('Salário')
plt.xticks(ticks=range(0, int(df['salario'].max())+2000, 2000))
plt.ylabel('Frequência')
plt.grid(True)
plt.show()

## 3. Gráficos de Dispersão e Correlação

Criamos múltiplos gráficos para explorar a relação entre `salario` e `anos_experiencia`.


O gráfico de dispersão mostra a relação entre duas variáveis numéricas.
Ele é ideal para identificar padrões, tendências e possíveis correlações.

Use gráficos de dispersão quando quiser:
- Verificar se existe uma relação linear ou não linear entre duas variáveis
- Identificar agrupamentos ou outliers
- Avaliar a força e direção da relação entre variáveis antes de aplicar modelos preditivos

Neste notebook, usamos o gráfico de dispersão para visualizar a relação entre `salario` e `anos_experiencia`.
Isso nos ajuda a entender se, conforme os anos de experiência aumentam, os salários também tendem a subir, o que pode indicar uma correlação positiva.



In [None]:
# Múltiplos gráficos
plt.figure(figsize=(10, 6))
plt.subplot(2, 2, 1) # 2 Linhas, 2 Colunas, 1º Gráfico

# Gráfico de Dispersão
plt.scatter(df['salario'], df['salario'])
plt.title('Dispersão - Salário e Salário')
plt.xlabel('Salário')
plt.ylabel('Salário')

plt.subplot(1, 2, 2) # 1 Linha, 2 Colunas, 2º Gráficos
plt.scatter(df['salario'], df['anos_experiencia'], color='#5883a8', alpha=0.6, s=30) # cor hexadecimal online
plt.title('Dispersão - Idade e Anos de Experiência')
plt.xlabel('Salário')
plt.ylabel('Anos de experiência')

O mapa de calor é uma representação visual de uma matriz de correlação, onde as cores indicam a intensidade da relação entre variáveis.
Ele facilita a identificação rápida de quais variáveis estão mais relacionadas.

Use mapas de calor quando quiser:
- Explorar correlações entre múltiplas variáveis numéricas
- Identificar variáveis que podem ser redundantes ou fortemente associadas
- Guiar a seleção de variáveis para modelos estatísticos ou de machine learning

Neste notebook, o mapa de calor mostra a correlação entre `salario` e `anos_experiencia`.
Um valor próximo de +1 indica correlação positiva forte, enquanto valores próximos de 0 indicam pouca ou nenhuma correlação.


In [None]:
# Mapa de Calor
corr = df[['salario', 'anos_experiencia']].corr()
plt.subplot(2, 2, 3) # 1 Linha, 2 Colunas, 3º Gráfico
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title('Correlação Salário e Idade')

plt.tight_layout() # Ajustar espaçamentos
plt.show()

#### Observações:

- O histograma mostra a distribuição dos salários, útil para identificar assimetrias ou outliers.
- O gráfico de dispersão ajuda a visualizar relações entre variáveis numéricas.
- O mapa de calor revela a força da correlação entre `salario` e `anos_experiencia`.
- Para análises mais profundas, recomenda-se incluir outras variáveis como `idade` ou `nível de educação`.