# Visualizações Avançadas com Seaborn – Dispersão, Densidade e Regressão

#### Neste notebook exploramos relações entre variáveis numéricas e categóricas utilizando gráficos avançados do `seaborn`.
#### As visualizações incluem dispersão, densidade, regressão e segmentação por grupo.

---


## 1. Leitura dos Dados

Importamos o dataset `clientes-v3-preparado.csv` e visualizamos os primeiros registros.

- `pandas` – manipulação de dados
- `matplotlib.pyplot` – suporte à renderização dos gráficos
- `seaborn` – visualizações estatísticas avançadas
- `pathlib` – gerenciamento de caminhos de arquivos


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

data_path = Path('../dataset/clientes-v3-preparado.csv')
df = pd.read_csv(data_path)

print(df.head().to_string())

## 2. Gráfico de Dispersão – Idade vs Salário

Utilizamos `jointplot` para visualizar a dispersão entre `idade` e `salario`, com histogramas marginais.


O gráfico `jointplot` combina um gráfico de dispersão com histogramas nas margens, permitindo observar simultaneamente a **relação entre duas variáveis** e a **distribuição individual** de cada uma.

Use `jointplot` quando quiser:
- Visualizar a relação entre duas variáveis numéricas
- Observar a distribuição marginal de cada variável
- Identificar padrões, agrupamentos ou outliers
- Explorar dados de forma mais completa que um scatter plot simples

Neste notebook, usamos o `jointplot` para analisar a relação entre `idade` e `salario`.
Esse tipo de gráfico nos permite entender se há uma tendência entre essas variáveis e como cada uma está distribuída individualmente.

In [None]:
sns.jointplot(x='idade', y='salario', data=df, kind='scatter') # ['scatter', 'hist', 'hex', 'kde', 'reg', 'resid']
plt.show()

## 3. Gráfico de Densidade – Distribuição Salarial

Visualizamos a distribuição de `salario` com `kdeplot`, que mostra a densidade estimada.

O gráfico de densidade (`kdeplot`) é uma alternativa ao histograma que utiliza uma função de suavização para estimar a **distribuição contínua** de uma variável numérica.

Use gráficos de densidade quando quiser:
- Visualizar distribuições suaves e contínuas
- Comparar distribuições entre grupos
- Identificar picos, caudas e assimetrias nos dados
- Explorar padrões sem a segmentação rígida dos histogramas

Neste notebook, usamos o `kdeplot` para visualizar a variável `salario`.
Esse tipo de gráfico nos permite observar a forma da distribuição salarial com mais suavidade, facilitando a identificação de padrões e possíveis assimetrias.


In [None]:
plt.figure(figsize=(10, 6))
sns.kdeplot(df['salario'], fill=True, color='#863e9c')
plt.title('Densidade de Salários')
plt.xlabel('Salário')
plt.show()

## 4. Gráfico de Pairplot – Relações entre Variáveis

Utilizamos `pairplot` para visualizar múltiplas relações entre variáveis numéricas e categóricas.

O `pairplot` cria uma matriz de gráficos de dispersão e histogramas para todas as combinações de variáveis selecionadas.
É uma ferramenta poderosa para **exploração inicial** de dados, revelando **correlações, padrões e distribuições**.

Use `pairplot` quando quiser:
- Explorar múltiplas variáveis simultaneamente
- Identificar relações entre variáveis numéricas
- Visualizar distribuições marginais
- Detectar padrões e possíveis agrupamentos

Neste notebook, usamos o `pairplot` para analisar as variáveis `idade`, `salario`, `anos_experiencia` e `nivel_educacao`.
Esse tipo de gráfico nos ajuda a entender como essas variáveis se relacionam entre si e a identificar possíveis correlações.


In [None]:
sns.pairplot(df[['idade', 'salario', 'anos_experiencia', 'nivel_educacao']])
plt.show()

## 5. Gráfico de Regressão – Salário por Idade

Utilizamos `regplot` para visualizar a tendência de crescimento salarial com a idade.

O `regplot` combina um gráfico de dispersão com uma **linha de regressão linear**, permitindo observar tendências e relações entre variáveis numéricas.

Use `regplot` quando quiser:
- Visualizar tendências lineares entre duas variáveis
- Estimar relações preditivas simples
- Identificar padrões e desvios em relação à linha de tendência
- Avaliar a força da associação entre variáveis

Neste notebook, usamos o `regplot` para analisar a relação entre `idade` e `salario`.
Esse tipo de gráfico nos permite observar se há uma tendência de aumento salarial conforme a idade avança, o que pode indicar uma correlação positiva.

In [None]:
sns.regplot(x='idade', y='salario', data=df, color='#278f65', scatter_kws={'alpha': 0.5, 'color': '#34c289'})
plt.title('Regressão de Salário por Idade')
plt.xlabel('Idade')
plt.ylabel('Salario')
plt.show()

## 6. Gráfico de Barras Segmentado – Estado Civil vs Escolaridade

Utilizamos `countplot` com `hue` para segmentar a contagem de clientes por estado civil e nível de educação.

O `countplot` exibe a **frequência de categorias** em uma variável qualitativa.
Ao adicionar o parâmetro `hue`, é possível segmentar os dados por uma segunda variável, permitindo **comparações entre grupos**.

Use `countplot` com `hue` quando quiser:
- Comparar categorias principais e secundárias
- Visualizar distribuições segmentadas
- Identificar padrões entre grupos
- Explorar interações entre variáveis categóricas

Neste notebook, usamos o `countplot` para analisar a variável `estado_civil` segmentada por `nivel_educacao`.
Esse tipo de gráfico nos permite comparar o perfil educacional dentro de cada grupo de estado civil, revelando padrões demográficos importantes.

In [None]:
sns.countplot(x='estado_civil', hue='nivel_educacao', data=df, palette='pastel')
plt.xlabel('Estado Civil')
plt.ylabel('Quantidade Clientes')
plt.legend(title='Nível de Educação')
plt.show()

#### Observações:

- O `jointplot` combina dispersão com histogramas marginais, útil para entender distribuição conjunta.
- O `pairplot` é excelente para explorar múltiplas relações simultaneamente.
- O `regplot` mostra tendências lineares e pode ser usado para prever comportamentos.
- O `countplot` com `hue` permite segmentar categorias e comparar grupos.
- Para análises mais profundas, recomenda-se aplicar filtros ou agrupar os dados por faixas etárias ou regiões.

Documentação da biblioteca `seaborn`

https://seaborn.pydata.org/tutorial/color_palettes.html