# Visualização de Correlação e Distribuição Categórica

#### Neste notebook realizamos a análise de correlação entre variáveis numéricas e a distribuição de categorias como `estado_civil` e `nivel_educacao`.
#### Utilizamos `matplotlib` e `seaborn` para criar mapas de calor e gráficos de barras segmentados.

---


## 1. Leitura dos Dados

Importamos o dataset `clientes-v3-preparado.csv` e selecionamos as variáveis relevantes para análise.

- `pandas` – manipulação de dados
- `matplotlib.pyplot` – criação de gráficos
- `seaborn` – visualizações estatísticas
- `pathlib` – gerenciamento de caminhos de arquivos

---


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

sns.set_style('whitegrid')  # Estilo visual para os gráficos

data_path = Path('../dataset/clientes-v3-preparado.csv')
df = pd.read_csv(data_path)

## 2. Mapa de Calor – Correlação entre Variáveis Numéricas

O mapa de calor é uma representação visual da matriz de correlação.
Ele facilita a identificação de relações fortes entre variáveis, como `salario`, `idade`, `anos_experiencia`, entre outras.

In [None]:
df_corr = df[['salario', 'idade', 'anos_experiencia', 'numero_filhos',
              'nivel_educacao_cod', 'area_atuacao_cod']].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(df_corr, annot=True, fmt='.2f', cmap='coolwarm')
plt.title('Mapa de Calor da Correlação entre Variáveis')
plt.show()

## 3. Countplot – Distribuição do Estado Civil

O `countplot` mostra a frequência de cada categoria em uma variável.
Neste caso, visualizamos a distribuição de clientes por estado civil.

In [None]:
sns.countplot(x='estado_civil', data=df)
plt.title('Distribuição do Estado Civil')
plt.xlabel('Estado Civil')
plt.ylabel('Contagem')
plt.show()

## 4. Countplot Segmentado – Estado Civil por Nível de Educação

Utilizamos `hue` para segmentar a contagem por `nivel_educacao`, permitindo comparar grupos dentro de cada categoria de estado civil.

In [None]:
sns.countplot(x='estado_civil', hue='nivel_educacao', data=df, palette='pastel')
plt.title('Distribuição do Estado Civil por Nível de Educação')
plt.xlabel('Estado Civil')
plt.ylabel('Contagem')
plt.legend(title='Nível de Educação')
plt.show()

## Conclusão

- O mapa de calor revelou correlações relevantes entre `salario`, `anos_experiencia` e `nivel_educacao_cod`.
- A distribuição de estado civil mostrou predominância de certos grupos, como solteiros ou casados.
- A segmentação por nível de educação evidenciou va

