# Visualização Categórica e Numérica – Escolaridade, Idade e Salário

#### Neste notebook exploramos a distribuição da variável `nivel_educacao` e a relação entre `idade` e `salario`.
#### Utilizamos `matplotlib` e `pandas` para criar gráficos de barras, pizza e dispersão hexagonal.

## 1. Leitura dos Dados

Importamos o dataset `clientes-v3-preparado.csv` e visualizamos os primeiros registros.

- `pandas` – manipulação de dados
- `matplotlib.pyplot` – criação de gráficos
- `pathlib` – gerenciamento de caminhos de arquivos

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from pathlib import Path

data_path = Path('../dataset/clientes-v3-preparado.csv')
df = pd.read_csv(data_path)
print(df.head(20).to_string())

## 2. Gráfico de Barras – Distribuição de Escolaridade

Visualizamos a frequência dos diferentes níveis de educação com dois estilos de gráfico de barras.

O gráfico de barras mostra a quantidade de cada categoria de uma variável.
É útil para entender quais categorias são mais frequentes, comparar grupos e identificar padrões de distribuição.

Use gráficos de barras quando quiser:
- Visualizar a frequência de categorias
- Comparar diferentes grupos
- Identificar categorias dominantes ou pouco representadas
- Apresentar dados categóricos em relatórios e dashboards

Neste notebook, usamos o gráfico de barras para visualizar a variável `nivel_educacao`.
Esse tipo de gráfico nos permite observar quais níveis de escolaridade são mais comuns entre os clientes, facilitando a análise do perfil educacional da base de dados.

In [None]:
# Gráfico de Barras
plt.figure(figsize=(10, 6))
df['nivel_educacao'].value_counts().plot(kind='bar', color='#90ee70')
plt.title('Divisão de Escolaridade - 1')
plt.xlabel('Nível de Educação')
plt.ylabel('Quantidade')
plt.xticks(rotation=0)
plt.show()


# Gráfico de barras com matplotlib
x = df['nivel_educacao'].value_counts().index
y = df['nivel_educacao'].value_counts().values

plt.figure(figsize=(10, 6))
plt.bar(x, y, color='#60aa65')
plt.title('Divisão de Escolaridade - 2')
plt.xlabel('Nível de Educação')
plt.ylabel('Quantidade')

## 3. Gráfico de Pizza – Proporção de Escolaridade

Visualizamos a distribuição percentual dos níveis de educação.

O gráfico de pizza mostra uma proporção de cada categoria em relação ao total.
Cada fatia representa uma categoria, e seu tamanho é proporcional à sua frequência.

Use gráficos de pizza quando quiser:
- Destacar a participação percentual de cada grupo
- Apresentar dados categóricos com **poucas** categorias
- Criar visualizações intuitivas e de fácil leitura

Neste notebook, usamos o gráfico de pizza para visualizar a variável `nivel_educacao`.
Esse tipo de gráfico nos permite observar rapidamente quais níveis de escolaridade representam os clientes.


In [None]:
plt.figure(figsize=(10, 6))
plt.pie(y, labels=x, autopct='%.1f%%', startangle=90)
plt.title('Distribuição de Nível de Educação')
plt.show()

## 4. Gráfico de Dispersão Hexagonal – Idade vs Salário

Utilizamos `hexbin` para visualizar a densidade de pontos entre `idade` e `salario`.

O gráfico de dispersão hexagonal é uma variação do scatter plot que agrupa os pontos em hexagonais, coloridas conforme a densidade de dados.
É útil para grandes volumes de dados, onde os pontos se sobrepõem e dificultam a visualização.

Use gráficos hexagonais quando quiser:
- Visualizar relações entre duas variáveis numéricas com alta densidade
- Identificar áreas de maior concentração dos dados
- Reduzir sobreposições em gráficos de dispersão tradicionais
- Explorar padrões em grandes bases de dados

Neste notebook, usamos o gráfico de dispersão para visualizar a relação entre `idade` e `salario`.
Esse tipo de gráfico nos permite identificar faixas etárias e salariais com maior concentração de clientes, revelando padrões importantes para análise demográfica e financeira.



In [None]:
plt.hexbin(df['idade'], df['salario'], gridsize=40, cmap='Blues')
plt.colorbar(label='Contagem dentro do bin')
plt.xlabel('Idade')
plt.ylabel('Salário')
plt.title('Dispersão de Idade e Salário')
plt.show()

#### Observações:

- Os gráficos de barras e pizza ajudam a entender a composição categórica dos dados.
- O gráfico de dispersão hexagonal é útil para visualizar concentração de dados em faixas específicas.
- A variável `nivel_educacao` pode ser cruzada com outras variáveis para análises mais profundas, como salário médio por escolaridade.


Documentação da biblioteca `pandas`

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html#pandas