In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

plt.style.use("ggplot")

In [None]:
df = pd.read_csv("../data/dados_ficticios.csv")
df.head()

In [None]:
print("Informações do Dataset:\n")
df.info()

print("\nEstatísticas descritivas:\n")
df.describe()

In [None]:
print("Valores ausentes por coluna:\n")
df.isnull().sum()

In [None]:
df.hist(figsize=(12, 8), bins=20, color="skyblue")
plt.suptitle("Distribuição das Variáveis", fontsize=16)
plt.show()

In [None]:
plt.figure(figsize=(10, 7))
sns.heatmap(df.corr(), annot=True, cmap="coolwarm", linewidths=0.5)
plt.title("Matriz de Correlação")
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(df["renda_mensal"], df["pontuacao_gasto"], alpha=0.7)
plt.xlabel("Renda Mensal")
plt.ylabel("Pontuação de Gasto")
plt.title("Renda vs Pontuação de Gasto")
plt.show()

plt.figure(figsize=(8, 6))
plt.scatter(df["idade"], df["frequencia_compras"], alpha=0.7, color="purple")
plt.xlabel("Idade")
plt.ylabel("Frequência de Compras")
plt.title("Idade vs Frequência de Compras")
plt.show()

In [None]:
colunas = ["idade", "renda_mensal", "pontuacao_gasto", "frequencia_compras"]

scaler = StandardScaler()
dados_norm = scaler.fit_transform(df[colunas])

dados_norm[:5]

In [None]:
pca = PCA(n_components=2)
componentes = pca.fit_transform(dados_norm)

plt.figure(figsize=(8, 6))
plt.scatter(componentes[:, 0], componentes[:, 1], alpha=0.7)
plt.xlabel("Componente PCA 1")
plt.ylabel("Componente PCA 2")
plt.title("PCA - Estrutura dos Dados em 2D")
plt.grid(True)
plt.show()

In [None]:
print("""
CONCLUSÕES PRELIMINARES DA ANÁLISE EXPLORATÓRIA:

1. As variáveis mostram boa variação e são adequadas para clustering.
2. A correlação entre renda e pontuação de gasto pode indicar padrões de consumo.
3. PCA revela que há uma possível separação natural entre grupos no espaço 2D.
4. Não há valores ausentes no conjunto de dados.
5. Os gráficos de dispersão mostram possíveis agrupamentos visuais.
6. A normalização será importante para os algoritmos K-Means e DBSCAN.
""")