In [None]:
import sys

from IPython.display import Image, display
if 'google.colab' in sys.modules:
    from google.colab import drive
    drive.mount('/content/drive')

: 

In [None]:
%cd '/content/drive/MyDrive/Inteligencia Artificial/IA - Clases de PraÃÅctica/ContenidosPorTemas/ActividadesPracticas'

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.metrics import silhouette_samples

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Segmentaci√≥n de clientes üë©ü§†üßë

El siguiente conjunto de datos consiste en informaci√≥n sobre el comportamiento de compra de 2,000 individuos de una determinada √°rea al entrar en una tienda f√≠sica de bienes de consumo r√°pido. Todos los datos se han recopilado a trav√©s de las tarjetas que utilizan al momento de pagar. Los datos han sido preprocesados y no hay valores faltantes. Adem√°s, el volumen del conjunto de datos se ha limitado y anonimizado para proteger la privacidad de los clientes.

Columnas del conjunto de datos:

- **Sex**: g√©nero.
        0: masculino,
        1: femenino.
- **Marital status**: Estado civil de un cliente.
        0: soltero,
        1: no soltero (divorciado/separado/casado/viudo).
- **Age**: Edad del cliente en a√±os. Valor m√≠nimo: 18, Valor m√°ximo: 78.
- **Education**: Nivel educativo del cliente.
        0: otro/desconocido,
        1: escuela secundaria,
        2: universidad,
        3: posgrado.
- **Income**: Ingreso anual autoreportado en d√≥lares estadounidenses del cliente. Valor m√≠nimo: 35,832, Valor m√°ximo: 309,364.
- **Occupation**: Categor√≠a de la ocupaci√≥n del cliente.
        0: desempleado/no calificado,
        1: empleado calificado/funcionario,
        2: administraci√≥n/aut√≥nomo/empleado altamente calificado/oficial.
- **Settlement size**: Tama√±o de la ciudad donde vive el cliente.
        0: ciudad peque√±a,
        1: ciudad mediana,
        2: gran ciudad.

El problema es que tenemos muchas variables (edad, ingresos, estado civil, etc.), y no es f√°cil trabajar con todas a la vez. Vamos a usar una t√©cnica muy √∫til: An√°lisis de Componentes Principales (PCA, por sus siglas en ingl√©s: Principal Component Analysis).

¬øQu√© hace PCA?

- Reduce la dimensionalidad de los datos, es decir, transforma muchas variables en unas pocas nuevas llamadas componentes principales.
- Estas nuevas variables son combinaciones lineales de las originales y est√°n ordenadas de forma que:

    - La primera componente explica la mayor parte de la variabilidad en los datos.
    - La segunda componente explica la mayor parte de la variabilidad que queda, y as√≠ sucesivamente.

De esta manera podemos simplificar los datos, visualizarlos en 2D o 3D y usarlos como entrada para algoritmos de clustering sin perder demasiada informaci√≥n.

```
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Varianza explicada por cada componente:", pca.explained_variance_ratio_)

```


### Actividad

Con los datos reducidos (X_pca) aplique los tres m√©todos distintos de clustering:

K-Means: elegir el valor de K usando m√©todo del codo y/o de silueta.
DBSCAN: detectar densidades y posibles outliers.
Jer√°rquico (Agglomerative): formar clusters basados en similitud.

La **segmentaci√≥n de clientes** (**customer segmentation**) es una estrategia y t√©cnica en marketing y an√°lisis de datos que implica dividir una base de clientes en grupos m√°s peque√±os y homog√©neos seg√∫n caracter√≠sticas y comportamientos similares. El objetivo principal de la segmentaci√≥n de clientes es comprender mejor a los diferentes grupos de clientes para poder adaptar estrategias y enfoques de marketing espec√≠ficos a cada segmento.

Luego de probar los distintos m√©todos, seleccionar uno y agrupar en el n√∫mero de clusters seleccionado. Con las etiquetas asignadas por el m√©todo, filtrar el dataset original y describir en t√©rminos de las caracter√≠sticas originales cada uno de los grupos.


In [None]:
# Cargo los datos
df = pd.read_csv("1_datos/customer_data.csv", delimiter=",", header=0)
datum = pd.DataFrame(df)
datum.head(10)

In [None]:
import seaborn as sns
# Analisis de datos: Basico

datum.info()

plt.figure(figsize=(10, 6))
sns.countplot(data=datum, x="Sex", hue="Education")
plt.title("Distribuci√≥n de Educaci√≥n por Sexo")
plt.show()

In [None]:
# PairGrid
g = sns.PairGrid(datum[['Age', 'Income','Education']], hue='Education')
g.map_upper(sns.scatterplot)
g.map_lower(sns.scatterplot)
g.map_diag(sns.histplot)
g.add_legend()
plt.suptitle('PairGrid Personalizado', y=1.02)
plt.show()

In [None]:
# Agrego mas visualizaciones de variables

fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('Mix de Gr√°ficos con Seaborn', fontsize=16, fontweight='bold')
    
# Gr√°fico 1: Violin plot
sns.violinplot(data=datum, x='Sex', y='Age', ax=axes[0, 0])
axes[0, 0].set_title('Violin Plot: Edad por Categor√≠a')
    
# Gr√°fico 2: Heatmap de correlaci√≥n
corr_data = datum[['x', 'y', 'Settlement size', 'Income']].corr()
sns.heatmap(corr_data, annot=True, cmap='coolwarm', center=0, ax=axes[0, 1])
axes[0, 1].set_title('Matriz de Correlaci√≥n')
    
# Gr√°fico 3: Strip plot
sns.stripplot(data=datum, x='Marital status', y='Occupation', hue='Occupation', ax=axes[0, 2])
axes[0, 2].set_title('Strip Plot: Salario por Grupo')
axes[0, 2].legend(bbox_to_anchor=(1.05, 1), loc='upper left')
    
# Gr√°fico 4: Regression plot
sns.regplot(data=datum, x='Age', y='Income', ax=axes[1, 0])
axes[1, 0].set_title('Regresi√≥n: Edad vs Salario')
    
# Gr√°fico 5: Bar plot
sns.barplot(data=datum, x='categoria', y='salario', hue='grupo', ax=axes[1, 1])
axes[1, 1].set_title('Salario Promedio por Categor√≠a y Grupo')
    
# Gr√°fico 6: KDE plot
sns.kdeplot(data=datos, x='edad', y='salario', ax=axes[1, 2])
axes[1, 2].set_title('Densidad: Edad vs Salario')
    
plt.tight_layout()
plt.show()

In [None]:
# Escalamos los datos

# 1. Seleccionar las columnas que quer√©s escalar
cols = ["ID", "ingresos"]

# 2. Crear el escalador
scaler = StandardScaler()

# 3. Ajustar y transformar
X_scaled = scaler.fit_transform(df[cols])

# 4. Pasar el resultado a DataFrame con los mismos nombres de columnas
df_scaled = pd.DataFrame(X_scaled, columns=cols)

print(df_scaled)

In [None]:
from sklearn.decomposition import PCA
# Aplico PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(datum)

print("Varianza explicada por cada componente:", pca.explained_variance_ratio_)
