# Proyecto del Día 12 - Análisis y Clasificación de Clientes

Bienvenido al **Proyecto del Día 12**. Lee atentamente la consigna *¡y a programar!*


### Título: Análisis y Clasificación de Clientes para Campañas de Marketing

En este proyecto, vas a aplicar técnicas avanzadas de análisis de datos para resolver un problema de clasificación de clientes en un conjunto de datos simulado.

El objetivo es identificar distintos segmentos de clientes basados en sus comportamientos de compra y características demográficas para diseñar campañas de marketing más efectivas.


### Descripción del Proyecto

Este proyecto tiene como objetivo utilizar técnicas de análisis de datos y aprendizaje automático para **identificar diferentes segmentos de clientes basados en sus comportamientos de compra y características demográficas**. Esto te permitirá desarrollar estrategias de marketing dirigidas y personalizadas. Vas a aplicar métodos de preprocesamiento de datos, reducción de dimensiones, y técnicas de clustering para analizar un conjunto de datos simulado de clientes.


### Datos

Vas a utilizar un dataset simulado llamado `datos_clientes.csv` que te descargarás en los recursos de esta lección, y que contiene información demográfica y de comportamiento de compra de clientes, como la edad, los ingresos anuales, la puntuación de gasto y la categoría de producto favorito.


### Consigna del Proyecto

1. **Preprocesamiento de Datos**: Cargar, limpiar y preparar el dataset para el análisis. Esto incluye la normalización de los datos para asegurar que las técnicas de reducción de dimensiones y clustering funcionen correctamente.
2. **Reducción de Dimensiones**: Utilizar **PCA** y **SVD** para reducir la cantidad de variables y destacar las características más importantes que influyen en el comportamiento del cliente.
3. **Clustering**: Implementar **K-Means** y **Clustering Jerárquico** para segmentar los clientes en grupos basados en similitudes en sus datos. Esto ayudará a identificar patrones y tendencias entre diferentes tipos de clientes.
4. **Visualización de Datos**: Crear visualizaciones para interpretar los resultados de las técnicas de reducción de dimensiones y clustering. Esto incluye la creación de **gráficos de dispersión** para los resultados de PCA y la visualización de **dendrogramas** para el Clustering Jerárquico.
5. **Interpretación y Estrategias de Marketing**: Analizar los clusters obtenidos y desarrollar propuestas de estrategias de marketing específicas para cada segmento de clientes. Deberás justificar tus estrategias basándote en las características y comportamientos de los grupos identificados.

¡Mucha suerte, y que te diviertas!

## Análisis y Clasificación de Clientes para Campañas de Marketing

### 1. Preprocesamiento de Datos

In [1]:
# Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import dendrogram, linkage

In [2]:
# Cargar los datos
df: pd.DataFrame = pd.read_csv('./data/customer_data.csv')

In [4]:
# Ver información básica del dataset
df.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 5 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   ID Cliente                      200 non-null    int64 
 1   Edad                            200 non-null    int64 
 2   Ingresos Anuales (k$)           200 non-null    int64 
 3   Puntuación de Gasto (1-100)     200 non-null    int64 
 4   Categoría de Producto Favorito  200 non-null    object
dtypes: int64(4), object(1)
memory usage: 7.9+ KB


In [5]:
# Ver la descripción de las estadísticas básicas del dataset
df.describe()

Unnamed: 0,ID Cliente,Edad,Ingresos Anuales (k$),Puntuación de Gasto (1-100)
count,200.0,200.0,200.0,200.0
mean,100.5,43.425,69.58,49.91
std,57.879185,14.94191,29.693808,29.409292
min,1.0,18.0,20.0,1.0
25%,50.75,31.0,43.75,24.0
50%,100.5,43.5,69.5,50.0
75%,150.25,56.0,92.5,74.0
max,200.0,69.0,119.0,99.0


In [10]:
# Declarar x
x: pd.DataFrame = df.drop(
    ['ID Cliente', 'Categoría de Producto Favorito'],
    axis=1
)
x.head()

Unnamed: 0,Edad,Ingresos Anuales (k$),Puntuación de Gasto (1-100)
0,56,89,47
1,69,91,86
2,46,46,23
3,32,28,66
4,60,81,27


In [14]:
# Normalizar los datos
scale: MinMaxScaler = MinMaxScaler(feature_range=(0, 1))
normalized: np.ndarray = scale.fit_transform(x)
x_standarized: pd.DataFrame = pd.DataFrame(normalized, columns=x.columns)
x_standarized.head()

Unnamed: 0,Edad,Ingresos Anuales (k$),Puntuación de Gasto (1-100)
0,0.745098,0.69697,0.469388
1,1.0,0.717172,0.867347
2,0.54902,0.262626,0.22449
3,0.27451,0.080808,0.663265
4,0.823529,0.616162,0.265306


### 2. Reducción de Dimensiones: PCA y SVD

In [15]:
# Aplicar PCA
pca: PCA = PCA(n_components=2)
x_pca: np.ndarray = pca.fit_transform(x_standarized)
x_pca

array([[ 0.18987698, -0.25216788],
       [ 0.52135074, -0.25104882],
       [-0.33364803, -0.15019777],
       [-0.26362112,  0.34345506],
       [ 0.02316355, -0.41358229],
       [-0.50219204,  0.05706621],
       [ 0.57247829,  0.23046418],
       [-0.14290518, -0.38543247],
       [-0.19522531,  0.03806374],
       [-0.4763978 , -0.12518629],
       [ 0.08675895,  0.16367159],
       [-0.02929578,  0.22487331],
       [-0.21990832,  0.01041273],
       [ 0.66150162,  0.00598256],
       [ 0.29627208, -0.32618273],
       [-0.15508356, -0.09485373],
       [ 0.27832454,  0.63017097],
       [ 0.03273294,  0.05960065],
       [-0.2747371 ,  0.25558199],
       [-0.46403797, -0.03854741],
       [-0.23162565, -0.46816441],
       [-0.27665354,  0.07949897],
       [-0.56746665, -0.34354712],
       [-0.04020254,  0.42510871],
       [ 0.10821725, -0.04004383],
       [ 0.06474278, -0.14759479],
       [-0.62546229,  0.15040202],
       [-0.28581655,  0.23647355],
       [ 0.12875028,

In [16]:
# Aplicar SVD
u, sigma, vt = np.linalg.svd(x_pca)

In [17]:
# Ver u
u

array([[-0.04110687, -0.05958978,  0.07423746, ..., -0.05293088,
        -0.00327709,  0.0556025 ],
       [-0.11286833, -0.05932534, -0.03157936, ..., -0.01481687,
         0.15949367, -0.0713439 ],
       [ 0.07223217, -0.03549323,  0.9933579 , ...,  0.00333066,
         0.00624374, -0.00676982],
       ...,
       [-0.05339028, -0.01213443,  0.00346537, ...,  0.9972073 ,
         0.00121027,  0.00218427],
       [ 0.00481181,  0.16012436,  0.00567326, ...,  0.00162297,
         0.97574643,  0.01148983],
       [ 0.05168722, -0.07441345, -0.00659773, ...,  0.00196067,
         0.01190951,  0.99155371]])

In [18]:
# Ver sigma
sigma

array([4.61910584, 4.23173013])

In [19]:
# Ver vt
vt

array([[-1., -0.],
       [ 0.,  1.]])

In [20]:
# Seleccionar los dos primeros componentes singulares para reducción de dimensiones
k: int = 2

x_transformed = u[:, :k] * sigma[:k]
x_transformed

array([[-0.18987698, -0.25216788],
       [-0.52135074, -0.25104882],
       [ 0.33364803, -0.15019777],
       [ 0.26362112,  0.34345506],
       [-0.02316355, -0.41358229],
       [ 0.50219204,  0.05706621],
       [-0.57247829,  0.23046418],
       [ 0.14290518, -0.38543247],
       [ 0.19522531,  0.03806374],
       [ 0.4763978 , -0.12518629],
       [-0.08675895,  0.16367159],
       [ 0.02929578,  0.22487331],
       [ 0.21990832,  0.01041273],
       [-0.66150162,  0.00598256],
       [-0.29627208, -0.32618273],
       [ 0.15508356, -0.09485373],
       [-0.27832454,  0.63017097],
       [-0.03273294,  0.05960065],
       [ 0.2747371 ,  0.25558199],
       [ 0.46403797, -0.03854741],
       [ 0.23162565, -0.46816441],
       [ 0.27665354,  0.07949897],
       [ 0.56746665, -0.34354712],
       [ 0.04020254,  0.42510871],
       [-0.10821725, -0.04004383],
       [-0.06474278, -0.14759479],
       [ 0.62546229,  0.15040202],
       [ 0.28581655,  0.23647355],
       [-0.12875028,

### 3. Clustering: K-Means y Clustering Jerárquico

In [21]:
# Aplicar K-Means
kmeans: KMeans = KMeans(n_clusters=5, random_state=42)
kmeans.fit(x)



In [22]:
# Aplicar Clustering Jerárquico
linked = linkage(x, 'ward')

### 4. Visualización de Datos

In [None]:
# Crear un gráfico de dispersión para los resultados de PCA

In [None]:
# Crear un dendrograma del clústering jerárquico

### 5. Interpretación y Estrategias de Marketing basadas en los Clusters

In [1]:
# Escribe un loop que te permita mostrar los datos básicos de los diferentes clusters, como:
## su edad media
## sus ingresos medios
## su puntuación de gastos media

In [None]:
# Redacta una propuesta de estrategia de marketing para los diferentes clusters