# 🏆 Análisis Predictivo y Segmentación en el Mercado de Relojes de Lujo

## 📌 Planteamiento del Problema de Negocio

La empresa **DALL·E Watches**, especializada en la fabricación y comercialización de relojes de lujo, está interesada en mejorar su estrategia de *pricing* y *marketing*. El mercado de relojes de alta gama es altamente competitivo, con múltiples factores que afectan la percepción de valor y el precio de los productos.

Para tomar decisiones más informadas, **DALL·E Watches** ha recopilado un conjunto de datos sobre sus propios relojes y los de la competencia. Con esta información, la empresa ha solicitado un análisis de datos avanzado que permita responder dos preguntas clave:

## 🎯 Objetivos del Análisis
1️⃣ **Predicción del Precio de los Relojes**: Identificar los factores clave que determinan el precio de un reloj y desarrollar un modelo de Machine Learning que permita predecirlo con precisión.  

2️⃣ **Segmentación del Mercado de Relojes de Lujo**: Agrupar relojes en distintos perfiles según sus características para mejorar la estrategia de marketing y posicionamiento de productos.  

## 📊 Aplicaciones del Análisis en la Empresa
✅ **Optimización de precios**: Determinar qué características impactan más en el precio y ajustar estrategias de *pricing*.  
✅ **Segmentación de productos**: Identificar categorías de relojes según sus atributos.  
✅ **Estrategia de marketing**: Diseñar campañas personalizadas para cada segmento de clientes.  

## 🛠️ Enfoque Analítico
Para resolver este problema, el análisis se divide en dos partes:

🔹 **Parte 1: Predicción de Precios (Regresión)** → Modelos de Machine Learning para estimar el precio de los relojes.  
🔹 **Parte 2: Segmentación de Relojes (Clustering)** → Aplicación de algoritmos de clustering para definir perfiles de mercado.  

---

# 🚀 Esquema Detallado del Análisis

## 🔍 1️⃣ Análisis Exploratorio de Datos (EDA)
- 📊 **Distribución del Precio**: Histogramas y gráficos de densidad.  
- 📏 **Pruebas de Normalidad**: Shapiro-Wilk, Kolmogorov-Smirnov, Anderson-Darling.  
- 🔄 **Transformaciones si es necesario**: Logaritmo natural, Box-Cox, Yeo-Johnson.  
- 🔍 **Análisis de Valores Atípicos (Outliers)**: Detección con rango intercuartílico y DBSCAN.  
- 📈 **Correlaciones entre Variables Numéricas**: Matriz de correlación y test de VIF para multicolinealidad.  
- 🔤 **Análisis de Variables Categóricas**:  
  - Cálculo de cardinalidad.  
  - Relación con la variable objetivo usando ANOVA o Kruskal-Wallis según normalidad.  
  - Gráficos de distribución y *boxplots* avanzados.  

## 🧹 2️⃣ Preprocesamiento de Datos
- ✅ **Manejo de Valores Nulos**: Imputación según tipo de variable (media, mediana, moda o modelos avanzados).  
- 🔠 **Codificación de Variables Categóricas**: One-Hot Encoding, Target Encoding o Embedding según el caso.  
- 🔄 **Estandarización y Normalización**: StandardScaler o MinMaxScaler para variables numéricas.  
- 🔽 **Reducción de Dimensionalidad con PCA**: Aplicación si hay muchas variables correlacionadas.  

---

# 🔮 Modelado y Machine Learning

## 📈 3️⃣ Modelos de Regresión (Predicción de Precio)
- 📌 **Train-Test Split**: División de los datos en 80% entrenamiento y 20% prueba.  
- 🔄 **Pipeline para Regresión**:  
  - Preprocesamiento automático.  
  - Pruebas con modelos básicos (*Linear Regression*, *Random Forest*).  
  - Modelos avanzados: *XGBoost*, *LGBM*, *Redes Neuronales (opcional)*.  
- 🎯 **Evaluación de Modelos**:  
  - Métricas: RMSE, MAE, R².  
  - **Curvas de Aprendizaje**: Para detectar *overfitting* y *underfitting*.  
  - **SHAP para Interpretabilidad**: Explicación de las predicciones del modelo.  

---

## 🎭 4️⃣ Modelos de Clustering (Segmentación de Mercado)
- 📌 **Pipeline para Clustering**:  
  - Preprocesamiento: Normalización y reducción de dimensionalidad con PCA o t-SNE.  
  - Algoritmos de Clustering: *K-Means*, *DBSCAN*, *GMM*.  
  - **Métodos para elegir número óptimo de clusters**:  
    - Método del Codo (*Elbow Method*).  
    - Coeficiente de Silueta (*Silhouette Score*).  
- 📊 **Análisis de los Clusters**:  
  - Visualización en 2D y 3D.  
  - Caracterización de segmentos con gráficos y tablas descriptivas.  
  - Relación entre los segmentos y los precios.  

---

## 📌 5️⃣ Conclusiones y Recomendaciones de Negocio
- 📈 **Principales Factores que Impactan el Precio**: ¿Cuáles son las características más influyentes?  
- 📌 **Clusters Identificados y Estrategia Comercial**: ¿Qué segmentos de relojes existen y cómo dirigirse a ellos?  
- 🔮 **Posibles Aplicaciones Futuras**:  
  - Incorporación de datos externos (tendencias de mercado).  
  - Modelos más avanzados como *Deep Learning* para predicción de precios.  

---

💡 **Este análisis proporciona a DALL·E Watches una base sólida para optimizar su estrategia de pricing y marketing en el mercado de relojes de lujo.**  



In [1]:
import pandas as pd

In [7]:
df=pd.read_csv("./data/Luxury _watch.csv")
df

Unnamed: 0,Brand,Model,Case Material,Strap Material,Movement Type,Water Resistance,Case Diameter (mm),Case Thickness (mm),Band Width (mm),Dial Color,Crystal Material,Complications,Power Reserve,Price (USD)
0,Rolex,Submariner,Stainless Steel,Stainless Steel,Automatic,300 meters,40.0,13.00,20.0,Black,Sapphire,Date,48 hours,9500
1,Omega,Seamaster,Titanium,Rubber,Automatic,600 meters,43.5,14.47,21.0,Blue,Sapphire,Date,60 hours,5800
2,Tag Heuer,Carrera,Stainless Steel,Leather,Automatic,100 meters,41.0,13.00,20.0,White,Sapphire,Chronograph,42 hours,4200
3,Breitling,Navitimer,Stainless Steel,Stainless Steel,Automatic,30 meters,43.0,14.25,22.0,Black,Sapphire,Chronograph,70 hours,7900
4,Cartier,Tank Solo,Stainless Steel,Leather,Quartz,30 meters,31.0,6.05,20.0,Silver,Sapphire,,,2800
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
502,Breguet,Classique,18k Rose Gold,Leather,Automatic,30 meters,38.5,8.25,20.0,White,Sapphire,Date,38 hours,21500
503,Blancpain,Fifty Fathoms,Stainless Steel,Fabric,Automatic,300 meters,45.0,15.50,23.0,Black,Sapphire,Date,120 hours,13500
504,Longines,Master Collection,Stainless Steel,Leather,Automatic,30 meters,38.5,9.70,20.0,Blue,Sapphire,Date,64 hours,1800
505,Vacheron Constantin,Overseas,Stainless Steel,Stainless Steel,Automatic,150 meters,41.5,11.00,22.0,Blue,Sapphire,Date,40 hours,19000


In [9]:
df.columns

Index(['Brand', 'Model', 'Case Material', 'Strap Material', 'Movement Type',
       'Water Resistance', 'Case Diameter (mm)', 'Case Thickness (mm)',
       'Band Width (mm)', 'Dial Color', 'Crystal Material', 'Complications',
       'Power Reserve', 'Price (USD)'],
      dtype='object')

In [10]:


# Simulamos el DataFrame con las columnas originales
df = pd.DataFrame(columns=['Brand', 'Model', 'Case Material', 'Strap Material', 'Movement Type',
                           'Water Resistance', 'Case Diameter (mm)', 'Case Thickness (mm)',
                           'Band Width (mm)', 'Dial Color', 'Crystal Material', 'Complications',
                           'Power Reserve', 'Price (USD)'])

# Renombramos las columnas: minúsculas y reemplazo de espacios por "_"
df.columns = df.columns.str.lower().str.replace(' ', '_')

print(df.columns)


Index(['brand', 'model', 'case_material', 'strap_material', 'movement_type',
       'water_resistance', 'case_diameter_(mm)', 'case_thickness_(mm)',
       'band_width_(mm)', 'dial_color', 'crystal_material', 'complications',
       'power_reserve', 'price_(usd)'],
      dtype='object')


# 📌 Descripción de las columnas del dataset de relojes de lujo

| Columna             | Descripción |
|---------------------|-------------|
| **brand**          | Marca del reloj (ej. Rolex, Omega, Patek Philippe). |
| **model**          | Nombre o referencia del modelo específico. |
| **case_material**  | Material de la caja del reloj (ej. acero inoxidable, oro, titanio). |
| **strap_material** | Material de la correa (ej. cuero, acero, caucho). |
| **movement_type**  | Tipo de movimiento del reloj (ej. automático, cuarzo, manual). |
| **water_resistance** | Resistencia al agua en metros (ej. 50m, 100m). |
| **case_diameter_mm** | Diámetro de la caja en milímetros. |
| **case_thickness_mm** | Grosor de la caja en milímetros. |
| **band_width_mm**  | Ancho de la correa en milímetros. |
| **dial_color**     | Color de la esfera del reloj (ej. negro, azul, blanco). |
| **crystal_material** | Material del cristal (ej. zafiro, mineral, acrílico). |
| **complications**  | Funciones adicionales (ej. cronógrafo, calendario perpetuo). |
| **power_reserve**  | Reserva de marcha en horas (para relojes mecánicos). |
| **price_usd**      | Precio del reloj en dólares estadounidenses. |

📌 **Nota:** Estas características son clave para analizar y predecir precios, así como segmentar los relojes en diferentes categorías.  


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 0 entries
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   brand                0 non-null      object
 1   model                0 non-null      object
 2   case_material        0 non-null      object
 3   strap_material       0 non-null      object
 4   movement_type        0 non-null      object
 5   water_resistance     0 non-null      object
 6   case_diameter_(mm)   0 non-null      object
 7   case_thickness_(mm)  0 non-null      object
 8   band_width_(mm)      0 non-null      object
 9   dial_color           0 non-null      object
 10  crystal_material     0 non-null      object
 11  complications        0 non-null      object
 12  power_reserve        0 non-null      object
 13  price_(usd)          0 non-null      object
dtypes: object(14)
memory usage: 132.0+ bytes
