## üéØ Pregunta de negocio  
**¬øC√≥mo puede Mercado Libre identificar a los sellers m√°s relevantes y segmentarlos para dise√±ar estrategias comerciales personalizadas?**

üß† **Hip√≥tesis inicial:**  
Los sellers con **alto stock**, **muchas publicaciones** y **cero productos reacondicionados** tienden a ser m√°s relevantes para el negocio.

In [5]:
import sys
from IPython.display import Markdown, display
import pandas as pd
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import RobustScaler
sys.path.append("C:/Users/dario/Documents/worksapce/sellers_analitycs_meli")

from meli_insight_engine.llm.prompts.templates import BASIC_RECOMMENDATION_PROMPT_JSON, BASIC_RECOMMENDATION_PROMPT_HIPOTESIS
from meli_insight_engine.llm.agents.agent_template import TemplateAgent
from meli_insight_engine.core import (
    conectar_duckdb,
    registrar_csvs_como_vistas,
    verificar_vistas,
    analisis_inicial_completo,
    guardar_resultados_como_txt
)



# üß† Descubrimiento inicial del dataset con MAD-G

Este notebook realiza una **revisi√≥n estructural y exploraci√≥n inicial** del archivo `df_challenge.csv`, en el contexto del challenge de segmentaci√≥n de sellers de Mercado Libre.

üìç **Objetivo general:**
Comprender la composici√≥n y calidad del dataset para dise√±ar una soluci√≥n de clusterizaci√≥n efectiva y alineada con necesidades comerciales.

üìå **Lo que haremos en esta etapa:**
- Analizar la estructura del dataset (columnas, tipos de datos, duplicados, nulos, constantes).
- Detectar variables relevantes para caracterizar a los sellers.
- Evaluar posibles problemas de calidad de datos que deban corregirse o imputarse.
- Generar **hip√≥tesis de negocio iniciales** con ayuda de un modelo de lenguaje (LLM), a partir de la observaci√≥n de los datos.
  
üß© **¬øQu√© estamos construyendo?**
Una herramienta anal√≠tica que combina la exploraci√≥n de datos tradicional con un asistente de IA (LLM), capaz de:
- Proponer agrupaciones l√≥gicas de vendedores.
- Sugerir estrategias de segmentaci√≥n.
- Enriquecer el entendimiento de los datos con razonamiento automatizado.

Esta exploraci√≥n ser√° la base para la ingenier√≠a de features y el modelado posterior.


## ‚öôÔ∏è Configuraci√≥n del entorno y carga de datos

### Analisis de datos para levantar hipotesis usando LLM 

In [None]:

# Crear conexi√≥n a DuckDB
con = conectar_duckdb()

# Ruta a tu carpeta con archivos .csv de prueba (aseg√∫rate de que exista y tenga al menos un .csv)
folder_path = "../data/"
# Registrar vistas
registrar_csvs_como_vistas(con, folder_path)


In [121]:


# Verificar vistas
print("‚úÖ Vistas registradas:")
print(verificar_vistas(con))

# Reemplaza con el nombre real del archivo sin .csv y sin guiones (los guiones se vuelven guiones bajos)
nombre_tabla = "data.df_challenge_meli"# Ejemplo: si el archivo se llama "ventas-julio.csv", usa "data.ventas_julio"

resultados = analisis_inicial_completo(con, "data.df_challenge_meli")
guardar_resultados_como_txt(resultados)


‚úÖ Vistas registradas:
                          table_name
0                data.categorias_mco
1             data.df_challenge_meli
2      data.df_challenge_meli_limpio
3     data.featured_df_challeng_meli
4  data.featured_df_clustered_dbscan


  df = con.execute(f'SELECT "{col}" FROM "{tabla}" WHERE "{col}" IS NOT NULL LIMIT 100').fetchdf()
  df = con.execute(f'SELECT "{col}" FROM "{tabla}" WHERE "{col}" IS NOT NULL LIMIT 100').fetchdf()
  df = con.execute(f'SELECT "{col}" FROM "{tabla}" WHERE "{col}" IS NOT NULL LIMIT 100').fetchdf()
  df = con.execute(f'SELECT "{col}" FROM "{tabla}" WHERE "{col}" IS NOT NULL LIMIT 100').fetchdf()
  df = con.execute(f'SELECT "{col}" FROM "{tabla}" WHERE "{col}" IS NOT NULL LIMIT 100').fetchdf()
  df = con.execute(f'SELECT "{col}" FROM "{tabla}" WHERE "{col}" IS NOT NULL LIMIT 100').fetchdf()
  df = con.execute(f'SELECT "{col}" FROM "{tabla}" WHERE "{col}" IS NOT NULL LIMIT 100').fetchdf()


‚úÖ Resultados guardados en: ../data/outputs_prompts/inspector_stats.txt


In [None]:

# Ruta del archivo .txt
ruta_txt = "../data/outputs_prompts/inspector_stats.txt"

# Leer contenido del archivo
with open(ruta_txt, "r", encoding="utf-8") as f:
    texto = f.read()

    # Instanciar el agente con el template y el texto le√≠do
    agent = TemplateAgent(prompt_template=BASIC_RECOMMENDATION_PROMPT_JSON,template_name= "BASIC_RECOMMENDATION_PROMPT_JSON" )

# Ejecutar
respuesta = agent.run(input_path=ruta_txt)

# Mostrar respuesta
print(respuesta)

../data/outputs_prompts\BASIC_RECOMMENDATION_PROMPT_JSON.txt


In [None]:


# Ruta del archivo .txt
ruta_txt = "../data/outputs_prompts/BASIC_RECOMMENDATION_PROMPT_JSON.txt"

# Leer contenido del archivo
with open(ruta_txt, "r", encoding="utf-8") as f:
    texto = f.read()

    # Instanciar el agente con el template y el texto le√≠do
    agent = TemplateAgent(prompt_template=BASIC_RECOMMENDATION_PROMPT_HIPOTESIS,template_name= "BASIC_RECOMMENDATION_PROMPT_HIPOTESIS" )

# Ejecutar
respuesta = agent.run(input_path=ruta_txt)

# Mostrar respuesta
print(respuesta)

  warn_deprecated(
  warn_deprecated(


../data/outputs_prompts\BASIC_RECOMMENDATION_PROMPT_HIPOTESIS.txt


#### resultados de MDA-G (models for data Analysis)

In [6]:

# Ruta al archivo externo (por ejemplo, en una carpeta docs o en el root)
ruta_readme = "../data/outputs_prompts/BASIC_RECOMMENDATION_PROMPT_HIPOTESIS.txt"

# Leer y mostrar
with open(ruta_readme, "r", encoding="utf-8") as archivo:
    contenido = archivo.read()

display(Markdown(contenido))


### **Reporte de Comprensi√≥n Inicial del Dataset**

---

#### **1. Estructura B√°sica**
- **Total registros**: 185,250  
- **Total variables**: 14  
- **Variables clave identificadas**:  
  - **[Num√©rica Continua] `price`**: Precio actual del producto (variable objetivo potencial).  
  - **[Num√©rica Continua] `regular_price`**: Precio regular (alta tasa de nulos, requiere imputaci√≥n).  
  - **[Categ√≥rica Ordinal] `seller_reputation`**: Reputaci√≥n del vendedor (jerarqu√≠a impl√≠cita √∫til para an√°lisis de confianza).  
  - **[Booleana] `is_refurbished`**: Indica si el producto es reacondicionado (desequilibrio extremo, relevante para segmentaci√≥n).  
  - **[Nominal] `categoria`**: Categor√≠a del producto (posible driver de precios y stock).  

---

#### **2. Hallazgos de Calidad**  
- **`regular_price`**:  
  - **Tipo de problema**: Missing values (73.03% nulos).  
  - **Severidad**: Alta (afecta an√°lisis de descuentos/precios).  
  - **Acci√≥n sugerida**: Imputaci√≥n predictiva (modelo basado en `price` y categor√≠a).  

- **`titulo`**:  
  - **Tipo de problema**: Alta cardinalidad (174,746 valores √∫nicos).  
  - **Severidad**: Media (puede generar ruido en modelos).  
  - **Acci√≥n sugerida**: Hashing o NLP para extraer caracter√≠sticas clave.  

- **`is_refurbished`**:  
  - **Tipo de problema**: Desequilibrio (99.6% "False").  
  - **Severidad**: Alta (impacta modelos de clasificaci√≥n).  
  - **Acci√≥n sugerida**: Rebalanceo con SMOTE o undersampling.  

- **`tim_day`**:  
  - **Tipo de problema**: Valor constante.  
  - **Severidad**: Baja (sin impacto anal√≠tico).  
  - **Acci√≥n sugerida**: Eliminar columna.  

- **`price`**:  
  - **Tipo de problema**: Outliers (valores hasta 4.7B).  
  - **Severidad**: Alta (distorsiona estad√≠sticas).  
  - **Acci√≥n sugerida**: Clipping (l√≠mite superior: 999,999).  

---

#### **3. Relaciones Potenciales**  
- **`price` ‚Üî `is_refurbished`**: Diferencias de precio por condici√≥n del producto. **M√©todo**: ANOVA.  
- **`seller_reputation` ‚Üî `price`**: Correlaci√≥n entre reputaci√≥n y precios. **M√©todo**: Spearman (ordinal-num√©rica).  
- **`categoria` ‚Üî `stock`**: Patrones de stock por categor√≠a. **M√©todo**: Test Chi-cuadrado.  

---

#### **4. Recomendaciones para EDA**  
- **Grupo 1**: `price`, `regular_price`, `is_refurbished`  
  - **Objetivo**: Analizar estrategias de precios y descuentos.  
- **Grupo 2**: `seller_reputation`, `categoria`, `stock`  
  - **Objetivo**: Explorar segmentaci√≥n por confianza del vendedor y disponibilidad.  

**Transformaciones previas**:  
- **`regular_price`**: Aplicar log-transform (mejorar linealidad).  
- **`seller_reputation`**: Codificar ordinalmente (ej: "newbie"=0, "green_platinum"=4).  

---

#### **5. Advertencias Clave**  
- **Limitaci√≥n 1**: Alta cardinalidad en `titulo` y `url` (requiere eliminaci√≥n o procesamiento avanzado).  
- **Limitaci√≥n 2**: Desequilibrio en `is_refurbished` (puede sesgar modelos predictivos).  

---

#### **6. Conclusi√≥n Ejecutiva**  
- **Calidad del dataset**: Aceptable con deficiencias controlables (alta tasa de nulos en `regular_price`, outliers en `price`).  
- **Variables prometedoras**: `price` (an√°lisis de precios), `seller_reputation` (segmentaci√≥n), `categoria` (patrones de inventario).  
- **Riesgos principales**:  
  - Outliers en precios distorsionan m√©tricas.  
  - Desequilibrio en variables booleanas afecta modelos.  
- **Valor potencial**: Dataset robusto para an√°lisis de precios y reputaci√≥n si se aplican imputaciones y transformaciones sugeridas.  

**Recomendaci√≥n final**: Priorizar limpieza de outliers y nulos antes de clustering o modelos predictivos.

In [None]:
# 1. Cargar el dataset original
df = pd.read_csv('../data/df_challenge_meli.csv')

# 2. Feature engineering inicial
df['discount_pct'] = np.where(
    df['regular_price'].isna() | (df['regular_price'] == 0),
    0,
    (df['regular_price'] - df['price']) / df['regular_price']
)

df['title_len'] = df['titulo'].astype(str).str.len()

rep_map = {
    "green_platinum": 5, "green_gold": 4, "green_silver": 4,
    "green": 3, "light_green": 3, "yellow": 2,
    "orange": 1, "red": 1, "newbie": 0
}
df['rep_score'] = df['seller_reputation'].map(rep_map).fillna(0)

# 3. Agregaci√≥n a nivel seller
seller = (
    df.groupby('seller_nickname')
      .agg(
          num_publicaciones=('titulo', 'size'),
          log_stock_avg=('stock', lambda s: np.log1p(s).mean()),
          log_price_avg=('price', lambda s: np.log1p(s).mean()),
          porc_descuento=('discount_pct', 'mean'),
          categorias_distintas=('category_id', 'nunique'),
          proporcion_usados=('condition', lambda s: (s == 'used').mean()),
          proporcion_refurb=('is_refurbished', 'mean'), #validar el porque la imputacion de la media 
          rep_score=('rep_score', 'mean'),
          titulo_length_avg=('title_len', 'mean')
      )
      .reset_index()
)

# 4. Definir pipeline (imputaci√≥n + escalado robusto)
num_cols = seller.columns.difference(['seller_nickname'])
X = seller[num_cols]

pre_pipe = Pipeline([
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", RobustScaler())
])

# Aplicar las transformaciones
X_scaled = pre_pipe.fit_transform(X)

# 5. Persistir resultados en un DataFrame limpio
df_final = pd.DataFrame(X_scaled, columns=num_cols)
df_final.insert(0, 'seller_nickname', seller['seller_nickname'])

# Guardar dataset limpio y transformado
df_final.to_csv('../data/df_challenge_meli_limpio.csv', index=False)

# Confirmaci√≥n visual
print(df_final.head())


  seller_nickname  categorias_distintas  log_price_avg  log_stock_avg  \
0      000631669c                   0.0       0.179097       0.199550   
1      0007153bca                   0.0      -0.251401       0.546386   
2      000bee3c3b                   0.0      -0.394075      -0.675326   
3      000df2bd02                   0.0       0.590278      -0.021600   
4      000e27cea2                   1.0      -0.208310      -0.181308   

   num_publicaciones  porc_descuento  proporcion_refurb  proporcion_usados  \
0                0.0             0.0                0.0                0.0   
1                0.5             0.0                0.0                0.0   
2                0.5             0.0                0.0                0.0   
3                0.0             0.0                0.0                1.0   
4                0.5             0.0                0.0                0.0   

   rep_score  titulo_length_avg  
0  -1.000000          -2.900763  
1   0.000000           0