![cabecera](./data/Proyecto.jpg)

# üíÑ An√°lisis Exploratorio de Datos: Nala - De los leus al euro

## 1. Business Case & Data Collection

### 1.1 Business Understanding
La marca **Nala**, conocida por su propuesta de cosm√©tica √©tica y sostenible, se vende tanto en **Espa√±a** como en **Ruman√≠a**. El objetivo de este an√°lisis es explorar c√≥mo se adapta su precio a las realidades econ√≥micas locales y determinar si Nala es igual de accesible en ambos mercados o se percibe como una marca de lujo en uno de ellos.

### 1.2 Hip√≥tesis
- **Hip√≥tesis principal**: Los precios de Nala en Ruman√≠a, considerando el poder adquisitivo local, son significativamente menos accesibles que en Espa√±a.
- **Hip√≥tesis secundaria**: Existen diferencias en la estructura de precios y mix de productos entre ambos mercados.

### 1.3 Plan de Acci√≥n
- Analizar distribuci√≥n y estad√≠sticas de precios por mercado
- Calcular el "√≠ndice de accesibilidad Nala" relacionando precios con salarios m√≠nimos
- Identificar categor√≠as con mayores diferencias de precio

### 1.4 Fuentes de Datos
- Datos de productos Nala en Espa√±a (`nala_es.csv`)
- Datos de productos Nala en Ruman√≠a (`nala_ro.csv`)

## 2. Data Understanding

### 2.1 Exploraci√≥n Inicial

In [2]:
# C√≥digo para carga y exploraci√≥n inicial
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

# Configuraci√≥n
plt.rcParams['figure.dpi'] = 120
sns.set(style='whitegrid')

# Carga de datos
df_es = pd.read_csv('./data/nala_es.csv')
df_ro = pd.read_csv('./data/nala_ro.csv')

### 2.2 Tabla de Variables

| Variable          | Tipo       | Descripci√≥n                    | Uso en An√°lisis            |
|-------------------|------------|--------------------------------|-----------------------------|
| SKU               | Categ√≥rica | Identificador √∫nico del producto | Identificaci√≥n            |
| gramos/ml         | Num√©rica   | Cantidad del producto           | Normalizaci√≥n de precios  |
| nombre            | Categ√≥rica | Nombre del producto             | Descripci√≥n               |
| categoria_general | Categ√≥rica | Categor√≠a principal             | Agrupaci√≥n                |
| categoria         | Categ√≥rica | Categor√≠a espec√≠fica            | An√°lisis detallado        |
| precio            | Num√©rica   | Precio del producto             | Variable principal        |
| ingrediente_clave | Categ√≥rica | Ingrediente principal           | Segmentaci√≥n              |
| pa√≠s              | Categ√≥rica | Mercado (ES/RO)                 | Comparaci√≥n               |
| url               | Categ√≥rica | Enlace del producto             | Referencia                |


# 3. Data Cleaning
### 3.1 Limpieza y Preprocesamiento

In [4]:
### Eliminamos y limpiamos los 2 dataset y nos quedamos solo con lo necesario, trabajaremos solo con productos individuales


# Funci√≥n para limpieza consistente
def limpiar_datos(df, pais, keywords_pack):
    print(f"\nLimpieza para {pais}:")
    
    # Copia del dataframe
    df_clean = df.copy()
    
    # Verificar valores nulos
    print(f"Valores nulos antes de limpieza: {df_clean.isnull().sum().sum()}")
    
    # Limpiar gramos/ml - manejar valores nulos y convertir a entero
    df_clean["gramos/ml"] = df_clean["gramos/ml"].fillna(0).astype(int)
    print(f"Gramos/ML limpiados - Rango: {df_clean['gramos/ml'].min()} - {df_clean['gramos/ml'].max()}")
    
    # Filtrar categor√≠a "Otro" si existe
    if "categoria" in df_clean.columns:
        df_clean = df_clean[df_clean["categoria"] != "Otro"]
        print(f"Productos despu√©s de quitar 'Otro': {len(df_clean)}")
    
    # Filtrar packs y sets
    initial_count = len(df_clean)
    for keyword in keywords_pack:
        df_clean = df_clean[~df_clean["nombre"].str.contains(keyword, case=False, na=False)]
    print(f"Packs filtrados: {initial_count - len(df_clean)} productos eliminados")
    
    # Agregar columna de pa√≠s
    df_clean['pa√≠s'] = pais
    
    return df_clean

# Aplicar limpieza
keywords_es = ["pack", "set", "rutina"]
keywords_ro = ["pachet", "pack", "set", "rutina"]

df_es_clean = limpiar_datos(df_es, "Espa√±a", keywords_es)
df_ro_clean = limpiar_datos(df_ro, "Rumania", keywords_ro)

# Combinar datasets
df_es_ro = pd.concat([df_es_clean, df_ro_clean], ignore_index=True)

# Limpieza final del dataset combinado
keywords_combinadas = ["pack", "set", "rutina", "pachet", "kit", "combo"]
inicial = len(df_es_ro)

for keyword in keywords_combinadas:
    df_es_ro = df_es_ro[~df_es_ro["nombre"].str.contains(keyword, case=False, na=False)]

# Guardar dataset limpio
df_es_ro.to_csv("./data/nala_es_ro.csv", index=False)


Limpieza para Espa√±a:
Valores nulos antes de limpieza: 64
Gramos/ML limpiados - Rango: 0 - 600
Productos despu√©s de quitar 'Otro': 422
Packs filtrados: 41 productos eliminados

Limpieza para Rumania:
Valores nulos antes de limpieza: 80
Gramos/ML limpiados - Rango: 0 - 600
Productos despu√©s de quitar 'Otro': 418
Packs filtrados: 76 productos eliminados


# 4. An√°lisis Exploratorio

üìã Preguntas de Investigaci√≥n

### An√°lisis General de Mercado
- ¬øC√≥mo se distribuyen los precios de los productos Nala en Espa√±a vs Ruman√≠a?

- ¬øExiste una diferencia significativa en el rango de precios entre ambos mercados?

- ¬øCu√°l es la dispersi√≥n de precios en cada pa√≠s?

### An√°lisis por Categor√≠as
- ¬øQu√© categor√≠as de productos tienen los precios m√°s altos y m√°s bajos?

- ¬øC√≥mo var√≠an los precios entre categor√≠as generales?

- ¬øHay categor√≠as donde la diferencia de precio entre pa√≠ses es m√°s pronunciada?

### An√°lisis de Productos
- ¬øCu√°les son los productos m√°s caros y m√°s econ√≥micos en cada mercado?

- ¬øC√≥mo se relaciona el precio con la cantidad del producto?

- ¬øExisten productos id√©nticos con precios diferentes entre pa√≠ses?

### An√°lisis de Accesibilidad
- Considerando los salarios m√≠nimos, ¬øes Nala igual de accesible en ambos mercados?

### Estadistica Descriptiva

In [12]:
print("üìà ESTAD√çSTICAS DESCRIPTIVAS POR PA√çS")
print("=" * 50)

# Estad√≠sticas b√°sicas
stats_pais = df_es_ro.groupby('pa√≠s')['precio'].describe()
print(stats_pais)


print("\nüîç AN√ÅLISIS COMPARATIVO (precios convertidos):")

# Tasa de conversi√≥n
tasa = 5.03  # 1 euro = 5.03 lei

# Rango Espa√±a (igual)
print(f"Rango de precios Espa√±a: ‚Ç¨{df_es_clean['precio'].min():.2f} - ‚Ç¨{df_es_clean['precio'].max():.2f}")

# Rango Ruman√≠a convertido a euros
rango_min_ro = df_ro_clean['precio'].min() / tasa
rango_max_ro = df_ro_clean['precio'].max() / tasa
print(f"Rango de precios Ruman√≠a: ‚Ç¨{rango_min_ro:.2f} - ‚Ç¨{rango_max_ro:.2f} (convertido desde LEI)")


# Conteo por categor√≠a
print("\nüìä PRODUCTOS POR CATEGOR√çA:")
categoria_counts = df_es_ro.groupby(['pa√≠s', 'categoria_general']).size().unstack(fill_value=0)
print(categoria_counts)

üìà ESTAD√çSTICAS DESCRIPTIVAS POR PA√çS
         count       mean        std   min   25%   50%   75%    max
pa√≠s                                                               
Espa√±a   381.0   7.831627   3.678423  2.35   4.9   7.9   9.9   22.9
Rumania  342.0  32.173538  18.339349  6.45  19.9  29.9  39.9  119.9

üîç AN√ÅLISIS COMPARATIVO (precios convertidos):
Rango de precios Espa√±a: ‚Ç¨2.35 - ‚Ç¨22.90
Rango de precios Ruman√≠a: ‚Ç¨1.28 - ‚Ç¨23.84 (convertido desde LEI)

üìä PRODUCTOS POR CATEGOR√çA:
categoria_general  Cabello  Corporal  Ducha y Ba√±o  Rostro
pa√≠s                                                      
Espa√±a                  30       153           122      76
Rumania                 30       132           108      72


In [6]:
# Gr√°fica general de an√°lisis de mercados - VISI√ìN GLOBAL

# Par√°metros de conversi√≥n
tipo_cambio = 5.03  # 1 EUR = 5.03 LEI

# Crear la columna 'gama' con conversi√≥n
def clasificar_gama(precio, pais):
    if pais == "Espa√±a":
        return "Baja" if precio <= 8 else "Media" if precio <= 15 else "Alta"
    else:  # Ruman√≠a
        # Convertir l√≠mites de Espa√±a a LEI usando el tipo de cambio
        limite_baja = 8 * tipo_cambio
        limite_media = 15 * tipo_cambio
        return "Baja" if precio <= limite_baja else "Media" if precio <= limite_media else "Alta"

df_es_ro["gama"] = df_es_ro.apply(lambda row: clasificar_gama(row["precio"], row["pa√≠s"]), axis=1)

# Crear columna de precio en EUR para toda la visualizaci√≥n
df_es_ro['precio_eur'] = df_es_ro.apply(
    lambda row: row['precio'] if row['pa√≠s'] == 'Espa√±a' else row['precio'] / tipo_cambio, 
    axis=1
)

# Gr√°fica sunburst con precios en EUR
fig = px.sunburst(
    df_es_ro,
    path=['pa√≠s', 'categoria_general', 'gama'],
    values='precio_eur',  # Usar precios en EUR
    color='precio_eur',   # Color basado en EUR
    color_continuous_scale='RdYlBu_r',
    title='<b>VISI√ìN GLOBAL NALA</b><br>Distribuci√≥n del Portfolio por Pa√≠s, Categor√≠a y Gama de Precio<br><sub>Precios convertidos a EUR (1‚Ç¨ = 5.03 LEI)</sub>',
    width=800,
    height=800
)

fig.update_layout(
    template='plotly_white',
    font=dict(size=12)
)

fig.show()

## Distribuci√≥n de Precios

In [7]:
# Histograma comparativo
fig_hist = px.histogram(
    df_es_ro, 
    x='precio', 
    color='pa√≠s', 
    nbins=30,
    title='Distribuci√≥n de Precios - Espa√±a vs Ruman√≠a',
    barmode='overlay',
    opacity=0.7
)
fig_hist.show()

HISTOGRAMA:

‚Ä¢ Espa√±a: Distribuci√≥n concentrada ‚Ç¨0-‚Ç¨15 (productos accesibles)

‚Ä¢ Ruman√≠a: Distribuci√≥n m√°s dispersa con cola larga hacia precios altos

‚Ä¢ Insight: En Ruman√≠a hay m√°s variabilidad de precios.

In [8]:
# Gr√°fica interactiva de distribuci√≥n de precios con categor√≠as
fig_distribucion = px.histogram(
    df_es_ro,
    x='precio',
    color='pa√≠s',
    facet_col='categoria_general',
    nbins=20,
    title='üìä Distribuci√≥n de Precios por Categor√≠a General - Espa√±a vs Ruman√≠a',
    barmode='overlay',
    opacity=0.7
)

fig_distribucion.update_layout(
    height=600,
    showlegend=True,
    xaxis_title="Precio",
    yaxis_title="Frecuencia"
)

fig_distribucion.show()

In [9]:
# Boxplot comparativo
fig_box = px.box(
    df_es_ro, 
    x='pa√≠s', 
    y='precio',
    title='Comparaci√≥n de Precios por Pa√≠s',
    color='pa√≠s'
)
fig_box.show()

BOXPLOT:

Espa√±a: Rango intercuartil estrecho (‚Ç¨4.9 - ‚Ç¨9.9), mediana ‚Ç¨7.9.

Ruman√≠a: Mayor dispersi√≥n (19.9 - 53.4 LEI), m√°s outliers.

Conclusi√≥n: Los precios en Ruman√≠a son m√°s variables y extremos.

In [10]:
# Violin plot por categor√≠a
fig_violin = px.violin(
    df_es_ro,
    x='categoria_general',
    y='precio',
    color='pa√≠s',
    box=True,
    points=False,
    title='Distribuci√≥n de Precios por Categor√≠a General'
)
fig_violin.show()

In [None]:
# Aplica conversi√≥n de moneda a todo el dataset
tipo_cambio = 5.03  # 1 EUR = 5.03 RON (LEI)

df_es_ro_eur = df_es_ro.assign(
    precio_eur=lambda x: x.apply(
        lambda row: row['precio'] if row['pa√≠s'] == 'Espa√±a' else row['precio'] / tipo_cambio, 
        axis=1
    )
)

# Calcular precios promedio en EUR por categor√≠a espec√≠fica y pa√≠s
precio_promedio_categorias_eur = df_es_ro_eur.groupby(['categoria', 'pa√≠s'])['precio_eur'].agg(['mean', 'count']).reset_index()
precio_promedio_categorias_eur.columns = ['categoria', 'pa√≠s', 'precio_promedio_eur', 'cantidad_productos']

# Obtener las 35 categor√≠as con m√°s productos
top_35_categorias = precio_promedio_categorias_eur.groupby('categoria')['cantidad_productos'].sum().nlargest(35).index
precio_promedio_top35 = precio_promedio_categorias_eur[
    precio_promedio_categorias_eur['categoria'].isin(top_35_categorias)
]

# Gr√°fica de barras interactiva en EUR con las 35 categor√≠as principales
fig_barras_eur = px.bar(
    precio_promedio_top35,
    x='categoria',
    y='precio_promedio_eur',
    color='pa√≠s',
    barmode='group',
    title='Precio Promedio por Categor√≠a Espec√≠fica - Espa√±a vs Ruman√≠a (EUR) - Top 35 Categor√≠as',
    hover_data=['cantidad_productos'],
    labels={
        'categoria': 'Categor√≠a Espec√≠fica',
        'precio_promedio_eur': 'Precio Promedio (EUR)',
        'pa√≠s': 'Pa√≠s',
        'cantidad_productos': 'N¬∫ Productos'
    },
    color_discrete_map={
        'Espa√±a': '#1f77b4',
        'Rumania': '#ff7f0e'
    }
)

fig_barras_eur.update_layout(
    height=700,
    xaxis_tickangle=-45,
    showlegend=True,
    xaxis_title="Categor√≠a Espec√≠fica",
    yaxis_title="Precio Promedio (EUR)",
    template='plotly_white'
)

# Mejorar tooltip
fig_barras_eur.update_traces(
    hovertemplate=(
        "<b>%{x}</b><br>"
        "Pa√≠s: %{marker.color}<br>"
        "Precio promedio: %{y:.2f}‚Ç¨<br>"
        "Productos: %{customdata[0]}"
        "<extra></extra>"
    )
)

fig_barras_eur.show()

Total de categor√≠as mostradas: 35
Total de productos en estas categor√≠as: 711


# An√°lisis de Accesibilidad


In [11]:
# üéØ AN√ÅLISIS DE ACCESIBILIDAD 

print("\nüéØ AN√ÅLISIS DE ACCESIBILIDAD")
print("=" * 40)

# Par√°metros econ√≥micos 2025
tipo_cambio = 5.03  # EUR a RON
salario_min_es = 1184   # EUR/mes (SMI Espa√±a 2025)
salario_min_ro = 4050   # RON/mes (Salario m√≠nimo Ruman√≠a 2025)

print(f"üí± Tipo de cambio: 1 EUR = {tipo_cambio} RON")
print(f"üí∞ Salario m√≠nimo Espa√±a: ‚Ç¨{salario_min_es}/mes")
print(f"üí∞ Salario m√≠nimo Ruman√≠a: {salario_min_ro} RON/mes (‚Ç¨{salario_min_ro/tipo_cambio:.2f})")

# Convertir precios Ruman√≠a a EUR para comparaci√≥n directa
df_ro_clean['precio_eur'] = df_ro_clean['precio'] / tipo_cambio

# Calcular m√©tricas de accesibilidad
def calcular_accesibilidad(df, salario_min, columna_precio='precio'):
    """Calcula m√©tricas de accesibilidad"""
    precio_mediano = df[columna_precio].median()
    productos_salario = salario_min / precio_mediano
    porcentaje_salario = (precio_mediano / salario_min) * 100
    
    return {
        'precio_mediano': precio_mediano,
        'productos_salario': productos_salario,
        'porcentaje_salario': porcentaje_salario
    }

# Calcular para Espa√±a
acc_es = calcular_accesibilidad(df_es_clean, salario_min_es)

# Calcular para Ruman√≠a (en EUR)
salario_min_ro_eur = salario_min_ro / tipo_cambio
acc_ro = calcular_accesibilidad(df_ro_clean, salario_min_ro_eur, 'precio_eur')

print(f"\nüìä M√âTRICAS DE ACCESIBILIDAD:")
print(f"ESPA√ëA:")
print(f"  ‚Ä¢ Precio mediano: ‚Ç¨{acc_es['precio_mediano']:.2f}")
print(f"  ‚Ä¢ Productos que se pueden comprar con salario m√≠nimo: {acc_es['productos_salario']:.0f}")
print(f"  ‚Ä¢ % del salario m√≠nimo por producto: {acc_es['porcentaje_salario']:.1f}%")

print(f"RUMAN√çA:")
print(f"  ‚Ä¢ Precio mediano: ‚Ç¨{acc_ro['precio_mediano']:.2f}")
print(f"  ‚Ä¢ Productos que se pueden comprar con salario m√≠nimo: {acc_ro['productos_salario']:.0f}")
print(f"  ‚Ä¢ % del salario m√≠nimo por producto: {acc_ro['porcentaje_salario']:.1f}%")

# CREAR EL √çNDICE DE ACCESIBILIDAD QUE FALTABA
indice_accesibilidad = {
    'Espa√±a': acc_es['porcentaje_salario'],
    'Ruman√≠a': acc_ro['porcentaje_salario']
}

print(f"\nüìà √çNDICE DE ACCESIBILIDAD (menor % = m√°s accesible):")
for pais, indice in indice_accesibilidad.items():
    print(f"  ‚Ä¢ {pais}: {indice:.1f}%")

# Ratio de accesibilidad
ratio_accesibilidad = acc_es['productos_salario'] / acc_ro['productos_salario']
print(f"\n‚öñÔ∏è RATIO DE ACCESIBILIDAD (ES/RO): {ratio_accesibilidad:.2f}x")

# Interpretaci√≥n
if ratio_accesibilidad > 1:
    print("üìç INTERPRETACI√ìN: Los productos son M√ÅS accesibles en Espa√±a")
else:
    print("üìç INTERPRETACI√ìN: Los productos son M√ÅS accesibles en Ruman√≠a")


üéØ AN√ÅLISIS DE ACCESIBILIDAD
üí± Tipo de cambio: 1 EUR = 5.03 RON
üí∞ Salario m√≠nimo Espa√±a: ‚Ç¨1184/mes
üí∞ Salario m√≠nimo Ruman√≠a: 4050 RON/mes (‚Ç¨805.17)

üìä M√âTRICAS DE ACCESIBILIDAD:
ESPA√ëA:
  ‚Ä¢ Precio mediano: ‚Ç¨7.90
  ‚Ä¢ Productos que se pueden comprar con salario m√≠nimo: 150
  ‚Ä¢ % del salario m√≠nimo por producto: 0.7%
RUMAN√çA:
  ‚Ä¢ Precio mediano: ‚Ç¨5.94
  ‚Ä¢ Productos que se pueden comprar con salario m√≠nimo: 135
  ‚Ä¢ % del salario m√≠nimo por producto: 0.7%

üìà √çNDICE DE ACCESIBILIDAD (menor % = m√°s accesible):
  ‚Ä¢ Espa√±a: 0.7%
  ‚Ä¢ Ruman√≠a: 0.7%

‚öñÔ∏è RATIO DE ACCESIBILIDAD (ES/RO): 1.11x
üìç INTERPRETACI√ìN: Los productos son M√ÅS accesibles en Espa√±a


In [13]:
# Preparar datos para visualizaci√≥n en EUR
df_es_ro_eur = df_es_ro.copy()
df_es_ro_eur['precio_eur'] = df_es_ro_eur.apply(
    lambda x: x['precio'] if x['pa√≠s'] == 'Espa√±a' else x['precio'] / tipo_cambio, 
    axis=1
)

# Boxplot en euros
fig_box_eur = px.box(
    df_es_ro_eur, 
    x='pa√≠s', 
    y='precio_eur',
    title='Comparaci√≥n de Precios en Euros - Espa√±a vs Ruman√≠a',
    color='pa√≠s',
    labels={'precio_eur': 'Precio (EUR)', 'pa√≠s': 'Pa√≠s'}
)
fig_box_eur.show()

In [14]:
# Histograma en euros (C√ìDIGO COMPLETO Y CORREGIDO)
fig_hist_eur = px.histogram(
    df_es_ro_eur,
    x='precio_eur',
    color='pa√≠s',
    nbins=30,
    title='Distribuci√≥n de Precios en Euros - Espa√±a vs Ruman√≠a',
    barmode='overlay',
    opacity=0.7,
    labels={'precio_eur': 'Precio (EUR)'}
)
fig_hist_eur.show()

In [18]:
# Definir tipo de cambio para evitar errores
tipo_cambio = 5.03  # 1 euro = 5.03 lei

# --- Recalcular productos comprables (mismas m√©tricas del an√°lisis anterior) ---

# Precio mediano Espa√±a
precio_mediano_es = df_es_clean['precio'].median()

# Precio mediano Ruman√≠a (convertido a EUR)
df_ro_clean['precio_eur'] = df_ro_clean['precio'] / tipo_cambio
precio_mediano_ro = df_ro_clean['precio_eur'].median()

# Salarios
salario_min_es = 1184
salario_min_ro = 4050 / tipo_cambio  # convertir a euros

# Productos comprables
productos_salario_es = salario_min_es / precio_mediano_es
productos_salario_ro = salario_min_ro / precio_mediano_ro

# --- Crear DataFrame para el gr√°fico ---
accesibilidad_data = pd.DataFrame({
    'Pa√≠s': ['Espa√±a', 'Ruman√≠a'],
    'Productos_comprables': [productos_salario_es, productos_salario_ro],
    'Salario_mensual': [salario_min_es, salario_min_ro]
})

# --- Gr√°fico ---
fig_accesibilidad = px.bar(
    accesibilidad_data,
    x='Pa√≠s',
    y='Productos_comprables',
    title='Accesibilidad Nala - Productos comprables con un salario m√≠nimo',
    labels={'Productos_comprables': 'N√∫mero de productos', 'Pa√≠s': ''},
    color='Pa√≠s',
    text_auto=True,
)

fig_accesibilidad.update_layout(
    showlegend=False,
    template='plotly_white',
    yaxis_title='N√∫mero de productos'
)

fig_accesibilidad.show()



Con tu salario mensual, puedes comprar 150 productos en espa√±a y 135 productos en Rumania productos Nala

In [19]:
df_indice = pd.DataFrame({
    'Pa√≠s': list(indice_accesibilidad.keys()),
    '√çndice Accesibilidad': list(indice_accesibilidad.values())
})

fig_indice = px.bar(
    df_indice,
    x='Pa√≠s',
    y='√çndice Accesibilidad',
    title='√çndice de Accesibilidad Nala (% del salario m√≠nimo diario)',
    labels={'√çndice Accesibilidad': '% del salario diario'},
    color='Pa√≠s',
)

# Agregar los n√∫meros en cada barra
fig_indice.update_traces(
    texttemplate='%{y:.2f}%',  # Mostrar el valor con 2 decimales y s√≠mbolo %
    textposition='outside'      # Posicionar el texto fuera de las barras
)

fig_indice.update_layout(showlegend=False)
fig_indice.show()

## An√°lisis Precio vs Cantidad

In [21]:
# Cargar el DataFrame combinado desde el archivo para evitar errores
nala_es_ro = pd.read_csv('./data/nala_es_ro.csv')

# Luego calcular precio por ml
nala_es_ro['precio_por_ml'] = nala_es_ro['precio'] / nala_es_ro['gramos/ml']

# Filtrar solo productos con cantidad v√°lida (> 0)
nala_es_ro_cantidad_valida = nala_es_ro[nala_es_ro['gramos/ml'] > 0]

In [43]:
### Relacion precio VS cantidad
tipo_cambio = 5.03  # 1 EUR = 5.03 LEI

# Crear copia "fixed" para mantener tu nombre original manera para evitar warning 
nala_es_ro_cantidad_valida_fixed = nala_es_ro_cantidad_valida.copy()

# Asegurar que existen las columnas convertidas a euros
if 'precio_eur' not in nala_es_ro_cantidad_valida_fixed.columns:
    nala_es_ro_cantidad_valida_fixed['precio_eur'] = nala_es_ro_cantidad_valida_fixed.apply(
        lambda row: row['precio'] if row['pa√≠s'] == 'Espa√±a' else row['precio'] / tipo_cambio,
        axis=1
    )

if 'precio_por_ml_eur' not in nala_es_ro_cantidad_valida_fixed.columns:
    nala_es_ro_cantidad_valida_fixed['precio_por_ml_eur'] = (
        nala_es_ro_cantidad_valida_fixed['precio_eur'] / nala_es_ro_cantidad_valida_fixed['gramos/ml']
    )

# --- 2Ô∏è‚É£ Crear el scatter plot ---
fig_scatter = px.scatter(
    nala_es_ro_cantidad_valida_fixed,
    x='gramos/ml',
    y='precio_eur',
    color='pa√≠s',
    hover_data=['nombre', 'categoria_general', 'precio_por_ml_eur'],
    title='Relaci√≥n Precio vs Cantidad - Espa√±a vs Ruman√≠a',
    labels={
        'gramos/ml': 'Cantidad (gramos/ml)', 
        'precio_eur': 'Precio (EUR)',
        'categoria_general': 'Categor√≠a',
        'pa√≠s': 'Pa√≠s',
        'precio_por_ml_eur': 'Precio por ml/g (EUR)'
    },
    opacity=0.7
)

fig_scatter.update_layout(
    template='plotly_white',
    showlegend=True,
    xaxis_title="Cantidad (gramos/ml)",
    yaxis_title="Precio (EUR)",
    height=500
)

# --- 3Ô∏è‚É£ Tooltip personalizado ---
fig_scatter.update_traces(
    hovertemplate=(
        "<b>%{customdata[0]}</b><br>"
        "Categor√≠a: %{customdata[1]}<br>"
        "Cantidad: %{x}g/ml<br>"
        "Precio total: %{y:.2f}‚Ç¨<br>"
        "Precio por unidad: %{customdata[2]:.4f}‚Ç¨<br>"
        "Pa√≠s: %{marker.color}"
        "<extra></extra>"
    )
)

# --- 4Ô∏è‚É£ Mostrar gr√°fico ---
fig_scatter.show()


In [28]:
# Usamos .assign() para evitar el warning 
# Este m√©todo retorna autom√°ticamente
# CONVERSI√ìN CORRECTA LEI A EURO


tipo_cambio = 5.03  # 1 EUR = 5.03 RON (LEI)

nala_es_ro_cantidad_valida_fixed = nala_es_ro_cantidad_valida.assign(
    precio_eur=lambda x: x.apply(
        lambda row: row['precio'] if row['pa√≠s'] == 'Espa√±a' else row['precio'] / tipo_cambio, 
        axis=1
    ),
    precio_por_ml_eur=lambda x: x.apply(
        lambda row: row['precio_por_ml'] if row['pa√≠s'] == 'Espa√±a' else row['precio_por_ml'] / tipo_cambio, 
        axis=1
    )
)

# Gr√°fica
fig_bubbles_simple = px.scatter(
    nala_es_ro_cantidad_valida_fixed,
    x='gramos/ml',
    y='precio_eur',
    size='precio_por_ml_eur',
    color='categoria_general',
    facet_col='pa√≠s',
    hover_data={
        'precio_por_ml_eur': ':.3f', 
        'precio_eur': ':.2f',
        'precio': ':.2f'
    },
    title='Precio vs Cantidad por Pa√≠s y Categor√≠a<br><sub>Tama√±o = Precio por ML | Precios en EUR (1 EUR = 5.03 RON)</sub>',
    size_max=20,
    opacity=0.6,
    labels={
        'gramos/ml': 'Cantidad (gramos/ml)',
        'precio_eur': 'Precio (EUR)',
        'precio_por_ml_eur': 'Precio por ML (EUR/ml)',
        'categoria_general': 'Categor√≠a General'
    }
)

fig_bubbles_simple.update_layout(template='plotly_white', showlegend=True)
fig_bubbles_simple.show()

In [45]:
# Precio total vs Precio por unidad
df_precio_unidad = pd.DataFrame()

# Precio por unidad
precio_unidad = nala_es_ro_cantidad_valida_fixed[['pa√≠s', 'precio_por_ml_eur']].copy()
precio_unidad['tipo'] = 'Precio por unidad'
precio_unidad['valor'] = precio_unidad['precio_por_ml_eur']

# Precio total
precio_total = nala_es_ro_cantidad_valida_fixed[['pa√≠s', 'precio_eur']].copy()
precio_total['tipo'] = 'Precio total' 
precio_total['valor'] = precio_total['precio_eur']

# Combinar
df_precio_unidad = pd.concat([precio_unidad, precio_total])

fig_precio_unidad = px.box(
    df_precio_unidad,
    x='pa√≠s',
    y='valor',
    color='tipo',
    title='Comparaci√≥n de Precio Total vs Precio por Unidad<br><sub>Todos los precios en EUR</sub>',
    labels={'valor': 'Precio (EUR)', 'pa√≠s': 'Pa√≠s'}
)

fig_precio_unidad.update_layout(template='plotly_white')
fig_precio_unidad.show()

## Productos Extremos y Top Categor√≠as

In [30]:
# Top 5 productos m√°s caros por pa√≠s 
top_5_es = nala_es_ro[nala_es_ro["pa√≠s"] == "Espa√±a"].nlargest(8, "precio").copy()
top_5_ro = nala_es_ro[nala_es_ro["pa√≠s"] == "Rumania"].nlargest(8, "precio").copy()

# Convertir precios de Ruman√≠a a EUR para comparaci√≥n
tipo_cambio = 5.03
top_5_ro["precio_eur"] = top_5_ro["precio"] / tipo_cambio

#  Crear etiquetas con SKU para usar en el eje Y
top_5_es["label"] = top_5_es["nombre"] + " (SKU " + top_5_es["SKU"].astype(str) + ")"
top_5_ro["label"] = top_5_ro["nombre"] + " (SKU " + top_5_ro["SKU"].astype(str) + ")"

fig = go.Figure()

# Espa√±a - barras azules
fig.add_trace(go.Bar(
    y=top_5_es["label"],
    x=top_5_es["precio"],
    orientation="h",
    name="Espa√±a",
    marker_color="#1f77b4",
    hovertemplate="<b>%{y}</b><br>Precio: ‚Ç¨%{x:.2f}<br>Categor√≠a: " +
                top_5_es["categoria"] + "<extra></extra>"
))

# Ruman√≠a - barras naranjas
fig.add_trace(go.Bar(
    y=top_5_ro["label"],
    x=top_5_ro["precio_eur"],
    orientation="h",
    name="Ruman√≠a (EUR)",
    marker_color="#ff7f0e",
    hovertemplate="<b>%{y}</b><br>Precio: ‚Ç¨%{x:.2f}<br>Original: " +
                top_5_ro["precio"].astype(str) + " LEI<br>Categor√≠a: " +
                top_5_ro["categoria"] + "<extra></extra>"
))

fig.update_layout(
    title="<b>Top 8 Productos M√°s Caros - Comparativa en Euros (Con SKU)</b>",
    xaxis_title="Precio (EUR)",
    yaxis_title="Producto",
    barmode="group",
    height=700,
    template="plotly_white",
    showlegend=True,
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="right",
        x=1
    )
)

# A√±adir anotaciones con las categor√≠as
max_x = max(top_5_es["precio"].max(), top_5_ro["precio_eur"].max())

for _, row in top_5_es.iterrows():
    fig.add_annotation(
        x=row["precio"] + max_x * 0.02,
        y=row["label"],
        text=row["categoria"],
        showarrow=False,
        font=dict(size=10, color="gray"),
        xanchor="left"
    )

for _, row in top_5_ro.iterrows():
    fig.add_annotation(
        x=row["precio_eur"] + max_x * 0.02,
        y=row["label"],
        text=row["categoria"],
        showarrow=False,
        font=dict(size=10, color="gray"),
        xanchor="left"
    )

fig.show()



### Hallazgos interesantes

| Producto                   | Espa√±a | Ruman√≠a | Diferencia                     |
|---------------------------|--------|---------|--------------------------------|
| Serum Facial Premium      | 19.90‚Ç¨ | 23.84‚Ç¨  | m√°s caro en Ruman√≠a     |
| Crema Facial Reafirmante  | 22.90‚Ç¨ | 21.85‚Ç¨  | m√°s caro en Ruman√≠a      |


La gr√°fica revela una estrategia de precios inteligente: Ruman√≠a compite en precio en productos masivos, pero se posiciona como premium en productos especializados, mientras Espa√±a mantiene coherencia en su estructura de precios.

In [31]:
# Top 8 productos m√°s econ√≥micos por pa√≠s 
top_economicos_es = nala_es_ro[nala_es_ro["pa√≠s"] == "Espa√±a"].nsmallest(8, "precio").copy()
top_economicos_ro = nala_es_ro[nala_es_ro["pa√≠s"] == "Rumania"].nsmallest(8, "precio").copy()

# Convertir precios de Ruman√≠a a EUR para comparaci√≥n
tipo_cambio = 5.03
top_economicos_ro["precio_eur"] = top_economicos_ro["precio"] / tipo_cambio

# Crear etiquetas con SKU para usar en el eje Y
top_economicos_es["label"] = top_economicos_es["nombre"] + " (SKU " + top_economicos_es["SKU"].astype(str) + ")"
top_economicos_ro["label"] = top_economicos_ro["nombre"] + " (SKU " + top_economicos_ro["SKU"].astype(str) + ")"

fig = go.Figure()

# Espa√±a - barras azules
fig.add_trace(go.Bar(
    y=top_economicos_es["label"],
    x=top_economicos_es["precio"],
    orientation="h",
    name="Espa√±a",
    marker_color="#1f77b4",
    hovertemplate="<b>%{y}</b><br>Precio: ‚Ç¨%{x:.2f}<br>Categor√≠a: " +
                top_economicos_es["categoria"] + "<extra></extra>"
))

# Ruman√≠a - barras naranjas
fig.add_trace(go.Bar(
    y=top_economicos_ro["label"],
    x=top_economicos_ro["precio_eur"],
    orientation="h",
    name="Ruman√≠a (EUR)",
    marker_color="#ff7f0e",
    hovertemplate="<b>%{y}</b><br>Precio: ‚Ç¨%{x:.2f}<br>Original: " +
                top_economicos_ro["precio"].astype(str) + " LEI<br>Categor√≠a: " +
                top_economicos_ro["categoria"] + "<extra></extra>"
))

fig.update_layout(
    title="<b>Top 8 Productos M√°s Econ√≥micos - Comparativa en Euros (Con SKU)</b>",
    xaxis_title="Precio (EUR)",
    yaxis_title="Producto",
    barmode="group",
    height=700,
    template="plotly_white",
    showlegend=True,
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="right",
        x=1
    )
)

# A√±adir anotaciones con las categor√≠as
max_x = max(top_economicos_es["precio"].max(), top_economicos_ro["precio_eur"].max())

for _, row in top_economicos_es.iterrows():
    fig.add_annotation(
        x=row["precio"] + max_x * 0.02,
        y=row["label"],
        text=row["categoria"],
        showarrow=False,
        font=dict(size=10, color="gray"),
        xanchor="left"
    )

for _, row in top_economicos_ro.iterrows():
    fig.add_annotation(
        x=row["precio_eur"] + max_x * 0.02,
        y=row["label"],
        text=row["categoria"],
        showarrow=False,
        font=dict(size=10, color="gray"),
        xanchor="left"
    )

fig.show()

| Producto | Precio Espa√±a | Precio Ruman√≠a | Diferencia |
|----------|---------------|----------------|------------|
| **Jab√≥n natural** | ‚Ç¨2.90 | ‚Ç¨1.28 | **-55.9%** en Ruman√≠a |
| **Crema de ba√±o** | ‚Ç¨2.35 | ‚Ç¨1.77 | **-24.7%** en Ruman√≠a |


En esta grafica podemos ver que los productos mas economicos son, en Rumania el Jabon natural con un costo de 1.28 mientras que en espa√±a cuesta 2.90, y en Espa√±a lo mas economico es la crema de ba√±o con un costo de 2.35 miestras que en Rumania tiene un costo de 1.77

In [32]:
# Precio promedio por categor√≠a general
# Gregamos tipo de cambio para evitar errores
tipo_cambio = 5.03

# Usar el DataFrame que ya tiene precios en EUR si est√° disponible
if 'precio_eur' in nala_es_ro.columns:
    df_para_analisis = nala_es_ro
else:
    df_para_analisis = nala_es_ro.copy()
    df_para_analisis['precio_eur'] = df_para_analisis.apply(
        lambda x: x['precio'] if x['pa√≠s'] == 'Espa√±a' else x['precio'] / tipo_cambio, 
        axis=1
    )

# Calcular promedios y diferencias
precio_categoria = df_para_analisis.groupby(['categoria_general', 'pa√≠s'])['precio_eur'].agg(['mean', 'count']).round(2)
precio_categoria = precio_categoria.reset_index()

# Pivot para calcular diferencias
pivot_precios = precio_categoria.pivot(index='categoria_general', columns='pa√≠s', values='mean')
pivot_precios['diferencia_%'] = ((pivot_precios['Rumania'] - pivot_precios['Espa√±a']) / pivot_precios['Espa√±a'] * 100).round(1)

print(pivot_precios)

fig_bar = px.bar(
    precio_categoria,
    x='categoria_general',
    y='mean',
    color='pa√≠s',
    barmode='group',
    title='Precio Promedio por Categor√≠a General<br><sub>Comparaci√≥n directa en EUR - Precios convertidos</sub>',
    labels={'mean': 'Precio Promedio (EUR)', 'categoria_general': 'Categor√≠a General'},
    color_discrete_sequence=['#1f77b4', '#ff7f0e'],
    hover_data=['count']
)

# AGREGAR PRECIOS ARRIBA DE LAS BARRAS
fig_bar.update_traces(
    texttemplate='%{y:.2f}‚Ç¨',  # Muestra el precio con 2 decimales y s√≠mbolo ‚Ç¨
    textposition='outside'     # Coloca el texto fuera de las barras
)

fig_bar.update_layout(
    template='plotly_white',
    xaxis_tickangle=-45,
    showlegend=True,
    yaxis_title='Precio Promedio (EUR)',
    margin=dict(l=50, r=50, t=80, b=100),
    yaxis=dict(
        range=[0, max(precio_categoria['mean']) * 1.15] # Aumenta espacio arriba
    )
)

fig_bar.show()

pa√≠s               Espa√±a  Rumania  diferencia_%
categoria_general                               
Cabello              8.97     7.07         -21.2
Corporal             8.66     7.07         -18.4
Ducha y Ba√±o         5.11     3.76         -26.4
Rostro              10.09     8.82         -12.6


Ducha y Ba√±o:

-26.4% m√°s barato en Ruman√≠a

Mayor diferencia (la categor√≠a m√°s favorable para Ruman√≠a)

Cabello:

-21.2% m√°s barato en Ruman√≠a

Corporal:

-18.4% m√°s barato en Ruman√≠a

Rostro:

-12.6% m√°s barato en Ruman√≠a

Menor diferencia (sigue siendo m√°s barato)

In [33]:
# Filtrar las 8 subcategor√≠as m√°s comunes
top_categorias = df_es_ro['categoria'].value_counts().head(8).index

fig_subcat = px.box(
    df_es_ro[df_es_ro['categoria'].isin(top_categorias)],
    x='categoria',
    y='precio',
    color='pa√≠s',
    title='Precios por Subcategor√≠as M√°s Comunes',
    points=False
)

fig_subcat.update_layout(
    xaxis_title='Subcategor√≠a',
    yaxis_title='Precio',
    xaxis={'categoryorder':'total descending'},
    height=500
)

fig_subcat.show()

In [35]:
#primero  asegurar la conversi√≥n a EUR
tipo_cambio = 5.03

df_con_precio_eur = df_es_ro.copy()
df_con_precio_eur['precio_eur'] = df_con_precio_eur.apply(
    lambda x: x['precio'] if x['pa√≠s'] == 'Espa√±a' else x['precio'] / tipo_cambio, 
    axis=1
)

# 2. Calcular promedios en EUR
precio_categoria_eur = df_con_precio_eur.groupby(['categoria_general', 'pa√≠s'])['precio_eur'].mean().round(2)

# 3. Pivot para calcular diferencias EN EUR
pivot_precios_eur = precio_categoria_eur.reset_index().pivot(
    index='categoria_general', 
    columns='pa√≠s', 
    values='precio_eur'
)

# 4. Calcular diferencias porcentuales
pivot_precios_eur['diferencia_%'] = (
    (pivot_precios_eur['Rumania'] - pivot_precios_eur['Espa√±a']) / pivot_precios_eur['Espa√±a'] * 100
).round(1)

# 5. Ordenar por diferencia absoluta
top_diferencias = pivot_precios_eur.copy()
top_diferencias['diferencia_abs'] = abs(top_diferencias['diferencia_%'])
top_diferencias = top_diferencias.sort_values('diferencia_abs', ascending=False)

# 6. Crear gr√°fica
fig_top = px.bar(
    top_diferencias.reset_index(),
    y='categoria_general',
    x='diferencia_%',
    title='<b>Top Categor√≠as con Mayor Diferencia de Precio</b><br><sub>Convertido a EUR para comparaci√≥n real</sub>',
    labels={
        'diferencia_%': 'Diferencia de Precio (%)',
        'categoria_general': 'Categor√≠a'
    },
    color='diferencia_%',
    color_continuous_scale='RdYlBu_r',
    text='diferencia_%',
    orientation='h'
)

# Mejorar formato
fig_top.update_traces(
    texttemplate='%{text:.1f}%',
    textposition='outside'
)

fig_top.update_layout(
    template='plotly_white',
    yaxis={'categoryorder': 'total ascending'},
    xaxis_title='<b>Diferencia de Precio (%)</b>',
    yaxis_title='<b>Categor√≠a</b>',
    coloraxis_showscale=True,
    coloraxis_colorbar=dict(title="Diferencia %"),
    height=500,
    margin=dict(l=50, r=50, t=80, b=50)
)

fig_top.add_annotation(
    text="Valores negativos = M√°s barato en Ruman√≠a",
    xref="paper", yref="paper",
    x=0.02, y=0.02,
    showarrow=False,
    bgcolor="white",
    bordercolor="black",
    borderwidth=1
)

fig_top.show()

In [47]:
# Crear df_heatmap a partir de tu dataframe combinado
df_heatmap = nala_es_ro_cantidad_valida.copy()

## Aseguramos tipo de cambio
tipo_cambio = 5.03

if 'precio_eur' not in df_heatmap.columns:
    df_heatmap['precio_eur'] = df_heatmap.apply(
        lambda row: row['precio'] if row['pa√≠s'] == 'Espa√±a' else row['precio'] / tipo_cambio,
        axis=1
    )

# Preparar datos para heatmap
heatmap_data = df_heatmap.groupby(['categoria_general', 'pa√≠s'])['precio_eur'].mean().unstack()

fig_heatmap = px.imshow(
    heatmap_data,
    text_auto='.1f',
    aspect="auto",
    color_continuous_scale='YlOrRd',
    title='<b>Mapa de Calor Interactivo - Precios Promedio (EUR)</b><br><sub>M√°s c√°lido = Precio m√°s alto</sub>',
    labels=dict(x="Pa√≠s", y="Categor√≠a", color="Precio (EUR)")
)

fig_heatmap.update_layout(
    template='plotly_white',
    height=400
)

fig_heatmap.show()

In [38]:
# Treemap de Distribuci√≥n de Valor
tipo_cambio = 5.03

# Crear DataFrame temporal con precios normalizados
df_treemap = nala_es_ro.copy()
df_treemap['precio_eur'] = df_treemap.apply(
    lambda x: x['precio'] if x['pa√≠s'] == 'Espa√±a' else x['precio'] / tipo_cambio, 
    axis=1
)

fig_treemap = px.treemap(
    df_treemap,
    path=['pa√≠s', 'categoria_general', 'categoria'],
    values='precio_eur',  # Usar precios en EUR
    color='precio_eur',   # Color basado en EUR
    color_continuous_scale='RdYlGn_r',
    title='Mapa de √Årbol - Distribuci√≥n de Valor por Categor√≠as<br><sub>Tama√±o = Precio Total en EUR | Color = Precio Promedio</sub>'
)
fig_treemap.update_layout(
    template='plotly_white',
    height=600
)
fig_treemap.show()

Espa√±a es el Mercado Principal: La categor√≠a de "Espa√±a" es mucho m√°s grande que la de "Ruman√≠a", lo que significa que el valor total de ventas (en EUR) es significativamente mayor en Espa√±a.

Productos Corporales y Faciales son los M√°s Valiosos: Tanto en Espa√±a como en Ruman√≠a, las categor√≠as de "Corporal" y "Rostro" son las que generan m√°s ingresos, siendo las secciones m√°s grandes dentro de cada pa√≠s.


Productos Destacados: En ambos pa√≠ses, productos espec√≠ficos como "Crema Facial" y "Exfoliante Corporal" se ven como componentes importantes dentro de sus categor√≠as, lo que indica que son art√≠culos clave en las ventas.

En resumen, la estrategia de ventas se centra con mayor fuerza en Espa√±a y en los productos de cuidado para la piel del cuerpo y el rostro.



In [39]:
# 1. Crear columna "gama" seg√∫n pa√≠s
def clasificar_gama(row):
    precio = row["precio"]
    pais = row["pa√≠s"]

    # Espa√±a ‚Üí euros
    if pais.lower() == "espa√±a":
        if precio <= 8:
            return "Baja"
        elif precio <= 15:
            return "Media"
        else:
            return "Alta"

    # Ruman√≠a ‚Üí lei
    elif pais.lower() == "rumania":
        if precio <= 40:
            return "Baja"
        elif precio <= 70:
            return "Media"
        else:
            return "Alta"

    return None

df_es_ro["gama"] = df_es_ro.apply(clasificar_gama, axis=1)

# 2. Agrupar datos por categor√≠a y gama

df_gama = (
    df_es_ro.groupby(["categoria_general", "gama"])
    .size()
    .reset_index(name="cantidad")
)

# 3. Gr√°fico din√°mico Plotly
fig = px.bar(
    df_gama,
    x="categoria_general",
    y="cantidad",
    color="gama",
    barmode="group",
    title="Segmentaci√≥n por gama de precio (NALA Espa√±a & Ruman√≠a)",
    labels={
        "cantidad": "Cantidad de productos",
        "categoria_general": "Categor√≠a",
        "gama": "Gama de precio"
    },
)

# Mostrar valores arriba de las barras
fig.update_traces(texttemplate="%{y}", textposition="outside")

fig.update_layout(
    template="plotly_white",
    xaxis_title="Categor√≠a",
    yaxis_title="Productos",
    legend_title="Gama",
    uniformtext_minsize=8,
    uniformtext_mode="hide",
    
)

fig.show()

La gama MEDIA domina el mercado: Es la m√°s vendida en todas las categor√≠as, especialmente en Corporal y Rostro.

Rostro es la categor√≠a m√°s importante: Tiene la mayor cantidad de productos totales (219), liderando tanto en gama Media como Alta.

Cabello tiene poca variedad de precios: Solo ofrece productos de gama Baja y Media, sin opciones premium.

Corporal es la segunda categor√≠a clave: Con 115 productos en gama Media, muestra una fuerte presencia en el segmento de precio medio.

En resumen: La estrategia se centra en productos de precio medio, siendo el cuidado facial la categor√≠a principal y m√°s diversa en gamas de precio.

In [50]:
# Violin plot por categor√≠a general con precios convertidos
# Asegurar que existe el tipo de cambio
tipo_cambio = 5.03  # 1 EUR = 5.03 RON

# Copiar el DF original que tienes cargado
df_es_ro_conv = nala_es_ro_cantidad_valida.copy()

# Convertir precios a euros seg√∫n el pa√≠s
df_es_ro_conv['precio_eur'] = df_es_ro_conv.apply(
    lambda row: row['precio'] / tipo_cambio if row['pa√≠s'] == 'Ruman√≠a' else row['precio'],
    axis=1
)

fig_violin_cat = px.violin(
    df_es_ro_conv, #Conversion de moneda
    x='categoria_general',
    y='precio_eur',
    color='pa√≠s',
    box=True,
    points=False,
    title='Distribuci√≥n de Precios por Categor√≠a General (EUR)',
    labels={'precio_eur': 'Precio (EUR)', 'categoria_general': 'Categor√≠a General'}
)
fig_violin_cat.show()

## Resumen Ejecutivo

In [41]:
# Gr√°fica Comparativa - M√©tricas Clave
fig_comparativa = go.Figure()

# Valores calculados
valores_es = [
    df_es['precio'].median(),
    productos_salario_es,
    1.0,
    (df_es['precio'].std()/df_es['precio'].mean())*100,
    0
]

valores_ro = [
    df_ro['precio'].median()/tipo_cambio,
    productos_salario_ro,
    productos_salario_es/productos_salario_ro,
    (df_ro['precio'].std()/df_ro['precio'].mean())*100,
    ((df_ro['precio'].median()/tipo_cambio) / df_es['precio'].median() - 1)*100
]

metricas = ['Precio Mediano (EUR)', 'Productos con Salario', 'Accesibilidad', 'Dispersi√≥n', 'Diferencia %']

# Barras Espa√±a
fig_comparativa.add_trace(go.Bar(
    name='Espa√±a',
    x=metricas,
    y=valores_es,
    marker_color='blue',
    text=[f'‚Ç¨{valores_es[0]:.2f}', f'{valores_es[1]:.0f}', f'{valores_es[2]:.1f}x', 
        f'{valores_es[3]:.1f}%', f'{valores_es[4]:.1f}%'],
    textposition='auto'
))

# Barras Ruman√≠a
fig_comparativa.add_trace(go.Bar(
    name='Ruman√≠a',
    x=metricas,
    y=valores_ro,
    marker_color='red',
    text=[f'‚Ç¨{valores_ro[0]:.2f}', f'{valores_ro[1]:.0f}', f'{valores_ro[2]:.1f}x', 
        f'{valores_ro[3]:.1f}%', f'{valores_ro[4]:.1f}%'],
    textposition='auto'
))

fig_comparativa.update_layout(
    title='M√©tricas Clave - Espa√±a vs Ruman√≠a',
    xaxis_title='M√©tricas',
    yaxis_title='Valor',
    barmode='group'
)

fig_comparativa.show()

# üßæ Conclusiones del an√°lisis comparativo Nala Espa√±a vs Ruman√≠a

---

## ‚úÖ Resumen ejecutivo ‚Äî Respuesta a las hip√≥tesis

- **Hip√≥tesis principal (accesibilidad):** ‚ùå **No se cumple.**  
  Aunque los precios nominales en Espa√±a son ligeramente m√°s altos , al considerar el poder adquisitivo (salario m√≠nimo), la **accesibilidad es pr√°cticamente igual** (~0.7% del salario m√≠nimo en ambos pa√≠ses).  
  En t√©rminos de poder de compra, un salario m√≠nimo permite comprar aproximadamente **150 productos en Espa√±a** y **135 en Ruman√≠a**, por lo que Espa√±a es solo **~11% m√°s accesible**.

- **Hip√≥tesis secundaria (estructura de precios / mix):** ‚ö†Ô∏è **Parcialmente se cumple.**  
  El mix de producto y la gama media dominan en ambos mercados, pero **Ruman√≠a presenta mayor dispersi√≥n de precios** y algunos productos premium son **m√°s caros en Ruman√≠a**, como el *Serum Facial Premium*.

---

## 1Ô∏è‚É£ An√°lisis general de mercado

- **Distribuci√≥n de precios:**  
  - Espa√±a: precios m√°s concentrados y estables.  
  - Ruman√≠a: precios m√°s heterog√©neos, con presencia de productos muy baratos y algunos m√°s caros.  

- **Rango y dispersi√≥n:**  
  - Ruman√≠a: rango m√°s amplio y dispersi√≥n.  
  - Espa√±a: dispersi√≥n mas estable.  
  ‚Üí Diferencia significativa en variabilidad, pero no en accesibilidad.

- **Conclusi√≥n:**  
  Ruman√≠a tiene una estructura de precios menos homog√©nea, con m√°s contrastes entre productos econ√≥micos y premium.

---

## 2Ô∏è‚É£ An√°lisis por categor√≠as

- **Categor√≠as con precios m√°s altos:**  
  - *Rostro*: mayor presencia de productos premium.  
  - *Corporal*: segunda categor√≠a en valor promedio.  

- **Categor√≠as con precios m√°s bajos:**  
  - *Cabello*: precios estables y m√°s bajos, sin gama alta.  

- **Variaci√≥n entre pa√≠ses:**  
  - *Rostro* muestra las diferencias m√°s marcadas (productos premium m√°s caros en RO).  
  - *Cabello* mantiene precios similares en ambos mercados.  

---

## 3Ô∏è‚É£ An√°lisis de productos

- **Productos m√°s caros (comparaciones destacadas):**  
  - Serum Facial Premium      - E 19.90‚Ç¨ - R 23.84‚Ç¨  - m√°s caro en Ruman√≠a
  - Crema Facial Reafirmante  - E 22.90‚Ç¨ - R 21.85‚Ç¨  - m√°s caro en Ruman√≠a

- **Productos m√°s econ√≥micos:**  
  - *Jab√≥n natural* - E ‚Ç¨2.90 - R ‚Ç¨1.28 - mas economico en Rumania
  - *Crema de ba√±o* - E ‚Ç¨2.35 - R ‚Ç¨1.77 - mas economico en Rumania

- **Relaci√≥n precio-cantidad:**  
  - No siempre proporcional; algunos envases peque√±os tienen precios unitarios m√°s altos (posicionamiento premium).  

- **Productos id√©nticos con precios distintos:**  
  - S√≠ existen diferencias para el mismo SKU o nombre (ejemplo: *Serum Facial Premium*).  

---

## 4Ô∏è‚É£ An√°lisis de accesibilidad (poder adquisitivo)

**Considerando los salarios m√≠nimos, ¬øes Nala igual de accesible en ambos mercados?**  
- **NO**, pero la diferencia es menor de lo esperado  
- **Espa√±a**: 0.67% del salario m√≠nimo por producto  
- **Ruman√≠a**: 0.74% del salario m√≠nimo por producto  
- **Ratio de accesibilidad**: 1.11x (ES/RO) ‚Üí Espa√±a 11% m√°s accesible  
- **Productos comprables con salario m√≠nimo**:  
  - Espa√±a: ~150 productos  
  - Ruman√≠a: ~135 productos

- **Conclusi√≥n:**  
  Las diferencias de accesibilidad son **m√≠nimas**. Espa√±a es solo **~11% m√°s accesible**, sin evidencia de que Ruman√≠a sea significativamente menos accesible.



## üß© Conclusi√≥n general
**Nala mantiene precios similares en ambos pa√≠ses cuando consideramos el poder adquisitivo de la gente.**

**Lo que encontramos:**
- üí∞ **En Ruman√≠a** los precios son m√°s bajos, pero el salario tambi√©n es menor
- üí∞ **En Espa√±a** los precios son m√°s altos, pero el salario es mayor
- ‚öñÔ∏è **Resultado**: La marca es casi igual de accesible en ambos pa√≠ses

**Estrategia de Nala:**
- üè∑Ô∏è **Productos b√°sicos**: M√°s baratos en Ruman√≠a
- üíé **Productos premium**: M√°s caros en Ruman√≠a
- üìä **En general**: Precios coherentes entre mercados

**Conclusi√≥n principal:**
Nala ha logrado equilibrar sus precios para que sean similares en accesibilidad, adapt√°ndose a la realidad econ√≥mica de cada pa√≠s sin perder su esencia de marca.