# üå∏ An√°lisis de Perfumes Fragantica - EDA

## üìñ Introducci√≥n
Este cuaderno presenta un An√°lisis Exploratorio de Datos (EDA) del dataset de Fragantica. El objetivo es descubrir tendencias en la industria del perfume, analizar el rendimiento de las marcas, explorar las notas olfativas y comprender las preferencias de los usuarios.

El dataset incluye informaci√≥n sobre nombres de perfumes, marcas, pa√≠ses, puntuaciones, a√±os de lanzamiento y perfiles olfativos detallados (notas y acordes).

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import matplotlib.pyplot as plt
from wordcloud import WordCloud

# Configurar tema de Plotly
import plotly.io as pio
pio.templates.default = "plotly_white"

# Opciones de visualizaci√≥n
pd.set_option('display.max_columns', None)

## üì• 1. Carga de Datos e Inspecci√≥n Inicial

In [2]:
# Cargar el dataset
file_path = 'fra_cleaned.csv'
try:
    df = pd.read_csv(file_path, sep=';', decimal=',', encoding='latin-1')
    print("¬°Dataset cargado con √©xito!")
except Exception as e:
    print(f"Error al cargar el dataset: {e}")

¬°Dataset cargado con √©xito!


In [3]:
# Mostrar las primeras filas
df.head()

Unnamed: 0,url,Perfume,Brand,Country,Gender,Rating Value,Rating Count,Year,Top,Middle,Base,Perfumer1,Perfumer2,mainaccord1,mainaccord2,mainaccord3,mainaccord4,mainaccord5
0,https://www.fragrantica.com/perfume/xerjoff/ac...,accento-overdose-pride-edition,xerjoff,Italy,unisex,1.42,201,2022.0,"fruity notes, aldehydes, green notes","bulgarian rose, egyptian jasmine, lily-of-the-...","eucalyptus, pine",unknown,,rose,woody,fruity,aromatic,floral
1,https://www.fragrantica.com/perfume/jean-paul-...,classique-pride-2024,jean-paul-gaultier,France,women,1.86,70,2024.0,"yuzu, citruses","orange blossom, neroli","musk, blonde woods",unknown,,citrus,white floral,sweet,fresh,musky
2,https://www.fragrantica.com/perfume/jean-paul-...,classique-pride-2023,jean-paul-gaultier,France,unisex,1.91,285,2023.0,"blood orange, yuzu","neroli, orange blossom","musk, white woods",natalie gracia-cetto,quentin bisch,citrus,white floral,sweet,fresh spicy,musky
3,https://www.fragrantica.com/perfume/bruno-bana...,pride-edition-man,bruno-banani,Germany,men,1.92,59,2019.0,"guarana, grapefruit, red apple","walnut, lavender, guava","vetiver, benzoin, amber",unknown,,fruity,nutty,woody,tropical,
4,https://www.fragrantica.com/perfume/jean-paul-...,le-male-pride-collector,jean-paul-gaultier,France,men,1.93,632,2020.0,"mint, lavender, cardamom, artemisia, bergamot","caraway, cinnamon, orange blossom","vanilla, sandalwood, amber, cedar, tonka bean",francis kurkdjian,,aromatic,warm spicy,fresh spicy,cinnamon,vanilla


In [4]:
# Informaci√≥n b√°sica
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24063 entries, 0 to 24062
Data columns (total 18 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   url           24063 non-null  object 
 1   Perfume       24063 non-null  object 
 2   Brand         24063 non-null  object 
 3   Country       24063 non-null  object 
 4   Gender        24063 non-null  object 
 5   Rating Value  24063 non-null  float64
 6   Rating Count  24063 non-null  int64  
 7   Year          22026 non-null  float64
 8   Top           24063 non-null  object 
 9   Middle        24063 non-null  object 
 10  Base          24063 non-null  object 
 11  Perfumer1     24063 non-null  object 
 12  Perfumer2     1336 non-null   object 
 13  mainaccord1   24063 non-null  object 
 14  mainaccord2   24050 non-null  object 
 15  mainaccord3   23949 non-null  object 
 16  mainaccord4   23675 non-null  object 
 17  mainaccord5   23082 non-null  object 
dtypes: float64(2), int64(1), o

In [5]:
# Estad√≠sticas descriptivas
df.describe()

Unnamed: 0,Rating Value,Rating Count,Year
count,24063.0,24063.0,22026.0
mean,3.960379,501.396542,2012.455961
std,0.277429,1429.48469,13.526737
min,1.42,26.0,1781.0
25%,3.79,56.0,2010.0
50%,3.97,127.0,2015.0
75%,4.15,360.0,2019.0
max,4.93,29858.0,2024.0


In [6]:
# Comprobar valores nulos
missing_values = df.isnull().sum()
missing_values[missing_values > 0]

Unnamed: 0,0
Year,2037
Perfumer2,22727
mainaccord2,13
mainaccord3,114
mainaccord4,388
mainaccord5,981


## üìä 2. An√°lisis Univariante

### ‚≠ê 2.1 Distribuci√≥n de las Puntuaciones

In [7]:
# Histograma del Valor de la Puntuaci√≥n
fig = px.histogram(df, x='Rating Value', nbins=50, title='Distribuci√≥n de las Puntuaciones de Perfumes',
                   color_discrete_sequence=['#636EFA'])
fig.update_layout(xaxis_title='Puntuaci√≥n', yaxis_title='Recuento', bargap=0.1)
fig.show()

In [8]:
# Histograma del Conteo de Puntuaciones (Escala Logar√≠tmica para mejor visibilidad)
fig = px.histogram(df, x='Rating Count', nbins=100, log_y=True, title='Distribuci√≥n del N√∫mero de Puntuaciones (Escala Log)',
                   color_discrete_sequence=['#EF553B'])
fig.update_layout(xaxis_title='N√∫mero de Puntuaciones', yaxis_title='Recuento (Log)', bargap=0.1)
fig.show()

### üèÜ 2.2 Marcas Principales

In [9]:
# Top 20 Marcas por n√∫mero de perfumes
top_brands = df['Brand'].value_counts().head(20).reset_index()
top_brands.columns = ['Brand', 'Count']

fig = px.bar(top_brands, x='Count', y='Brand', orientation='h', title='Top 20 Marcas por N√∫mero de Perfumes',
             color='Count', color_continuous_scale='Viridis')
fig.update_layout(yaxis={'categoryorder':'total ascending'})
fig.show()

### üöª 2.3 Distribuci√≥n por G√©nero

In [10]:
# Distribuci√≥n de G√©nero
gender_counts = df['Gender'].value_counts().reset_index()
gender_counts.columns = ['Gender', 'Count']

fig = px.pie(gender_counts, values='Count', names='Gender', title='Distribuci√≥n de Perfumes por G√©nero',
             color_discrete_sequence=px.colors.qualitative.Pastel)
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

### üìÖ 2.4 Distribuci√≥n por A√±o de Lanzamiento

In [11]:
# Limpiar columna A√±o (convertir a num√©rico, forzar errores)
df['Year_Clean'] = pd.to_numeric(df['Year'], errors='coerce')

# Filtrar a√±os poco realistas (aunque existen perfumes antiguos)
# Comprobemos el rango primero
print(df['Year_Clean'].describe())

# Plot distribuci√≥n de A√±os de Lanzamiento
fig = px.histogram(df, x='Year_Clean', nbins=100, title='Distribuci√≥n de A√±os de Lanzamiento',
                   color_discrete_sequence=['#00CC96'])
fig.update_layout(xaxis_title='A√±o', yaxis_title='Recuento', bargap=0.1)
fig.show()

count    22026.000000
mean      2012.455961
std         13.526737
min       1781.000000
25%       2010.000000
50%       2015.000000
75%       2019.000000
max       2024.000000
Name: Year_Clean, dtype: float64


## üìà 3. An√°lisis Bivariante y Multivariante

### üìâ 3.1 Puntuaciones vs. A√±o de Lanzamiento

In [12]:
# Gr√°fico de dispersi√≥n de Puntuaciones vs A√±o
# Agregamos por a√±o para ver la tendencia de la puntuaci√≥n media a lo largo del tiempo
year_stats = df.groupby('Year_Clean')['Rating Value'].agg(['mean', 'count']).reset_index()
year_stats = year_stats[year_stats['count'] > 10] # Filtrar a√±os con pocos perfumes para estabilidad

fig = px.scatter(year_stats, x='Year_Clean', y='mean', size='count', title='Puntuaci√≥n Media por A√±o de Lanzamiento',
                 labels={'Year_Clean': 'A√±o', 'mean': 'Puntuaci√≥n Media', 'count': 'N√∫mero de Perfumes'},
                 color='mean', color_continuous_scale='RdBu')
fig.show()

### üçã 3.2 An√°lisis de Notas Populares

In [13]:
def get_top_notes(df, column, top_n=20):
    # Dividir cadenas por coma (usando regex para manejar espacios opcionales)
    notes = df[column].dropna().astype(str).str.split(r',\s*').explode()
    # Eliminar espacios en blanco y convertir a min√∫sculas
    notes = notes.str.strip().str.lower()
    # Eliminar cadenas vac√≠as
    notes = notes[notes != '']
    return notes.value_counts().head(top_n)

# Analizar Notas de Salida (Top), Coraz√≥n (Middle) y Fondo (Base)
top_notes = get_top_notes(df, 'Top')
middle_notes = get_top_notes(df, 'Middle')
base_notes = get_top_notes(df, 'Base')

# Imprimir las notas m√°s populares para verificaci√≥n
print("Top 5 Notas de Salida:")
print(top_notes.head(5))

# Gr√°fico Notas de Salida
fig = px.bar(x=top_notes.values, y=top_notes.index, orientation='h', title='Notas de Salida M√°s Populares',
             labels={'x': 'Recuento', 'y': 'Nota'}, color=top_notes.values, color_continuous_scale='Blues')
fig.update_layout(yaxis={'categoryorder':'total ascending', 'automargin': True})
fig.show()

Top 5 Notas de Salida:
Top
bergamot           8535
mandarin orange    3933
lemon              2966
grapefruit         2185
pink pepper        2016
Name: count, dtype: int64


In [14]:
# Gr√°fico Notas de Fondo (a menudo definen el car√°cter del perfume)
fig = px.bar(x=base_notes.values, y=base_notes.index, orientation='h', title='Notas de Fondo M√°s Populares',
             labels={'x': 'Recuento', 'y': 'Nota'}, color=base_notes.values, color_continuous_scale='Reds')
fig.update_layout(yaxis={'categoryorder':'total ascending', 'automargin': True})
fig.show()

### üë´ 3.3 Preferencias de Notas por G√©nero

In [15]:
# Comparar Notas de Salida para Hombres vs Mujeres
men_df = df[df['Gender'] == 'men']
women_df = df[df['Gender'] == 'women']

men_notes = get_top_notes(men_df, 'Top', 10)
women_notes = get_top_notes(women_df, 'Top', 10)

fig = make_subplots(rows=1, cols=2, subplot_titles=('Notas de Salida en Perfumes de Hombre', 'Notas de Salida en Perfumes de Mujer'))

fig.add_trace(go.Bar(x=men_notes.values, y=men_notes.index, orientation='h', name='Hombres', marker_color='blue'), row=1, col=1)
fig.add_trace(go.Bar(x=women_notes.values, y=women_notes.index, orientation='h', name='Mujeres', marker_color='pink'), row=1, col=2)

fig.update_layout(title_text='Comparaci√≥n por G√©nero: Preferencia de Notas de Salida', showlegend=False)
fig.show()

### üî¢ 3.4 An√°lisis de Correlaci√≥n

In [16]:
# Matriz de Correlaci√≥n de variables num√©ricas
numeric_df = df[['Rating Value', 'Rating Count', 'Year_Clean']]
corr = numeric_df.corr()

fig = px.imshow(corr, text_auto=True, title='Matriz de Correlaci√≥n',
                color_continuous_scale='RdBu_r', aspect='auto')
fig.show()

### üåç 3.5 An√°lisis por Pa√≠s

In [17]:
# Puntuaci√≥n Media por Pa√≠s (Top 15 pa√≠ses productores)
top_countries = df['Country'].value_counts().head(15).index
country_stats = df[df['Country'].isin(top_countries)].groupby('Country')['Rating Value'].mean().sort_values(ascending=False).reset_index()

fig = px.bar(country_stats, x='Rating Value', y='Country', orientation='h', title='Puntuaci√≥n Media por Pa√≠s (Top 15 Productores)',
             color='Rating Value', color_continuous_scale='Magma')
fig.update_layout(yaxis={'categoryorder':'total ascending'}, xaxis_range=[3.5, 4.5]) # Zoom en el rango de puntuaci√≥n
fig.show()

## ‚ú® 4. Visualizaciones Avanzadas

### ‚òÄÔ∏è 4.1 Gr√°fico Sunburst: G√©nero y Acordes Principales

In [18]:
# Gr√°fico Sunburst mostrando jerarqu√≠a: G√©nero -> Acorde Principal 1 -> Acorde Principal 2
# Necesitamos agrupar datos para esto
sunburst_data = df.groupby(['Gender', 'mainaccord1', 'mainaccord2']).size().reset_index(name='count')
# Filtrar para mejor visibilidad (eliminar grupos peque√±os)
sunburst_data = sunburst_data[sunburst_data['count'] > 50]

fig = px.sunburst(sunburst_data, path=['Gender', 'mainaccord1', 'mainaccord2'], values='count',
                  title='Distribuci√≥n de Acordes por G√©nero',
                  color='count', color_continuous_scale='RdBu')
fig.show()

### üîµ 4.2 Scatter Interactivo: Rendimiento de Marcas

In [19]:
# Gr√°fico de dispersi√≥n de Top 50 Marcas: Puntuaci√≥n Media vs Total de Puntuaciones
top_50_brands = df['Brand'].value_counts().head(50).index
brand_stats = df[df['Brand'].isin(top_50_brands)].groupby('Brand').agg(
    Avg_Rating=('Rating Value', 'mean'),
    Total_Ratings=('Rating Count', 'sum'),
    Perfume_Count=('Perfume', 'count')
).reset_index()

fig = px.scatter(brand_stats, x='Total_Ratings', y='Avg_Rating', size='Perfume_Count', color='Brand',
                 hover_name='Brand', log_x=True, title='Rendimiento de Marca: Puntuaci√≥n vs Popularidad (Top 50)',
                 labels={'Total_Ratings': 'Total Puntuaciones (Log)', 'Avg_Rating': 'Puntuaci√≥n Media', 'Perfume_Count': 'N√∫mero de Perfumes'})
fig.show()

### üï∏Ô∏è 4.3 Perfil Olfativo de Marca (Gr√°fico de Radar)

In [20]:
# Comparar perfiles olfativos de 3 grandes marcas: Chanel, Dior, Tom Ford
target_brands = ['chanel', 'dior', 'tom-ford']
radar_data = []

for brand in target_brands:
    brand_df = df[df['Brand'] == brand]
    # Obtener top 5 acordes para esta marca
    top_accords = brand_df['mainaccord1'].value_counts(normalize=True).head(5)
    for accord, prop in top_accords.items():
        radar_data.append({'Brand': brand, 'Accord': accord, 'Proportion': prop})

radar_df = pd.DataFrame(radar_data)

# Como diferentes marcas tienen diferentes acordes top, un radar est√°ndar es complicado.
# Elijamos un conjunto de acordes comunes para compararlas.
common_accords = ['floral', 'woody', 'citrus', 'amber', 'spicy', 'fruity', 'aromatic', 'musky']

comparison_data = []
for brand in target_brands:
    brand_df = df[df['Brand'] == brand]
    total = len(brand_df)
    for accord in common_accords:
        count = brand_df[brand_df['mainaccord1'].str.contains(accord, case=False, na=False)].shape[0]
        comparison_data.append({'Brand': brand, 'Accord': accord, 'Percentage': (count/total)*100})

comp_df = pd.DataFrame(comparison_data)

fig = px.line_polar(comp_df, r='Percentage', theta='Accord', color='Brand', line_close=True,
                    title='Comparaci√≥n de Perfil Olfativo: Chanel vs Dior vs Tom Ford',
                    markers=True)
fig.update_traces(fill='toself')
fig.show()

## ü§ñ 5. Sistema de Recomendaci√≥n

Vamos a construir un sistema de recomendaci√≥n basado en contenido. La idea es recomendar perfumes que tengan notas y acordes similares a uno dado.

### Pasos:
1.  **Preprocesamiento**: Combinar todas las notas (Salida, Coraz√≥n, Fondo) y los acordes principales en una sola cadena de texto para cada perfume.
2.  **Vectorizaci√≥n**: Usar TF-IDF (Term Frequency-Inverse Document Frequency) para convertir estas cadenas de texto en vectores num√©ricos.
3.  **Similitud**: Calcular la similitud del coseno entre estos vectores para encontrar los perfumes m√°s cercanos.

In [21]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

# 1. Preprocesamiento: Crear una 'sopa' de caracter√≠sticas
# Limpiar nombres de perfumes (quitar guiones y poner may√∫sculas)
df['Perfume'] = df['Perfume'].str.replace('-', ' ').str.title()

# Rellenar nulos con cadenas vac√≠as
df['Top'] = df['Top'].fillna('')
df['Middle'] = df['Middle'].fillna('')
df['Base'] = df['Base'].fillna('')
df['mainaccord1'] = df['mainaccord1'].fillna('')
df['mainaccord2'] = df['mainaccord2'].fillna('')
df['mainaccord3'] = df['mainaccord3'].fillna('')

# Combinar columnas
df['soup'] = df['Top'] + ' ' + df['Middle'] + ' ' + df['Base'] + ' ' + \
             df['mainaccord1'] + ' ' + df['mainaccord2'] + ' ' + df['mainaccord3']

# 2. Vectorizaci√≥n TF-IDF
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df['soup'])

print(f"Dimensiones de la matriz TF-IDF: {tfidf_matrix.shape}")

Dimensiones de la matriz TF-IDF: (24063, 1259)


In [22]:
# 3. Calcular Similitud del Coseno
# Nota: Para datasets muy grandes, esto puede consumir mucha memoria.
# Aqu√≠ calcularemos la similitud bajo demanda o para un subconjunto si fuera necesario.
# Dado que tenemos ~24k perfumes, la matriz de similitud ser√≠a 24k x 24k (~576M elementos), lo cual es manejable en memoria moderna (unos pocos GB).

cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

# Crear un mapeo inverso de √≠ndices y nombres de perfumes
indices = pd.Series(df.index, index=df['Perfume']).drop_duplicates()

In [23]:
def get_recommendations(title, cosine_sim=cosine_sim):
    try:
        # Obtener el √≠ndice del perfume
        idx = indices[title]

        # Si hay duplicados, tomar el primero
        if isinstance(idx, pd.Series):
            idx = idx.iloc[0]

        # Obtener las puntuaciones de similitud de todos los perfumes con ese perfume
        sim_scores = list(enumerate(cosine_sim[idx]))

        # Ordenar los perfumes seg√∫n las puntuaciones de similitud
        sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

        # Obtener las puntuaciones de los 10 perfumes m√°s similares (excluyendo el mismo)
        sim_scores = sim_scores[1:11]

        # Obtener los √≠ndices de los perfumes
        perfume_indices = [i[0] for i in sim_scores]

        # Devolver los 10 perfumes m√°s similares
        return df[['Perfume', 'Brand', 'mainaccord1', 'mainaccord2']].iloc[perfume_indices]
    except KeyError:
        return "Perfume no encontrado en la base de datos."

In [35]:
# Probar el sistema de recomendaci√≥n
# Ejemplo: Buscar recomendaciones para un perfume popular, e.g., 'Acqua di Gio'
# Primero busquemos el nombre exacto en el dataset
search_term = 'Althair'
matches = df[df['Perfume'].str.contains(search_term, case=False, na=False)]['Perfume'].head(5).tolist()
print(f"Posibles coincidencias para '{search_term}': {matches}")

if matches:
    example_perfume = matches[0]
    print(f"\nRecomendaciones para '{example_perfume}':")
    display(get_recommendations(example_perfume))

Posibles coincidencias para 'Althair': ['Althair']

Recomendaciones para 'Althair':


Unnamed: 0,Perfume,Brand,mainaccord1,mainaccord2
24044,Liquid Brun,fragrance-world,sweet,vanilla
22096,Mercedes Benz Select Night,mercedes-benz,woody,warm spicy
21501,Meharees,l-erbolario,woody,warm spicy
23375,Spice Black Vanilla,cremo,vanilla,warm spicy
16035,58 Avenue Montaigne Pour Homme Limited Edition,s-t-dupont,warm spicy,amber
19873,Fetes Persanes,mdci-parfums,warm spicy,woody
15335,Moonlight Gypsy,pinrose,woody,sweet
5017,Apres,ellis-brooklyn,woody,warm spicy
12360,Man Gold,zara,warm spicy,citrus
22119,Selection,jacques-battini,warm spicy,woody


## üí° 6. Insights y Conclusi√≥n

En este an√°lisis, hemos explorado el dataset de Fragantica para comprender el panorama de los perfumes. Hemos analizado puntuaciones, marcas, preferencias de g√©nero y notas olfativas.

### Conclusiones Clave:

1.  **Distribuci√≥n de Puntuaciones**: Las puntuaciones de los perfumes tienden a estar sesgadas hacia el extremo superior (3.5 - 4.5), lo que sugiere que los usuarios generalmente califican los perfumes que les gustan o que la calidad es generalmente alta.
2.  **Dominio de Marca**: Unas pocas marcas grandes dominan el mercado en t√©rminos de n√∫mero de perfumes lanzados. Sin embargo, las marcas nicho a menudo logran puntuaciones medias altas.
3.  **Preferencias de G√©nero**: Existen diferencias claras en las preferencias de notas entre g√©neros. Las notas florales y frutales son m√°s frecuentes en los perfumes de mujer, mientras que las notas amaderadas y arom√°ticas son comunes en los perfumes de hombre.
4.  **Evoluci√≥n en el Tiempo**: El n√∫mero de lanzamientos de perfumes ha aumentado significativamente en los √∫ltimos a√±os.
5.  **Perfiles Olfativos**: Diferentes marcas tienen firmas olfativas distintas, como se ve en la comparaci√≥n del gr√°fico de radar.