In [1]:
from time import sleep
import pandas as pd
import numpy as np

# Librerias visualización:
import matplotlib.pyplot as plt
import seaborn as sns

# Para visualizar el progreso:
import tqdm

In [2]:
df_druni = pd.read_csv("datos_perfumes_druni.csv")

In [3]:
df_druni_clean = df_druni.copy()

### Elimino la primera columna:

In [4]:
df_druni_clean.columns

Index(['Unnamed: 0', 'categoria', 'marca', 'nombre', 'tipo', 'precio_sin_desc',
       'descuento', 'precio_con_desc', 'valoracion', 'num_valoraciones'],
      dtype='object')

In [5]:
df_druni_clean = df_druni_clean.drop(["Unnamed: 0"], axis= 1)

In [6]:
df_druni_clean.head(3)

Unnamed: 0,categoria,marca,nombre,tipo,precio_sin_desc,descuento,precio_con_desc,valoracion,num_valoraciones
0,Perfumes para Hombre,HUGO BOSS,Boss Bottled,Eau de Toilette para hombre,"69,00€",,"29,95€",96%,571.0
1,Perfumes para Hombre,JEAN PAUL GAULTIER,Jean Paul Gaultier Le Beau,Eau de parfum para hombre,"89,50€",,"47,95€",94%,28.0
2,Perfumes para Hombre,ARMANI,Acqua Di Gio,Eau de Toilette para hombre,"85,00€",,"38,95€",96%,440.0


### Añado la columna tienda:

In [7]:
df_druni_clean.insert(0, 'tienda', "druni")

### Paso las columnas a minusculas:

In [8]:
def convertir_a_minusculas(valor):
    if isinstance(valor, str):
        return valor.lower()
    return valor

df_druni_clean = df_druni_clean.map(convertir_a_minusculas)

### Limpio las columnas marca y nombre

In [9]:
df_druni_clean["marca"].unique()

array(['hugo boss', 'jean paul gaultier', 'armani', 'nikos',
       'paco rabanne', 'calvin klein', 'davidoff', 'ralph\xa0lauren',
       'yves saint laurent', 'carolina herrera', 'versace', 'rochas',
       'givenchy', 'aramis', 'dior', 'montblanc', 'loewe', 'jaguar',
       'valentino', 'scalpers', 'moschino', 'prada', 'mugler',
       'alfa romeo', 'armand\xa0basi', 'viktor & rolf', 'tom ford',
       'cacharel', 'dolce & gabbana', 'hermès', 'joop', 'cerruti',
       'azzaro', 'gucci', 'pedro del hierro', 'cartier', 'guerlain',
       'boucheron', 'issey miyake', 'kenzo', 'tommy hilfiger', 'tous',
       'narciso\xa0rodriguez', 'pepe jeans', 'diesel', 'drakkar',
       'bvlgari', 'angel\xa0schlesser', 'fun & basics', 'halloween',
       'trussardi', 'guess', 'lacoste', 'clinique', 'ungaro', 'hackett',
       'abercrombie & fitch', 'head', 'sisley', 'beverly hills polo club',
       'zadig & voltaire', 'coach', 'police', 'mandarina\xa0duck',
       'jimmy choo', 'f1 fragrances', 'hol

In [10]:
df_druni_clean["marca"] = df_druni_clean["marca"].str.replace("\xa0", " ")
df_druni_clean["nombre"] = df_druni_clean["nombre"].str.replace("\xa0", " ")

### Limpio categoria

In [11]:
df_druni["categoria"].unique()

array(['Perfumes para Hombre', 'Perfumes para Mujer'], dtype=object)

In [12]:
df_druni_clean['categoria'] = df_druni_clean['categoria'].str.replace('perfumes para hombre', 'hombre')
df_druni_clean['categoria'] = df_druni_clean['categoria'].str.replace('perfumes para mujer', 'mujer')

### Limpiamos la columna "tipo" agrupando:

In [13]:
df_druni_clean["tipo"].value_counts()

tipo
eau de parfum para mujer                  439
eau de toilette para hombre               273
eau de toilette para mujer                240
eau de parfum para hombre                 134
eau de toilette unisex                     42
                                         ... 
eau de toilette para niños y mamás          1
bruma corporal con destellos plateados      1
crema corporal perfumada para mujer         1
eau de parfum para mujer recargable         1
leche corporal perfumada                    1
Name: count, Length: 100, dtype: int64

In [14]:
def mapear_tipos_y_limpiar(df):

    mapping = {
        'eau de parfum para mujer'                                      : 'eau de parfum',
        'eau de toilette para hombre'                                   : 'eau de toilette',
        'eau de toilette para mujer'                                    : 'eau de toilette',
        'eau de parfum para hombre'                                     : 'eau de parfum',
        'eau de toilette unisex'                                        : 'eau de toilette',
        'desodorante en spray para hombre'                              : 'desodorante',
        'parfum para hombre'                                            : 'parfum',
        'eau de parfum'                                                 : 'eau de parfum',
        'eau de toilette infantil'                                      : 'eau de toilette',
        'eau de parfum unisex'                                          : 'eau de parfum',
        'eau de parfum intense para mujer'                              : 'eau de parfum',
        'loción para después del afeitado'                              : 'loción afeitado',
        'spray corporal'                                                : 'spray corporal',
        'desodorante en stick para hombre'                              : 'desodorante',
        'recarga eau de parfum para mujer'                              : 'eau de parfum',
        'parfum para mujer'                                             : 'parfum',
        'eau de toilette'                                               : 'eau de toilette',
        'eau de toilette intense para hombre'                           : 'eau de toilette',
        'bálsamo para después del afeitado'                             : 'bálsamo afeitado',
        'eua de parfum para mujer'                                      : 'eau de parfum',
        'eau de cologne para mujer'                                     : 'eau de cologne',
        'gel de ducha para mujer'                                       : 'gel de ducha',
        'loción corporal para mujer'                                    : 'loción corporal',
        'leche corporal para mujer'                                     : 'leche corporal',
        'eau de cologne unisex'                                         : 'eau de cologne',
        'recarga eau de toilette para mujer'                            : 'eau de toilette',
        'eau de parfum intense para hombre'                             : 'eau de parfum',
        'desodorante en spray para mujer'                               : 'desodorante',
        'recarga parfum'                                                : 'parfum',
        'eau de cologne infantil'                                       : 'eau de cologne',
        'crema corporal perfumada'                                      : 'crema corporal',
        'eau de parfum infinissime'                                     : 'eau de parfum',
        'gel de ducha perfumado'                                        : 'gel de ducha',
        'eau de parfum extreme para hombre'                             : 'eau de parfum',
        'eau de cologne para hombre'                                    : 'eau de cologne',
        'desodorante perfumado para mujer'                              : 'desodorante',
        'recarga eau de parfum'                                         : 'eau de parfum',
        'recarga parfum para hombre'                                    : 'parfum',
        'spray corporal para mujer'                                     : 'spray corporal',
        'loción para el cuerpo perfumado'                               : 'loción corporal',
        'desodorante en spray'                                          : 'desodorante',
        'eau de toilette para ella'                                     : 'eau de toilette',
        'eau de parfum fraiche'                                         : 'eau de parfum',
        'básicos para el bebé'                                          : 'productos para bebé',
        'essence de parfum para mujer'                                  : 'eau de parfum',
        'desodorante para mujer'                                        : 'desodorante',
        'eau de toilette recargable'                                    : 'eau de toilette',
        'eau de toilette unisex edición limitada'                       : 'eau de toilette',
        'eau de toilette de mujer'                                      : 'eau de toilette',
        'eau de toilette infantil para niñas'                           : 'eau de toilette',
        'eau de soin parfumée infantil'                                 : 'eau de toilette',
        'eau de parfum intenso para mujer'                              : 'eau de parfum',
        'eau de toilette para niños'                                    : 'eau de toilette',
        'gel de baño perfumado'                                         : 'gel de ducha',
        'eau de toilette infantill'                                     : 'eau de toilette',
        'leche corporal perfumada para mujer'                           : 'leche corporal',
        'recarga eau de parfum divine'                                  : 'eau de parfum',
        'eau de toilette roller-pearl'                                  : 'eau de toilette',
        'eua de toilette para mujer'                                    : 'eau de toilette',
        'loción corporal perfumada'                                     : 'loción corporal',
        'eau de parfum fraiche para mujer'                              : 'eau de parfum',
        'locion corporal para mujer'                                    : 'loción corporal',
        'eau de parfum sin alcohol'                                     : 'eau de parfum',
        'eau de toilette para mujer edición limitada'                   : 'eau de toilette',
        'eau de toilette infantil para niños'                           : 'eau de toilette',
        'eau de toillete para mujer'                                    : 'eau de toilette',
        'recarga eau de parfum intense para mujer'                      : 'eau de parfum',
        'eau de toilette  para hombre'                                  : 'eau de toilette',
        'recarga eau de parfum para hombre'                             : 'eau de parfum',
        'tratamiento hidratante para rostro y barba'                    : 'cuidado facial y de barba',
        'eau de parfum hombre'                                          : 'eau de parfum',
        'desodorante en barra perfumado'                                : 'desodorante',
        'desodorante en spray perfumado'                                : 'desodorante',
        'recarga eau de toilette para hombre'                           : 'eau de toilette',
        'eau de toilette intensa para hombre'                           : 'eau de toilette',
        'bálsamo after-shave perfumado'                                 : 'bálsamo para afeitado',
        'eau de toilette perfume para hombre'                           : 'eau de toilette',
        'recarga eau de parfum intense'                                 : 'eau de parfum',
        'le parfum para hombre'                                         : 'parfum para hombre',
        'parfum intense para hombre'                                    : 'parfum para hombre',
        'perfume intenso para hombre'                                   : 'eau de parfum',
        'recarga eau de toilette'                                       : 'eau de toilette',
        'crema para el afeitado'                                        : 'cuidado para afeitado',
        'limpiador facial 2 en 1 limpiador y mascarilla facial'         : 'limpiador facial',
        'desodorante en crema unisex de uso diario'                     : 'desodorante',
        'desodorante en roll on'                                        : 'desodorante',
        'desodorante en crema para pieles sensibles'                    : 'desodorante',
        'bruma corporal con destellos dorados'                          : 'bruma corporal',
        'eau de parfum para mujer'                                      : 'eau de parfum',
        'loción corporal hidratante'                                    : 'loción corporal',
        'crema corporal para mujer'                                     : 'crema corporal',
        'eau de parfum recargable para mujer'                           : 'eau de parfum',
        'loción corporal hidratante y perfumada'                        : 'loción corporal',
        'eau de toilette para niños y mamás'                            : 'eau de toilette',
        'bruma corporal con destellos plateados'                        : 'bruma corporal',
        'crema corporal perfumada para mujer'                           : 'crema corporal',
        'eau de parfum para mujer recargable'                           : 'eau de parfum',
        'leche corporal perfumada'                                      : 'leche corporal',
        "desodorante perfumado"                                         : "desodorante",
        "eua de parfum"                                                 : "eau de parfum",
        "para niñas"                                                    : "",
        "edición limitada"                                              : "",
        "recargable"                                                    : "",
        "\xa0"                                                          : "",
        "le parfum"                                                     : "",
        "y mamás"                                                       : "",
        "toilettel"                                                     : "toilette",
        "essence de parfum"                                             : "parfum",
        "divine"                                                        : "",
        "para mujer"                                                    : "",
        "para hombre"                                                   : "",
        "intense"                                                       : "",
        "niñas"                                                         : "",
        "intense"                                                       : "",
        "deparfum"                                                      : "de parfum",
        "extreme": "",
        "intenso": "",
        "eau de toilette parfum": "eau de toilette",
        "intensa": "",
        "": "",



    }

    for name, replacement in mapping.items():
        df['tipo'] = df['tipo'].str.replace(name, replacement, regex=False)

    df['tipo'] = df['tipo'].str.strip()
    
    return df

In [None]:
df_druni_clean = mapear_tipos_y_limpiar(df_druni_clean)

In [15]:
df_druni_clean["tipo"].value_counts()

tipo
eau de parfum                  648
eau de toilette                607
desodorante                     37
parfum                          31
eau de cologne                  11
spray corporal                  11
loción afeitado                  9
loción corporal                  7
gel de ducha                     7
bálsamo afeitado                 6
leche corporal                   5
crema corporal                   4
bruma corporal                   2
loción coporal hidratante        1
loción corporal y perfumada      1
cuidado facial y de barba        1
limpiador facial                 1
cuidado para afeitado            1
bálsamo para afeitado            1
                                 1
productos para bebé              1
Name: count, dtype: int64

### Cambio la columna valoración al standard de 5 estrellas

In [240]:
def escalar_valoracion(val):
    valoracion = (5/100)*val
    return valoracion

In [241]:
# Limpio la columna valoracion y la paso a float:

df_druni_clean["valoracion"] = df_druni_clean["valoracion"].str.replace("%","").replace("sin rating", np.nan).astype("float")

In [242]:
# Reescalo la valoración:

df_druni_clean["valoracion"] = df_druni_clean["valoracion"].apply(escalar_valoracion)
df_druni_clean["valoracion"] = df_druni_clean["valoracion"].apply(lambda x: round(x,2))

### Limpio las columnas de precios:

In [243]:
df_druni_clean.head(3)

Unnamed: 0,tienda,categoria,marca,nombre,tipo,precio_sin_desc,descuento,precio_con_desc,valoracion,num_valoraciones
0,druni,hombre,hugo boss,boss bottled,eau de toilette,"69,00€",,"29,95€",4.8,571.0
1,druni,hombre,jean paul gaultier,jean paul gaultier le beau,eau de parfum,"89,50€",,"47,95€",4.7,28.0
2,druni,hombre,armani,acqua di gio,eau de toilette,"85,00€",,"38,95€",4.8,440.0


In [244]:
df_druni_clean["precio_sin_desc"] = df_druni_clean["precio_sin_desc"].str.replace("€","").str.replace(",",".").replace("sin precio",np.nan)
# Se hace una comprobación en la página para corroborar que es un error y se corrige:
df_druni_clean["precio_sin_desc"] = df_druni_clean["precio_sin_desc"].str.replace("16.600.00","166")

df_druni_clean["precio_sin_desc"] = df_druni_clean["precio_sin_desc"].astype("float")
df_druni_clean["precio_con_desc"] = df_druni_clean["precio_con_desc"].str.replace("€","").str.replace(",",".").replace("sin precio",np.nan).astype("float")

- Elimino la columna descuento y creo otra a partir del precio con y sin descuento

In [245]:
def porcentaje_descuento(con_desc, sin_desc):
    descuento = 100 - (con_desc/sin_desc)*100
    return descuento

In [246]:
df_druni_clean = df_druni_clean.drop(["descuento"], axis=1)

In [247]:
descuentos = []
for con, sin in zip(df_druni_clean["precio_con_desc"], df_druni_clean["precio_sin_desc"]):
    try:
        descuento = round(porcentaje_descuento(con, sin))
        descuentos.append(descuento)
    except:
        descuentos.append(np.nan)

In [248]:
df_druni_clean.insert(5, "descuento", descuentos)

In [249]:
df_druni_clean.head(3)

Unnamed: 0,tienda,categoria,marca,nombre,tipo,descuento,precio_sin_desc,precio_con_desc,valoracion,num_valoraciones
0,druni,hombre,hugo boss,boss bottled,eau de toilette,57.0,69.0,29.95,4.8,571.0
1,druni,hombre,jean paul gaultier,jean paul gaultier le beau,eau de parfum,46.0,89.5,47.95,4.7,28.0
2,druni,hombre,armani,acqua di gio,eau de toilette,54.0,85.0,38.95,4.8,440.0


### Dropeo NaN's

In [250]:
df_druni_clean = df_druni_clean.dropna(subset= ["precio_sin_desc"])

In [251]:
df_druni_clean.duplicated().sum()

0

### Filtro por los tipos sobre los que vamos a trabajar:

In [252]:
lista_tipos = ['eau de parfum', 'eau de toilette', 'parfum', 'eau de cologne']
df_druni_clean = df_druni_clean[df_druni_clean["tipo"].isin(lista_tipos)].reset_index(drop=True)

# GUARDO A CSV:

In [253]:
df_druni_clean.to_csv("datos_perfumes_druni_filtrados.csv", index=False, sep= ",")