# Estudio sobre la tienda on-line de:

## [AMANTIS](https://www.amantis.net/)

## ¿Por qué este estudio?

Primero, este es un trabajo de análisis de datos y de predicción sobre una tienda on-line. Creo que las personas que veamos esta documentación somos adultas y lo suficientemente maduras para asumir que el sexo es parte de nuestra vida.

Por este motivo, el hacer un estudio sobre una tienda on-line erótica es lo mismo que realizarlo sobre una tienda de ropa, muebles, un supermercado,...

Segundo, yo soy usuario registrado de esta tienda on-line. No solo realizo compras para mí o para mi pareja sino también para otras personas. 
Es por este motivo el que recibo periodicamente correos de ofertas de esta tienda on-line y es aquí en donde entra mi motivación personal.

Los correos que envían a sus usuarios están basados en ofertas que lanzan (estas ofertas están basadas en rebajas) y son muy arbitrarias. Suelo recibir correos de ofertas de determinados productos de los que NO he realizado una compra del mismo o similares. 

Por este motivo, considero interesante poder realizar algún tipo de estudio sobre los productos que tengan en la tienda y poder dar una mejor experiencia al comprador.

## Consideraciones para el proyecto

Este proyecto está estructurado en 4 partes:

- Obtención y tratamiento de datos de la página web, a partir de *Webscrapping* y su manipulación para poder tratarlos a través de las librerías de *pandas* y *numpy*. 
   - A su vez se realizará algún tipo de visionado de los datos obtenidos para ver diversos aspectos a tener en cuenta.
- Generación de nuevas variables, *featuring engineering*, para poder dar una mejor visión de los productos que ofrecen en la tienda.
    - A través de la generación de estas nuevas variables, pretendemos dar un visionario más completo sobre la relación de las diversas variables entre sí y los usuarios.
    - Estas variables pueden ser obtenidas a través de *pandas* y *NLP*.
- Análisis de la información obtenida y generada para ver la relación existente entre usuarios, productos, fechas...
   - Esta información será aplicada con las librerías de *panda*, *matplotlib* y *seaborn*.
- Generación de modelados de los datos obtenidos para establecer gustos de los usuarios y dar sugerencia de otros productos que tengan etiquetas similares.

    


## 1. Obtención y tratamiento de los datos

A partir de la **URL** *'https://www.amantis.net/productos-amantis/'* vamos a realizar un recorrido por las diferentes páginas que dispone y en donde están alojadas las **URLs** de los diferentes productos que disponen.

Una vez que accedemos a la dirección de cada producto, vemos que hay una serie de datos que queremos recoger de la misma:
> Nombre.
>
> Subnombre.
> 
> Precio del producto.
>
> Precio rebajado del producto.
>
> Descripción.
>
> Información sobre el producto (tamaño, duración de baterias, limpieza ...). Esta información la obtendremos dentro de *Descripción* primeramente y en principio no la usaremos.
>
> Comentarios.

Dentro de comentarios disponemos de más información, que consideramos interesante:
> Usuario.
>
> Rating.
>
> Fecha comentario.
>
> Cuerpo del comentario.


A través de la librería para Webscrapping *Beautiful Soap* procederemos a extraer esta información y en determinados casos a tratarla para poder trabajar con ella.

Para ello cargaremos las librerías necesarias.

In [1]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
import numpy as np
from datetime import datetime

In [2]:
url = "https://www.amantis.net/productos-amantis/"              # lista productos
url_principal="https://www.amantis.net/"                        # productos
# pages= np.arange(1,5)
pages= np.arange(1, 25)

'''Listas a generar con la información de los productos'''
lista_URLs = []
name=[]
regular_prices=[]
new_price=[]
info=[]
user_comments=[]
comment=[]
date=[]
ratings=[]

''' Obtenemos las URLs de los productos para entrar luego en sus URLS y extraer la información'''

for page in pages:
    if page == 1:
        print("Leyendo paginas")
        URL = url
        response = requests.get(url)
        soup = bs(response.text, 'lxml')
        productos = soup.find_all(class_='caption')
        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)
        
    else:
        print("Pagina",page)
        URL = url+'page' + str(page)+'/'
        response = requests.get(URL)
        soup = bs(response.text, 'lxml')
        productos = soup.find_all(class_='caption')
        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)
print("Terminando lectura.\nRecabando información.")


'''Extraemos la información de cada producto existente'''

for URL in lista_URLs:
    url_product=URL
    response_product = requests.get(url_product)
    soup_product = bs(response_product.text, 'lxml')
    user_comments_product=[]
    date_comments_product=[]
    comments_product=[]
    rating=[]
    

    titulos=soup_product.find_all("h1",class_="h3")
    for titulo in titulos:
        nombre=titulo.get_text(strip=True)
        name.append(nombre)

    all_price = soup_product.find_all("div", class_="productoPrecio pull-right tdd_precio")                        
    for price_container in all_price:                                                                    
        try:
            special_price = price_container.find("span", class_="productSpecialPrice")
            if special_price:
                item_price = float(special_price.get_text(strip=True).replace(",", ".").split('€')[0])
                new_price.append(item_price)
                regular_price = price_container.find("del").get_text(strip=True)
                item_regular_price = float(regular_price.replace(",", ".").split('€')[0])
                regular_prices.append(item_regular_price)
            else:
                regular_price = price_container.find("span").get_text(strip=True)
                item_regular_price = float(regular_price.replace(",", ".").split('€')[0])
                new_price.append(item_regular_price)
                regular_prices.append(None)
        except:
            new_price.append(None)
            regular_prices.append(None)

    description=soup_product.find("div", class_="description") 
    information=description.get_text().split('\n')[1:]
    documentation = ''.join(information)
    info.append(documentation)


    '''Vamos a obtener los datos de los comentarios de los usuarios'''

    all_user_comments = soup_product.find_all("span", class_="name-user") 
    for user_comment in all_user_comments:
        user_comments_product.append(user_comment.get_text(strip=True))
    user_comments.append(user_comments_product)

    all_dates = soup_product.find_all("span", class_="date")  
    for dates in all_dates:
        dates_text=dates.get_text(strip=True)
        # dates=datetime.strftime(dates, '%dd/%mm/%Y')
        date_comments_product.append(dates_text)
        # date_object = datetime.strptime(date_comments_product)
    date.append(date_comments_product)

    all_comments = soup_product.find_all("p")
    for formats in all_comments[-len(date_comments_product):]:
        comments_product.append(formats.get_text(strip=True))
    comment.append(comments_product)

    hearts = soup_product.find_all('div', class_= 'box-description')
    for heart in hearts:
        heart_rating = heart.find_all('span', class_= 'fas fa-heart')
        num_hearts = len(heart_rating)
        rating.append(num_hearts)
    ratings.append(rating)


for i, regular_price in enumerate(regular_prices):
    if regular_price is None:
        regular_prices[i] = new_price[i]


print('-'*20)
print(len(name))
print('-'*20)
print(len(regular_prices))
print('-'*20)
print(len(new_price))
print('-'*20)
print(len(lista_URLs))
print('-'*20)
print(len(info))
print('-'*20)
print(len(user_comments))
print('-'*20)
print(len(comment))
print('-'*20)
print(len(date))
print('-'*20)
print(len(ratings))

Pagina 1
Pagina 2
Pagina 3
Pagina 4
Pagina 5
Pagina 6
Pagina 7
Pagina 8
Pagina 9
Pagina 10
Pagina 11
Pagina 12
Pagina 13
Pagina 14
Pagina 15
Pagina 16
Pagina 17
Pagina 18
Pagina 19
Pagina 20
Pagina 21
Pagina 22
Pagina 23
Pagina 24
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576


Vamos a pasar los datos a un Dataframe para un primer visionado de qué tipo de datos disponemos

In [32]:
df_primero=pd.DataFrame({"Name": name,"Description": info,"Price":regular_price,"Reduced Price":new_price,
                         "date":date,"User": user_comments,"Ratings": ratings,
                         "Comment": comment})
df_primero

Unnamed: 0,name,subname,regular_prices,new_price,info,user_comments,date,comment
0,TOBOGANE HOT RABBIT,[el superventas de amantis ¡mejorado!],89.99,39.99,[Vuelve nuestro vibrador de doble estimulación...,"[Rossi, Marina, Jennifer, Noa, Karen, Lorena, ...","[martes 22 noviembre, 2022, jueves 07 julio, 2...","[Mi primera compra. Me encantó la textura, los..."
1,BALLENATO,[tu vibrador a distancia con aleta móvil y sum...,99.99,43.99,[De las profundidades más húmedas llega BALLEN...,"[Almudena, Tomabel, andrea, Carlos, maria, Mar...","[sábado 18 febrero, 2023, miércoles 01 febrero...","[Sigo temblando con este juguete, menudas vibr..."
2,MENEO sube y baja,[placer realista con control remoto],99.99,44.99,"[Si te gusta que te metan un buen meneo, hazte...","[Francisco, Maria, Jose Javier, Carlos, Pedro,...","[miércoles 14 diciembre, 2022, miércoles 09 no...",[Quería saber cuantos cm tiene la longitud que...
3,SAZZIA,[masturbador hiperrealista],59.99,29.99,[El diccionario define SACIAR como el acto de ...,[],[],[Parece que tu navegador está bloqueando JavaS...
4,LIZO 2,[Dildo de suave silicona en 3 tamaños],59.99,17.99,"[En un azulejo de la cocina, en una puerta, en...","[Barney, Sara, Aida, Lucas, antonio, Jesús, El...","[martes 10 enero, 2023, sábado 10 diciembre, 2...","[Los tengo los tres, empecé por el pequeño (er..."
...,...,...,...,...,...,...,...,...
571,SAUVAGE CAT- Plug rosa con cola blanca o negra,[No hay datos],34.99,17.99,[Ten una experiencia anal tan original y diver...,"[roberto, Miguel, David, Maria Elena, Aroa, Ju...","[miércoles 30 noviembre, 2022, lunes 17 enero,...",[Suave y sexy colita de gato. El plug en color...
572,Xtreme,[dos huevitos vibradores a compartir... o no (...,44.99,19.99,[Llega un nuevo juguete revolucionario como ha...,"[Ana, ruben, Marta, Joan]","[miércoles 21 abril, 2021, sábado 13 junio, 20...",[Luces y sombras en este juguetito:rnrnComo co...
573,SINUO 360,[Curvas para mejorar tu performance],299.99,119.99,[¿Aún usas tu almohada para mejorar tu perform...,[],[],[Parece que tu navegador está bloqueando JavaS...
574,MAX WAND el masajeador sexual más grande y pod...,[No hay datos],149.99,79.99,[Que te duela algo ya no es excusa para no ten...,"[ruben, RUBEN, Pedro, David, Aitor, carlos, Cr...","[jueves 11 agosto, 2022, viernes 06 mayo, 2022...","[le ha gustado mucho a mi mujer , vibracion su..."


In [34]:
df_primero.describe(include='all')

Unnamed: 0,name,subname,regular_prices,new_price,info,user_comments,date,comment
count,576,576,576.0,576.0,576,576,576,576
unique,551,357,49.0,57.0,538,438,445,547
top,BRILLI,[No hay datos],19.99,9.99,[La orgásmica colección de accesorios para aco...,[],[],[Parece que tu navegador está bloqueando JavaS...
freq,3,187,66.0,52.0,6,110,110,5


In [35]:
df_primero.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 576 entries, 0 to 575
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   name            576 non-null    object
 1   subname         576 non-null    object
 2   regular_prices  576 non-null    object
 3   new_price       576 non-null    object
 4   info            576 non-null    object
 5   user_comments   576 non-null    object
 6   date            576 non-null    object
 7   comment         576 non-null    object
dtypes: object(8)
memory usage: 36.1+ KB


## 2. Tratamiento de los datos de texto con RegEx y Librerías de NLP

Una vez obtenidos los datos en bruto vamos a generar los tags de cada uno de los parámetros a considerar a través de una serie de listas.

Para esto vamos a eliminar las mayúsculas y los acentos en los textos pertinentes con Regex y pasaremos a lemmatizar las palabras para poder trabajar con ellas indistitantemente.

Utilizaremos las siguientes librerías para el tratamiento  de la información.

In [None]:
import pandas as pd
import numpy as np
import os
import re
import spacy
from nltk.stem.snowball import SnowballStemmer

nlp = spacy.load('es_core_news_lg')

Y las siguientes funciones para utilizar con la función *apply*.

In [None]:
def extraer_lemas(texto):
    doc = nlp(texto)
    lemas = [token.lemma_ for token in doc if token.is_alpha]
    return lemas

def remove_accents(text):
    pattern = '[áéíóúÁÉÍÓÚ]'
    replace = {'á': 'a', 'é': 'e', 'í': 'i', 'ó': 'o', 'ú': 'u', 'Á': 'A', 'É': 'E', 'Í': 'I', 'Ó': 'O', 'Ú': 'U'}
    return re.sub(pattern, lambda match: replace[match.group()], text)

def spanish_stemmer(x):
    stemmer = SnowballStemmer('spanish')
    return " ".join([stemmer.stem(word) for word in x.split()])


Generaremos los #tags con las siguientes listas. Estos tags serán nuevas columnas en el dataframe

In [None]:
juguetes=['dildo','plug','vibrador','masturbador']
BDSM=['latex','bdsm','arnes','strap','cera','ligadura','cuerda','cuero','sumision','dominacion','latigo']
muebles=['columpio','sillon','sillones']
lenceria=['body','panties','arnes',]
anal=['anal']
masculino=['hombre','masculino']
femenino=['mujer','femenino']
