In [5]:
import pandas as pd
import pandasql as pdsql
import time 
from datetime import datetime
import numpy as np
import re
from pandasql import sqldf
from datetime import date
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options


#Pongan su ruta jeje
path = '/Users/Fersu/Documents/Tercer semestre/ManejoDatos/proyectofinal/chromedriver' 



In [7]:
#Funciones auxiliares

def verificar(pro_info):
    '''
    Función auxiliar para verificar que los datos se encuentren en el orden deseado
    --------------------------------------------
    Parameters:
        pro_info: list
            Información del producto
    '''
    #Tratamos de convertir el dato del precio a flotante. Si hay error, es porque el producto tiene un título extra,
    #por lo que hay que cambiar los indices en la función principal
    precio = pro_info[1]
    precio = re.sub("[MXN$,]","",precio).split()
    try:
        temp = float(precio[0])
    except ValueError:
        return False
    
    return True



def formato(l1,l2,l3,sitio,producto):
    '''
    Función auxiliar para ordenar los datos obtenidos y generar un DataFrame
    --------------------------------------------
    Parameters:
        l1: list
            Lista con nombres de los productos
        l2: list
            Lista con precios sin descuento
        l3: list
            Lista con precios sin descuento
        sitio: str
            Nombre de la página web donde se buscó la información
        producto: str
            Tipo de producto que se consultó
    --------------------------------------------
    Returns:
        df: pandas.DataFrame()
            Dataframe con el formato deseado
    '''
    
    info = list(zip(l1,l2,l3))
    
    #Creamos dataframe y añadimos columnas importantes
    df = pd.DataFrame(info, columns=['Descripción', 'Precio Actual', 'Precio Sin Descuento'])
    df.insert(0, "Producto", producto, allow_duplicates=False)
    df.insert(0, "Sitio", sitio, allow_duplicates=False)
    df.insert(5, "Fecha De Consulta", datetime.today().strftime('%Y-%m-%d'), allow_duplicates=False)


 
    return df
    

In [8]:

def hym(producto):
    '''
    Función para obtener datos en sitio HyM
    --------------------------------------------------
    Parameters: 
        producto: str
            Tipo de producto que buscará en el sitio
    --------------------------------------------------
    Returns:
        df: pandas.DataFrame()
            DataFrame con la información más importante de los productos
    '''
    #Abrimos la página
    driver=webdriver.Chrome(path)
    url1 = 'https://www2.hm.com/es_mx/search-results.html?q='+producto
    driver.get(url1)
    time.sleep(12) 
    
    #Identificamos la clase de la información de los productos
    opciones = driver.find_elements_by_class_name("item-details") 
    
    #Generamos 3 listas vacías donde se añadirá la información correspondiente
    nombres = []
    precio_actual = []
    precio_sin_desc = []
    
    for i in opciones:
        pro_info = i.text.split('\n')
        
        #Si el orden es correcto, empezamos desde el primer índice a llenar los datos. Si no, desde el segundo
        if verificar(pro_info):
            nombres.append(pro_info[0])
            
            precios = pro_info[1]
            precios = re.sub("[$,]","",precios).split()
            try:
                precio_actual.append(float(precios[0]))
                precio_sin_desc.append(float(precios[1]))
            except IndexError:
                precio_sin_desc.append('NA')
                
        else:
            nombres.append(pro_info[1])   #Se agrega el nombre
    
            precios = pro_info[2]
            precios = re.sub("[$,]","",precios).split()  #Se limpia los datos de los precios
            
            #Usamos excepciones para guardar los precios 
            try:
                precio_actual.append(float(precios[0]))
                precio_sin_desc.append(float(precios[1]))
            except IndexError:
                #De no tener descuento, se llena el valor con un NA
                precio_sin_desc.append('NA')
    
    #Llamamos a la función auxiliar para generar dataframe
    df = formato(nombres, precio_actual, precio_sin_desc, 'HyM', producto)


            
    return df

hym('Gorro')

WebDriverException: Message: unknown error: DevToolsActivePort file doesn't exist


In [11]:


def bka(producto):
    '''
    Función para obtener datos en sitio Bershka
    --------------------------------------------------
    Parameters: 
        producto: str
            Tipo de producto que buscará en el sitio
    --------------------------------------------------
    Returns:
        df: pandas.DataFrame()
            DataFrame con la información más importante de los productos
    '''
    #Abrimos la página
    driver=webdriver.Chrome(path)
    url1 = 'https://www.bershka.com/mx/q/'+producto
    driver.get(url1)
    time.sleep(12) 
    
    #Identificamos clase donde se almacena la información de los productos
    opciones = driver.find_elements_by_class_name("product-content") 
    
    #Creamos listas vacías para agregar los datos
    nombres = []
    precio_actual = []
    precio_sin_desc = []
    
    for i in opciones:
        pro_info = i.text.split('\n')
        
        #Verificamos el lugar de los datos para usar índices correctos
        if verificar(pro_info):
            nombres.append(pro_info[0])  #Guardamos el nombre
            
            #Limpiamos la información del precio y la añadimos
            p_a = pro_info[1]
            p_a = re.sub("[MXN,]","",p_a)
            precio_actual.append(float(p_a))
            #Usamos excepciones para evitar errores en caso de no existir un descuento
            try:
                p_d = pro_info[2]
                p_d = re.sub("[MXN,]","",p_d)
                precio_sin_desc.append(float(p_d))
            except IndexError:
                #Si no hay descuento, se llena con un NA
                precio_sin_desc.append('NA')
            
        else:
            nombres.append(pro_info[1])  #Guardamos el nombre
            
            #Limpiamos la información del precio y la añadimos
            p_a = pro_info[2]
            p_a = re.sub("[MXN,]","",p_a)
            precio_actual.append(float(p_a))
            #Usamos excepciones para evitar errores en caso de no existir un descuento
            try:
                p_d = pro_info[3]
                p_d = re.sub("[MXN,]","",p_d)
                precio_sin_desc.append(float(p_d))
            except IndexError:
                #Si no hay descuento, se llena con un NA
                precio_sin_desc.append('NA')
                
                
    #Llamamos a la función auxiliar para generar dataframe
    df = formato(nombres, precio_actual, precio_sin_desc, 'Bershka', producto)


            
    return df

bka('sudadera')

WebDriverException: Message: unknown error: DevToolsActivePort file doesn't exist


In [None]:


def shn(producto):
    '''
    Función para obtener datos en sitio Forever 21
    --------------------------------------------------
    Parameters: 
        producto: str
            Tipo de producto que buscará en el sitio
    --------------------------------------------------
    Returns:
        df: pandas.DataFrame()
            DataFrame con la información más importante de los productos        
    '''
    driver=webdriver.Chrome(path)
    url1 = 'https://www.shein.com.mx/pdsearch/'+producto+'/?ici=s1`EditSearch`'+producto+'`_fb`d0`PageHome&scici=Search~~EditSearch~~1~~'+producto+'~~~~0&src_identifier=st%3D2%60sc%3Dcamisa%60sr%3D0%60ps%3D1&src_module=search&src_tab_page_id=page_home1671052514149'
    driver.get(url1)
    time.sleep(12) 
    
    opciones = driver.find_elements_by_class_name("S-product-item__info") 
    
    nombres = []
    precio_actual = []
    precio_sin_desc = []
    
    for i in opciones:
        pro_info = i.text.split('\n')
        
        #Verificamos que el orden de los datos sea correcto
        if verificar(pro_info):
            nombres.append(pro_info[0])

            p_a = pro_info[1]
            p_a = re.sub("[$MXN,]","",p_a)
            precio_actual.append(float(p_a))

            try:
                p_d = pro_info[2]
                p_d = re.sub("[$MXN,]","",p_d)
                precio_sin_desc.append(float(p_d))
            except:
                precio_sin_desc.append('NA')
        
        else:
            nombres.append(pro_info[1])

            p_a = pro_info[2]
            p_a = re.sub("[$MXN,]","",p_a)
            precio_actual.append(float(p_a))

            try:
                p_d = pro_info[3]
                p_d = re.sub("[$MXN,]","",p_d)
                precio_sin_desc.append(float(p_d))
            except IndexError:
                precio_sin_desc.append('NA')
        
    #Llamamos a la función auxiliar para generar dataframe  
    df = formato(nombres, precio_actual, precio_sin_desc, 'Shein', producto)

    
    
    
    return df

shn('Camisa')

In [None]:

def main_excel(lis_productos):
    '''
    Función que genera un archivo de excel con la información de una lista de productos
    en los sitios: HyM, Bershka y Shein
    ---------------------------------------------------
    Parameters:
        lis_productos: list
            Lista con productos que se desea analizar
    '''
    #Creamos 3 dataframes donde se guardarán la información de cada búsqueda
    df1 = pd.DataFrame()
    for i in lis_productos: 
        t = hym(i)
        df1 = pd.concat([df1, t])
    
    df2 = pd.DataFrame()
    for i in lis_productos: 
        t = bka(i)
        df2 = pd.concat([df2, t])
    
    df3 = pd.DataFrame()
    for i in lis_productos: 
        t = shn(i)
        df3 = pd.concat([df3, t])
    
    #Al finalizar los ciclos, unimos todos los dataframes y ajustamos índices
    df_final = pd.DataFrame()
    df_final = pd.concat([df1,df2,df3])
    df_final.index = range(df_final.shape[0])

    #Guardamos un archivo de excel con la información obtenida
    df_final.to_excel('Proyecto.xlsx')
    






In [None]:
#Sección para buscar productos. Tarda un poco en terminar de ejecutarse
#Al finalizar, guarda un archivo de excel en la misma carpeta de este programa

busqueda = ['Camisa', 'Falda', 'Sueter']
main_excel(busqueda)


In [6]:
#Leemos el excel para realizar las consultas
archivo = '/Users/Fersu/Documents/Tercer semestre/ManejoDatos/proyectofinal/Proyecto.xlsx'
DF = pd.read_excel(archivo)
DF


Unnamed: 0.1,Unnamed: 0,Sitio,Producto,Descripción,Precio_Actual,Precio_Sin_Descuento,Fecha De Consulta
0,0,HyM,Camisa,Sobrecamisa recubierta,599,,2022-12-14
1,1,HyM,Camisa,Sobrecamisa Relaxed Fit,599,,2022-12-14
2,2,HyM,Camisa,Sobrecamisa Regular Fit,329,429.0,2022-12-14
3,3,HyM,Camisa,Camisa en sarga de algodón,249,429.0,2022-12-14
4,4,HyM,Camisa,Sobrecamisa acolchada,599,,2022-12-14
...,...,...,...,...,...,...,...
523,523,Shein,Sueter,Jersey con patrón de dibujo de hombros caídos,470,,2022-12-14
524,524,Shein,Sueter,SHEIN Jersey de manga farol de cuello redondo,430,,2022-12-14
525,525,Shein,Sueter,DAZY Jersey unicolor tejido de canalé,298,8.0,2022-12-14
526,526,Shein,Sueter,Jersey con patrón de Isla Fair de manga raglán...,525,,2022-12-14


In [60]:
#Consultas

DF.head()

#--- 1. Número de faldas
num_faldas = pdsql.sqldf("SELECT count(Producto), Sitio FROM DF WHERE Producto = 'Falda' GROUP BY Sitio, Producto")
num_faldas

#--- 2. Número de suéteres 

num_sueteres = pdsql.sqldf("SELECT count(Producto), Sitio FROM DF WHERE Producto = 'Sueter' GROUP BY Sitio, Producto")
num_sueteres

# ---3. Número de Camisas
num_camisas = pdsql.sqldf("SELECT count(Producto), Sitio FROM DF WHERE Producto = 'Camisa' GROUP BY Sitio, Producto")
num_camisas

Unnamed: 0,count(Producto),Sitio
0,64,Bershka
1,72,HyM


In [None]:

# ---4. Precio más bajo para suéteres de Shein, Bershka y HyM
min_p_shein = pdsql.sqldf("SELECT MIN(Precio_Actual), Sitio FROM DF WHERE Producto = 'Sueter' Group by Sitio")
min_p_shein

# ---5. Precio más bajo para Camisas de Shein, Bershka y HyM
min_p = pdsql.sqldf("SELECT MIN(Precio_Actual), Sitio FROM DF WHERE Producto = 'Camisa' Group by Sitio")
min_p

# ---6. Precio más bajo para faldas de Shein, Bershka y HyM
min_p_shein = pdsql.sqldf("SELECT MIN(Precio_Actual), Sitio FROM DF WHERE Producto = 'Falda' Group by Sitio")
min_p_shein

#---7. ¿Qué cantidad de productos tienen descuentos?
consulta ="SELECT count(Precio_Sin_Descuento), Sitio FROM DF WHERE NOT Precio_Sin_Descuento = 'NA' Group by Sitio"
descuentos = pdsql.sqldf(consulta)
descuentos

#---8. Precio promedio de productos por Sitio
prom = pdsql.sqldf("SELECT avg(Precio_Actual), Sitio FROM DF GROUP BY Sitio")
prom

#---9. Precio promedio de productos sin descuentos por marca
prom_sin = pdsql.sqldf("SELECT avg(Precio_Sin_Descuento), Sitio FROM DF WHERE  NOT Precio_Sin_Descuento = 'NA' GROUP BY Sitio")
prom_sin

#---10. Precio más alto de productos por marca
max_p = pdsql.sqldf("SELECT max(Precio_Actual), Sitio FROM DF GROUP BY Sitio")
max_p


