In [None]:
import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager

from time import sleep
from datetime import datetime
from random import uniform

import numpy as np
import pandas as pd

In [None]:
def scraping_exito(categoria: object, lugar: object, n_clicks:int = 20):
    '''
    Esta función recibe una palabra clave y la busca en página exito.com. De allí toma el precio, precio
    por gramo y el nombre y retorna los datos de todos los productos que encuentra en un dataframe.
    ------------------------------------------------------------------------------------------------------
    Args:
    categoria: palabra clave que se buscará en la página (object)
    
    lugar: ciudad en la que buscará los productos disponibles (object)
    
    n_clicks: cantidad de veces que pedirá que se refresque la página para ver más productos, por defecto
    lo hará 20 veces (int)
    '''
    search_url='https://www.exito.com/search?_query={}'
    formulario = 'react-select-2-input'
    confirmar = 'exito-geolocation-3-x-primaryButton.shippingaddress-confirmar'
    items = '//div[contains(@class, "galleryItem")]'
    ver_mas = '//div[contains(@class, "buttonShowMore")]//button'

    xpath_precio = './/div[contains(@class, "alliedDiscountPrice")]'
    xpath_pgramo = './/div[contains(@class, "mainContainerProductPum")]'
    xpath_nombre = './/div[contains(@class, "nameContainer")]'
    xpath_href = './/a[contains(@class, "clearLink")]'

    precio = []
    pgramo = []
    nombre = []

    driver = webdriver.Chrome(ChromeDriverManager().install())

    driver.get(search_url.format(categoria))
    sleep(uniform(8.0, 10.0))

    ubicacion = driver.find_element_by_id(formulario)
    ubicacion.send_keys(lugar, Keys.RETURN)
    boton = driver.find_element_by_class_name(confirmar)
    boton.click()
    sleep(uniform(10.0, 15.0))
    
    try:
        boton = driver.find_element_by_xpath(ver_mas)
    except:
        driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
        boton = driver.find_element_by_xpath(ver_mas)
    for i in range(n_clicks):
        try:
            boton.click()
            sleep(uniform(10.0, 15.0))
            boton = driver.find_element_by_xpath(ver_mas)
        except:
            try:
                driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
                sleep(uniform(10.0, 15.0))
                boton = driver.find_element_by_xpath(ver_mas)
            except:
                break

    anuncios = driver.find_elements_by_xpath(items)
    for anuncio in anuncios:
        try:
            precio.append(anuncio.find_element_by_xpath(xpath_precio).text)
        except:
            precio.append(None)
        
        try:
            pgramo.append(anuncio.find_element_by_xpath(xpath_pgramo).text)
        except:
            pgramo.append(None)
            
        try:
            nombre.append(anuncio.find_element_by_xpath(xpath_nombre).text)
        except:
            nombre.append(None)
        
    driver.quit()
    
    arr_lugar = np.repeat(lugar, len(nombre))
    
    fecha = datetime.today().strftime('%Y-%m-%d')
    arr_fecha = np.repeat(fecha, len(nombre))
    
    dict_df = {'nombre': nombre,
               'precio': precio,
               'precio_por_gramo': pgramo,
               'fecha': arr_fecha,
               'lugar': arr_lugar,
                }
    df = pd.DataFrame(dict_df)
    
    return df


def buscar_terminos_ciudad(categoria:object, 
                           lugares:list = ['Bogotá', 'Medellín', 'Barranquilla', 'Cali', 'Cartagena', 
                                           'Armenia', 'Bello', 'Bucaramanga', 'Chía', 'Cúcuta',
                                           'Fusagasuga', 'Ibague', 'La Ceja', 'Manizales', 'Monteria',
                                           'Neiva', 'Pasto', 'Pereira', 'Popayán', 'Rionegro', 
                                           'Santa Marta', 'Sincelejo', 'Soacha', 'Tunja', 'Valledupar', 
                                           'Villavicencio', 'Zipaquira'], 
                           n_clicks:int = 20):
    '''
    Esta función recibe una palabra clave y unas ciudades, y la busca en página exito.com para esas
    ciudades. De allí toma el precio, precio por gramo y el nombre y retorna los datos de todos los 
    productos que encuentra en un dataframe, y un arreglo con todas las ciudades con las que no pudo 
    completar el proceso.
    ------------------------------------------------------------------------------------------------------
    Args:
    categoria: palabra clave que se buscará en la página (object)
    
    lugares: ciudades en las que buscará los productos disponibles, por defecto lo hará para todas las
    ciudades (object)
    
    n_clicks: cantidad de veces que pedirá que se refresque la página para ver más productos, por defecto
    lo hará 20 veces (int)
    '''
    errores = []

    df_final = pd.DataFrame(columns = ['nombre', 'precio', 'precio_por_gramo', 'fecha', 'lugar'])
    for lugar in lugares:
        try:
            df = scraping_exito(categoria, lugar, n_clicks)
            df_final = df_final.append(df, ignore_index = True)
            sleep(uniform(10.0, 15.0))
        except:
            errores.append(lugar)
            driver = webdriver.Chrome(ChromeDriverManager().install())
            driver.quit()
            
    return df_final, errores

In [None]:
categoria = 'postres'
length = 0

iteration = 0
max_iter = 10

res = buscar_terminos_ciudad(categoria)
df_final = res[0].copy()
df_final.to_csv('scraping_de_{}.csv'.format(categoria), index = False)

while len(res[1]) > length:
    res = buscar_terminos_ciudad(categoria, res[1])
    df_final = df_final.append(res[0], ignore_index = True)
    df_final.to_csv('scraping_de_{}.csv'.format(categoria), index = False)
    
    iteration+=1
    if iteration > max_iter:
        print('Se alcanzó la máxima cantidad de iteraciones')
        break
    
    
print('''
Hemos terminado!

Se ha descargado la informacion de {} productos
'''.format(df_final.shape[0]))