In [None]:
import httpx
from bs4 import BeautifulSoup
import pandas as pd
import random
import time
import os

In [None]:

class Scraper:
    USER_AGENTS = [
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36",
        "Mozilla/5.0 (iPhone; CPU iPhone OS 15_5 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.5 Mobile/15E148 Safari/604.1",
        "Mozilla/5.0 (iPad; CPU OS 15_5 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.5 Mobile/15E148 Safari/604.1",
    ]

    def menu(self):
        menu = """
    Escoge el país:
    1. Argentina
    2. Bolivia
    3. Brasil
    4. Chile
    5. Colombia
    6. Costa Rica
    7. Dominicana
    8. Ecuador
    9. Guatemala
    10. Honduras
    11. México
    12. Nicaragua
    13. Panamá
    14. Paraguay
    15. Perú
    16. Salvador
    17. Uruguay
    18. Venezuela
        """
        urls = {
            1: 'https://listado.mercadolibre.com.ar/',
            2: 'https://listado.mercadolibre.com.bo/',
            3: 'https://listado.mercadolibre.com.br/',
            4: 'https://listado.mercadolibre.cl/',
            5: 'https://listado.mercadolibre.com.co/',
            6: 'https://listado.mercadolibre.com.cr/',
            7: 'https://listado.mercadolibre.com.do/',
            8: 'https://listado.mercadolibre.com.ec/',
            9: 'https://listado.mercadolibre.com.gt/',
            10: 'https://listado.mercadolibre.com.hn/',
            11: 'https://listado.mercadolibre.com.mx/',
            12: 'https://listado.mercadolibre.com.ni/',
            13: 'https://listado.mercadolibre.com.pa/',
            14: 'https://listado.mercadolibre.com.py/',
            15: 'https://listado.mercadolibre.com.pe/',
            16: 'https://listado.mercadolibre.com.sv/',
            17: 'https://listado.mercadolibre.com.uy/',
            18: 'https://listado.mercadolibre.com.ve/',
        }

        valid_options = list(urls.keys())
        while True:
            print(menu)
            opcion = int(input("Número de país (Ejemplo: 5): "))
            if opcion in valid_options:
                self.base_url = urls[opcion]
                break
            else:
                print("Escoge un número del 1 al 18")

    def scraping(self):
        product_name = input("\nProducto: ")
        cleaned_name = product_name.replace(" ", "-").lower()
        page_number = 50
        self.data = []

        with httpx.Client(verify=False) as client:
            for i in range(1, 200):  # Máximo 200 páginas
                headers = {
                    "User-Agent": random.choice(self.USER_AGENTS)
                }
                url = f"{self.base_url}{cleaned_name}_Desde_{page_number + 1}_NoIndex_True"
                print(f"\nScrapeando página número {i}. {url}")

                try:
                    response = client.get(url, headers=headers)
                    soup = BeautifulSoup(response.text, 'html.parser')
                except httpx.RequestError as e:
                    print(f"Error al realizar la solicitud: {e}")
                    break

                content = soup.find_all('li', class_='ui-search-layout__item')
                if not content:
                    print("No hay más contenido para scrapear.")
                    break

                for post in content:
                    try:
                        title = post.find('h2').text
                        price = post.find('span', class_='andes-money-amount__fraction').text
                        post_link = post.find("a")["href"]
                        img_link = post.find("img").get("data-src", post.find("img").get("src"))
                        self.data.append({"title": title, "price": price, "post link": post_link, "image link": img_link})
                    except AttributeError:
                        continue

                page_number += 50

                # Pausa aleatoria entre solicitudes
                time.sleep(random.uniform(3.0, 10.0))

    def export_to_csv(self):
        os.makedirs("data", exist_ok=True)
        df = pd.DataFrame(self.data)
        output_path = "data/mercadolibre_scraped_data.csv"
        df.to_csv(output_path, sep=";", index=False)
        print(f"\nDatos exportados a {output_path}")


if __name__ == "__main__":
    scraper = Scraper()
    scraper.menu()
    scraper.scraping()
    scraper.export_to_csv()



    Escoge el país:
    1. Argentina
    2. Bolivia
    3. Brasil
    4. Chile
    5. Colombia
    6. Costa Rica
    7. Dominicana
    8. Ecuador
    9. Guatemala
    10. Honduras
    11. México
    12. Nicaragua
    13. Panamá
    14. Paraguay
    15. Perú
    16. Salvador
    17. Uruguay
    18. Venezuela
        

Scrapeando página número 1. https://listado.mercadolibre.com.co/mac-mini_Desde_51_NoIndex_True

Scrapeando página número 2. https://listado.mercadolibre.com.co/mac-mini_Desde_101_NoIndex_True

Scrapeando página número 3. https://listado.mercadolibre.com.co/mac-mini_Desde_151_NoIndex_True
No hay más contenido para scrapear.

Datos exportados a data/mercadolibre_scraped_data.csv


In [16]:
import pandas as pd

# Ruta del archivo CSV que contiene los datos exportados
file_path = "data/mercadolibre_scraped_data.csv"

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv(file_path, sep=";")

# Ver las primeras filas del DataFrame para asegurarte de que se cargó correctamente
print(df.head(6))


                                               title       price  \
0  Mini Pc Mac | Computador Mac De Mesa Con Intel...   6.199.900   
1  Apple Mac Mini M4 24gbram 512gbssd Entrega Inm...   6.500.000   
2  Mini Pc I5 Diseño Gráfico Nvidia Cargador Inal...  10.649.900   
3    Apple Mac Mini M2 Pro 512 Gb Ssd 16 Gb Ram 2023   6.299.000   
4  Mini Pc Mac | Computador Mac De Mesa Con Intel...   4.499.900   
5  Mac Mini Intel Core I3 de cuatro núcleos, 3,6 ...   1.800.000   

                                           post link  \
0  https://articulo.mercadolibre.com.co/MCO-13733...   
1  https://articulo.mercadolibre.com.co/MCO-27480...   
2  https://articulo.mercadolibre.com.co/MCO-90193...   
3  https://articulo.mercadolibre.com.co/MCO-24469...   
4  https://articulo.mercadolibre.com.co/MCO-13733...   
5  https://www.mercadolibre.com.co/mac-mini-intel...   

                                          image link  
0  https://http2.mlstatic.com/D_Q_NP_2X_963056-MC...  
1  https://http2.mls

In [17]:
# Acceder al primer link de la columna 'post link'
first_link = df['post link'].iloc[0]

# Mostrar el primer link
print(first_link)

https://articulo.mercadolibre.com.co/MCO-1373347143-mini-pc-mac-computador-mac-de-mesa-con-intel-y-amd-radeon-_JM#polycard_client=search-nordic&position=1&search_layout=stack&type=item&tracking_id=d5a6aa1e-6c36-48a0-a6e4-c86a2ada4b30


In [16]:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup

# Configuración de WebDriver
options = Options()
options.add_argument("--start-maximized")  # Maximiza la ventana
service = Service(ChromeDriverManager().install())  # Usar WebDriverManager

driver = webdriver.Chrome(service=service, options=options)

# Acceder a la página del producto
driver.get('https://www.mercadolibre.com.co/motorola-edge-30-pro-dual-sim-256-gb-verde-cosmos-12-gb-ram/p/MCO19469762#polycard_client=search-nordic&searchVariation=MCO19469762&position=14&search_layout=stack&type=product&tracking_id=c6a48f11-3c50-4a5b-bc6f-f03681978f58&wid=&sid=search')

# Esperar hasta que la página cargue completamente
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, 'body')))

# Intentar cerrar el banner de cookies si está presente
try:
    cookie_banner = WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'div.cookie-consent-banner-opt-out__container button')))
    cookie_banner.click()  # Cierra el banner de cookies
    print("Banner de cookies cerrado.")
except TimeoutException:
    print("No se encontró el banner de cookies.")
	
# Espera explícita para asegurarse de que el botón "Mostrar todas las opiniones" esté clickeable
try:
    see_more_button = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.CLASS_NAME, 'show-more-click')))
    
    # Desplazar hacia el botón para asegurarse de que esté en la vista
    driver.execute_script("arguments[0].scrollIntoView(true);", see_more_button)

    # Hacer clic en el botón
    see_more_button.click()
    print("Clic en 'Mostrar todas las opiniones' realizado.")
except Exception as e:
    print("No se encontró el botón de 'Mostrar todas las opiniones', extraeremos los comentarios visibles directamente.")

# Extraer el HTML de la página después de hacer clic (o si no se hace clic)
soup = BeautifulSoup(driver.page_source, 'html.parser')

# Crear listas vacías para almacenar los datos de los comentarios
dates = []
ratings = []
comments = []

# Buscar los comentarios visibles directamente en la página
reviews = soup.find_all('article', class_='ui-review-capability-comments__comment')  # Cambié el selector

# Si no se encuentran comentarios, crear un DataFrame vacío
if not reviews:
    print("No se encontraron comentarios en la página.")
    df = pd.DataFrame(columns=['Fecha', 'Calificación', 'Comentario'])
else:
    # Si hay comentarios, extraerlos
    for review in reviews:
        # Extraer la fecha
        try:
            date = review.find('span', class_='ui-review-capability-comments__comment__date').text.strip()
            dates.append(date)
        except AttributeError:
            dates.append('Fecha no disponible')
        
        # Extraer la calificación (contando las estrellas)
        try:
            rating_text = review.find('p', class_='andes-visually-hidden').text.strip()  # Obtener el texto que contiene la calificación
            # Extraer el número de calificación del texto (por ejemplo, 'Calificación 1 de 5')
            rating = rating_text.split(' ')[1]  # Tomamos el número después de "Calificación"
            ratings.append(rating)
        except AttributeError:
            ratings.append('Calificación no disponible')
        
        # Extraer el comentario
        try:
            comment = review.find('p', class_='ui-review-capability-comments__comment__content').text.strip()
            comments.append(comment)
        except AttributeError:
            comments.append('Comentario no disponible')

    # Crear el DataFrame con los datos extraídos
    df = pd.DataFrame({
        'Fecha': dates,
        'Calificación': ratings,
        'Comentario': comments
    })

# Mostrar el DataFrame
print(df)

# Cerrar el navegador cuando ya termine
driver.quit()  # Descomenta esto cuando ya termines


Banner de cookies cerrado.
No se encontró el botón de 'Mostrar todas las opiniones', extraeremos los comentarios visibles directamente.
          Fecha Calificación  \
0  28 jul. 2023            5   
1  13 ago. 2024            5   

                                          Comentario  
0  Primera vez con la marca y hasta el momento mu...  
1  Lo estoy usando hace varios meses y viene dese...  


In [21]:
import pandas as pd
from textblob import TextBlob

# Supongamos que 'df' es el DataFrame original (que contiene los datos obtenidos del scraping)

# Hacemos una copia del DataFrame original para no modificarlo
df_copy = df.copy()

# Función para calcular la calificación basada en el sentimiento
def calculate_sentiment_score(comment):
    # Crear un objeto TextBlob para el análisis de sentimientos
    blob = TextBlob(comment)
    
    # Obtener la polaridad del sentimiento (de -1 a 1)
    polarity = blob.sentiment.polarity
    
    # Mapeamos la polaridad a una escala de 0 a 5
    # Polaridad de -1 se mapea a 0.0, y polaridad de 1 se mapea a 5.0
    sentiment_score = (polarity + 1) * 2.5  # Normalizamos entre 0.0 y 5.0
    
    return round(sentiment_score, 1)

# Aplicamos la función a cada comentario en la copia del DataFrame
df_copy['Calificación'] = df_copy['Comentario'].apply(calculate_sentiment_score)

# Mostramos el nuevo DataFrame con las calificaciones basadas en el análisis de sentimientos
print(df)

# Si deseas ver el nuevo DataFrame con calificación y fecha
# Aquí se muestra el comentario, la fecha y la nueva calificación
df_final = df_copy[['Comentario', 'Calificación']]
print(df_final)


          Fecha Calificación  \
0  28 jul. 2023            5   
1  13 ago. 2024            5   

                                          Comentario  
0  Primera vez con la marca y hasta el momento mu...  
1  Lo estoy usando hace varios meses y viene dese...  
                                          Comentario  Calificación
0  Primera vez con la marca y hasta el momento mu...           2.5
1  Lo estoy usando hace varios meses y viene dese...           2.6


In [27]:
import google.generativeai as genai

# Configurar la API de Gemini
def configure_gemini(api_key):
    genai.configure(api_key=api_key)

# Función para solicitar calificaciones a Gemini
def get_ratings_from_gemini(df, api_key, product_name):
    """
    Función para obtener calificaciones de Gemini basadas en comentarios del DataFrame.

    Args:
        df (pd.DataFrame): DataFrame que contiene las columnas 'Fecha' y 'Comentario'.
        api_key (str): Clave de la API de Gemini.
        product_name (str): Nombre del producto.

    Returns:
        pd.DataFrame: DataFrame con las calificaciones generadas por Gemini.
    """
    # Configurar la API de Gemini
    configure_gemini(api_key)
    model = genai.GenerativeModel("gemini-pro")
    
    # Crear una lista para almacenar las calificaciones generadas
    gemini_ratings = []

    # Iterar sobre los comentarios del DataFrame
    for _, row in df.iterrows():
        comment = row['Comentario']

        # Crear el prompt para Gemini
        prompt = f"""
        Producto: {product_name}

        Opinión del usuario:
        "{comment}"

        Instrucciones:
        - Evalúa esta opinión y asigna una calificación en una escala de 0.0 a 5.0, donde 0.0 es muy negativo y 5.0 es muy positivo.
        - Solo responde con la calificación numérica, sin explicaciones adicionales.
        """

        # Hacer la solicitud a Gemini
        try:
            response = model.generate_content(prompt)
            # Extraer la calificación generada
            rating = float(response.text.strip())
            gemini_ratings.append(rating)
        except Exception as e:
            print(f"Error al generar calificación para el comentario: {comment}\n{e}")
            gemini_ratings.append(None)  # Añadir valor nulo en caso de error

    # Agregar las calificaciones generadas al DataFrame
    df['Calificación Gemini'] = gemini_ratings

    return df


In [None]:
df_final = (get_ratings_from_gemini(df_final,"AIzaSyBeNAcVnDURa9vDmRSNeWE70IX7H0OeMqs","Motorola Edge 30 Pro Dual SIM 256 GB verde cosmos 12 GB RAM"))

In [30]:
print(df_final)

                                          Comentario  Calificación  \
0  Primera vez con la marca y hasta el momento mu...           2.5   
1  Lo estoy usando hace varios meses y viene dese...           2.6   

   Calificación Gemini  
0                  4.0  
1                  4.5  
