<a href="https://colab.research.google.com/github/NJSaenzRios/Scraping_Final/blob/main/Scraping_final.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
import requests
from bs4 import BeautifulSoup
import os
import pandas as pd

# Install beautifulsoup4 if not already installed
!pip install beautifulsoup4

def scrape_mercado_libre(url):
    """
    Extrae información de los productos más vendidos de PlayStation en Mercado Libre.

    Args:
        url: La URL de la página de Mercado Libre a raspar.

    Returns:
        Un string con la información extraída o un mensaje de error.
    """
    try:
        # 1. Obtener el contenido HTML de la página
        response = requests.get(url)
        response.raise_for_status()  # Lanza una excepción para códigos de estado incorrectos (4xx o 5xx)

        # 2. Analizar el HTML con BeautifulSoup
        soup = BeautifulSoup(response.content, "html.parser")

        # 3. Encontrar los elementos que contienen la información de los productos.
        #    Inspecciona la página web con las herramientas de desarrollador de tu navegador
        #    para encontrar los selectores correctos para los títulos y precios.


        productos = soup.find_all("li", class_="ui_search_layout_item")  # Ajusta este selector si es necesario
        for producto in productos:

            # Encuentra el título del producto
            titulo_elemento = producto.find("h2", class_="poly-box")
            titulo = titulo_elemento.text.strip()  if titulo_elemento else "Título no encontrado"


            # Encuentra el precio del producto
            precio_elemento = producto.find("span", class_="poly_card")
            precio = precio_elemento.text.strip() if precio_elemento else "Precio no encontrado"


            # Encuentra la promocion del producto
            promocion_elemento = producto.find("a", class_="poly-component__ads-promotions")
            promocion = promocion_elemento.text.strip() if promocion_elemento else "Sin promocion"


            # Agrega la información a la cadena de resultados
            resultados += f"Título: {titulo}\n"
            resultados += f"Precio: {precio}\n"
            resultados += f"Promocion: {promocion}\n"
            resultados += "-----\n"


        # 4. Guardar el HTML en el directorio especificado
        if not os.path.exists('content/sample_data'):
            os.makedirs('content/sample_data')  # Crea el directorio si no existe
        with open("content/sample_data/mercado_libre_data.html", "w", encoding="utf-8") as f:
            f.write(str(soup))  # Guarda el HTML completo


        return resultados

    except requests.exceptions.RequestException as e:
        return f"Error al obtener la URL: {e}"
    except AttributeError as e:
        return f"Error al analizar el HTML: {e}. Verifica el selector CSS."
    except Exception as e:
        return f"Error inesperado: {e}"



# URL de búsqueda de PlayStation 5 en Mercado Libre Colombia
url_mercado_libre = "https://listado.mercadolibre.com.co/reloj-inteligente#D[A:reloj%20inteligente]"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}

response = requests.get(url_mercado_libre, headers=headers)

if response.status_code == 200:
    print("Acceso super exitoso!")
    # Procesar el contenido aquí
else:
    print(f"Error al acceder a la URL: {response.status_code}")
resultados = scrape_mercado_libre(url_mercado_libre)



Acceso super exitoso!
