In [1]:
# antes de empezar importamos las librerías que vamos a usar. 
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd

In [163]:
def scrape_coches_ocasion(url):
    
    """
    Extrae información de coches de ocasión de una página web dada.

    Parámetros:
    url (str): La URL de la página web que contiene los datos de coches de ocasión.

    Returns:
    pd.DataFrame: Un DataFrame de pandas con información sobre los coches de ocasión.

    Si no se puede acceder a la página web o se encuentra un código de estado diferente de 200, la función retorna None.
    """
    
    # Realiza una solicitud GET a la URL
    res = requests.get(url)
    
    # Verifica si la solicitud fue exitosa (código de estado 200)
    if res.status_code != 200:
        print("Error al obtener la página")
        return None
    
    # Parsea el contenido HTML de la página web
    sopa = BeautifulSoup(res.content, "html.parser")
    
    # Encuentra todos los elementos <h2> con el atributo "style" igual a "overflow-x:hidden"
    lista_nombre_coches = sopa.find_all("h2", {"style": "overflow-x:hidden"})
    
    # Extrae el texto de los elementos encontrados y almacena en una lista
    nombre_coches = [i.text for i in lista_nombre_coches]

    # Encuentra todos los elementos <span> con la clase "jsx-2689423372 price"
    lista_precios = sopa.find_all("span", {"class": "jsx-2689423372 price"})
    
    # Extrae el texto de los elementos encontrados y almacena en una lista
    precios = [i.text for i in lista_precios]

    # Encuentra todos los elementos <span> con la clase "jsx-2870186023 priceLast"
    lista_precios_original = sopa.find_all("span", {"class": "jsx-2870186023 priceLast"})
    
    # Extrae el texto de los elementos encontrados y almacena en una lista
    precios_original = [i.text for i in lista_precios_original]

    # Encuentra todos los elementos <span> con la clase "jsx-3960002075 detail big"
    lista_km = sopa.find_all("span", {"class": "jsx-3960002075 detail big"})
    
    # Extrae el texto de los elementos encontrados y almacena en una lista
    info = [i.text for i in lista_km]

    # Procesa la información para extraer los valores de kilómetros
    km = []
    for elemento in info:
        kilometros = re.findall(".*km", elemento)
        if len(kilometros) >= 1:
            km.append(kilometros[0])

    # Crea un diccionario con los datos extraídos
    diccionario = {"coche": nombre_coches, "precio_rebajado": precios, "precio_original": precios_original, "km": km}
    
    # Convierte el diccionario en un DataFrame de pandas
    df_coches = pd.DataFrame(diccionario)
    
    # Retorna el DataFrame resultante
    return df_coches

# Ejemplo de uso de la función
url_ejemplo = "https://www.ocasionplus.com/coches-ocasion?type%3DCAR%26sort%3DFECHAOP_DESC%26page%3D1"
df_resultado = scrape_coches_ocasion(url_ejemplo)

# Muestra el DataFrame resultante
df_resultado


Unnamed: 0,coche,precio_rebajado,precio_original,km
0,Toyota Corolla 140H Active Plus Auto (140 CV),25.273€,27.800€,2.839 km
1,Ford Focus 1.0 Ecoboost S&S Titanium Auto (125...,17.354€,19.090€,37.479 km
2,Hyundai Santa Fe 2.0 CRDI Essence 4x2 7 Plazas...,21.363€,23.500€,51.690 km
3,Audi A3 Sportback Sportback 1.6 TDI (116 CV),17.727€,19.500€,66.918 km
4,Hyundai Tucson 1.6 TGDI (177CV) Tecno Sky Safe...,23.954€,26.350€,32.183 km
5,Jeep Renegade 1.0G 80 Aniversario 4x2 (120 CV),18.636€,20.500€,60.279 km
6,Renault Captur Zen Energy TCe (120 CV),14.727€,16.200€,25.316 km
7,Audi A1 Sportback 25 TFSI (95 CV),14.363€,15.800€,65.520 km
8,Citroen C4 Cactus PureTech 110 S&S Shine Pack ...,15.082€,16.590€,35.116 km
9,Kia Sportage GDi Drive 4x2 (132 CV),17.682€,20.250€,82.460 km
