Enunciado: Escribe una función llamada scrape_coches_ocasion que acepta una URL como argumento y devuelve un DataFrame de pandas con información sobre coches de ocasión encontrados en la página web especificada. La función realizará las siguientes tareas:

1. Realizará una solicitud HTTP GET a la siguiente url.

2. Comprobará el código de estado de la respuesta. Si el código no es 200 (OK), imprimirá un mensaje de error y retornará None.

3. Extraerá los nombres de los coches, los precios rebajados, los precios originales y la información de los kilómetros recorridos de la página.

4. Organizará los datos extraídos en un DataFrame de pandas con las siguientes columnas:

"coche": Nombres de los coches.

"precio_rebajado": Precios rebajados.

"precio_original": Precios originales.

"km": Kilómetros recorridos.

5. Retornará el DataFrame resultante.

6. Una vez extraida toda la información deberéis almacenar toda la información en un DataFrame. El DataFrame debe tener un aspecto parecido a este:
(mirar la tabla en la pag web del book)

In [27]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re

url = "https://www.ocasionplus.com/coches-ocasion?v2&orderBy=morePopular"
respuesta_coches = requests.get(url)
if respuesta_coches.status_code != 200:
    print(f"Error en la llamada. Motivo {respuesta_coches.reason}")
        
else: 
    # La llamada ha sido correcta. Me dispongo a extraer los siguientes datos: nombres de los coches, precios rebajados, precios originales y kilómetros recorridos

    lista_nombres_coches = []

    sopa_coches = BeautifulSoup(respuesta_coches.content, "html.parser")
    # print(sopa_coches.prettify())
    lista_nombres = sopa_coches.find_all("span", {"class": "cardVehicle_spot__e6YZx"})
    for coche in lista_nombres:
        lista_nombres_coches.append(coche.get_text())

    # Vamos a usar regex para eliminar unos precios que se nos han colado en nuestra lista de nombres
    patron1 = r"€"
    for cadena in lista_nombres_coches:
        if re.findall(patron1, cadena):
            # Hemos encontrado una cadena que corresponde a un precio. La sacamos de la lista.
            lista_nombres_coches.remove(cadena)
        else:
            pass
    
    print(f"Nuestra lista de nombres de coches queda así:\n {lista_nombres_coches}")
    print(f"len(lista_nombres_coches) = {len(lista_nombres_coches)}")


Nuestra lista de nombres de coches queda así:
 ['Seat León', 'Peugeot 207', 'Alfa Romeo Stelvio', 'Opel Insignia', 'Volkswagen Touran', 'Suzuki Swift', 'Peugeot Traveller', 'Hyundai i10', 'BMW Serie 2', 'Renault Mégane', 'Volkswagen Polo', 'Peugeot 208', 'Peugeot Rifter', 'Toyota Prius', 'Nissan X-TRAIL', 'Nissan JUKE', 'Audi A1', 'Seat Ibiza', 'Citroën Jumpy', 'Lexus CT']
len(lista_nombres_coches) = 20


In [28]:
# Precios rebajados

lista_precios_rebajados_bruto = sopa_coches.find_all("span", {"class":"cardVehicle_finance__SG6JV"})

lista_precios_rebajados_limpios = []

for elemento in lista_precios_rebajados_bruto:
    cadena = elemento.getText()
    patron1 = r"€"

    # Si la cadena tiene un patron de precio, la metemos en nuestra lista_precios_rebajados_limpios. Si no, la ignoramos.
    if re.findall(patron1, cadena): 
        lista_precios_rebajados_limpios.append(cadena)

    else: 
        pass

print(f"Primera extracción de datos. Los Precios rebajados son:\n\n{lista_precios_rebajados_limpios}")

# Hemos conseguidos los precios rebajados en nuestra lista. Pero podemos limpiarlos mejor:
# Podemos quitar el euro y pasar a float

for indice, cadena in enumerate (lista_precios_rebajados_limpios):
    # print(indice, cadena)
    lista_precios_rebajados_limpios[indice] = int(cadena.replace("€","").replace(".", ""))

    # float(cadena.replace("€", ""))
    # cadena = float(cadena.replace("€", ""))

print(f"Tras limpiar los datos, la lista queda así:\n\n {lista_precios_rebajados_limpios}")
print(f"len(lista_nombres_coches) = {len(lista_precios_rebajados_limpios)}")



Primera extracción de datos. Los Precios rebajados son:

['18.172€', '4.900€', '31.124€', '6.900€', '21.363€', '22.636€', '24.090€', '12.909€', '37.091€', '13.627€', '12.600€', '14.990€', '18.909€', '11.800€', '19.490€', '16.545€', '14.150€', '8.500€', '27.181€', '18.800€']
Tras limpiar los datos, la lista queda así:

 [18172, 4900, 31124, 6900, 21363, 22636, 24090, 12909, 37091, 13627, 12600, 14990, 18909, 11800, 19490, 16545, 14150, 8500, 27181, 18800]
len(lista_nombres_coches) = 20


In [None]:
# Lo hicimos en list comprehension y nos funcionó

# lista_precios_rebajados_limpios2 = [float(cadena.replace("€", "")) for cadena in lista_precios_rebajados_limpios]
# print(f"Segundo for: {lista_precios_rebajados_limpios2}")

In [29]:
# cardVehicle_spot__e6YZx

# Precios original

lista_precios_originales_bruto = sopa_coches.find_all("span", {"class":"cardVehicle_spot__e6YZx"})

lista_precios_originales_limpios = []

for elemento in lista_precios_originales_bruto:
    cadena = elemento.getText()
    patron1 = r"€"
    # Si la cadena tiene un patron de precio, la metemos en nuestra lista_precios_originales_limpios.
    if re.findall(patron1, cadena): 
        lista_precios_originales_limpios.append(cadena)

print(f"Precios rebajados limpios:\n\n{lista_precios_originales_limpios}")

# Hemos conseguidos los precios rebajados en nuestra lista. Pero podemos limpiarlos mejor:
# Podemos quitar el euro y pasar a float

for indice, cadena in enumerate (lista_precios_originales_limpios):
    # print(indice, cadena)
    lista_precios_originales_limpios[indice] = int(cadena.replace("€","").replace(".", ""))

    # float(cadena.replace("€", ""))
    # cadena = float(cadena.replace("€", ""))

print(f"Tras limpiar los datos, la lista queda así:: {lista_precios_originales_limpios}")

print(f"len(lista_nombres_coches) = {len(lista_precios_originales_limpios)}")





Precios rebajados limpios:

['19.990€', '34.236€', '23.500€', '24.900€', '26.500€', '14.200€', '40.800€', '14.900€', '16.490€', '20.800€', '18.200€', '29.900€']
Tras limpiar los datos, la lista queda así:: [19990, 34236, 23500, 24900, 26500, 14200, 40800, 14900, 16490, 20800, 18200, 29900]
len(lista_nombres_coches) = 12


In [30]:
# Nos queda extraer los kilómetros recorridos.

lista_km = []
lista_km_limpia = []

elementos_km = sopa_coches.find_all("span", {"class": "characteristics_elements__Mb1S_"})
for elemento in elementos_km:
    cadena = elemento.text
    # Este elemento me introduce elementos que no son kilómetros. Mediante regex, filtro los que no necesito.
    patron1 = r"Km"
    if re.findall(patron1, cadena): 
        lista_km.append(cadena)

# Termino de limpiar mis datos.
for s in lista_km:
    lista_km_limpia.append(int(s.replace(" Km", "").replace(".", "")))
        
print(lista_km)
print(lista_km_limpia)

print(f"len(lista_nombres_coches) = {len(lista_km_limpia)}")



['12.323 Km', '108.886 Km', '50.807 Km', '152.287 Km', '44.305 Km', '27.330 Km', '80.251 Km', '14.924 Km', '51.112 Km', '51.473 Km', '69.647 Km', '47.360 Km', '64.720 Km', '146.986 Km', '45.140 Km', '43.834 Km', '132.020 Km', '92.933 Km', '5.097 Km', '46.930 Km']
[12323, 108886, 50807, 152287, 44305, 27330, 80251, 14924, 51112, 51473, 69647, 47360, 64720, 146986, 45140, 43834, 132020, 92933, 5097, 46930]
len(lista_nombres_coches) = 20


In [None]:
diccionario_coches = {'coche': lista_nombres_coches, 'precio original': lista_precios_originales_limpios, 'precio rebajado': lista_precios_rebajados_limpios, 'km recorridos': lista_km_limpia}

df = pd.DataFrame(diccionario_coches)
