# Pair programming Beautiful Soup

Enunciado: Escribe una función llamada scrape_coches_ocasion que acepta una URL como argumento y devuelve un DataFrame de pandas con información sobre coches de ocasión encontrados en la página web especificada. La función realizará las siguientes tareas:

1. Realizará una solicitud HTTP GET a la siguiente url.

2. Comprobará el código de estado de la respuesta. Si el código no es 200 (OK), imprimirá un mensaje de error y retornará None.

3. Extraerá los nombres de los coches, los precios rebajados, los precios originales y la información de los kilómetros recorridos de la página.

4. Organizará los datos extraídos en un DataFrame de pandas con las siguientes columnas:

            "coche": Nombres de los coches.

            "precio_rebajado": Precios rebajados.

            "precio_original": Precios originales.

            "km": Kilómetros recorridos.

5. Retornará el DataFrame resultante.

6. Una vez extraida toda la información deberéis almacenar toda la información en un DataFrame. 

In [21]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re

url = "https://www.ocasionplus.com/coches-ocasion?v2&orderBy=morePopular"

def scrape_coches_ocasion(url_coches):
    

    # hacemos la request a la página de la que queremos sacar la info
    resultados_coches = requests.get(url_coches)
    #print("La respuesta a la petición es", resultados_coches)

    if resultados_coches.status_code != 200:
        print(f"El motivo de error es {resultados_coches.reason}")
        return None
    
    #else:
           #print(f"La llamada APi nos muestra la respuesta: {resultados_coches.status_code}")

    
    sopa_coches = BeautifulSoup(resultados_coches.content, 'html.parser')

    # sacamos los nombres de los coches
    lista_nombre_coches = sopa_coches.find_all("span", {"data-test": "span-brand-model"})
     # sacamos los precios rebajados
    lista_precios_rebajados = sopa_coches.find_all("span", {"data-test": "span-finance"})
    # sacamos los precios originales
    lista_precios = sopa_coches.find_all("span", {"data-test": "span-price"})
    # sacamos los km de los coches
    lista_km_coches = sopa_coches.find_all("span", {"data-test": "span-km"})

     # Convertimos las listas de elementos en listas de texto
    lista_nombre_coches = [i.getText().strip() for i in lista_nombre_coches]
    lista_precios_rebajados = [i.getText().strip() for i in lista_precios_rebajados]
    lista_precios = [i.getText().strip() for i in lista_precios]
    lista_km_coches = [i.getText().strip() for i in lista_km_coches]

    """# Verificamos la longitud de cada lista
    print(f"Longitud de lista_nombre_coches: {len(lista_nombre_coches)}")
    print(f"Longitud de lista_precios_rebajados: {len(lista_precios_rebajados)}")
    print(f"Longitud de lista_precios: {len(lista_precios)}")
    print(f"Longitud de lista_km_coches: {len(lista_km_coches)}")"""

    # Ajustamos las listas para que tengan la misma longitud
    min_length = min(len(lista_nombre_coches), len(lista_precios_rebajados), len(lista_precios), len(lista_km_coches))

    lista_nombre_coches = lista_nombre_coches[:min_length]
    lista_precios_rebajados = lista_precios_rebajados[:min_length]
    lista_precios = lista_precios[:min_length]
    lista_km_coches = lista_km_coches[:min_length]


    diccionario = {
        "nombre": lista_nombre_coches,
        "rebajado": lista_precios_rebajados,
        "original": lista_precios,
        "km": lista_km_coches
    }

    return diccionario

datos_coches = scrape_coches_ocasion(url)

df = pd.DataFrame(datos_coches)
print(df)


              nombre rebajado original          km
0         Fiat Punto   5.450€   4.550€  172.442 Km
1     Peugeot Rifter  17.182€  19.800€   70.731 Km
2    Volkswagen Golf  28.772€  31.650€   64.393 Km
3          KIA XCeed  14.500€  15.900€   46.353 Km
4        Hyundai i30  16.536€  18.190€   78.072 Km
5   Opel Crossland X  13.409€  14.750€   55.738 Km
6       Toyota Yaris  14.536€  15.990€   62.791 Km
7       Toyota Verso  12.272€  13.500€  101.556 Km
8           KIA Niro  23.545€  25.900€    9.308 Km
9        Mazda CX-30  23.363€  25.700€   45.212 Km
10        Mazda CX-5  28.363€  31.200€   27.853 Km
11   Subaru Forester  22.909€  25.200€   54.269 Km
12   Mini COUNTRYMAN  37.182€  40.900€    2.520 Km
13    Hyundai Tucson  16.772€  18.450€   36.640 Km
14         Seat León  14.990€  16.490€  106.679 Km
15     Dacia Sandero  15.990€  17.590€   13.123 Km
16   Cupra Formentor  33.181€  36.500€   16.511 Km
17         Seat León  13.990€  19.990€  160.799 Km
18  Citroën Berlingo  18.172€  

In [12]:
df = pd.DataFrame(datos_coches)
# utilizaremos el método .head() para mostrar las 5 primeras filas del dataframe generado en el paso anterior
df

Unnamed: 0,nombre,rebajado,original,km
0,Fiat Punto,5.450€,4.550€,172.442 Km
1,Peugeot Rifter,17.182€,19.800€,70.731 Km
2,Volkswagen Golf,28.772€,31.650€,64.393 Km
3,KIA XCeed,14.500€,15.900€,46.353 Km
4,Hyundai i30,16.536€,18.190€,78.072 Km
5,Opel Crossland X,13.409€,14.750€,55.738 Km
6,Toyota Yaris,14.536€,15.990€,62.791 Km
7,Toyota Verso,12.272€,13.500€,101.556 Km
8,KIA Niro,23.545€,25.900€,9.308 Km
9,Mazda CX-30,23.363€,25.700€,45.212 Km
