## Pair Programming Beautiful Soup

Enunciado: Escribe una función llamada `scrape_coches_ocasion` que acepta una URL como argumento y devuelve un DataFrame de pandas con información sobre coches de ocasión encontrados en la página web especificada. La función realizará las siguientes tareas:

1. Realizará una solicitud HTTP GET a la siguiente url.

2. Comprobará el código de estado de la respuesta. Si el código no es 200 (OK), imprimirá un mensaje de error y retornará `None`.

3. Extraerá los nombres de los coches, los precios rebajados, los precios originales y la información de los kilómetros recorridos de la página.

4. Organizará los datos extraídos en un DataFrame de pandas con las siguientes columnas:

- "coche": Nombres de los coches.

- "precio_rebajado": Precios rebajados.

- "precio_original": Precios originales.

- "km": Kilómetros recorridos.

5. Retornará el DataFrame resultante.

6. Una vez extraida toda la información deberéis almacenar toda la información en un DataFrame.

In [2]:
!pip install beautifulsoup4



In [3]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re

In [4]:
url_coches='https://www.ocasionplus.com/coches-ocasion/v2?orderBy=morePopular'
respuesta_coches=requests.get(url_coches)
respuesta_coches.status_code

200

In [5]:
#1. Creo la sopa
sopa_coches=BeautifulSoup(respuesta_coches.content, 'html.parser')

In [196]:
#2. En la sopa, localiza la etiqueta que contiene los nombres
lista_nombres=sopa_coches.find_all('h2', {'class':'cardVehicle_column_text__EvQkB'})
lista_nombres[:4]

[<h2 class="cardVehicle_column_text__EvQkB"><span class="cardVehicle_spot__e6YZx" data-test="span-brand-model">SsangYong Korando</span><span class="cardVehicle_finance__SG6JV" data-test="span-version">D22T Line 4x2 131 kW (178 CV)</span></h2>,
 <h2 class="cardVehicle_column_text__EvQkB"><span class="cardVehicle_spot__e6YZx" data-test="span-brand-model">Volkswagen Tiguan</span><span class="cardVehicle_finance__SG6JV" data-test="span-version">2.0 TDI BMT DSG 4X4 AUTO (140 CV)</span></h2>,
 <h2 class="cardVehicle_column_text__EvQkB"><span class="cardVehicle_spot__e6YZx" data-test="span-brand-model">Audi A6</span><span class="cardVehicle_finance__SG6JV" data-test="span-version">2.0 TDI S tronic AUTO (190 CV) Pack S line</span></h2>,
 <h2 class="cardVehicle_column_text__EvQkB"><span class="cardVehicle_spot__e6YZx" data-test="span-brand-model">Skoda Octavia</span><span class="cardVehicle_finance__SG6JV" data-test="span-version">1.5 TSI Ambition (150 CV)</span></h2>]

In [197]:
#3. En las etiquetas, extrae sólo la parte que me interesa, la que tiene el nombre del coche
nombres=[]
for i in lista_nombres:
    nombres.append(i.text)
nombres[:4]

['SsangYong KorandoD22T Line 4x2 131 kW (178 CV)',
 'Volkswagen Tiguan2.0 TDI BMT DSG 4X4 AUTO (140 CV)',
 'Audi A62.0 TDI S tronic AUTO (190 CV) Pack S line',
 'Skoda Octavia1.5 TSI Ambition (150 CV)']

Repito pasos 2 y 3 para cada variable (precios rebajados, precios originales y km)

In [198]:
#2. En la sopa, localiza la etiqueta que contiene los precios rebajados
lista_precios_rebajados=sopa_coches.find_all('span', {'data-test':'span-finance'})
lista_precios_rebajados[:2]

[<span class="cardVehicle_finance__SG6JV" data-test="span-finance">12.636€</span>,
 <span class="cardVehicle_finance__SG6JV" data-test="span-finance">19.450€</span>]

In [199]:
#3. En las etiquetas, extrae sólo la parte que me interesa, la que tiene el precio rebajado
precios_rebajados=[]
for i in lista_precios_rebajados:
    precios_rebajados.append(i.text)
precios_rebajados[:3]

['12.636€', '19.450€', '19.772€']

In [200]:
#4a. Practico con un número para, quitarle el €, quedarme con el primer elemento(el número), reemplazar el . por nada, y convertirlo a int
x='23.363€'
int(x.split('€')[0].replace('.',''))

23363

In [201]:
#4b. Lo hago en toda la lista de números
precios_rebajados=[int(i.split('€')[0].replace('.','')) for i in precios_rebajados]
precios_rebajados[:2]

[12636, 19450]

In [202]:
#2. En la sopa, localiza la etiqueta que contiene los precios originales
lista_precios_originales=sopa_coches.find_all('span', {'data-test':'span-price'})
lista_precios_originales[:2]

[<span class="cardVehicle_spot__e6YZx" data-test="span-price">13.900€</span>,
 <span class="cardVehicle_spot__e6YZx" data-test="span-price">19.800€</span>]

In [203]:
#3. En las etiquetas, extrae sólo la parte que me interesa, la que tiene los precios originales
precios_originales=[]
for i in lista_precios_originales:
    precios_originales.append(i.text)
precios_originales[:3]

['13.900€', '19.800€', '21.750€']

In [204]:
#4a y 4b
precios_originales=[int(i.split('€')[0].replace('.','')) for i in precios_originales]
precios_originales[:2]

[13900, 19800]

In [205]:
#2. En la sopa, localiza la etiqueta que contiene los kms
lista_km=sopa_coches.find_all('span', {'data-test':'span-km'})
lista_km[:2]

[<span class="characteristics_elements__Mb1S_" data-test="span-km">80.729 Km</span>,
 <span class="characteristics_elements__Mb1S_" data-test="span-km">91.356 Km</span>]

In [206]:
#3. En las etiquetas, extrae sólo la parte que me interesa, la que tiene los kms
km=[]
for i in lista_km:
    km.append(i.text)
km[:2]

['80.729 Km', '91.356 Km']

In [207]:
#4a y 4b
km=[int(i.split()[0].replace('.',''))for i in km]
km[:2]

[80729, 91356]

In [208]:
def scrape_coches_ocasion(url):
    respuesta_coches=requests.get(url_coches)
    print(f'La respuesta a la petición es: {respuesta_coches.status_code}')
    if respuesta_coches.status_code != 200:
        print(f'El motivo del fallo en la llamada fue: {respuesta_coches.reason} y el detalle del error: {respuesta_coches.text}')
    else:
        return None
    
    #1. Creo la sopa
    sopa_coches=BeautifulSoup(respuesta_coches.content, 'html.parser')
    
    #2. En la sopa, localiza la etiqueta que contiene los nombres
    lista_nombres=sopa_coches.find_all('h2', {'class':'cardVehicle_column_text__EvQkB'})
    #2. En la sopa, localiza la etiqueta que contiene los precios rebajados
    lista_precios_rebajados=sopa_coches.find_all('span', {'data-test':'span-finance'})
    #2. En la sopa, localiza la etiqueta que contiene los precios originales
    lista_precios_originales=sopa_coches.find_all('span', {'data-test':'span-price'})
    #2. En la sopa, localiza la etiqueta que contiene los kms
    lista_km=sopa_coches.find_all('span', {'data-test':'span-km'})

    #3. En las etiquetas, extrae sólo la parte que me interesa, la que tiene el nombre del coche
    nombres=[]
    for i in lista_nombres:
        nombres.append(i.text)
    
    precios_rebajados=[]
    for i in lista_precios_rebajados:
        precios_rebajados.append(i.text)

    precios_originales=[]
    for i in lista_precios_originales:
        precios_originales.append(i.text)

    km=[]
    for i in lista_km:
        km.append(i.text)

    #para agrupar todo esto en un único diccionario, creo una lista con los values y otra con las keys:
    lista_elementos=[nombres, precios_rebajados, precios_originales, km]
    claves=['Coche', 'Precio Rebajado', 'Precio Original', 'Kilómetros']
    diccionario_coches={}
    #ahora junto ambas en un zip, que empareja el primero de los values con el primero de las keys:
    for lista, clave in zip(lista_elementos, claves):
        diccionario_coches[clave]=lista #en el dicionario, me creas una clave cuyo nombre sea 'coche', 'precio rebajado', etc, y cuyo value sea el valor de la lista que estoy iterando

    return diccionario_coches

In [209]:
scrape_coches_ocasion(url_coches)

La respuesta a la petición es: 200


In [210]:
#no necesitaremos crear el diccionario anterior todo el rato, así que podemos sustituirlo por el siguiente, en el que se va añadiendo la info de los precios, kms, etc al diccionario que ponemos en el nombre de la función
def scrape_coches_ocasion2(url, diccionario_resultados):
    respuesta_coches=requests.get(url_coches)
    print(f'La respuesta a la petición es: {respuesta_coches.status_code}')
    if respuesta_coches.status_code != 200:
        print(f'El motivo del fallo en la llamada fue: {respuesta_coches.reason} y el detalle del error: {respuesta_coches.text}')
    else:
        None
    
    #1. Creo la sopa
    sopa_coches=BeautifulSoup(respuesta_coches.content, 'html.parser')
    
    #2. En la sopa, localiza la etiqueta que contiene los nombres
    lista_nombres=sopa_coches.find_all('h2', {'class':'cardVehicle_column_text__EvQkB'})
    #2. En la sopa, localiza la etiqueta que contiene los precios rebajados
    lista_precios_rebajados=sopa_coches.find_all('span', {'data-test':'span-finance'})
    #2. En la sopa, localiza la etiqueta que contiene los precios originales
    lista_precios_originales=sopa_coches.find_all('span', {'data-test':'span-price'})
    #2. En la sopa, localiza la etiqueta que contiene los kms
    lista_km=sopa_coches.find_all('span', {'data-test':'span-km'})

    #3. En las etiquetas, extrae sólo la parte que me interesa, la que tiene el nombre del coche
    nombres=[]
    for i in lista_nombres:
        nombres.append(i.text)
    
    precios_rebajados=[]
    for i in lista_precios_rebajados:
        precios_rebajados.append(i.text)

    precios_originales=[]
    for i in lista_precios_originales:
        precios_originales.append(i.text)

    km=[]
    for i in lista_km:
        km.append(i.text)

    #no necesitaremos crear el diccionario anterior todo el rato, así que podemos sustituirlo por el siguiente, en el que se va añadiendo la info de los precios, kms, etc al diccionario que ponemos en el nombre de la función:
    diccionario_resultados['Coche'].extend(nombres)
    diccionario_resultados['Precio Rebajado'].extend(precios_rebajados)
    diccionario_resultados['Precio Original'].extend(precios_originales)
    diccionario_resultados['Kilómetros'].extend(km)

    return diccionario_resultados

In [211]:
diccionario_coches2= {'Coche':[], 'Precio Rebajado':[], 'Precio Original':[], 'Kilómetros':[]}
diccionario_coches2=scrape_coches_ocasion2(url_coches, diccionario_coches2)

La respuesta a la petición es: 200


In [212]:
len(diccionario_coches2['Precio Original'])

18

In [213]:
#limitamos nuestra tabla para los 5 primeros resultados (no sabemos cómo rellenar espacios en blanco para crear DataFrame, ya que algunos coches no tienen el precio original)
diccionario_coches2 = {key: values[:5] for key, values in diccionario_coches2.items()}

In [214]:
df_coches=pd.DataFrame(diccionario_coches2)
df_coches[:5]

Unnamed: 0,Coche,Precio Rebajado,Precio Original,Kilómetros
0,SsangYong KorandoD22T Line 4x2 131 kW (178 CV),12.636€,13.900€,80.729 Km
1,Volkswagen Tiguan2.0 TDI BMT DSG 4X4 AUTO (140...,19.450€,19.800€,91.356 Km
2,Audi A62.0 TDI S tronic AUTO (190 CV) Pack S line,19.772€,21.750€,150.167 Km
3,Skoda Octavia1.5 TSI Ambition (150 CV),17.909€,19.700€,82.372 Km
4,BMW Serie 2 Gran Tourer220d Gran Tourer (190 C...,17.718€,19.490€,156.350 Km
