# Web scraping

## Instalación de paquetes

Para este proceso se usó como referencia un tutorial para hacer [web scraping](https://nanonets.com/blog/web-scraping-with-python-tutorial/).

In [1]:
import requests # Para hacer solicitudes al sitio web
from bs4 import BeautifulSoup # Para analizar el código del HTML
import pandas as pd
import time # Para añadir un cierto delay para no sobrecargar la página con las solucitudes
import numpy as np

## Extracción de los datos

Se inicia el proceso de extracción de datos, para esto se eligió una página web de [compra/venta de carros](https://crautos.com/autosusados/), se usará el comando [find_all](https://j2logo.com/python/web-scraping-con-python-guia-inicio-beautifulsoup/#scraping-bs-pasos) de la librería BeautifulSoup, además, se buscó la manera de hacer casting de [string a float](https://ellibrodepython.com/casting-python#:~:text=class%20%27str%27>-,Convertir%20string%20a%20float,a%20float%20usando%20float()%20.) pues se ocupará para los precios.

In [2]:
# Se selecciona el url del que se extraerá la información
url = "https://crautos.com/autosusados/"

# Manda una solicitud para obtener la información de la página web (librería requests)
respuesta = requests.get(url)

# Se analiza la información del HTML (librería BeautifulSoup)
sopa = BeautifulSoup(respuesta.content, 'html.parser')

Se procede a crear las funciones para extraer cada uno de los elementos necesarios de la página web.

In [3]:
def elementos_simples(sopa_bs4, tipo, clase):
    '''
    Función que extrae los elementos que no ocupan modificaciones de un HTML

    Parameters
    sopa : bs4.BeautifulSoup
        HTML leído a trevés de la librería BeautifulSoup
    tipo : str
        Tipo de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup
    clase : str
        Clase de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup

    Returns
    lista_simple : list
        Lista con los elementos encontrados dentro del HTML correspondiente
    '''
    # Lista para guardar los elementos correspondientes
    lista_simple = []

    # Se itera por cada uno de los elementos del HTML con la clase y el tipo especificado
    for fila in sopa_bs4.find_all(tipo, class_ = clase):
        # Se extrae el elemento y se agrega a la lista
        elemento = fila.get_text()
        lista_simple.append(elemento)

        # Se deja un espacio de un segundo entre cada iteración, esto para no sobrecargar la página, pues en cada iteración se mete a ella
        time.sleep(1)
    return lista_simple

In [4]:
def elemento_anno(sopa_bs4, tipo, clase):
    '''
    Función que extrae los años de cada carro de la página web de crautos

    Parameters
    sopa : bs4.BeautifulSoup
        HTML leído a trevés de la librería BeautifulSoup
    tipo : str
        Tipo de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup
    clase : str
        Clase de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup

    Returns
    lista_annos : list
        Lista con los años encontrados dentro del HTML correspondiente
    '''
    # Lista para guardar los elementos correspondientes
    lista_annos = []

    # Se itera por cada uno de los elementos del HTML con la clase y el tipo especificado
    for fila in sopa_bs4.find_all(tipo, class_ = clase):
        # Extrae una cadena con muchos espacios, solo nos interesa el año (los primeros 4 caracteres)
        anno = fila.find('b').get_text()[ : 4]
        lista_annos.append(anno)

        # Se deja un espacio de un segundo entre cada iteración, esto para no sobrecargar la página, pues en cada iteración se mete a ella
        time.sleep(1)
    return lista_annos

In [5]:
def elemento_modelos(sopa_bs4, tipo, clase):
    '''
    Función que extrae los modelos de cada carro de la página web de crautos

    Parameters
    sopa : bs4.BeautifulSoup
        HTML leído a trevés de la librería BeautifulSoup
    tipo : str
        Tipo de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup
    clase : str
        Clase de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup

    Returns
    lista_modelos : list
        Lista con los modelos de carro encontrados dentro de la página web de crautos
    '''
    # Lista para guardar los elementos correspondientes
    lista_modelos = []

    # Se itera por cada uno de los elementos del HTML con la clase y el tipo especificado
    for fila in sopa_bs4.find_all(tipo, class_ = clase):
        # Extrae toda la información detallada del carro, quita los espacios del inicio y el final, separa por guiones y guarda el primer elemento
        modelo = fila.get_text().strip().split(' - ')[0]
        lista_modelos.append(modelo)

        # Se deja un espacio de un segundo entre cada iteración, esto para no sobrecargar la página, pues en cada iteración se mete a ella
        time.sleep(1)
    return lista_modelos

In [6]:
def elemento_transmision(sopa_bs4, tipo, clase):
    '''
    Función que extrae las transmisiones de cada carro de la página web de crautos

    Parameters
    sopa : bs4.BeautifulSoup
        HTML leído a trevés de la librería BeautifulSoup
    tipo : str
        Tipo de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup
    clase : str
        Clase de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup

    Returns
    lista_transmisiones : list
        Lista con las transmisiones de carro encontrados dentro de la página web de crautos
    '''
    # Lista para guardar los elementos correspondientes
    lista_transmision = []

    # Se itera por cada uno de los elementos del HTML con la clase y el tipo especificado
    for fila in sopa_bs4.find_all(tipo, class_ = clase):
        # Guardamos la fila, pues se le harán
        fila_actual = fila.get_text()
        
        # Obtenemos la transmisión
        if(fila_actual.count("Automático") > 0):
            transmision = "Automático"
        elif(fila_actual.count("Manual\r\n") > 0):
            transmision = "Manual"
        else:
            transmision = np.nan
        lista_transmision.append(transmision)

        # Se deja un espacio de un segundo entre cada iteración, esto para no sobrecargar la página, pues en cada iteración se mete a ella
        time.sleep(1)
    return lista_transmision

In [7]:
def elemento_transmision(sopa_bs4, tipo, clase):
    '''
    Función que extrae las transmisiones de cada carro de la página web de crautos

    Parameters
    sopa : bs4.BeautifulSoup
        HTML leído a trevés de la librería BeautifulSoup
    tipo : str
        Tipo de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup
    clase : str
        Clase de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup

    Returns
    lista_transmisiones : list
        Lista con las transmisiones de carro encontrados dentro de la página web de crautos
    '''
    # Lista para guardar los elementos correspondientes
    lista_transmision = []

    # Se itera por cada uno de los elementos del HTML con la clase y el tipo especificado
    for fila in sopa_bs4.find_all(tipo, class_ = clase):
        # Guardamos la fila, pues se le harán
        fila_actual = fila.get_text()
        
        # Obtenemos la transmisión
        if(fila_actual.count("Automático") > 0):
            transmision = "Automático"
        elif(fila_actual.count("Manual\r\n") > 0):
            transmision = "Manual"
        else:
            transmision = np.nan
        lista_transmision.append(transmision)

        # Se deja un espacio de un segundo entre cada iteración, esto para no sobrecargar la página, pues en cada iteración se mete a ella
        time.sleep(1)
    return lista_transmision

In [8]:
def elemento_precio(sopa_bs4, tipo, clase):
    '''
    Función que extrae el precio, en colones, de cada carro de la página web de crautos

    Parameters
    sopa : bs4.BeautifulSoup
        HTML leído a trevés de la librería BeautifulSoup
    tipo : str
        Tipo de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup
    clase : str
        Clase de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup

    Returns
    lista_transmisiones : list
        Lista con los precios, en colones, de cada carro encontrados dentro de la página web de crautos
    '''
    # Se inicia extrayendo el tipo de cambio
    tipo_cambio = 0
    
    for fila in sopa_bs4.find_all('div', class_ = 'brandtitle2'):
        if(fila.get_text().count("Tipo de cambio: ") > 0):
            tipo_cambio = float(fila.get_text().split("¢")[1][0:5])
    
    # Lista para guardar los elementos correspondientes
    lista_precios = []

    # Se itera por cada uno de los elementos del HTML con la clase y el tipo especificado
    for fila in sopa_bs4.find_all(tipo, class_ = clase):
        # Removemos las comas de los precios
        fila_limpia = fila.get_text().replace(",", "")
        
        # Ponemos el precio, en caso de que esté en dólares se multiplica por el tipo de cambio de la página
        if(fila_limpia.count("¢") > 0):
            coste = float(fila_limpia.split("¢ ")[1][0:8])
        elif(fila_limpia.count("$") > 0):
            coste = float(fila_limpia.split("$")[1][0:5])
            coste = coste * tipo_cambio
        else:
            coste = np.nan
        lista_precios.append(coste)

        # Se deja un espacio de un segundo entre cada iteración, esto para no sobrecargar la página, pues en cada iteración se mete a ella
        time.sleep(1)
    return lista_precios

In [9]:
# Hay otros precios que no se pueden extraer con la función anterior, por lo que se hará una función para estos últimos
def elemento_precio_b(sopa_bs4, tipo, clase):
    '''
    Función que extrae el precio, en colones, de cada carro de la página web de crautos

    Parameters
    sopa : bs4.BeautifulSoup
        HTML leído a trevés de la librería BeautifulSoup
    tipo : str
        Tipo de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup
    clase : str
        Clase de elemento a buscar y extraer de un elemento 'sopa' del paquete BeautifulSoup

    Returns
    lista_transmisiones : list
        Lista con los precios, en colones, de cada carro encontrados dentro de la página web de crautos
    '''
    # Se inicia extrayendo el tipo de cambio
    tipo_cambio = 0
    
    for fila in sopa_bs4.find_all('div', class_ = 'brandtitle2'):
        if(fila.get_text().count("Tipo de cambio: ") > 0):
            tipo_cambio = float(fila.get_text().split("¢")[1][0:5])
    
    # Lista para guardar los elementos correspondientes
    lista_precios = []
    
    # Para la siguiente parte, se encuentran algunos repetidos, por lo que se hará un set para evitar este problema
    lista_sec = set(sopa_bs4.find_all(tipo, class_ = clase))
    
    # Se itera por cada uno de los elementos del HTML con la clase y el tipo especificado
    for fila in lista_sec:
        #Removemos las comas de los precios
        fila_limpia = fila.get_text().replace(",", "")
        
        if(fila_limpia.count("¢") > 0):
            coste = float(fila_limpia.split("¢")[1][1:8])
        elif(fila_limpia.count("$") > 0):
            coste = float(fila_limpia.split("$")[1][0:5])
            coste = coste * tipo_cambio
        else:
            coste = np.nan
        lista_precios.append(coste)
        time.sleep(1)
    return lista_precios

Con las funciones anteriores, se procede a obtener todos los elementos para el DataFrame.

In [10]:
# Iniciando por la marca del carro
marcas = elementos_simples(sopa, 'span', 'brandtitle')
marcas_2 = elementos_simples(sopa, 'td', 'brandtitle2')

# Juntamos las 2 listas de marcas
marcas = marcas + marcas_2

# Seguimos con los modelos
modelos = elemento_modelos(sopa, 'td', 'modeltitle')

# Continuamos con los años
annos = elemento_anno(sopa, 'td', 'modeltitle')

# Luego con la transmisión
transmisiones = elemento_transmision(sopa, 'div', 'transtitle')

# Extraemos el precio
precio = elemento_precio(sopa, 'td', 'precio')
precio_2 = elemento_precio_b(sopa, 'span', 'precio')

# Juntamos las listas de precios
precio = precio + precio_2

El DataFrame de crautos es el siguiente.

In [11]:
df_carros = pd.DataFrame(
    {"Marca": marcas,
     "Modelo": modelos, 
     "Años": annos, 
     "Transmisiones": transmisiones[0:62],
     "Precio": precio[0:62]})
df_carros.head()

Unnamed: 0,Marca,Modelo,Años,Transmisiones,Precio
0,Mitsubishi,XPANDER,2024,Automático,14784000.0
1,Chevrolet,COLORADO,2019,Manual,15000000.0
2,Citroen,C3 AIRCROSS,2018,Automático,7999950.0
3,Kia,SORENTO CRDI,2010,Automático,7099950.0
4,Mitsubishi,XPANDER,2022,Automático,11499950.0
