# WEB SCRAPING CON BEAUTIFUL SOUP

El web scraping es el proceso de extraer datos de sitios web, y Python proporciona bibliotecas potentes como Beautiful Soup 4 que facilitan el raspado y análisis de contenido HTML y XML.

Importaciones

In [5]:
# Importamos BeautifulSoup para parsear HTML
from bs4 import BeautifulSoup
# Importamos requests para hacer peticiones HTTP
import requests
# Importamos pandas para manejar los datos en DataFrames
import pandas as pd

Estamos recopilando datos de periféricos de computadora del sitio "MD Computers" usando Beautiful Soup 4

Introduce el artículo del cual quieres recopilar información.

In [1]:
# Solicitamos al usuario que introduzca el artículo que quiere buscar
search_item = input("Which item do you want to search? ")

Desde la URL dinámica del sitio web estamos formateando el resultado de búsqueda en la URL.

In [2]:
# Construimos la URL de búsqueda insertando el término que introdujo el usuario
url = f"https://mdcomputers.in/index.php?submit_search=&route=product%2Fsearch&&search={search_item}"

In [3]:
url

'https://mdcomputers.in/index.php?submit_search=&route=product%2Fsearch&&search=mouse'

Parseando el contenido HTML de la página.

In [6]:
# Obtenemos el contenido HTML de la página como texto
page_ = requests.get(url).text
# Parseamos el HTML con BeautifulSoup para poder navegar por él
doc = BeautifulSoup(page_, "html.parser")

Encontrando el número total de páginas de resultados filtrando las etiquetas HTML por nombre de clase

In [7]:
# Buscamos el elemento que contiene el número total de páginas
#total_pages_x = doc.find(class_="col-sm-6 text-right")
# Encontramos el elemento con la clase que muestra la paginación
total_pages_x = doc.find(class_="col-md-6 text-md-end mb-2")

In [8]:

#Extrae el número de páginas del texto, tomando el valor que está entre paréntesis antes del espacio.
total_pages_x.text.split("(")[1].split(" ")[0]

'6'

In [9]:
# Convertimos el número de páginas a entero para poder usarlo en el bucle
total_pages = int(total_pages_x.text.split("(")[1].split(" ")[0])

In [10]:
# Mostramos el total de páginas
total_pages

6

Total de páginas de resultados obtenidas para la búsqueda

In [11]:
# Verificamos el número total de páginas
total_pages

6

Vamos a recopilar el nombre del artículo, su enlace y su precio (antiguo y nuevo) a continuación

Creando listas vacías para los datos

In [14]:
# Inicializamos listas vacías para almacenar los datos de cada producto
link = []          # Para guardar los enlaces de los productos
item_name = []     # Para guardar los nombres de los productos
new_price = []     # Para guardar los precios actuales
old_price = []     # Para guardar los precios anteriores

Aquí está el código principal que extrae la información del código HTML

Desde esta URL, podemos buscar los productos que necesitamos, iterando a través de las páginas hasta el total de páginas de resultados que obtuvimos anteriormente.

In [15]:
# Iteramos a través de todas las páginas de resultados
for page in range(1, total_pages + 1):
    # Construimos la URL para cada página específica
    url = f"https://mdcomputers.in/index.php?route=product/search&page={page}&search={search_item}"
    print(url)
    # Obtenemos el contenido HTML de la página actual
    page_ = requests.get(url).text
    # Parseamos el HTML con BeautifulSoup
    doc = BeautifulSoup(page_, "html.parser")
    
    # Encontramos todos los elementos div que contienen información de productos
    items = doc.find_all(class_ = "product-wrapper") #Encontrando el div principal para cada producto que contiene los datos
    print(items)
    # Iteramos a través de cada producto encontrado
    for item in items:
        
        # Extraemos el enlace del producto del atributo href dentro del tag h3
        link.append((item.find("h3")).find("a")['href'])
        # Extraemos el nombre del producto del texto dentro del tag h3
        item_name.append(((item.find("h3")).find("a")).text)
        # Extraemos el precio antiguo (tachado) eliminando el símbolo de moneda
        old_price.append(((item.find("span",class_ = "del")).find("span",class_ = "amount")).text[1:])
        # Extraemos el precio nuevo (actual) eliminando el símbolo de moneda
        new_price.append(((item.find("span",class_ = "ins")).find("span",class_ = "amount")).text[1:])
        #try:
            # En algunos productos no hay precio antiguo, por lo que se usa try para manejar el error
        #    old_price.append(((item.find("div",class_ = "price")).find("span",class_ = "price-old")).string[1:])    
        #except:
        #    # Para productos sin precio antiguo, se declara como null
        #    old_price.append(None)

https://mdcomputers.in/index.php?route=product/search&page=1&search=mouse
[<div class="product-wrapper"><div class="product-element-top product-quick-shop"><a class="product-image-link" href="https://mdcomputers.in/product/ant-esports-mp265-mouse-pad-aepp0094"><div class="product-labels labels-rectangular"><span class="onsale product-label">-65%</span></div><img alt="Ant Esports MP265 Gaming Mouse Pad (Medium)" class="attachment-large size-large" decoding="async" fetchpriority="low" loading="lazy" src="https://mdcomputers.in/cdn-cgi/image/width=500,height=500,quality=75/image/catalog/mouse%20pad/ant-value/aepp0094/aepp0094-image-main.jpg"/></a><div class="wrapp-buttons"><div class="product-buttons"><div class="product-add-btn product-action-btn product-style-icon product-add-cart-icon"><button class="button product_type_simple add_to_cart_button ajax_add_to_cart add-to-cart-loop" onclick="cart.add('21436');"><span>Add to Cart</span><i class="bi bi-cart-plus"></i></button></div><div cla

In [16]:
# Verificamos el número total de nombres de productos recopilados
len(item_name)

105

In [17]:
# Verificamos el número total de enlaces recopilados
len(link)

105

In [18]:
# Mostramos la lista de nombres ordenados alfabéticamente
sorted(item_name)

['ANT ESPORTS KM550 Keyboard and Mouse Combo',
 'ANT ESPORTS Thunder 10 RGB Keyboard and Mouse Combo with Brown Switches',
 'ANT ESPORTS Thunder 30 RGB Keyboard and Mouse Combo',
 'ASUS CW101 Keyboard and Mouse Combo',
 'ASUS ROG Keris II ACE Wireless RGB Moonlight White Gaming Mouse',
 'AVerMedia Elena Chan Mouse Pad (Large)',
 'Acer Wireless White and Green Mouse',
 'Acer ZC.A01SI.2DP Wireless Keyboard and Mouse Combo',
 'Ant Esports AEC410 Type-C To USB Hub',
 'Ant Esports KM500W Pro Wireless Gaming Keyboard Mouse Combo',
 'Ant Esports KM540 Keyboard Mouse Combo',
 'Ant Esports KM550 Pro Wireless Keyboard and Mouse Combo',
 'Ant Esports MP 290 Gaming Mouse Pad (Large)',
 'Ant Esports MP265 Gaming Mouse Pad (Medium)',
 'Ant Esports MP320C Control Gaming Mouse Pad (Large Extended)',
 'Ant Esports MP320S Speed Gaming Mouse Pad (Large Extended)',
 'Ant Esports MP400R RGB XL Gaming Mouse Pad (Extra Large)',
 'Ant Esports WKM22 Wireless Keyboard and Mouse Combo',
 'Asus MW103 Wireless Mou

Convirtiendo las listas a un Diccionario y luego a un DataFrame.

In [19]:
# Creamos un diccionario con todas las listas de datos recopilados
my_dict = {'item_name': item_name , 'link': link , 'new_price': new_price , 'old_price': old_price}

In [20]:
# Verificamos la longitud de la lista de precios antiguos
len(old_price)

105

In [21]:
# Verificamos que todas las listas tengan la misma longitud
for key in my_dict:
    print(len(my_dict[key]))

105
105
105
105


In [22]:
# Convertimos el diccionario en un DataFrame de pandas para facilitar el manejo de datos
df = pd.DataFrame(my_dict)

Aquí está nuestro DataFrame con los datos requeridos

In [26]:
# Mostramos el DataFrame completo con todos los productos y sus datos
df

Unnamed: 0,item_name,link,new_price,old_price
0,Ant Esports MP265 Gaming Mouse Pad (Medium),https://mdcomputers.in/product/ant-esports-mp2...,₹280,799
1,Ant Esports MP 290 Gaming Mouse Pad (Large),https://mdcomputers.in/product/ant-esports-mp-...,₹315,599
2,Fingers SuperHit Sea Blue Mouse,https://mdcomputers.in/product/fingers-superhi...,₹315,499
3,Fingers SuperHit Blush Pink Mouse,https://mdcomputers.in/product/fingers-superhi...,₹315,499
4,Fingers SuperHit Graphite Grey Mouse,https://mdcomputers.in/product/fingers-superhi...,₹315,499
...,...,...,...,...
100,Logitech G Pro X Superlight 2 DEX Pink Wireles...,https://mdcomputers.in/product/logitech-g-pro-...,"₹12,260",17995
101,Logitech G502 X Plus Lightspeed RGB Wireless G...,https://mdcomputers.in/product/logitech-g502-x...,"₹12,320",14900
102,Logitech G502 X Plus Lightspeed RGB Wireless G...,https://mdcomputers.in/product/logitech-g502-x...,"₹12,320",14700
103,Razer Viper V3 Pro Wireless Gaming Mouse (Black),https://mdcomputers.in/product/razer-viper-v3-...,"₹12,329",25999


Convirtiendo el DataFrame a un documento de Excel con el nombre del archivo como el artículo que buscamos

In [24]:
# Exportamos el DataFrame a un archivo Excel con el nombre basado en el término de búsqueda
df.to_excel(f'{search_item}_list_mdcomputers.xlsx')

Finalmente hemos extraído los datos del sitio web (MD Computers) exitosamente usando BeautifulSoup4.