In [1]:
import pandas as pd
from bs4 import BeautifulSoup
import requests
import time

In [2]:
# Definimos los headers con el User Agent
HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36"}

In [3]:
# Lista donde se guardarán las URL para cada artículo
listaURL = []

# Cantidad de páginas visitadas 
pagina = 0

# MercadoLibre maneja cantidades para cambiar de página:
# Página 1: cantidad = 1
# Página 2: cantidad = 51
# Página 3: cantidad = 101
# Y así sucesivamente, sumando 50 a la última página...
cantidad = 1

while True:   
    
    # URL de monitores LED nuevos con la variable cantidad insertada
    url = 'https://listado.mercadolibre.com.ar/computacion/monitores-accesorios/monitores/nuevo/monitor-led_Desde_'+str(cantidad)+'_NoIndex_True'
    
    # Hacemos la request usando la URL y los headers
    page = requests.get(url,headers=HEADERS)
    
    # Si superamos la última página, rompe el ciclo por darnos un status 400 o más
    if page.status_code >= 400:
        break
    else:    
        pagina += 1
        
        # Capturamos el contenido de la página
        soup = BeautifulSoup(page.content,'html.parser')    
        
        # Buscamos los enlaces al artículo
        for x in soup.find_all('a',class_ = 'ui-search-item__group__element shops__items-group-details ui-search-link'):
            
            # Se detecta contenido no relacionado que contiene esa cadena
            if 'click1' not in str(x['href']):
                # Se unen a la lista de URLs
                listaURL.append(x['href'])
                
        # Va a incrementarse cantidad hasta que la request dé un status 400 o más
        cantidad += 50
        
        # Pausa de 4 segundos entre requests para no inundar el servidor (y evitar un posible baneo de IP)
        time.sleep(4)

        
cantidad = None

print('Páginas visitadas: ', pagina)
print('Artículos recabados: ', str(len(listaURL)))

Páginas visitadas:  38
Artículos recabados:  1824


In [4]:
# Definimos algunas de las cabeceras usadas por MercadoLibre (Obtenidas mediante observaciones manuales)
cabeceras = ['Marca','Modelo','Tamaño de la pantalla','Tipo de resolución','Tipo de pantalla','Frecuencia de actualización recomendada','Precio','Link']

# Definimos el DataFrame de Pandas
df = pd.DataFrame(columns = ['Marca','Modelo','Tamaño de la pantalla','Tipo de resolución','Tipo de pantalla','Frecuencia de actualización','Precio','Link'])

In [5]:
# Ciclamos por cada URL de cada artículo
for articuloURL in listaURL:    
    
    # Nos será útil para manejar timeouts
    timeoutException = False
    
    # Cada artículo se guarda aquí
    specsContent = ['','','','','','',0,'']
    
    # Las filas de las tablas con información se guardarán aquí
    rows = []
    
    # Por motivos que me exceden, a veces, las filas no se llenan
    # Reintenta cada 3 segundos la request hasta que se llene la lista con la información del producto
    while True:            
        if len(rows)>0:
            break
        else:
            # A veces, las páginas están totalmente caídas
            try:
                # Hacemos la request usando la URL y los headers
                page = requests.get(articuloURL,headers=HEADERS,timeout=5)                
            except:
                # Si hubo un timeout de 5 segundos, pasamos a la próxima URL
                timeoutException = True
                print('Request timeout. Going to the next URL...')
                break
                
            # Capturamos el contenido de la página
            soup = BeautifulSoup(page.text,'html')
            
            # Buscamos todas las filas con información técnica
            rows = soup.find_all('tr',class_ = 'andes-table__row ui-vpp-striped-specs__row')
            
            # Pausa de 3 segundos entre requests para no inundar el servidor (y evitar un posible baneo de IP)
            time.sleep(3)
    
    # Procesa la información si el status es 200 y no hubo timeouts
    if page.status_code == 200 and not timeoutException:
        
        # Entra a cada fila
        for x in rows:
            
            #Extrae la cabecera
            cabecera = str(x.find('th').text.strip())
            
            # Hay más de 20 posibles cabeceras disponibles en MeLi, sólo usaremos las 7 mencionadas
            if cabecera in cabeceras:
                
                # Extrae el dato y lo guarda en su respectivo lugar dependiendo de la cabecera
                dato = str(x.find('td').text.strip())
                if cabecera == 'Marca':
                    specsContent[0] = dato
                elif cabecera == 'Modelo':
                    specsContent[1] = dato
                elif cabecera == 'Tamaño de la pantalla':
                    specsContent[2] = dato
                elif cabecera == 'Tipo de resolución':
                    specsContent[3] = dato
                elif cabecera == 'Tipo de pantalla':
                    specsContent[4] = dato
                elif 'Frecuencia de actualización' in cabecera:
                    specsContent[5] = dato
        
        # A veces, la publicación puede pausarse y no mostrar precio alguno
        try:    
            # Se busca el precio y se convierte a int
            specsContent[6]=int(str(soup.find('span',class_='andes-money-amount__fraction').text.strip()).replace('.',''))
        except:            
            # Si no hay precio, se asigna un -1            
            specsContent[6]= -1
        
        # Guardamos la URL del artículo
        specsContent[7] = str(articuloURL)
        
        # Asignamos el registro completo al DataFrame
        df.loc[df.shape[0]] = specsContent
        
        # Guardamos en un CSV los registros (por ahora sucios) a medida que avanzamos
        df.to_csv('Monitores Nuevos - Registros sucios - Mercado Libre Argentina - Agosto 2023.csv')


