# Scraper componentes: PC Componentes

### üë®‚Äçüíª Autores del proyecto

* [Alejandro Barrionuevo Rosado](https://github.com/Alejandro-BR)
* [Alvaro L√≥pez Guerrero](https://github.com/Alvalogue72)
* [Andrei Munteanu Popa](https://github.com/andu8705)

M√°ster de FP en Inteligencia Artifical y Big Data - CPIFP Alan Turing - `Curso 2025/2026`

[pccomponentes](https://www.pccomponentes.com/)

### Explicaci√≥n de las importaciones
En esta celda se importan las librer√≠as necesarias para el scraping y el manejo de datos. Se utiliza `pandas` para manipulaci√≥n de datos, `cloudscraper` para evitar bloqueos de Cloudflare, `BeautifulSoup` para parsear HTML, y m√≥dulos est√°ndar como `time` y `random`.

In [None]:
import pandas as pd
import cloudscraper
from bs4 import BeautifulSoup
import time
import random

### Funci√≥n para limpiar precios
Esta celda define una funci√≥n que toma una cadena de texto con el precio y la convierte en un valor num√©rico flotante, eliminando s√≠mbolos y adaptando el formato. Es √∫til para estandarizar los precios extra√≠dos del sitio web.

In [None]:
def clean_price(price_str):
    """Limpia y convierte una cadena de precio a un float."""
    if price_str:
        price_str = price_str.replace('‚Ç¨', '').replace('$', '').replace(',', '.').strip()
        try:
            return float(price_str)
        except ValueError:
            return None
    return None

### Lista de componentes a scrapear
En esta celda se define una lista con los diferentes tipos de componentes de PC que se desean scrapear del sitio web. Cada elemento representa una categor√≠a de productos.

In [None]:
components = [
    'placas-base',
    'tarjetas-graficas',
    'procesadores',
    'discos-duros',
    'memorias-ram',
    'cajas-pc',
    'fuentes-alimentacion',
    'refrigeracion-liquida',
    'ventiladores-suplementarios',
    'ventiladores-cpu',
    'tarjetas-sonido', 
]

### Funci√≥n para scrapear una sola p√°gina
Esta celda contiene la funci√≥n que extrae los productos de una sola p√°gina de la categor√≠a indicada. Utiliza BeautifulSoup para analizar el HTML y extraer nombre, precio e imagen de cada producto.

In [None]:
def scrape_single_page(url, scraper):
    """Funci√≥n que scrapea una sola p√°gina y devuelve la lista de productos encontrados."""
    print(f"Scrapeando: {url}") # Log para ver el progreso
    
    response = scraper.get(url)
    response.encoding = 'utf-8'
    
    products = []
    
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')

        items = soup.find_all('div', class_='product-card')
        
        # Se√±al de que se acabaron las p√°ginas.
        if not items:
            return []
            
        for item in items:
            name_tag = item.find('h3', class_='product-card__title')
            name = name_tag.text.strip() if name_tag else 'Sin nombre'
            
            price_tag = item.find('span', attrs={'data-e2e': 'price-card'})
            price_text = price_tag.text.strip() if price_tag else None
            price_final = clean_price(price_text)
            
            img_tag = item.find('img')
            
            img_url = "Sin imagen"
            if img_tag:
                img_url = img_tag.get('src')
                if img_url and "data:image" in img_url: 
                    img_url = img_tag.get('data-src')

                # Cambio de tama√±o 150x150 por 530x530
                if img_url and "w-150-150" in img_url:
                    img_url = img_url.replace("w-150-150", "w-530-530")
            
            products.append({
                'component_type': url.split('/')[-1],
                'name': name,
                'price': price_final,
                'image_url': img_url
            })
    else:
        print(f"Error {response.status_code} en la url {url}")
        
    return products


### Funci√≥n para scrapear todas las p√°ginas de una categor√≠a
Esta celda define la funci√≥n que recorre todas las p√°ginas de una categor√≠a de componentes, llamando a la funci√≥n de scraping de una sola p√°gina y acumulando los resultados.

In [None]:
def scrape_all(base_url, total_pages):
    """Funci√≥n que scrapea todas las p√°ginas de un componente (url) dado."""
    scraper = cloudscraper.create_scraper()
    all_products = []
    
    for i in range(1, total_pages + 1):
        if i == 1:
            url_actual = base_url
        else:
            url_actual = f"{base_url}?page={i}"
            
        new_products = scrape_single_page(url_actual, scraper)
        
        if not new_products:
            print("No se encontraron m√°s productos. Fin del scraping.")
            break
            
        all_products.extend(new_products)
        
        # Descanso entre 1 y 3 segundos aleatorios para parecer humanos
        rest_time = random.uniform(1, 3)
        time.sleep(rest_time)
        
    return all_products

### Bucle principal para scrapear todas las categor√≠as
En esta celda se recorre la lista de componentes, se construye la URL de cada categor√≠a y se llama a la funci√≥n de scraping para cada una. Los resultados se acumulan en una lista general.

In [None]:
all_components = []

for component in components:
    url = f'https://www.pccomponentes.com/{component}'
    final_scrape = scrape_all(url, total_pages=60)
    all_components.extend(final_scrape)
print(f"Total productos extra√≠dos: {len(all_components)}")

Scrapeando: https://www.pccomponentes.com/placas-base
Scrapeando: https://www.pccomponentes.com/placas-base?page=2
Scrapeando: https://www.pccomponentes.com/placas-base?page=3
Scrapeando: https://www.pccomponentes.com/placas-base?page=4
Scrapeando: https://www.pccomponentes.com/placas-base?page=5
Scrapeando: https://www.pccomponentes.com/placas-base?page=6
Scrapeando: https://www.pccomponentes.com/placas-base?page=7
Scrapeando: https://www.pccomponentes.com/placas-base?page=8
Scrapeando: https://www.pccomponentes.com/placas-base?page=9
Scrapeando: https://www.pccomponentes.com/placas-base?page=10
Scrapeando: https://www.pccomponentes.com/placas-base?page=11
Scrapeando: https://www.pccomponentes.com/placas-base?page=12
Scrapeando: https://www.pccomponentes.com/placas-base?page=13
Scrapeando: https://www.pccomponentes.com/placas-base?page=14
Scrapeando: https://www.pccomponentes.com/placas-base?page=15
Scrapeando: https://www.pccomponentes.com/placas-base?page=16
Scrapeando: https://www.

### Guardado de los datos extra√≠dos
En esta celda se crea un DataFrame con los datos obtenidos y se guardan en archivos CSV y JSON para su posterior an√°lisis o uso.

In [None]:
df_components = pd.DataFrame(all_components)
print(df_components.info())
df_components.to_csv('data/productos_pccomponentes.csv', index=False, encoding='utf-8-sig')
df_components.to_json('data/productos_pccomponentes.json', orient='records', force_ascii=False, indent=4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9055 entries, 0 to 9054
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   component_type  9055 non-null   object 
 1   name            9055 non-null   object 
 2   price           8648 non-null   float64
 3   image_url       9055 non-null   object 
dtypes: float64(1), object(3)
memory usage: 283.1+ KB
None
