## Imports

In [70]:
from bs4 import BeautifulSoup
import unicodedata
import requests
import json
import os
from pymongo import MongoClient


## Variables Genereles

In [71]:
# API_KEY = '1d8a83a5b3d3bfb0e635d9319bf08dd0'
API_KEY = '75a50970b56e59370f927128f3c64627'


## Funciones Generales

In [72]:
def obtener_soup(api_key, url):
    params = {
        'api_key': api_key,
        'url': url,
        'country_code': 'ES'
    }

    response = requests.get('https://api.scraperapi.com/', params=params)

    if response.status_code == 200:
        return BeautifulSoup(response.text, 'html.parser')
    else:
        print(f'Error al obtener la página: {response.status_code}')
        return None

## Obtener IDS

In [73]:
def obtener_ids(soup):
    ids_productos = set()
    productos = soup.find_all('div', {'role': 'listitem', 'data-asin': True})
    if productos:
        for producto in productos:
            id = producto.get('data-asin')
            ids_productos.add(id)
        return ids_productos
    else: return None
    

In [74]:
BASE_URL = "https://www.amazon.es/s?k="
QUERY = ['moviles', 'smartphones', 'celulares', 'telefonos']
ids_productos = set()

for query in QUERY:
    url_base = BASE_URL + query
    page_number = 1

    while True:
        print(f"Obteniendo IDs de la página {page_number} para la consulta '{query}'...")
        url_pagina = f"{url_base}&page={page_number}"
        soup = obtener_soup(API_KEY, url_pagina)

        if soup is None:
            break

        ids_pagina = obtener_ids(soup)
        if not ids_pagina:
            print(f"No se encontraron IDs en la página {page_number} para la consulta '{query}'. Terminando la recolección.")
            break

        ids_productos.update(ids_pagina)
        page_number += 1

fichero = "../res/ids.json"
os.makedirs(os.path.dirname(fichero), exist_ok=True)
with open(fichero, "w") as f:
    json.dump(list(ids_productos), f, indent=4)

print(f"Se guardaron {len(ids_productos)} IDs de productos en 'ids.json'.")

Obteniendo IDs de la página 1 para la consulta 'telefonos'...
Obteniendo IDs de la página 2 para la consulta 'telefonos'...
Obteniendo IDs de la página 3 para la consulta 'telefonos'...
Obteniendo IDs de la página 4 para la consulta 'telefonos'...
Obteniendo IDs de la página 5 para la consulta 'telefonos'...
Obteniendo IDs de la página 6 para la consulta 'telefonos'...
Obteniendo IDs de la página 7 para la consulta 'telefonos'...
Obteniendo IDs de la página 8 para la consulta 'telefonos'...
No se encontraron IDs en la página 8 para la consulta 'telefonos'. Terminando la recolección.
Se guardaron 275 IDs de productos en 'ids.json'.


## Obtener productos

In [77]:
def limpiar_unicode(texto):
    if texto:
        return unicodedata.normalize('NFKD', texto).encode('ascii', 'ignore').decode('ascii')
    return texto

def limpiar_signos(str):
    caracteres_a_quitar = ".,:;\"'"
    for caracter in caracteres_a_quitar:
        str = str.replace(caracter, "")
    return str

def obtener_precio_actual(soup):
    try:
        precio_actual = soup.find('span', {'class': 'a-price-whole'}).get_text(strip=True)
        precio_decimal = soup.find('span', {'class': 'a-price-fraction'}).get_text(strip=True)
        precio_actual = precio_actual + precio_decimal
        return limpiar_unicode(precio_actual)
    except:
        return None

def obtener_precio_anterior(soup):
    try:
        precio_anterior = soup.find('span', {'class': 'a-price a-text-price'}).find('span', {'class': 'a-offscreen'}).get_text(strip=True)
        return limpiar_unicode(precio_anterior)
    except:
        return None

def obtener_detalles_tecnicos(soup):
    detalles_tecnicos = {}
    global ids_noobtenidos
    try:
        tabla_detalles = soup.find('table', {'id': 'productDetails_techSpec_section_1'})
        if tabla_detalles:
            filas = tabla_detalles.find_all('tr')
            for fila in filas:
                clave = limpiar_signos(fila.find('th').get_text(strip=True))
                valor = fila.find('td').get_text(strip=True)
                detalles_tecnicos[limpiar_unicode(clave)] = limpiar_unicode(valor)
        else:
            ids_noobtenidos = ids_noobtenidos + 1
            print("No se ha podido obtener los detalles de este id")
            return None
    except Exception as e:
        ids_noobtenidos = ids_noobtenidos + 1
        print("No se ha podido obtener los detalles de este id")
        print(e)
        return None
    return detalles_tecnicos


def obtener_soup(api_key, url):
    params = {
        'api_key': api_key,
        'url': url,
        'country_code': 'ES'
    }
    response = requests.get('https://api.scraperapi.com/', params=params)
    if response.status_code == 200:
        return BeautifulSoup(response.text, 'html.parser')
    else:
        print(f'Error: {response.status_code}')
        return None

def obtener_datos_producto(api_key, url, product_id):
    soup = obtener_soup(api_key, url)
    if soup:
        precio_actual = obtener_precio_actual(soup)
        precio_anterior = obtener_precio_anterior(soup)
        detalles_tecnicos = obtener_detalles_tecnicos(soup)
        if detalles_tecnicos:
            return {
            '_id': product_id,
            'precio_actual': precio_actual,
            'precio_anterior': precio_anterior,
            **detalles_tecnicos
            }
    return None

In [78]:
fichero = "../res/ids.json"
with open(fichero, 'r') as file:
    product_ids = json.load(file)

ids_noobtenidos = 0
ids_buscados = 1
ids_totales = len(product_ids)
fichero_detalles = "../res/mobiles.json"

with open(fichero_detalles, "w") as outfile:
    outfile.write("[")
    first = True
    for product_id in product_ids:
        print(f"Obteniendo datos de {product_id} ({ids_buscados}/{ids_totales})")
        url = 'https://www.amazon.es/dp/' + product_id
        detalles = obtener_datos_producto(API_KEY, url, product_id)
        if detalles:
            if not first:
                outfile.write(",\n")
            json.dump(detalles, outfile, ensure_ascii=False, indent=4)
            first = False
        ids_buscados += 1
    outfile.write("\n]")
print(f"No se han podido obtener {ids_noobtenidos}/{ids_totales} IDs.")
print("Datos guardados")

Obteniendo datos de B0D9LNR55Z (1/11)
Obteniendo datos de B0BCKXGDGR (2/11)
Obteniendo datos de B0CHBHVX9K (3/11)
Obteniendo datos de B0D8QQ895Q (4/11)
Obteniendo datos de B0D54D58Q4 (5/11)
Obteniendo datos de B0CL9KJQPY (6/11)
Obteniendo datos de B08HNWHVQK (7/11)
Obteniendo datos de B0CJYH75VB (8/11)
Obteniendo datos de B0BYCGTQBP (9/11)
Obteniendo datos de B09YHKB7DT (10/11)
No se han podido obtener 0/11 IDs.
Datos guardados


## MongoDB

In [79]:
cliente = MongoClient("mongodb://localhost:27017/")
db = cliente["PIA"]
coleccion = db["products"]

### Insertar productos

In [80]:
with open("../res/mobiles.json", "r") as archivo:
    datos = json.load(archivo)

if isinstance(datos, list):
    for doc in datos:
        try:
            coleccion.update_one({"_id": doc["_id"]}, {"$set": doc}, upsert=True)
        except:
            print(doc)

else:
    datos["_id"] = datos["id"]
    del datos["id"]
    coleccion.insert_one(datos)

print("Datos insertados")


Datos insertados


### Exportar productos

In [81]:
from datetime import datetime

fecha_hora_actual = datetime.now().strftime("%d_%m_%Y_%H_%M")
carpeta = "../backup/"
nombre_archivo = f"backup_mobiles_{fecha_hora_actual}.json"
destino = carpeta + nombre_archivo
documentos = list(coleccion.find())

for doc in documentos:
    doc['_id'] = str(doc['_id'])

with open(destino, "w", encoding="utf-8") as archivo:
    json.dump(documentos, archivo, ensure_ascii=False, indent=4)

print("Base de datos descargada con éxito")


Base de datos descargada con éxito
