### Tutorial para Principiantes: Web Scraping de Páginas Protegidas Contra Robots

Web scraping puede ser una herramienta poderosa, pero cuando te enfrentas a páginas protegidas contra robots, necesitas tener en cuenta varias consideraciones y técnicas. A continuación, se detallan los pasos generales y algunas técnicas avanzadas para realizar web scraping de manera efectiva y respetuosa.

#### 1. Configuración del Entorno

#### 1.1 Instalación de Node.js

Node.js es un entorno de ejecución para JavaScript en el servidor. Necesitarás instalarlo para utilizar algunas herramientas de scraping.

Descargar e instalar Node.js:

Ve a la página oficial de Node.js: Nodejs.org
Descarga el instalador adecuado para tu sistema operativo y sigue las instrucciones para instalarlo.
Verificar la instalación:

![image.png](attachment:image.png)

#### 1.2 Instalación de Docker

Docker es una plataforma para desarrollar, enviar y ejecutar aplicaciones dentro de contenedores.

Descargar e instalar Docker:

Ve a la página oficial de Docker: Docker.com
Descarga Docker Desktop para tu sistema operativo e instálalo.
Verificar la instalación:

![image.png](attachment:image.png)

#### 2. Instalar las Dependencias
Crea un archivo requirements.txt para listar las dependencias necesarias para tu proyecto.

requirements.txt:

![image.png](attachment:image.png)

Instalar las dependencias:

![image.png](attachment:image.png)

#### 3. Configuración de ChromeDriver

ChromeDriver es una herramienta que permite controlar el navegador Chrome a través de Selenium.

Descargar ChromeDriver:

Ve a la página oficial de ChromeDriver https://developer.chrome.com/docs/chromedriver y descarga la versión correspondiente a tu versión de Chrome.
En mi caso he usado la version 126 (la version de Chrome debe ser igual que la version de Chromedriver)

Instalar ChromeDriver:

Coloca el archivo ejecutable de ChromeDriver en una ubicación accesible desde tu PATH, o especifícalo directamente en tu script de Selenium. (para añadir manualmente en Windows: Panel de control - Sistema y Seguridad - Sistema - Configuracion avanzada - Variables de entorno - Variables de sistema - Path - Editar). Agrega la ruta donde colocaste 'chromedriver.exe' y haz click en 'Aceptar' en todas as ventanas.

Verificar la instalacion de Chromedriver:

Abre una terminal y ejecuta:

chromedriver --version

#### 4. Pasos Detallados para Crear Archivos de Cookies en Formato JSON


Para crear archivos de cookies en formato JSON utilizando las herramientas de desarrollador de un navegador (por ejemplo, Google Chrome), puedes seguir estos pasos detallados:

Abrir las Herramientas de Desarrollador:

Abre Google Chrome.
Navega al sitio web del cual quieres obtener las cookies.
Haz clic derecho en cualquier parte de la página y selecciona "Inspeccionar" o presiona Ctrl+Shift+I (Windows) o Cmd+Opt+I (Mac).
Navegar a la Pestaña "Application" (Aplicación):

En las herramientas de desarrollador, selecciona la pestaña "Application" (o "Aplicación").
En el panel izquierdo, busca y expande la sección "Cookies" y selecciona el dominio del sitio web. Verás una tabla que contiene todas las cookies de ese dominio.
Exportar las Cookies:

Haz clic derecho en cualquier lugar de la tabla de cookies.
Selecciona "Copy all as HAR".
Abre un editor de texto (por ejemplo, Notepad, VSCode, Sublime Text) y pega el contenido copiado. El archivo HAR contiene las cookies y otras informaciones de la solicitud HTTP.
Extraer y Formatear las Cookies:

Filtra el contenido del archivo HAR para obtener solo las cookies. Las cookies se encuentran dentro de una estructura JSON bajo el campo cookies.
Extrae las cookies y guárdalas en un archivo JSON.

Opcion 2.

Uso de Extensiones de Navegador

Hay extensiones de navegador que permiten exportar cookies directamente en formato JSON. Una de estas extensiones es "EditThisCookie". Aquí te explico cómo usarla:

Instalar EditThisCookie:

Ve a la Chrome Web Store y busca "EditThisCookie".
Instala la extensión.
Exportar las Cookies:

Navega al sitio web del cual quieres exportar las cookies.
Haz clic en el icono de la extensión "EditThisCookie".
Selecciona "Exportar" para guardar las cookies en formato JSON.
Guarda el contenido en un archivo .json.

Guarda los cookies como 'cookiesXX.json´ (donde 'XX' es un numero unico) en el directorio de tu proyecto

#### 5. Creación del Archivo control.txt
El archivo control.txt se utiliza en tu script fra_discr_cookies.py para controlar el flujo de ejecución del script. Específicamente, permite pausar o abortar el script en función del contenido de este archivo. Esto es útil para gestionar largas sesiones de scraping y poder intervenir sin tener que detener manualmente el script desde la terminal.

Uso del Archivo control.txt en el Script

En el script fra_discr_cookies.py, hay una función read_control_file que lee el contenido del archivo control.txt. Dependiendo del contenido, el script puede pausar o abortar la ejecución.

Creación del Archivo control.txt

Paso 1: Crear el Archivo control.txt

Usar un Editor de Texto:
Abre tu editor de texto preferido (por ejemplo, Notepad, VSCode, Sublime Text).
Crea un nuevo archivo y guárdalo como control.txt en el directorio raíz de tu proyecto (donde está ubicado el script fra_discr_cookies.py).

Paso 2: Escribir Comandos en control.txt

El archivo control.txt puede contener los siguientes comandos:

pause: Pausa la ejecución del script.

abort: Detiene completamente la ejecución del script.

run (o cualquier otro contenido distinto de pause y abort): Permite que el script se ejecute normalmente.

#### 6. Estructura y Planificación del Scraping

1.1 Analizar la Jerarquía del Sitio.

Antes de comenzar con el scraping, es esencial entender la estructura del sitio web. Las páginas web complejas suelen tener una jerarquía significativa, lo que significa que deberás recopilar enlaces a las páginas que contienen la información que necesitas antes de hacer el scraping de los datos específicos.

Pasos:

Navegar por el Sitio: Examina el sitio para entender cómo se organizan las páginas y los datos.

Identificar Páginas Clave: Determina qué páginas contienen la información que necesitas.

1.2 Crear una Lista de Enlaces

Crea una lista de enlaces de las páginas que contienen la información que deseas extraer. Esta será la primera fase de tu scraping.


#### 7. Cómo Elegir y Validar Selectores CSS para un Script de Scraping

Para extraer datos de una página web, necesitas seleccionar los elementos HTML correctos. Esto se hace mediante selectores CSS. Vamos a ver cómo elegir y validar los selectores CSS usando las herramientas de desarrollador en Google Chrome, seguido de cómo integrarlos y validarlos en tu script de scraping.

Paso 1: Abrir las Herramientas de Desarrollador

Abrir Google Chrome.

Navegar a la Página Web: Ve a la página de la cual deseas extraer información.

Abrir Herramientas de Desarrollador:

Haz clic derecho en la página y selecciona "Inspeccionar" o presiona Ctrl+Shift+I (Windows) o Cmd+Opt+I (Mac).

Paso 2: Inspeccionar Elementos

Seleccionar el Elemento:

Usa la herramienta de selección (Ctrl+Shift+C) o haz clic en el icono de selección en la esquina superior izquierda de las herramientas de desarrollador.
Haz clic en el elemento de la página web que deseas seleccionar.
Ver el Código HTML:

El panel de "Elements" (Elementos) te mostrará el código HTML correspondiente al elemento seleccionado.
Observa las clases, IDs y otros atributos que puedes usar para crear selectores CSS.

Paso 3: Crear el Selector CSS

Identificar Atributos Únicos:

Los IDs suelen ser únicos. Ejemplo: #element_id.
Las clases pueden ser compartidas, pero puedes combinarlas con otras etiquetas o clases para hacerlas únicas. Ejemplo: .class1.class2.

Crear el Selector CSS:

Ejemplo de selector por ID: #element_id
Ejemplo de selector por clase: .element_class
Ejemplo de selector combinado: .element_class > .child_class


Crear el Selector CSS:

Ejemplo de selector por ID: #element_id
Ejemplo de selector por clase: .element_class
Ejemplo de selector combinado: .element_class > .child_class

Paso 4: Usar el Comando de Búsqueda para Probar Selectores CSS

Abrir el Comando de Búsqueda:

En el panel "Elements", presiona Ctrl+F (Windows) o Cmd+F (Mac) para abrir el campo de búsqueda.

Ingresar el Selector CSS:

Escribe o pega el selector CSS en el campo de búsqueda.

Verificar la Selección:

Los elementos que coinciden con el selector se resaltarán en la página y el HTML correspondiente se mostrará en el panel "Elements".
Si el selector es correcto, deberías ver el elemento resaltado.

#### 8.  Uso de VPN con IP Rotativo

Para evitar ser bloqueado, es fundamental usar una VPN con IP rotativa. Esto ayuda a distribuir las solicitudes entre varias direcciones IP y simular tráfico legítimo desde diferentes ubicaciones geográficas.

#### 9. Respetar Datos Sensibles y Hacer un Uso Respetuoso
El web scraping debe realizarse de manera ética y legal. A continuación se presentan algunas prácticas recomendadas:

Prácticas Éticas:

Revisar los Términos de Servicio: Asegúrate de que el scraping no infrinja los términos de servicio del sitio web.

Respetar la Privacidad: No extraigas ni almacenes datos personales sensibles sin consentimiento.

No Sobrecargar el Servidor: Implementa tiempos de espera entre solicitudes para evitar sobrecargar el servidor.

#### 10. Los ejemplos de scripts.


#### 10.1 .Web scraping https://aromo.ru/



1. Crear archivo de links de paginas que tengan los datos que nos interesan.

Abre tu línea de comandos o terminal y ejecuta el siguiente comando:

![image.png](attachment:image.png)

In [None]:
# Verificar la Instalación
from selenium import webdriver

# Inicializar un navegador (ejemplo usando Chrome)
driver = webdriver.Chrome()

# Cerrar el navegador
driver.quit()


In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# Ruta al ChromeDriver (reemplaza con la ruta real en tu sistema)
chrome_driver_path = 'C:\\chromedriver\\chromedriver.exe'  # Asegúrate de que esta ruta es correcta

# Configuración del servicio de Chrome
service = Service(chrome_driver_path)
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)

# URL de inicio
start_url = 'https://aromo.ru/perfumes/'
driver.get(start_url)

def collect_links_from_page(driver):
    links = []
    try:
        # Esperar a que los elementos carguen
        WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'a.block-offer-item__link')))
        perfume_elements = driver.find_elements(By.CSS_SELECTOR, 'a.block-offer-item__link')
        
        # Recolectar los enlaces
        for elem in perfume_elements:
            links.append(elem.get_attribute('href'))
    except Exception as e:
        print(f'Error al recolectar enlaces: {e}')
    return links

def go_to_next_page(driver, current_page):
    try:
        # Construir el URL de la siguiente página
        next_page_url = f'https://aromo.ru/perfumes/page/{current_page + 1}/'
        driver.get(next_page_url)
        time.sleep(2)  # Esperar a que la página cargue
    except Exception as e:
        print(f'Error al ir a la página siguiente: {e}')

all_links = []
current_page = 1
max_pages = 2000  # elegir la cantidad necesaria

while current_page <= max_pages:
    print(f'Recolectando enlaces de la página {current_page}')
    links = collect_links_from_page(driver)
    all_links.extend(links)
    
    # Ir a la siguiente página
    go_to_next_page(driver, current_page)
    current_page += 1

# Cerrar el driver
driver.quit()

# Guardar los enlaces en un archivo
with open('aro_perfume_links.txt', 'w') as file:
    for link in all_links:
        file.write(f'{link}\n')

print(f'Recolectados {len(all_links)} enlaces.')



resultado obtenido  (fragmento de archivo con los links de las paginas de los perfumes)

![image.png](attachment:image.png)

2.  Scraping aromo.ru

Instalar BeautifulSoup
Abre tu línea de comandos o terminal y ejecuta el siguiente comando:

![image.png](attachment:image.png)


Para evitar bloqueo he usado VPN con IP rotativos.

In [None]:
import csv
import os
import random
import json
import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup

# Ruta al ChromeDriver (reemplaza con la ruta real en tu sistema)
chrome_driver_path = 'C:\\chromedriver\\chromedriver.exe'

# Configuración del servicio de Chrome
service = Service(chrome_driver_path)
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)

# Ruta al archivo de control
control_file_path = 'control.txt'

# Función para leer el archivo de control
def read_control_file():
    with open(control_file_path, 'r') as file:
        return file.read().strip()

# Función para extraer información del perfume
def extract_perfume_info(driver, url):
    driver.get(url)
    soup = BeautifulSoup(driver.page_source, 'html.parser')

    name = soup.find('span', class_='perfume-page__title-name').text.strip() if soup.find('span', class_='perfume-page__title-name') else 'N/A'
    brand = soup.find('span', class_='perfume-page__title-brand').text.strip() if soup.find('span', class_='perfume-page__title-brand') else 'N/A'
    type_ = soup.find('span', class_='perfume-page__title-type').text.strip() if soup.find('span', class_='perfume-page__title-type') else 'N/A'
    
    rating_value = soup.find('div', class_='comments-and-reviews__value').text.strip() if soup.find('div', class_='comments-and-reviews__value') else 'N/A'
    rating_count = soup.find('div', class_='comments-and-reviews__reviews-count').text.strip() if soup.find('div', class_='comments-and-reviews__reviews-count') else 'N/A'
    
    # Limpiar los valores extraídos
    rating_value = rating_value.replace("\n", "").strip()
    rating_count = rating_count.replace("\n", "").strip()
    
    gender = soup.select_one('#facts > div > div > div:nth-child(6) > div.info-table-row__entry').text.strip() if soup.select_one('#facts > div > div > div:nth-child(6) > div.info-table-row__entry') else 'N/A'
    country = soup.select_one('#facts > div > div > div:nth-child(5) > div.info-table-row__entry > span > a')['href'].split('/')[-2] if soup.select_one('#facts > div > div > div:nth-child(5) > div.info-table-row__entry > span > a') else 'N/A'
    year = soup.select_one('#facts > div > div > div:nth-child(7) > div.info-table-row__entry > span > a').text.strip() if soup.select_one('#facts > div > div > div:nth-child(7) > div.info-table-row__entry > span > a') else 'N/A'
    segment = soup.select_one('#facts > div > div > div:nth-child(6) > div.info-table-row__entry > div > a')['href'].split('/')[-2] if soup.select_one('#facts > div > div > div:nth-child(6) > div.info-table-row__entry > div > a') else 'N/A'
    perfumers = [a['href'].split('/')[-2] for a in soup.select('#facts > div > div > div:nth-child(11) > div.info-table-row__content > div > div > a')]
    families = [a['href'].split('/')[-2] for a in soup.select('#pyramid > div > div > section.page-block-section.perfume-pyramid__groups > div > ul > li > a')]
    top_notes = [a['href'].split('/')[-2] for a in soup.select('#pyramid > div > div > section:nth-child(1) > div > figure > ul.composition-pyramid__top > li > a')]
    middle_notes = [a['href'].split('/')[-2] for a in soup.select('#pyramid > div > div > section:nth-child(1) > div > figure > ul.composition-pyramid__middle > li > a')]
    bottom_notes = [a['href'].split('/')[-2] for a in soup.select('#pyramid > div > div > section:nth-child(1) > div > figure > ul.composition-pyramid__bottom > li > a')]
    users_notes = [a['href'].split('/')[-2] for a in soup.select('#character > div > div > div.perfume-character__top > section.page-block-section.perfume-character__base-notes > div > div a')]

    return {
        "name": name,
        "brand": brand,
        "type": type_,
        "rating_value": rating_value,
        "rating_count": rating_count,
        "gender": gender,
        "country": country,
        "year": year,
        "segment": segment,
        "perfumers": perfumers,
        "families": families,
        "top_notes": top_notes,
        "middle_notes": middle_notes,
        "bottom_notes": bottom_notes,
        "users_notes": users_notes,
        "url": url
    }

# Función para cargar cookies desde archivos JSON y filtrarlas
def load_cookies(file_path):
    with open(file_path, 'r') as file:
        cookies = json.load(file)
    # Filtrar cookies para asegurarse de que 'sameSite' esté correcto
    for cookie in cookies:
        if 'sameSite' in cookie and cookie['sameSite'] not in ['Strict', 'Lax', 'None']:
            del cookie['sameSite']
    return cookies

# Lista de archivos de cookies
cookie_files = [
    'arocook00.json', 'arocook01.json', 'arocook02.json', 'arocook03.json', 'arocook04.json',
    'arocook05.json', 'arocook06.json', 'arocook07.json', 'arocook08.json', 'arocook09.json',
    'arocook10.json', 'arocook11.json', 'arocook12.json', 'arocook13.json', 'arocook14.json',
    'arocook15.json', 'arocook16.json', 'arocook17.json', 'arocook18.json', 'arocook19.json',
    'arocook20.json'
]

# Función para añadir cookies al navegador
def add_cookies(driver, cookies):
    driver.get('https://www.aromo.ru')  # Navegar al dominio correcto antes de añadir cookies
    for cookie in cookies:
        driver.add_cookie(cookie)
    print(f"Cookies from {current_cookie_file} added successfully.")

# Cargar la primera cookie
current_cookie_file = cookie_files[0]
current_cookies = load_cookies(current_cookie_file)
add_cookies(driver, current_cookies)

# Contador de iteraciones
iteration_count = 0
max_iterations = 800 # numero de iteraciones limitado para evitar bloqueos

# Función principal
def main():
    global iteration_count  # Declarar iteration_count como global

    # Leer las URLs desde el archivo perfume_links_aromo.txt
    with open('perfume_links_aromo.txt', 'r') as file:
        urls = [line.strip() for line in file]

    with open('aro_perfumes.csv', mode='w', newline='', encoding='utf-8') as file:
        fieldnames = [
            "name", "brand", "type", "rating_value", "rating_count", "gender", "country", "year", 
            "segment", "perfumers", "families", "top_notes", "middle_notes", "bottom_notes", "users_notes", "url"
        ]
        writer = csv.DictWriter(file, fieldnames=fieldnames)
        writer.writeheader()

        for url in urls:
            # Verificar si se debe pausar la ejecución
            if read_control_file() == "pause":
                print("Script pausado. Cambia el contenido de control.txt para continuar.")
                while read_control_file() == "pause":
                    time.sleep(10)

            if iteration_count >= max_iterations:
                # Pausar el script por 5 minutos
                print('Pausando por 5 minutos...')
                time.sleep(300)
                
                # Seleccionar un archivo de cookies al azar y cargarlo
                current_cookie_file = random.choice(cookie_files)
                current_cookies = load_cookies(current_cookie_file)
                
                # Limpiar cookies actuales y agregar las nuevas
                driver.delete_all_cookies()
                add_cookies(driver, current_cookies)
                
                # Reiniciar el contador de iteraciones
                iteration_count = 0
            
            perfume_info = extract_perfume_info(driver, url)
            writer.writerow(perfume_info)
            print(f"Scraped data from {url}")

            iteration_count += 1
            time.sleep(1)  # Pausa opcional para evitar bloqueos

if __name__ == "__main__":
    main()

driver.quit()
print("Scraping completado.")

resultado (fragmento de archivo aro_perfumes.csv)


![image.png](attachment:image.png)