<a href="https://colab.research.google.com/github/Damian0504/Unab.Pytest/blob/main/Pytest_Web_Scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. Hacer Solicitud HTTP
Primero, debes hacer una solicitud HTTP para obtener el contenido de la página web que deseas raspar.

In [None]:
import requests

url = 'https://example.com'
response = requests.get(url)

# Verifica si la solicitud fue exitosa
if response.status_code == 200:
    page_content = response.text
else:
    print(f'Error: {response.status_code}')


2. Analizar el Contenido HTML
Usa BeautifulSoup para analizar el HTML y extraer los datos necesarios.

In [None]:
from bs4 import Beutifulsoup

soup = BeautifulSoup(page_content, 'html.parser')

# Encuentra los datos que necesitas, por ejemplo, todos los títulos de artículos
titles = soup.find_all('h2', class_='article-title')

for title in titles:
    print(title.get_text())


3. Interactuar con Contenido Dinámico (opcional)
Si el contenido se carga dinámicamente a través de JavaScript, puedes usar Selenium para interactuar con la página.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager

options = Options()
options.headless = True  # Ejecuta el navegador en modo headless (sin interfaz gráfica)

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

url = 'https://example.com'
driver.get(url)

# Espera a que el contenido cargue y luego encuentra los elementos necesarios
titles = driver.find_elements(By.CLASS_NAME, 'article-title')

for title in titles:
    print(title.text)

driver.quit()

Respeta el archivo robots.txt:

Asegúrate de que estás cumpliendo con las directrices especificadas en robots.txt del sitio web.
No hagas solicitudes excesivas:

Usa un retardo entre solicitudes para no sobrecargar el servidor (puedes usar time.sleep).
Manejo de Errores:

Implementa manejo de errores adecuado para manejar respuestas HTTP fallidas o cambios en la estructura del HTML.
User-Agent:

Algunos sitios bloquean solicitudes que no tienen un User-Agent adecuado. Puedes añadir un User-Agent a tus solicitudes.

In [None]:
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

Ejemplo de un Web Scrapping de titulos de articulos de una pagina web

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

if response.status_code == 200:
    page_content = response.text
    soup = BeautifulSoup(page_content, 'html.parser')
    titles = soup.find_all('h2', class_='article-title')

    for title in titles:
        print(title.get_text())
else:
    print(f'Error: {response.status_code}')


Estructuración del Código
Primero, separa tu código de scraping en funciones dentro de un archivo Python, por ejemplo, scraper.py.

In [None]:
# scraper.py
import requests
from bs4 import BeautifulSoup

def fetch_page(url, headers=None):
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        raise Exception(f'Error: {response.status_code}')

def parse_titles(page_content):
    soup = BeautifulSoup(page_content, 'html.parser')
    titles = soup.find_all('h2', class_='article-title')
    return [title.get_text() for title in titles]

def scrape_titles(url):
    headers = {'User-Agent': 'Mozilla/5.0'}
    page_content = fetch_page(url, headers=headers)
    return parse_titles(page_content)

Crea un archivo de prueba, por ejemplo, test_scraper.py.

In [None]:
# test_scraper.py
import pytest
from scraper import fetch_page, parse_titles

def test_fetch_page(monkeypatch):
    class MockResponse:
        def __init__(self, text, status_code):
            self.text = text
            self.status_code = status_code

    def mock_get(*args, **kwargs):
        return MockResponse('<html><h2 class="article-title">Test Title</h2></html>', 200)

    monkeypatch.setattr('requests.get', mock_get)

    url = 'https://example.com'
    headers = {'User-Agent': 'Mozilla/5.0'}
    page_content = fetch_page(url, headers=headers)
    assert 'Test Title' in page_content

def test_parse_titles():
    html_content = '<html><h2 class="article-title">Test Title</h2></html>'
    titles = parse_titles(html_content)
    assert titles == ['Test Title']

def test_scrape_titles(monkeypatch):
    class MockResponse:
        def __init__(self, text, status_code):
            self.text = text
            self.status_code = status_code

    def mock_get(*args, **kwargs):
        return MockResponse('<html><h2 class="article-title">Test Title</h2></html>', 200)

    monkeypatch.setattr('requests.get', mock_get)

    url = 'https://example.com'
    titles = scrape_titles(url)
    assert titles == ['Test Title']

Explicación de las Pruebas
test_fetch_page:

Usa monkeypatch para reemplazar la función requests.get con una versión simulada que devuelve un MockResponse.
Verifica que el contenido de la página se obtiene correctamente.
test_parse_titles:

Prueba la función parse_titles con contenido HTML estático y verifica que extrae los títulos correctamente.
test_scrape_titles:

Combina las funciones fetch_page y parse_titles para probar el flujo completo de raspado usando monkeypatch para simular la respuesta de la solicitud HTTP.

Herramientas Necesarias
Para empezar con el web scraping en Python, necesitas familiarizarte con las siguientes bibliotecas:

Requests: Para hacer solicitudes HTTP y obtener el contenido de las páginas web.
BeautifulSoup: Para analizar (parsear) el HTML y extraer datos de él.
Selenium (opcional): Para interactuar con sitios web que usan JavaScript pesado para cargar contenido dinámico.
Instalación de Bibliotecas
Puedes instalar estas bibliotecas usando pip:
pip install requests
pip install beautifulsoup4
pip install selenium  # Solo si necesitas interactuar con JavaScript