# **Web Scraping**

El web scraping es un método automático para obtener grandes cantidades de datos de sitios web. La mayoría de estos datos son datos no estructurados en formato HTML que luego se convierten en datos estructurados en una base de datos para que puedan usarse en diversas aplicaciones o en corpus de texto. Existen muchas maneras de realizar web scraping para obtener datos de sitios web. Estas incluyen el uso de servicios en línea, API específicas o incluso la creación de código para web scraping desde cero. Muchos sitios web grandes, como Google, Twitter, Facebook, StackOverflow, etc., tienen API que permiten acceder a sus datos en formato estructurado.

Python es el lenguaje más popular para el web scraping, ya que gestiona la mayoría de los procesos con facilidad. Además, cuenta con diversas librerías creadas específicamente para el web scraping. Beautiful soup es una librería de Python muy adecuada para el web scraping. Crea un árbol de análisis que permite extraer datos del HTML de un sitio web. Beautiful soup también ofrece múltiples funciones para la navegación, la búsqueda y la modificación de estos árboles de análisis.


## **HTML**
* HTML significa lenguaje de marcado de hipertexto
* HTML es el lenguaje de marcado estándar para crear páginas web.
* HTML describe la estructura de una página web
* HTML consta de una serie de elementos


## **Estructura HTML**

* La `<!DOCTYPE html>` declaración define que este documento es un documento HTML5
* El `<html>` elemento es el elemento raíz de una página HTML.
* El `<head>` elemento contiene metainformación sobre la página HTML
* El `<title>` elemento especifica un título para la página HTML (que se muestra en la barra de título del navegador o en la pestaña de la página)
* El `<body>` elemento define el cuerpo del documento y es un contenedor para todo el contenido visible, como encabezados, párrafos, imágenes, hipervínculos, tablas, listas, etc.
* El `<h1>` elemento define un encabezado grande
* El `<p>` elemento define un párrafo

<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<h1>This is a Heading</h1>
<p>This is a paragraph.</p>

</body>
</html>

In [1]:
!pip install requests beautifulsoup4
# Instalamos las librerías requests y beautifulsoup4 para poder hacer peticiones a páginas web y
# luego analizar su contenido HTML desde Google Colab.



* !: El signo de exclamación al inicio indica que se está ejecutando un comando del sistema operativo (como si lo escribieras en la terminal o consola), no una instrucción de Python.

* pip install: pip es el sistema de gestión de paquetes de Python. install le dice a pip que debe instalar algo.

* requests: Es una librería de Python para hacer peticiones HTTP de manera sencilla. Se usa mucho para descargar contenido de páginas web o consumir APIs.

* beautifulsoup4: Es una librería para extraer y procesar datos de archivos HTML o XML. Muy útil para hacer scraping web (leer contenido estructurado de una página web).

In [2]:
import requests # Esto importa la librería requests, que se usa para hacer solicitudes HTTP (como acceder a una página web desde código).
from bs4 import BeautifulSoup # Esta línea importa la clase BeautifulSoup desde el módulo bs4. Se utiliza para analizar el HTML o XML descargado, y extraer de él elementos específicos, como títulos, enlaces, párrafos, etc.

In [3]:
# Creamos una variable con el url de la noticia
url = 'https://rpp.pe/economia/economia/aeropuerto-jorge-chavez-ositran-multa-a-lap-con-mas-de-s-3-millones-por-instalar-vidrios-defectuosos-en-la-torre-de-control-noticia-1639875'

| Código | Significado                | ¿Qué hacer?                                                   |
| ------ | -------------------------- | ------------------------------------------------------------- |
| `200`  | OK (todo bien)             | ✅ Puedes seguir                                               |
| `403`  | Prohibido                  | ❌ El servidor te bloqueó (a veces por protección contra bots) |
| `404`  | No encontrado              | ❌ La página no existe                                         |
| `500`  | Error interno del servidor | ❌ Problema del sitio web, no tuyo                             |


In [4]:
# requests.get(url): realiza una petición HTTP de tipo GET a la dirección web que está en la variable
response = requests.get(url)

# Comprobamos si la solicitud fue exitosa
# response.status_code: accede al código de estado HTTP que devuelve el servidor.
if response.status_code == 200:
    print("Página cargada correctamente")
else:
    print("Error al acceder a la página:", response.status_code)


Página cargada correctamente


In [5]:
# Convierte el HTML descargado desde la web (a través de requests) en un objeto soup que puedes explorar fácilmente para encontrar etiquetas, atributos, texto, etc.
soup = BeautifulSoup(response.content, 'html.parser')


* BeautifulSoup es una clase de la biblioteca bs4 (Beautiful Soup 4) que permite analizar documentos HTML o XML.

* Crea un árbol de objetos a partir del contenido de una página web. Ese árbol permite buscar, navegar y extraer partes específicas como <title>, <p>, <a>, etc.

In [6]:
# Buscamos todos los párrafos
# soup.find_all('p') busca todas las etiquetas <p> en el documento HTML.
parrafos = soup.find_all('p')

# Limpiamos y unimos el texto
# Creamos una variable llamada texto_noticia como una cadena vacía ('').
texto_noticia = ''

# Este es un bucle for que recorre cada elemento p dentro de la lista parrafos.
for p in parrafos: # p representa un párrafo
    texto = p.get_text() # p.get_text() extrae solo el texto limpio dentro de esa etiqueta, sin etiquetas HTML ni código.
    texto_noticia += texto + '\n'  # Concatenamos ese texto a texto_noticia usando +=, y le añadimos un salto de línea '\n' para separar cada párrafo y que el texto final sea legible.

# Mostrar los primeros 1000 caracteres
print(texto_noticia[:1000])


por Fiorella Hokama
Francisco Jaramillo, gerente de supervisión y supervisión del Organismo Supervisor de la Inversión en Infraestructura de Transporte de Uso Público (Ositrán), se presentó en Economía Para Todos por RPP y detalló las acciones que viene realizando la entidad.
"En este terminal que está en operación, Ositrán viene realizando una supervisión y cumplimiento de niveles de servicio", dijo al iniciar y agregó que "si se determina un incumplimiento, se realizará un procedimiento administrativo sancionador".
► ¿Tienes un viaje al exterior? Así funciona el nuevo sistema Migracheck en el Aeropuerto Jorge Chávez
El especialista confirmó que no haber entregado el Nuevo Terminal del Aeropuerto Jorge Chávez el 30 de enero, es una falta en el contrato con Lima Airport Partners (LAP), por lo cual "esa es otra imputación por no haber concluido y puesto en operación en la fecha establecida. Esa es otra imputación que en su momento se hará de conocimiento que le aplica una sanción al res

In [7]:
# Guardamos el contenido en un archivo de texto
with open('noticia.txt', 'w', encoding='utf-8') as archivo:
    archivo.write(texto_noticia)

print("Contenido guardado en 'noticia.txt'")

Contenido guardado en 'noticia.txt'


* open() es una función para abrir un archivo. Aquí la usamos para crear o sobrescribir un archivo llamado 'noticia.txt'.

* El modo 'w' significa escritura (write): si el archivo ya existe, se borra el contenido anterior y se escribe de nuevo.

* encoding='utf-8' asegura que el archivo se guarde con codificación UTF-8, que soporta caracteres especiales (acentos, ñ, etc.), muy común en textos en español.

* with es una estructura que abre el archivo y lo cierra automáticamente cuando termina el bloque, evitando errores y liberando recursos.

* archivo es el nombre que damos al objeto que representa el archivo abierto.

In [8]:
# Lista con las URLs que quieres procesar
urls = [
    'https://rpp.pe/politica/actualidad/yonhy-lescano-acuso-al-gobierno-de-coordinar-la-fuga-de-nadine-heredia-a-brasil-noticia-1629266',
    'https://elcomercio.pe/politica/justicia/ollanta-humala-y-nadine-heredia-fiscalia-presenta-126-testigos-y-casi-700-pruebas-documentales-en-acusacion-por-caso-gasoducto-sur-noticia/'
]

for i, url in enumerate(urls, start=1):
    # Enumeramos las URLs para tener un contador 'i' empezando en 1
    # 'i' es el número de la noticia, 'url' es la dirección web a procesar

    print(f"\nProcesando noticia {i}:\n{url}")
    # Imprimimos un mensaje indicando qué noticia se está procesando y su URL

    # Solicitar la página web con la URL actual
    response = requests.get(url)

    # Verificar si la solicitud fue exitosa (código 200 significa éxito)
    if response.status_code != 200:
        # Si el código no es 200, imprimir un mensaje de error con el código recibido
        print(f"Error al acceder a la página {url}, código: {response.status_code}")

        # Saltar a la siguiente iteración del ciclo (no procesar esta URL)
        continue

    # Parseamos el contenido HTML de la página usando BeautifulSoup con el parser 'html.parser'
    soup = BeautifulSoup(response.content, 'html.parser')

    # Extraemos todos los párrafos <p>
    parrafos = soup.find_all('p')

    # Extraemos y unimos el texto
    texto_noticia = ''
    for p in parrafos:
        texto_noticia += p.get_text() + '\n'

    # Guardamos cada noticia en un archivo separado
    nombre_archivo = f'noticia_{i}.txt'
    with open(nombre_archivo, 'w', encoding='utf-8') as archivo:
        archivo.write(texto_noticia)

    print(f"Noticia {i} guardada en '{nombre_archivo}'")


Procesando noticia 1:
https://rpp.pe/politica/actualidad/yonhy-lescano-acuso-al-gobierno-de-coordinar-la-fuga-de-nadine-heredia-a-brasil-noticia-1629266
Noticia 1 guardada en 'noticia_1.txt'

Procesando noticia 2:
https://elcomercio.pe/politica/justicia/ollanta-humala-y-nadine-heredia-fiscalia-presenta-126-testigos-y-casi-700-pruebas-documentales-en-acusacion-por-caso-gasoducto-sur-noticia/
Noticia 2 guardada en 'noticia_2.txt'


In [9]:
# Lista con las URLs que quieres procesar
urls = [
    'https://rpp.pe/politica/actualidad/yonhy-lescano-acuso-al-gobierno-de-coordinar-la-fuga-de-nadine-heredia-a-brasil-noticia-1629266',
    'https://elcomercio.pe/politica/justicia/ollanta-humala-y-nadine-heredia-fiscalia-presenta-126-testigos-y-casi-700-pruebas-documentales-en-acusacion-por-caso-gasoducto-sur-noticia/'
]

# Creamos el archivo 'noticias_combinadas.txt' en modo escritura ('w') con codificación UTF-8
# Esto permite escribir texto en el archivo y asegura que caracteres especiales se guarden bien
with open('noticias_combinadas.txt', 'w', encoding='utf-8') as archivo:

    # Recorremos la lista de URLs, enumerándolas desde 1 para tener un contador de noticias
    for i, url in enumerate(urls, start=1):
        # Mostramos en consola cuál noticia estamos procesando y la URL
        print(f"\nProcesando noticia {i}:\n{url}")

        # Realizamos la solicitud HTTP para obtener el contenido de la página web
        response = requests.get(url)

        # Verificamos que la solicitud haya sido exitosa (código 200)
        if response.status_code != 200:
            # Si hay error, mostramos un mensaje con el código de error y pasamos a la siguiente URL
            print(f"Error al acceder a la página {url}, código: {response.status_code}")
            continue

        # Parseamos el contenido HTML de la página usando BeautifulSoup con el parser 'html.parser'
        soup = BeautifulSoup(response.content, 'html.parser')

        # Buscamos todos los elementos <p> que normalmente contienen párrafos de texto
        parrafos = soup.find_all('p')

        # Inicializamos una cadena vacía para acumular el texto de los párrafos
        texto_noticia = ''

        # Recorremos cada párrafo encontrado
        for p in parrafos:
            # Extraemos solo el texto limpio del párrafo y lo agregamos a la variable, con un salto de línea
            texto_noticia += p.get_text() + '\n'

        # Escribimos en el archivo un separador para distinguir las noticias
        archivo.write(f"\n--- Noticia {i} ---\n\n")

        # Escribimos el texto completo de la noticia en el archivo
        archivo.write(texto_noticia)

        # Informamos que la noticia fue agregada correctamente al archivo
        print(f"Noticia {i} agregada a 'noticias_combinadas.txt'")

# Mensaje final para indicar que todas las noticias fueron procesadas y guardadas
print("¡Todas las noticias guardadas en un solo archivo!")


Procesando noticia 1:
https://rpp.pe/politica/actualidad/yonhy-lescano-acuso-al-gobierno-de-coordinar-la-fuga-de-nadine-heredia-a-brasil-noticia-1629266
Noticia 1 agregada a 'noticias_combinadas.txt'

Procesando noticia 2:
https://elcomercio.pe/politica/justicia/ollanta-humala-y-nadine-heredia-fiscalia-presenta-126-testigos-y-casi-700-pruebas-documentales-en-acusacion-por-caso-gasoducto-sur-noticia/
Noticia 2 agregada a 'noticias_combinadas.txt'
¡Todas las noticias guardadas en un solo archivo!
