# Web Scraping con Python
**Nombre del estudiante:** Quispe Sucullani Jose David
**Curso:** Inteligencia Artificial II
**Práctico:** 1


## Introducción
El Web Scraping es una técnica ampliamente utilizada en el campo de la inteligencia artificial, ciencia de datos y minería web. Permite la recolección automática de datos desde páginas web, sin depender de interfaces gráficas o APIs. Este proceso es esencial cuando se necesita acceder a información estructurada o no estructurada en la web para tareas de análisis, predicción o entrenamiento de modelos.

En este práctico se desarrollará una herramienta en Python que permite extraer información textual e imágenes desde una página web pública. Se explicarán detalladamente las herramientas utilizadas, el procedimiento, así como las ventajas y desventajas de esta técnica.

## Herramientas Utilizadas
- **requests**: Para realizar peticiones HTTP y obtener el contenido HTML de la página.
- **BeautifulSoup (bs4)**: Para analizar y recorrer el contenido HTML de la página.
- **os**: Para la gestión de carpetas y archivos en el sistema.
- **urllib.parse.urljoin**: Para resolver correctamente las URLs relativas de imágenes.


## Instalación de Librerías
Antes de comenzar, es necesario asegurarse de que las bibliotecas `requests` y `beautifulsoup4` estén instaladas. Esto puede hacerse ejecutando la siguiente celda:

In [1]:
!pip install requests beautifulsoup4



## Importación de Librerías
Se importan las librerías necesarias para desarrollar el programa de scraping.

In [2]:
import requests
from bs4 import BeautifulSoup
import os
from urllib.parse import urljoin

## Procedimiento Detallado
1. Se realiza una petición HTTP a la página web de destino utilizando `requests.get()`.
2. Se utiliza `BeautifulSoup` para interpretar el código HTML de la página.
3. Se extraen todos los textos que se encuentren dentro de las etiquetas `<p>` (párrafos).
4. Se buscan todas las etiquetas `<img>` para identificar imágenes.
5. Las imágenes se descargan en formato binario y se guardan localmente.
6. Todo el contenido (texto e imágenes) se almacena en una carpeta llamada `scraped_data`.

## Función Principal para el Web Scraping

In [3]:
def scrape_website(url, output_folder='scraped_data'):
    # Realizar la solicitud HTTP a la página
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    # Crear la carpeta donde se guardarán los datos extraídos
    os.makedirs(output_folder, exist_ok=True)

    # Extraer textos desde etiquetas <p>
    paragraphs = soup.find_all('p')
    with open(os.path.join(output_folder, 'contenido_textual.txt'), 'w', encoding='utf-8') as f:
        for p in paragraphs:
            texto = p.get_text(strip=True)
            if texto:
                f.write(texto + '\n')

    # Extraer imágenes desde etiquetas <img>
    images = soup.find_all('img')
    for i, img in enumerate(images):
        img_url = img.get('src')
        if img_url:
            img_url = urljoin(url, img_url)
            try:
                img_data = requests.get(img_url).content
                with open(os.path.join(output_folder, f'imagen_{i+1}.jpg'), 'wb') as f:
                    f.write(img_data)
            except Exception as e:
                print(f"No se pudo descargar la imagen: {img_url}")
    print(f"Extracción finalizada. Archivos guardados en la carpeta '{output_folder}'.")

## Ejecución de la Función con una URL de Prueba
Para efectos de prueba, se puede utilizar una página con texto e imágenes como un artículo de Wikipedia.

In [4]:
scrape_website('https://es.wikipedia.org/wiki/Python')

Extracción finalizada. Archivos guardados en la carpeta 'scraped_data'.


## Verificación de los Archivos Guardados
Después de ejecutar el scraping, se puede listar el contenido de la carpeta donde se guardaron los datos.

In [5]:
print('Archivos guardados en la carpeta scraped_data:')
for archivo in os.listdir('scraped_data'):
    print('-', archivo)

Archivos guardados en la carpeta scraped_data:
- imagen_16.jpg
- imagen_2.jpg
- imagen_15.jpg
- imagen_11.jpg
- imagen_14.jpg
- imagen_7.jpg
- imagen_6.jpg
- imagen_20.jpg
- imagen_13.jpg
- imagen_18.jpg
- imagen_8.jpg
- imagen_10.jpg
- imagen_12.jpg
- imagen_21.jpg
- contenido_textual.txt
- imagen_17.jpg
- imagen_9.jpg
- imagen_1.jpg
- imagen_5.jpg
- imagen_19.jpg
- imagen_4.jpg
- imagen_22.jpg
- imagen_3.jpg


## Ventajas del Web Scraping
- Permite recolectar grandes volúmenes de información de manera automática.
- Es útil cuando una página no ofrece APIs para acceder a sus datos.
- Puede ser adaptado a múltiples formatos de datos: texto, imágenes, tablas, etc.
- Facilita análisis comparativos, monitoreo de precios, o recopilación de información pública.


## Desventajas y Consideraciones Éticas
- Muchas páginas web bloquean el acceso automatizado a través del archivo `robots.txt`.
- El scraping excesivo puede afectar el rendimiento del servidor objetivo.
- Es posible infringir términos y condiciones si no se tiene autorización explícita.
- No todas las páginas web permiten el acceso a datos protegidos mediante JavaScript o autenticación.
- Se deben tomar medidas para evitar la sobrecarga del sitio, como agregar `time.sleep()` entre peticiones.

## Conclusión
El Web Scraping es una herramienta poderosa para la obtención de datos en el contexto de inteligencia artificial. En este trabajo práctico se implementó un script básico para obtener información textual e imágenes desde una página web pública. El estudiante aprendió a utilizar bibliotecas especializadas de Python y a estructurar el flujo de trabajo de recolección de datos, reconociendo sus beneficios, limitaciones y buenas prácticas.