# [Actividad extracurricular 12] Web scraping

# Web Scraping

El **web scraping** es una técnica automatizada para extraer datos y contenido de sitios web. Esta herramienta resulta especialmente útil cuando se requiere recopilar grandes volúmenes de información de forma rápida y eficiente.  
Se trata de un conjunto de métodos que permiten obtener datos directamente de la web sin intervención manual. Sus aplicaciones son variadas e incluyen:  

- Investigación de mercado.  
- Comparación de precios.  
- Supervisión de contenido.  
- Recolección de datos de diversas fuentes en línea.  

# Funcionamiento

El web scraping se lleva a cabo mediante herramientas y librerías especializadas en distintos lenguajes de programación. Python es uno de los lenguajes más populares en este campo gracias a librerías como **BeautifulSoup** y **Scrapy**.  

Con esta técnica, es posible extraer datos desde diversas fuentes:  

- Motores de búsqueda.  
- Feeds RSS.  
- Sitios web gubernamentales.  

Aunque muchos sitios permiten el acceso automatizado mediante scrapers o crawlers, algunos imponen restricciones que pueden requerir métodos o herramientas adicionales.  
Por ejemplo:  

- Extraer información de contenido visual, como imágenes, puede ser más complejo.  
- Obtener datos de elementos dinámicos que dependen de JavaScript suele demandar técnicas avanzadas.  

# Consideraciones legales y éticas

Al realizar web scraping, es crucial respetar las normativas legales y éticas. Muchos sitios web especifican sus políticas sobre el acceso automatizado a través del archivo **robots.txt**.  

Ignorar estas directrices puede generar:  

- Sanciones legales.  
- Restricción del acceso al sitio web.  

Por lo tanto, es importante actuar de manera responsable y asegurarse de cumplir con las reglas establecidas para evitar problemas legales y éticos.


In [None]:
# Usando BeatifulSoup
import requests
from bs4 import BeautifulSoup
# URL del sitio web
url = 'https://www.epn.edu.ec'
# Realizamos la solicitud HTTP
response = requests.get(url)
# Si la solicitud es exitosa (status 200), continuamos
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# Extraemos los títulos del sitio
titles = soup.find_all('h1') # Busca todos los <h1> en la página
for title in titles:
print(title.text)
# Usando Scrapy
from requests_html import HTMLSession
# Crear una sesión de requests HTML
session = HTMLSession()
# URL del sitio web
url = 'https://www.epn.edu.ec'
# Realizar la solicitud HTTP al sitio web
response = session.get(url)
# Extraer todos los títulos de los encabezados <h1>
for title in response.html.find('h1'):
print({'Title': title.text})
# Cerrar la sesión cuando termine
session.close()