<a href="https://colab.research.google.com/github/anadiedrichs/procesamientoDelHabla/blob/main/clase_2_webscrapping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Web Scrapping

Utilizar herramientas de software (scripts, librerías) para extraer información de una página web.

En el siguiente ejemplo quiero extraer el discurso brindado por Malala

In [2]:
! pip install requests beautifulsoup4 html5lib

Defaulting to user installation because normal site-packages is not writeable


[notice] A new release of pip is available: 24.0 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip





## Introducción

Extraer la cita del día de la web "https://es.wikiquote.org/wiki/Portada"

In [3]:
import requests
from bs4 import BeautifulSoup

In [None]:
# URL de la portada de Wikiquote en español
url = "https://es.wikiquote.org/wiki/Portada"

respuesta = requests.get(url)   # Realizar la solicitud HTTP
respuesta.raise_for_status()    # Lanza una excepción si hay un error en la solicitud

In [7]:
# Analizar el contenido HTML de la página
sopa = BeautifulSoup(respuesta.text, 'html.parser')

In [9]:
sopa.find("div", style="text-align:center; font-weight: bold; color: #090960;").get_text()

'No hay cosa que haga más daño a una nación como el que la gente astuta pase por inteligente'

## Sitios web estáticos

In [11]:
url_wikipedia = "https://en.wikipedia.org/wiki/Natural_language_processing"

respuesta = requests.get(url_wikipedia) # Realizar la solicitud HTTP
respuesta.raise_for_status()            # Lanza una excepción si hay un error en la solicitud

In [12]:
wiki_sopa = BeautifulSoup(respuesta.text, "html5lib")

### Extraer los títulos H1

In [13]:
wiki_sopa.find("h1").get_text()

'Natural language processing'

### Función get_text()

In [14]:
wiki_sopa.get_text()

'\n\nNatural language processing - Wikipedia\n(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available";var cookie=document.cookie.match(/(?:^|; )enwikimwclientpreferences=([^;]+)/);if(cookie){cookie[1].split(\'%2C\').forEach(function(pref){className=className.replace(new RegExp(\'(^| )\'+pref.replace(/-clientpref-\\w+$|[^\\w-]+/g,\'\')+\'-clientpref-\\\\w+( |$)\'),\'$1\'+pref+\'$2\');});}document.documentElement.className=className;}());RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigi

### Extraer títulos H2

In [15]:
wiki_sopa.find_all("h2")

[<h2 class="vector-pinnable-header-label">Contents</h2>,
 <h2 id="History">History</h2>,
 <h2 id="Approaches:_Symbolic,_statistical,_neural_networks"><span id="Approaches:_Symbolic.2C_statistical.2C_neural_networks"></span>Approaches: Symbolic, statistical, neural networks<span class="anchor" id="Statistical_natural_language_processing_(SNLP)"></span></h2>,
 <h2 id="Common_NLP_tasks">Common NLP tasks</h2>,
 <h2 id="General_tendencies_and_(possible)_future_directions"><span id="General_tendencies_and_.28possible.29_future_directions"></span>General tendencies and (possible) future directions</h2>,
 <h2 id="See_also">See also</h2>,
 <h2 id="References">References</h2>,
 <h2 id="Further_reading">Further reading</h2>,
 <h2 id="External_links">External links</h2>]

### iframes

In [16]:
url = "https://www.es.amnesty.org/en-que-estamos/noticias/noticia/articulo/discurso-de-malala-que-nadie-sea-olvidado/"

In [17]:
try:
    response = requests.get(url)
    response.raise_for_status()  # Raise an exception for bad status codes

except requests.exceptions.RequestException as e:
    print(f"Error al consultar la URL {e}")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

In [18]:
print(response.text)

<!DOCTYPE html>
<html lang="es">
<head>

<meta charset="utf-8">
<!-- 
	Services provided by Plexus Tech - https://www.plexus.es/

	This website is powered by TYPO3 - inspiring people to share!
	TYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.
	TYPO3 is copyright 1998-2025 of Kasper Skaarhoj. Extensions are copyright of their respective owners.
	Information and contribution at https://typo3.org/
-->


<link rel="icon" href="/fileadmin/user_upload/global/images/favicon.ico" type="image/vnd.microsoft.icon">
<title>Discurso de Malala: “Que nadie sea olvidado”</title>
<meta name="generator" content="TYPO3 CMS">
<meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1">
<meta property="og:type" content="article">
<meta property="og:url" content="https://www.es.amnesty.org/en-que-estamos/noticias/noticia/articulo/discurso-de-malala-que-nadie-sea-olvidado/">
<meta property="og:title" content="Di

### Armamos nuestra "sopa de letras"

In [19]:
soup = BeautifulSoup(response.content, "html5lib")

In [20]:
soup.find_all("h1")

[<h1 class="h3" itemprop="headline">Discurso de Malala: “Que nadie sea olvidado” </h1>]

In [21]:
soup.find("h1").get_text()

'Discurso de Malala: “Que nadie sea olvidado” '

Observo cuáles son todos los elementos iframe

In [22]:
soup.find_all("iframe")

[<iframe height="0" src="https://www.googletagmanager.com/ns.html?id=GTM-5JHK4F4" style="display:none;opacity:0" title="Iframe for Google Tag Manager" width="0">
         </iframe>,
 <iframe class="height-100%" title="Ventana modal con opciones de configuración de cookies"></iframe>,
 <iframe class="width-100% height-100%" data-src="/en-que-estamos/noticias/noticia/" title="Ventana modal con opciones de configuración de cookies"></iframe>]

## Sitios web dinámicos (usaremos Selenium)

In [24]:
! pip install selenium

Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 24.0 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
from bs4 import BeautifulSoup
import time

# configurar navegador en modo headless (sin ventana)
options = Options()
options.add_argument("--headless")  # opcional: ejecutar sin abrir ventana
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

# abrir la página principal
driver = webdriver.Chrome(options=options)
driver.get("https://www.es.amnesty.org/en-que-estamos/noticias/noticia/articulo/discurso-de-malala-que-nadie-sea-olvidado/")

# esperar unos segundos para que se cargue el iframe dinámicamente
time.sleep(5)

In [None]:
# obtener todo el HTML ya procesado
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

In [None]:
texto = soup.get_text()
texto[3001:4000]    # un fragmento del contenido

'n el MediterráneoLas protestas de Líbano explicadasEfectos y defectos de la pena de muerteYemen: La guerra olvidadaDerechos hoyEs mi cuerpo. No lo toquesInfancia robada en la República Democrática del CongoIdlib: ¡Millones de personas necesitan protección ya!Las condenadas en IrakLa catástrofe humanitaria en Guta orientalDevoluciones en México: personas ignoradas y sin protecciónColombia: Paz desprotegidaPersonas sin rastro en Siria50 años de ocupación israelíCatástrofe civil en Mosul, IrakMenores intersexualesSiria, seis años de conflictoLa muerte del periodismo en TurquíaAceite de palmaItalia: Puntos críticos¿Hogar dulce hogar? “Si me quedo, me matan”Esperanzas atrapadasAtaques en IránLa represión de China contra abogados y abogadas de derechos humanosCárceles de tortura siriasTrabajo infantil y móvilesMatrimonios forzados en Burkina FasoLa esperanza ha desaparecido en GreciaQatar, la copa mundial de la vergüenzaReasentamientoLa primavera árabe, 5 años despuésBlogCampañasTrump y los

In [None]:
import re

# Ejemplo: extraer de texto todo el string que empieza con "La escolar paquista" y finaliza con "Que nadie sea olvidado"
texto = soup.get_text()

patron = r"La escolar paquista.*?Que nadie sea olvidado"
coincidencias = re.findall(patron, texto, re.DOTALL)    # buscar el patrón utilizando expresiones regulares

for coincidencia in coincidencias:
  print(coincidencia)

La escolar paquistaní Malala Yousafzai, activista en favor del derecho a la educación que fue herida gravemente en 2012 por disparos de los talibanes paquistaníes, ha sido galardonada por Amnistía Internacional con el premio Embajadora de Conciencia 2013. Durante la ceremonia de entrega de los premios, celebrada en Dublín, Malala agradeció a Amnistía Internacional su labor y defendió la importancia de la educación. Estas fueron sus palabras: Queridos y respetados hermanos y hermanas, secretario general Salil Shetty, señor alcalde, señor ministro de Educación, Bono, Roger Waters y Harry Belafonte:Es un gran honor para mí estar de nuevo aquí en Irlanda, donde los ojos siempre sonríen y se oye a los ángeles cantar. La vez anterior fui invitada a Tipperary, cuyos bellos paisajes me recordaron a mi ciudad, Swat, con sus exuberantes colinas verdes, sus montañas con altos árboles y sus ríos cristalinos. Decimos que Swat es un paraíso terrenal, e Irlanda comparte esa belleza. Pero, además de l

In [35]:
coincidencia

'La escolar paquistaní Malala Yousafzai, activista en favor del derecho a la educación que fue herida gravemente en 2012 por disparos de los talibanes paquistaníes, ha sido galardonada por Amnistía Internacional con el premio Embajadora de Conciencia 2013. Durante la ceremonia de entrega de los premios, celebrada en Dublín, Malala agradeció a Amnistía Internacional su labor y defendió la importancia de la educación. Estas fueron sus palabras: Queridos y respetados hermanos y hermanas, secretario general Salil Shetty, señor alcalde, señor ministro de Educación, Bono, Roger Waters y Harry Belafonte:Es un gran honor para mí estar de nuevo aquí en Irlanda, donde los ojos siempre sonríen y se oye a los ángeles cantar. La vez anterior fui invitada a Tipperary, cuyos bellos paisajes me recordaron a mi ciudad, Swat, con sus exuberantes colinas verdes, sus montañas con altos árboles y sus ríos cristalinos. Decimos que Swat es un paraíso terrenal, e Irlanda comparte esa belleza. Pero, además de 

In [None]:
driver.quit()

# Otros recursos

Puedes seguir paso a paso este taller para aprender más sobre webscrapping

https://github.com/rivaquiroga/taller-web-scraping-python-2023
