# **Modelos estadísticos del lenguaje**

## **Web scraping**

El web scraping es una técnica utilizada para extraer información de sitios web. En su forma más básica, implica recuperar una página web y luego extraer datos necesarios de ella. Entre las aplicaciones más comunes del web scraping encontramos:

- **Análisis de Datos y Minería de Datos:** Para recopilar grandes conjuntos de datos para análisis posterior.

- **SEO (Optimización de Motores de Búsqueda):** Para analizar datos de sitios web, como metadatos, palabras clave, backlinks, etc.

- **E-commerce:** Para monitorear precios y disponibilidad de productos en diferentes plataformas.

- **Investigación de Mercados:** Para recopilar datos sobre tendencias del mercado, competencia, preferencias de los consumidores, etc.

- **Automatización de Tareas:** Para automatizar tareas repetitivas, como la entrada de datos.

Una de las librerías más usadas en este ámbito es [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

## **Beautiful Soup**

Beautiful Soup es una biblioteca de Python para extraer datos de archivos HTML y XML. Con ella puedes hacer:

- Parsing de HTML y XML: Beautiful Soup puede parsear (analizar y estructurar) documentos HTML y XML, lo que facilita la extracción de datos de estos tipos de archivos.

- Navegación en el Árbol de Sintaxis: Una vez que un documento ha sido parseado, Beautiful Soup permite navegar y buscar a través del árbol de sintaxis de forma fácil y efectiva, utilizando diversos métodos de búsqueda.

- Manipulación de Documentos: Además de permitir la extracción de datos, Beautiful Soup también puede modificar el documento, lo que permite, por ejemplo, cambiar tags, atributos, y contenido de texto.

- Extracción de Información: Puedes extraer información específica de un documento, como obtener todos los URLs en una página, o encontrar todos los elementos con una clase específica.


### Instalación

In [None]:
pip install beautifulsoup4
pip install lxml

### Extracción de información

Vamos a acceder a mi web (http://cayetanoguerra.github.io/ia/) y extraer información de ella. Concretamente, queremos extraer el título y los temas que hay. Sabemos que están bajo los tags `<h1>` y `<h3>` respectivamente.

In [3]:
from bs4 import BeautifulSoup
import requests

response = requests.get('http://cayetanoguerra.github.io/ia/')
soup = BeautifulSoup(response.content, 'lxml')

# Encuentra el primer elemento <h1>
h1 = soup.find('h1')
print(h1.text)

# Encuentra todos los elementos <h3>
paragraphs = soup.find_all('h3')
for p in paragraphs:
    print(p.text)


Inteligencia Artificial

Python


Búsquedas


Redes neuronales


Aprendizaje por refuerzo


Sistemas basados en reglas


Computación evolutiva


Redes Bayesianas


Planificación


Machine Learning


Procesamiento del Lenguaje Natural (NLP)


Misc.



Supongamos ahora que queremos sacar todo el texto la página web de un periódico. Para ello, podemos usar el método `get_text()` de la clase `BeautifulSoup`.

In [7]:
from bs4 import BeautifulSoup
import requests

response = requests.get('https://www.marca.com/futbol/seleccion/2023/09/06/64f85cf9e2704e573c8b459c.html')

soup = BeautifulSoup(response.content, 'lxml')

text = soup.get_text("|", strip=True)
print(text)

Selección española: Carvajal: "En ningún momento he dicho que Jenni no sea la víctima" | Marca|Es noticia:|La Vuelta|Mercado de fichajes|La Vuelta horario|Dani Carvajal rueda de prensa|Marc Crosas|Montse Tomé|Brindis Vero Boquete|Semifinales US Open|Carvajal|Evenepoel|Canadá - Serbia TV|Partidos mundial baloncesto hoy|Alcaraz - Zverev TV|Djokovic - Shelton TV|Carta Terelu|Pedro Piqueras|María Teresa Campos|Cuartos final Mundial baloncesto|Invitados el Hormiguero|Vídeo diarrea avión|Precio luz hoy|Resultados fútbol|Calendario F1|Calendario Liga|Bienestar|Fitness|Alimentación|Portada de Marca|Edición seleccionada|ES|Ediciones:|ES (España)|EN (English)|MX (México)|US (USA)|Escoge tu edición de Marca.com favorita|Siempre que entres en Marca.com se cargará esta edición|ES (España)|EN (English)|MX (México)|US (USA)|Confirmar|Suscríbete|Fútbol|Baloncesto|Motor|Polideportivo|Coches|Última hora|Fantasy|Agenda TV|Más|Cerrar|06 de septiembre
de 2023|Actualizado a las 13:09 h.|Portada|Volver a:|Fú