# Web Scraping con Python

Profesor: Steven Van Vaerenbergh  
28 de junio de 2023  
Curso CA.2.1 Python para el análisis de datos  

## Índice

1. [Introducción](#1.-Introducción)
   1. [Aviso Inicial](#1.A.-Aviso-Inicial)
   2. [¿Qué es el Web Scraping?](#1.B.-¿Qué-es-Web-Scraping?)
   3. [Herramientas de Web Scraping en Python](#1.C.-Herramientas-y-librerías)
2. [Conceptos de HTML](#2.-Conceptos-de-HTML)
   1. [Estructura básica de una página web](#2.A.-Estructura-básica-de-una-página-web)
   2. [Elementos comunes de HTML (etiquetas, atributos)](#2.B.-Elementos-comunes-de-HTML-(etiquetas,-atributos))
   3. [Herramientas de inspección del navegador](#2.C.-Herramientas-de-inspección-del-navegador)
3. [Usando la librería requests](#3.-Usando-la-librería-requests)
   1. [Instalación y primeros pasos](#3.A.-Instalación-y-primeros-pasos)
   2. [Realizando solicitudes HTTP (GET)](#3.B.-Realizando-solicitudes-HTTP-(GET))
   3. [Explorando la respuesta (status code, content)](#3.C.-Explorando-la-respuesta-(status-code,-content))
4. [Extracción de datos con Beautiful Soup](#4.-Extracción-de-datos-con-Beautiful-Soup)
   1. [Instalación y primeros pasos](#4.A.-Instalación-y-primeros-pasos)
   2. [Parseando HTML con Beautiful Soup](#4.B.-Parseando-HTML-con-Beautiful-Soup)
   3. [Buscar y extraer elementos de la página](#4.C.-Buscar-y-extraer-elementos-de-la-página)
5. [Ejercicio Práctico](#5.-Ejercicio-Práctico)
   1. [Tareas Opcionales](#5.A.-Tareas-Opcionales)
6. [Selenium](#6.-Selenium)
   1. [¿Qué es Selenium?](#6.A.-¿Qué-es-Selenium?)
   2. [¿Cuándo usar Selenium?](#6.B.-¿Cuándo-usar-Selenium?)
7. [Recapitulación y Preguntas](#7.-Recapitulación-y-Preguntas)
   1. [Resumen de lo aprendido](#7.A.-Resumen-de-lo-aprendido)
   2. [Tiempo para preguntas](#7.B.-Tiempo-para-preguntas)


## 1. Introducción

### 1.A. Aviso Inicial

Antes de empezar, es importante mencionar que el web scraping debe hacerse de manera responsable y ética. No todas las páginas web permiten el web scraping. Algunos sitios web tienen términos de servicio que prohíben explícitamente esta práctica. Además, el web scraping intensivo puede sobrecargar los servidores de una página web, lo que puede afectar su rendimiento para otros usuarios. Cabe mencionar que muchas páginas web ofrecen una API que se puede usar para extraer datos de una manera más controlada y eficiente. Si no hay API disponible o no proporciona los datos que necesitamos, podemos considerar el web scraping. En cualquier caso, siempre debemos comprobar los términos de servicio de una página web antes de realizar web scraping y respetar las reglas del archivo `robots.txt`.

### 1.B. ¿Qué es Web Scraping?

El web scraping ("extracción web") es una técnica utilizada para extraer información de páginas web. Consiste en hacer una solicitud HTTP a la URL de una página web para obtener el código HTML de la página, y luego extraer los datos útiles de ese código HTML. El web scraping se utiliza en una variedad de contextos digitales, como la extracción de datos para machine learning, la recopilación de información para investigación de mercados, la monitorización de precios para comparación de precios, entre otros.

### 1.C. Herramientas y librerías

Para hacer web scraping con Python, se utilizan varias librerías. En esta clase, nos centraremos en las librerías `requests` y `Beautiful Soup`:

- **Requests**: es una librería de Python para enviar solicitudes HTTP. Es decir, nos permite solicitar el código HTML de una página web.

- **Beautiful Soup**: es una librería de Python para parsear documentos HTML y XML. Nos permite navegar, buscar y modificar el árbol de sintaxis analizada.

Más adelante en la clase, también mencionaremos brevemente `Selenium`, que es una herramienta para automatizar navegadores web. Es útil para los casos en los que la información que queremos extraer está contenida en JavaScript, que no puede ser accedido con `requests`.

## 2. Conceptos de HTML

### 2.A. Estructura básica de una página web

Una página web se estructura a través de un lenguaje de marcado llamado HTML (Hypertext Markup Language). HTML utiliza etiquetas para definir los elementos en la página. Cada página web tiene una estructura básica que incluye las siguientes partes:

- `<!DOCTYPE html>`: Define el tipo de documento y la versión de HTML.
- `<html>`: Es el elemento raíz de una página web.
- `<head>`: Contiene metadatos/información sobre el documento.
- `<title>`: Define el título del documento.
- `<body>`: Contiene el contenido visible de la página web.

Un ejemplo de la estructura básica de una página web es el siguiente:

````
<!DOCTYPE html>
<html>
<head>
    <title>Título de la página</title>
</head>
<body>
    Contenido de la página
</body>
</html>
````

### 2.B. Elementos comunes de HTML (etiquetas, atributos)

El HTML se compone de varios elementos definidos por etiquetas. Cada elemento de HTML puede tener atributos que definen características adicionales del elemento. Aquí se muestran algunos de los elementos más comunes:

- `<div>`: Define una sección en un documento.
- `<p>`: Define un párrafo.
- `<a>`: Define un hipervínculo.
- `<img>`: Define una imagen.
- `<h1> a <h6>`: Define los encabezados.
- `<ul>/<ol> y <li>`: Define listas desordenadas/ordenadas y elementos de lista.
- `<table>, <tr>, <td>`: Define una tabla, fila de tabla y celda de tabla.

Los atributos más comunes incluyen `class`, que define una o varias clases de estilo para un elemento, e `id`, que define un identificador único para un elemento.

### 2.C. Herramientas de inspección del navegador

Cuando realizamos web scraping, es útil poder examinar la estructura HTML de la página web. Para ello, podemos utilizar las herramientas de inspección que ofrecen los navegadores modernos. Por ejemplo, en Chrome y Firefox, simplemente podemos hacer clic derecho en la página y seleccionar "Inspeccionar" o "Inspeccionar elemento". Esto nos mostrará el código HTML y nos permitirá explorar las diferentes etiquetas y sus atributos.

## 3. Usando la librería requests

### 3.A. Instalación y primeros pasos

Para instalar `requests` en tu entorno de Python, puedes utilizar `pip` o `conda`.

Instalación de requests con pip:

```python
pip install requests
```

Instalación de requests con conda:

```python
conda install -c anaconda requests
```

Una vez que `requests` esté instalado, puedes importarlo en tu script de Python:

In [None]:
import requests

### 3.B. Realizando solicitudes HTTP (GET)

La forma más común de solicitar datos es a través de una solicitud GET. En `requests`, esto se hace con el método `.get()`. Este método toma la URL a la que deseas hacer la solicitud como argumento.

Como ejemplo, vamos a extraer información de la página web https://guiaempresas.universia.es/localidad/CAMARGO-CANTABRIA/

In [None]:
url = 'https://guiaempresas.universia.es/localidad/CAMARGO-CANTABRIA/'

# Hacemos una solicitud GET a la URL y guardamos la respuesta en una variable
response = requests.get(url)

En este ejemplo, hemos enviado una solicitud GET a la URL proporcionada y hemos guardado la respuesta en la variable `response`.

### 3.C. Explorando la respuesta (status code, content)

Una vez que se ha realizado una solicitud, `requests` nos devuelve un objeto de respuesta que contiene el servidor de respuesta. Algunos de los atributos más útiles de este objeto son:

- `response.status_code`: Este es el código de estado HTTP que se devolvió. Un código de estado de 200 significa que la solicitud fue exitosa.
- `response.content` y `response.text`: Estos contienen el contenido de la respuesta. `.content` devuelve el contenido en bytes, mientras que `.text` lo convierte a una cadena de texto utilizando la codificación del texto de la respuesta.

Aquí hay un ejemplo de cómo podríamos usar estos atributos para manejar la respuesta a nuestra solicitud GET:

In [None]:
# Verificamos que la solicitud fue exitosa
if response.status_code == 200:
    print('Solicitud exitosa!')
else:
    print('Hubo un error en la solicitud.')

In [None]:
# Imprimimos el contenido de la respuesta
print(response.text)

## 4. Extracción de datos con Beautiful Soup

Beautiful Soup es una biblioteca de Python para extraer datos de archivos HTML y XML. Proporciona formas para buscar, navegar y modificar el árbol de análisis.

### 4.A. Instalación y primeros pasos

Para instalar Beautiful Soup en tu entorno de Python, puedes utilizar `pip` o `conda`.

Instalación de requests con pip:

```python
pip install beautifulsoup4
```

Instalación de requests con conda:

```python
conda install -c anaconda beautifulsoup4
```

Una vez instalado, puedes importarlo en tu script Python:

In [None]:
from bs4 import BeautifulSoup

### 4.B. Parseando HTML con Beautiful Soup

Beautiful Soup convierte los documentos HTML complejos en un árbol de objetos Python, como listas y diccionarios. Para parsear un documento HTML con Beautiful Soup, primero debemos crear un objeto `BeautifulSoup`.

Por ejemplo, podemos usar el método `BeautifulSoup()` para parsear la respuesta HTML que obtuvimos en la sección anterior:

In [None]:
soup = BeautifulSoup(response.text, 'html.parser')

En este ejemplo, `response.text` es el HTML que queremos parsear y `'html.parser'` es el analizador que queremos usar.

### 4.C. Buscar y extraer elementos de la página

Una vez que hemos creado nuestro objeto `soup`, podemos usar sus métodos para buscar y extraer elementos del HTML.

Por ejemplo, podemos usar el método `.find()` para buscar el primer elemento que coincida con el criterio que especificamos. O podemos usar el método `.find_all()` para buscar todos los elementos que coincidan.

Podemos utilizar el inspector de elementos del navegador para identificar los elementos que contienen la información que buscamois. En este caso, observamos que las empresas que queremos extraer están dentro de una tabla con `class="ranking_einf"`. Cada empresa está en un elemento `<tr>` de esta tabla. Dentro de cada elemento `<tr>`, hay 4 elementos `<td>` que contienen índice, nombre+url, localidad y provincia de la empresa, y que corresponden a las 4 columnas de la tabla.

Aquí hay un ejemplo de cómo podríamos usar `.find()` para buscar la tabla y luego `.find_all()` para buscar todos los elementos `<tr>` dentro de la tabla:

In [None]:
# Buscamos la tabla con class="ranking_einf" en el HTML
table = soup.find('table', {'class': 'ranking_einf'})

# Buscamos todos los elementos <tr> en la tabla
rows = table.find_all('tr')

# Iteramos sobre los elementos <tr>
for row in rows:
    
    # Buscamos todos los elementos <td> en el elemento <tr>
    columns = row.find_all('td')
    
    # Si hay elementos <td>, extrae e imprime la información de la empresa
    if columns:
        name = columns[1].text.strip()
        url = columns[1].find('a')['href']
        location = columns[2].text.strip()
        province = columns[3].text.strip()
        
        print(f"Nombre: {name}, Localidad: {location}")

Ahora que ya sabemos cómo extraer información de una página web utilizando `requests` y `Beautiful Soup`, vamos a dar un paso más allá. En lugar de simplemente imprimir la información, vamos a guardarla en un `DataFrame` de `pandas` para poder trabajar con ella de una manera más estructurada.

`pandas` es una biblioteca de Python para la manipulación y análisis de datos. Un `DataFrame` es una estructura de datos bidimensional etiquetada en `pandas`, similar a una tabla de una base de datos SQL o una hoja de cálculo de Excel.

In [None]:
# Importamos pandas
import pandas as pd

# Buscamos la tabla con class="ranking_einf" en el HTML
table = soup.find('table', {'class': 'ranking_einf'})

# Buscamos todos los elementos <tr> en la tabla
rows = table.find_all('tr')

# Creamos una lista vacía
companies = []

# Iteramos sobre los elementos <tr>
for row in rows:
    
    # Buscamos todos los elementos <td> en el elemento <tr>
    columns = row.find_all('td')
    
    # Si hay elementos <td>, extrae e imprime la información de la empresa
    if columns:
        name = columns[1].text.strip()
        url = 'https://guiaempresas.universia.es' + columns[1].find('a')['href']
        location = columns[2].text.strip()
        province = columns[3].text.strip()
        
        # Guardamos todos los datos de la empresa en una estructura de diccionario
        company = {'Nombre': name, 'URL': url, 'Localidad': location, 'Provincia': province}
        
        # Añadimos los datos de la empresa a la lista
        companies.append(company)
        
# Convertimos la lista de empresas a un dataframe
df = pd.DataFrame.from_records(companies)       


Finalmente, visualizamos las primeras filas del `DataFrame` usando el método `head()`:

In [None]:
df.head()

Esto nos mostrará una tabla con la información de todas las empresas que hemos extraído.

Además, `pandas` nos proporciona una serie de métodos muy útiles para trabajar con nuestros datos, como ordenar el `DataFrame` por una columna, filtrar las filas que cumplen ciertas condiciones, calcular estadísticas, etc. Te animo a explorar la [documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) para aprender más sobre lo que puedes hacer con ella.

## 5. Ejercicio Práctico
Ahora que ya hemos aprendido a extraer datos de una página web con `requests` y `Beautiful Soup`, y a guardar estos datos en un `DataFrame` de `pandas`, es hora de que practiquéis con un ejercicio.

El objetivo de este ejercicio es crear un script que extraiga los datos de la ficha de una empresa en la web de la Guía de Empresas de Universia. Para esto, tendréis que hacer una nueva solicitud a la URL de la ficha de la empresa, que habéis guardado en vuestro `DataFrame`, y luego utilizar `Beautiful Soup` para extraer los datos de esta página.

Por ejemplo, la URL de la primera empresa es la siguiente:

In [None]:
df['URL'][0]

Aquí tenéis los pasos que debéis seguir:

1. Elegir una empresa de vuestro `DataFrame`.
2. Hacer una solicitud GET a la URL de la ficha de la empresa.
3. Crear un objeto Beautiful Soup con el contenido de la respuesta.
4. Identificar los elementos que contienen los datos que queréis extraer (podéis usar el inspector de elementos del navegador para esto).
5. Utilizar los métodos de Beautiful Soup para extraer estos datos.
6. Guardar los datos en un nuevo `DataFrame`.

Podéis empezar con los siguientes datos:

- Nombre de la empresa
- Dirección
- Número de teléfono
- CNAE
- Fecha de creación

Por favor, recordad que el web scraping debe realizarse de manera responsable. Aseguraos de respetar los términos de servicio de la web y no sobrecargar el servidor con demasiadas solicitudes.

Por último, os animo a explorar las posibilidades de `pandas` para analizar los datos que habéis recogido. Por ejemplo, podríais ordenar las empresas por fecha de fundación, filtrarlas por actividad, etc.

¡Buena suerte!

### 5.A. Tareas Opcionales
Si terminas el ejercicio principal y te sientes con ganas de un desafío adicional, aquí tienes algunas tareas opcionales que puedes intentar:

#### Tarea O1: 
Descarga los datos de todas las 30 empresas que aparecen en la primera página del listado en la página de Guía Empresas. Esto te dará más datos para trabajar y te permitirá practicar la escritura de código para automatizar el proceso de navegación y extracción de datos en varias páginas. Guarda los resultados en un dataframe de pandas y escribe el dataframe en un archivo CSV o XLSX. De este modo, podrás utilizar los datos para futuros análisis y no tendrás que volver a hacer web scraping cada vez que quieras trabajar con ellos.

#### Tarea O2: 
Realiza una visualización de los datos que has extraído. Por ejemplo, podrías hacer un histograma de las fechas de creación de las empresas para ver cómo ha cambiado el número de nuevas empresas con el tiempo. También podrías imprimir en pantalla una lista de los CNAEs de las empresas, con el número de empresas que tienen ese CNAE entre paréntesis. Esto te permitirá ver cuáles son los CNAEs más comunes entre las empresas de la lista.

## 6. Selenium

### 6.A. ¿Qué es Selenium?

[Selenium](https://www.selenium.dev/) es una herramienta muy poderosa en el mundo del web scraping. A diferencia de `requests` y `Beautiful Soup`, que son herramientas para hacer solicitudes HTTP y analizar el contenido HTML de las respuestas, Selenium es una herramienta para automatizar navegadores web.

Esto significa que con Selenium puedes hacer cosas como hacer clic en botones, rellenar formularios, desplazarte por una página, esperar a que se carguen elementos específicos, etc. En otras palabras, Selenium puede interactuar con una página web de la misma manera que un usuario humano.

Además, como Selenium controla un navegador web real, puede manejar JavaScript. Esto es muy útil, ya que muchas páginas web modernas utilizan JavaScript para cargar o mostrar contenido. Una vez que Selenium ha cargado el contenido de la página web, puedes utilizar Beautiful Soup para analizar el HTML y extraer los datos.

### 6.B. ¿Cuándo usar Selenium?
Dado que Selenium es mucho más poderoso que `requests` y `Beautiful Soup`, podrías pensar que siempre es mejor usar Selenium para el web scraping. Sin embargo, esta potencia viene con un coste.

Primero, Selenium es mucho más lento que `requests` y `Beautiful Soup`. Esto se debe a que Selenium tiene que cargar toda la página web en un navegador real, incluyendo todas las imágenes, CSS, JavaScript, etc., mientras que `requests` solo descarga el HTML de la página.

Segundo, Selenium es mucho más complicado de usar que `requests` y `Beautiful Soup`. Con Selenium tienes que lidiar con cosas como tiempos de espera, excepciones, manejo de ventanas y pestañas, etc.

Por lo tanto, en general, es mejor usar `requests` y `Beautiful Soup` siempre que sea posible, y recurrir a Selenium solo cuando sea necesario. Algunas situaciones en las que podría ser necesario usar Selenium incluyen:

- La página web utiliza JavaScript para cargar o mostrar el contenido que quieres extraer.
- Necesitas interactuar con la página web, por ejemplo, haciendo clic en botones o rellenando formularios.
- La página web requiere que inicies sesión y la autenticación es complicada con `requests`.

Aunque no vamos a hacer ninguna demostración práctica de Selenium en esta clase, os animo a explorar esta herramienta por vuestra cuenta. Selenium puede ser una adición muy valiosa a vuestro conjunto de herramientas de web scraping.


## 7. Recapitulación y Preguntas

### 7.A. Resumen de lo aprendido

En esta clase hemos cubierto una serie de conceptos y técnicas clave para el web scraping con Python. Aquí hay un breve resumen de lo que hemos aprendido:

1. **Conceptos de HTML**: Hemos repasado los fundamentos del HTML, que es esencial para entender cómo están estructuradas las páginas web y cómo podemos extraer datos de ellas.

2. **Uso de la librería requests**: Hemos aprendido a hacer solicitudes HTTP a una página web utilizando la librería requests de Python. Hemos visto cómo manejar las respuestas de las solicitudes y cómo extraer el contenido de una página.

3. **Extracción de datos con Beautiful Soup**: Hemos utilizado Beautiful Soup para parsear el HTML de una página web y buscar elementos específicos en ella. Hemos visto cómo extraer información de estos elementos y almacenarlos en una estructura de datos.

4. **Ejercicio Práctico**: Hemos puesto en práctica todo lo aprendido realizando un ejercicio de web scraping en la página de Guía Empresas, en el que hemos extraído información detallada de las empresas.

5. **Uso de Selenium**: Hemos discutido brevemente el uso de Selenium, una herramienta que nos permite interactuar con páginas web de una manera más avanzada, como si estuviéramos utilizando un navegador web.

### 7.B. Tiempo para preguntas

Ahora es tu momento para preguntar cualquier duda que tengas sobre lo que hemos cubierto en la clase. No dudes en hacer cualquier pregunta, por pequeña que sea.