# Introducción a Web Scraping con Python

![img](https://miro.medium.com/v2/resize:fit:1400/1*1QcqrOoDE1rKa0NTp1iEtw.png)

## ¿Qué es el Web Scraping?

El web scraping es una técnica utilizada para extraer datos de sitios web. Se lleva a cabo mediante programas que simulan la navegación de un humano en la web, recolectando información espcífica de páginas web automáticamente. Esta técnica es especialmente útil para procesar grandes cantidades de datos que sería impráctico o muy tedioso recolectar a mano. [Diferencias entre web scraping y web crawling](https://www.geeksforgeeks.org/difference-between-web-scraping-and-web-crawling/?ref=gcse)

## Aplicaciones del Web Scraping

1. **Análisis de Datos y Business Intelligence:** Empresas utilizan el web scraping para recopilar datos de mercado, competidores, precios, y opiniones de clientes, lo que les ayuda en la toma de decisiones y estrategias de negocio.

2. **Monitoreo de Medioa y Redes Sociales:** Se utilizar para seguir menciones de una marca, producto o tema en específico en diferentes plataformas y sitios de noticia.

3. **Recopilación de datos para investigaciones Académicas:** Investigadores en diversas áreas recurren al web scraping para reunir grandes volumenes de datos de fuentes públicas para sus estudios.

4. **SEO y Marketing:** Para analizar el posicionamiento web, backlinks y rendimiento de palabras clave en diferentes sitios.

5. **Automatización y Agregación de contenidos:** Recopilar información de distintos sitios web y representarla en un solo lugar, como en el caso de agregadores de noticias o comparadores de precios.

## Limitaciones éticas y legales.

1. **Violación de los Términos de Servicio:** Algunos sitios web prohíben expresamente el web scraping en sus términos de servicio. Ignorar estas restricciones puede llevar a acciones legales.

2. **Privacidad y Protección de Datos:** Es crucial respetar las leyes de protección de datos, como el GDPR en europa. Extraer datos personales sin consentimiento puede ser ilegal.

3. **Carga en los Servidores Web:** El scraping intensivo puede sobrecargar los servidores del sitio web objetivo, afectando su funcionamiento y causando problemas de servicio.

4. **Uso de Datos Recolectados:** El uso comercial o la distribución de datos obtenidos mediante scraping puede infringir los derechos de autor o marcas registradas.

## Diferencias entre Web Scraping y API

* **Web Scraping:** Implica extraer datos directamente del HTML o contenido de un sitio web. Es una técnica no estructurada y puede requerir adaptación si la estructura del sitio web cambia. No siempre es autorizado por el propietario del sitio web.

* **API (Interfaz de Programación de Aplicaciones):** Es un medio proporcionado por el sitio web para que terceros accesdan a sus datos de manera controlada y estructurada. Las API son una forma oficial y generalmente autorizada para acceder a los datos, con limitaciones y estructuras definidas por el proveedor del servicio.

En conclusion, el web scraping es una forma más libre pero potencialmente problemática de obtener los datos, mientras que las API ofrecen un camino oficial y estructurado para acceder a ellos.

# Herramientas y bibliotecas

Para hacer web scraping desde python, existen varias herramientas y bibliotecas disponibles que facilitan el proceso.

## 1. BeautifulSoup [Pypi Docs](https://pypi.org/project/beautifulsoup4/)



Beautiful Soup es una biblioteca que facilita la extracción de información de páginas web. Se asienta sobre un analizador HTML o XML, lo que proporciona modismos de Pythonic para iterar, buscar y modificar el árbol de análisis.

* **Uso**
  
  Para parsear HTML y XML. Es excelente para tareas de scraping donde se necesitan extraer datos de páginas con estructuras completas

* **Ventajas**

  Es fácil de usar, potente para parsear documentos, y funciona bien con diferentes parsers como `lxml` y `html5lib`

***Parsear*** *es el proceso de analizar una secuencia de símbolos a fin de determinar su estructura gramatical definida. También llamado análisis de sintaxis.*

In [113]:
!pip install bs4

Installing collected packages: bs4
Successfully installed bs4-0.0.1


## 2. Requests [Pypi Docs](https://pypi.org/project/requests/)
Requests le permite enviar solicitudes HTTP/1.1 de forma extremadamente sencilla. No hay necesidad de agregar manualmente cadenas de consulta a sus URL o codificar sus datos

* **Uso:**

  Se usa principalmente para realizar solicitudes HTTP en Python. A menudo se usa junto con BeutifulSoup para descargar páginas web antes de parsearlas.

* **Ventajas:**

  Simple y fácil de usar, gestiona sesiones, soporta persistent connections, y tiene soporte para SSL.

Requests está preparado para las demandas de creación de aplicaciones HTTP robustas y confiables, para las necesidades de hoy en día.



* Keep-Alive y agrupación de conexiones

* Dominios y URLs Internacionales

* Sesiones con persistencia de cookies

* Verificación TLS/SSL al estilo del navegador

* Autenticación básica y implícita

* Familiar –como las cookiesdict

* Descompresión y decodificación automáticas de contenido

* Carga de archivos de varias partes

* Soporte de proxy SOCKS

* Tiempos de espera de conexión

* Descargas de streaming

* Honra automática de .netrc

* Solicitudes HTTP fragmentadas


[Readthedocs](https://requests.readthedocs.io/en/latest/)

In [114]:
!pip install requests



## 3. Scrapy [Pypi Docs](https://pypi.org/project/Scrapy/)

Scrapy es un marco rápido de rastreo web y raspado web de alto nivel, que se utiliza para Rastrea sitios web y extrae datos estructurados de sus páginas. Se puede utilizar para una amplia gama de propósitos, desde la minería de datos hasta el monitoreo y las pruebas automatizadas.

* **Uso**

  Es un framework de web scraping y crawling. Ideal para proyectos de scraping a gran escala.

* **Ventajas**

  Maneja requests y follow-ups de manera eficiente, soporta scraping de múltiples páginas, y es altamente personalizable.


[Docs](https://scrapy.org/)

In [None]:
!pip install scrapy

## 4. Selenium [Pypi Docs](https://pypi.org/project/selenium/)

El paquete selenium se utiliza para automatizar la interacción del navegador web desde Python.

* **Uso**

  Para automatizar navegadores web. Muy útil para sitios web que requieren interacciones más complejas, como har clic en botones o llenar formularios.

* **Ventajas**

  Maneja requests y follow-ups de manera eficiente, soporta scraping de múltiples páginas, y es altamente personalizable.
[Docs](https://www.selenium.dev/)

In [118]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.15.2-py3-none-any.whl (10.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.2/10.2 MB[0m [31m43.9 MB/s[0m eta [36m0:00:00[0m
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.23.1-py3-none-any.whl (448 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m448.3/448.3 kB[0m [31m42.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl (17 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl (10 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0 (from wsproto>=0.14->trio-websocket~=0.9->selenium)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[?

## Herramientas Adicionales.

* **DevTools:** para inspeccionar elementos de una página web y entender su estructura.

* **Proxy Services:** Como [ScraperAPI](https://www.scraperapi.com/), para manejar bloqueos de IP o captchas.

* **Rotating User Agents:** Para evitar ser bloqueado por sitios web al imitar ser diferentes navegadores.

# Fundamentos HTML y CSS

## Estructura de un HTML

```{html}
<!DOCTYPE html>
<html>
  <head></head>
  <body>
    <nav></nav>
    <main></main>
    <footer></footer>
  </body>
</html>
```

### Elementos Más Usados en HTML

En HTML, varios elementos son ampliamente utilizados debido a su funcionalidad y flexibilidad. Algunos de los más comunes incluyen:

1. **`<div>`**: Este es probablemente el elemento más utilizado en HTML. Sirve como un contenedor genérico para contenido de flujo y es usado frecuentemente para agrupar elementos para propósitos de estilos o scripting.

2. **`<span>`**: Similar al `<div>`, pero se usa para agrupar elementos en línea. Es útil para aplicar estilos o scripts a una parte específica del texto.

3. **`<a>`**: Representa un hiperenlace, que se utiliza para enlazar a otra página o recurso.

4. **`<p>`**: Define un párrafo de texto. Es un bloque de texto que suele estar separado por espacios o saltos de línea de los bloques adyacentes.

5. **`<ul>`, `<ol>`, `<li>`**: Estos elementos se utilizan para listas. `<ul>` es para listas desordenadas, `<ol>` para listas ordenadas y `<li>` para cada ítem de la lista.

6. **`<img>`**: Se utiliza para insertar imágenes. Es un elemento fundamental para añadir contenido visual a la web.

7. **`<h1>` a `<h6>`**: Estos son elementos de encabezado. `<h1>` es el más importante (generalmente el título de la página o post) y `<h6>` el menos.

8. **`<table>`, `<tr>`, `<td>`**: Utilizados para crear tablas. `<table>` define la tabla, `<tr>` una fila y `<td>` una celda.

9. **`<form>`**: Para formularios que permiten al usuario introducir datos. Elementos como `<input>`, `<label>`, `<textarea>`, y `<button>` se utilizan dentro de un `<form>`.

10. **`<input>`**: Un elemento versátil para crear diferentes tipos de campos de entrada, como texto, contraseña, radio buttons, checkboxes, etc.

### Árbol del DOM

El Document Object Model (DOM) es una representación de la estructura de una página web. Imagina la página web como un árbol, donde cada elemento HTML es un nodo.

- **Nodos**: Cada parte del documento, como elementos, atributos, e incluso texto, son nodos en el DOM. Por ejemplo, `<body>` es un nodo, y todos los elementos dentro de `<body>` son nodos hijos de `<body>`.

- **Relaciones Padre-Hijo**: Los elementos anidados crean una relación padre-hijo en el DOM. Por ejemplo, si tienes un `<div>` que contiene varios `<p>`, el `<div>` es el nodo padre y los `<p>` son nodos hijos.

- **Propósito del DOM**: Permite a los lenguajes de programación interactuar con la estructura, estilo y contenido de los sitios web. Por ejemplo, con JavaScript, puedes usar el DOM para añadir, eliminar o modificar elementos HTML, cambiar estilos CSS, y responder a eventos en la página.

El DOM es fundamental en web scraping porque cuando utilizas herramientas como BeautifulSoup o Selenium, en esencia estás interactuando con el DOM para extraer información o realizar acciones en la página web.

## Inspección de Elementos con el Navegador

## Selección de Datos Usando Selectores CSS

Los selectores CSS son patrones utilizados para seleccionar los elementos HTML que quieres estilizar. En el contexto del web scraping, estos selectores son igualmente cruciales para identificar y extraer datos específicos de una página web.

### Tipos de Selectores

#### 1. **Selectores de Etiqueta**
   - **Descripción**: Seleccionan elementos por su nombre de etiqueta.
   - **Ejemplo**: `p` seleccionará todos los elementos `<p>` en un documento.

#### 2. **Selectores de Clase**
   - **Descripción**: Seleccionan elementos por su atributo de clase.
   - **Ejemplo**: `.menu` seleccionará todos los elementos que tienen la clase `menu`.

#### 3. **Selectores de ID**
   - **Descripción**: Seleccionan un único elemento que tiene un atributo de ID específico.
   - **Ejemplo**: `#header` seleccionará el elemento que tiene el ID `header`.

### Selectores Avanzados

#### 1. **Selectores Descendientes**
   - **Descripción**: Seleccionan todos los elementos que son descendientes de un elemento especificado.
   - **Ejemplo**: `div p` seleccionará todos los elementos `<p>` que están dentro de un `<div>`.

#### 2. **Selectores de Hijos**
   - **Descripción**: Seleccionan todos los elementos hijos directos de un elemento especificado.
   - **Ejemplo**: `ul > li` seleccionará todos los elementos `<li>` que son hijos directos de un `<ul>`.

#### 3. **Selectores de Atributos**
   - **Descripción**: Seleccionan elementos basados en un atributo y valor específicos.
   - **Ejemplo**: `[type="text"]` seleccionará todos los elementos que tienen un atributo `type` con el valor `text`.

### Utilización en Web Scraping

En web scraping, estos selectores se utilizan para identificar los elementos de los cuales quieres extraer datos. Por ejemplo, si estás usando BeautifulSoup en Python, puedes usar estos selectores para encontrar elementos específicos:

```python
soup.find_all('p') # Usando un selector de etiqueta
soup.select('.menu') # Usando un selector de clase
soup.select('#header') # Usando un selector de ID
```

Estos selectores son fundamentales para el scraping efectivo, ya que te permiten apuntar a datos específicos dentro de una estructura HTML compleja. La precisión y eficacia del scraping dependen en gran medida de qué tan bien se utilicen estos selectores para navegar por el DOM.

# Ejemplos de uso

Hagamos un ejercicio sencillo para extraer la información de noticias de la página oficial de BBC

In [121]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
url = 'https://www.bbc.com/news/world'
user_agent = UserAgent()
response = requests.get(url, headers = {'user-agent':user_agent.edge})
if response.status_code == 200:
    html_content = response.text
else:
    html_content = ""
soup = BeautifulSoup(html_content, 'html.parser')
print(soup.prettify())


<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width" name="viewport"/>
  <title>
   World - BBC News
  </title>
  <meta content="World - BBC News" property="og:title"/>
  <meta content="World - BBC News" name="twitter:title"/>
  <meta content="Get the latest BBC World News: international news, features and analysis from Africa, the Asia-Pacific, Europe, Latin America, the Middle East, South Asia, and the United States and Canada." name="description"/>
  <meta content="Get the latest BBC World News: international news, features and analysis from Africa, the Asia-Pacific, Europe, Latin America, the Middle East, South Asia, and the United States and Canada." property="og:description"/>
  <meta content="Get the latest BBC World News: international news, features and analysis from Africa, the Asia-Pacific, Europe, Latin America, the Middle East, South Asia, and the United States and Canada." name="twitter:description"/>
  <meta content="#da532c" name

In [92]:

cont = soup.find_all(class_="eNHMic")
titulos = []
descripciones = []
for e in cont:
  titulos.append(e.find("h2").get_text())
  descripciones.append(e.find("p").get_text())
df = pd.DataFrame({"titulo":titulos, "descripcion": descripciones})
df



Unnamed: 0,titulo,descripcion
0,This is what America's busiest travel days loo...,Officials expect nearly 30 million passengers ...
1,Gaza Strip in maps: Life in Gaza under siege,Find out more about what it is like to live in...
2,'Blackout Wednesday' prompts drink-driving war...,The night before Thanksgiving brings a spike o...
3,Dutch vote for new leaders in neck-and-neck race,"The head of the centre right, Dilan Yesilgöz, ..."
4,Stories of the hostages taken by Hamas from Is...,"From elderly grandparents to young children, t..."
5,Hostages deal raise hopes and fears for families,Relatives of those held anxiously wait to see ...
6,Russian authorities crack down on abortion access,Authorities in Russia are aiming to limit abor...
7,US set for busiest travel day as weather fears...,Wintry conditions in the east are forecast to ...
8,Biden pardons Thanksgiving turkeys on his birt...,"The US president pardoned Liberty and Bell, an..."


In [93]:
url = 'https://www.bbc.com/news/world'
user_agent = UserAgent()
response = requests.get(url, headers = {'user-agent':user_agent.edge})
if response.status_code == 200:
    html_content = response.text
else:
    html_content = ""
soup = BeautifulSoup(html_content, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width" name="viewport"/>
  <title>
   World - BBC News
  </title>
  <meta content="World - BBC News" property="og:title"/>
  <meta content="World - BBC News" name="twitter:title"/>
  <meta content="Get the latest BBC World News: international news, features and analysis from Africa, the Asia-Pacific, Europe, Latin America, the Middle East, South Asia, and the United States and Canada." name="description"/>
  <meta content="Get the latest BBC World News: international news, features and analysis from Africa, the Asia-Pacific, Europe, Latin America, the Middle East, South Asia, and the United States and Canada." property="og:description"/>
  <meta content="Get the latest BBC World News: international news, features and analysis from Africa, the Asia-Pacific, Europe, Latin America, the Middle East, South Asia, and the United States and Canada." name="twitter:description"/>
  <meta content="#da532c" name

In [112]:
cont2 = soup.find_all(attrs={'data-testid':'card-text-wrapper'})
cont2[1].find(attrs={'data-testid':'card-headline'}).get_text()
cont2[1].find(attrs={'data-testid':'card-description'}).get_text()


titulos = []
descripciones = []
for e in cont2:
  titulos.append(e.find(attrs={'data-testid':'card-headline'}).get_text())
  descripciones.append(e.find(attrs={'data-testid':'card-description'}).get_text())
df = pd.DataFrame({"titulo":titulos, "descripcion": descripciones})
df


Unnamed: 0,titulo,descripcion
0,Hamas says pause in Gaza fighting to begin at ...,Israel has confirmed a four-day pause in fight...
1,Sam Altman to return as OpenAI boss,The in principle agreement involves a new boar...
2,‘How I got dangerous chat site Omegle closed d...,"""Alice"" speaks exclusively to the BBC after he..."
3,Russian authorities crack down on abortion access,Authorities in Russia are aiming to limit abor...
4,Pilot sentenced for decapitating skydiver with...,"Nicolas Galy, 40, died after being struck by t..."
5,Sam Altman to return as OpenAI boss,The in principle agreement involves a new boar...
6,Russian actress killed in strike while perform...,Around 20 Russian soldiers were killed in the ...
7,Drilling resumes to save trapped Indian workers,The 41 workers got stuck when an under-constru...
8,‘How I got dangerous chat site Omegle closed d...,"""Alice"" speaks exclusively to the BBC after he..."
9,S Korea suspends parts of military deal with N...,South Korea will resume surveillance flights a...


[Doc Selenium](https://aprendepython.es/pypi/scraping/selenium/)