# Web Scraping 

## Extracción de datos web con Python

### Introducción a HTML para Web Scraping
| Concepto | Explicación |
|----------|------------|
| **HTML (Hypertext Markup Language)** | Lenguaje de marcado utilizado para estructurar contenido en la web. |
| **Web Scraping** | Técnica para extraer información de páginas web. |
| **Estructura de HTML** | Un documento HTML está compuesto por **texto y etiquetas (tags)** que definen la estructura y presentación del contenido. |

---

### Composición básica de un Documento HTML
| Sección | Descripción |
|---------|------------|
| **`<!DOCTYPE html>`** | Declaración que indica que el documento es HTML5. |
| **`<html>`** | Raíz del documento HTML. |
| **`<head>`** | Contiene metadatos e información del documento (ej. título, enlaces a CSS, etc.). |
| **`<body>`** | Contiene el contenido visible en la página web. |

---

### Tipos de Etiquetas HTML
| Etiqueta | Función |
|----------|---------|
| **`<h1>` a `<h6>`** | Encabezados de distintos niveles (`h1` es el más grande, `h6` el más pequeño). |
| **`<p>`** | Define un párrafo. |
| **`<a>`** | Crea un hipervínculo a otra página. |
| **`<img>`** | Muestra una imagen. |
| **`<table>`** | Crea una tabla. |
| **`<tr>`** | Define una fila en una tabla. |
| **`<td>`** | Define una celda en una tabla. |

---

### Composición de una Etiqueta HTML
| Componente | Descripción | Ejemplo |
|------------|------------|---------|
| **Tag Name (Nombre de la etiqueta)** |Define el hipervículo que se usa para enlazar una página a otra. | `a` |
| **Start Tag (Etiqueta de apertura)** | Indica el inicio del elemento. | `<a>` |
| **Contenido** | Lo que se muestra dentro de la etiqueta. | `BLOG` |
| **End Tag (Etiqueta de cierre)** | Indica el final del elemento. | `</a>` |
| **Atributo** | Información adicional dentro de la etiqueta. | `href="https://www.ibm.com"` |
| **Ejemplo completo** | Define un enlace a IBM. | `<a href="https://www.ibm.com">IBM</a>` |

---

###  Tablas en HTML
| Etiqueta | Descripción |
|----------|------------|
| **`<table>`** | Define una tabla. |
| **`<tr>`** | Define una fila en la tabla. |
| **`<th>`** | Define una celda de encabezado. |
| **`<td>`** | Define una celda de datos en una fila. |

---

###  Inspección de Código HTML
| Método | Descripción |
|--------|------------|
| **Inspeccionar elemento** | Clic derecho en la página → "Inspeccionar" para ver el HTML. |
| **Ver código fuente** | Clic derecho → "Ver código fuente de la página". |

---


### Ejemplos

#### Ejemplo de una página HTML básica:
  - `<!DOCTYPE html>` → Declara que este documento es un archivo HTML.
  - `<html>` → Elemento raíz de la página web.
  - `<head>` → Contiene información meta sobre la página (como el título).
  - `<title>` → Define el título de la pestaña del navegador.
  - `<body>`→ Contiene el contenido visible de la página.
  - `<h3>` → Encabezado de nivel 3 (hace que el texto sea más grande y en negrita).
  - `<p>` → Define un párrafo de texto (en este caso, el salario del jugador).

In [None]:
<!DOCTYPE html>
<html>
    <head>
        <title>Ejemplo de Página</title>
    </head>
    <body>
        <h3>Nombre del Jugador</h3>
        <p>Salario: $10,000,000</p>
    </body>
</html>

#### Árbol de Documentos HTML (HTML Trees)
- Cada documento HTML puede representarse como un árbol jerárquico donde los elementos pueden tener padres, hijos y hermanos.
- **Relaciones en el árbol HTML**:

  - `<html>` es el elemento raíz.
  - `<head>` y `<body>` son hijos de `<html>`.
  - `<title>` es hijo de `<head>` y descendiente de `<html>`pero no hija.
  - `<h3>` y `<p>` son hijos de `<body>` y hermanos entre sí.
  - `<b>` es hijo de `<p>`.

In [None]:
html
 ├── head
 │   └── title
 └── body
     ├── h3
     └── p
         └── b

In [None]:
<html>
    <head>
        <title>Mi Página</title>
    </head>
    <body>
        <h3>Título Principal</h3>
        <p>Texto de párrafo con <b>negrita</b></p>
    </body>
</html>


####  Tablas en HTML
  - `<table>` → Define la tabla.
  - `<tr>` (Table Row) → Representa una fila en la tabla.
  - `<th>` (Table Header) → Encabezados de la tabla.
  - `<td>` (Table Data) → Celdas con los datos.

In [None]:
<table>
    <tr>
        <th>Nombre</th>
        <th>Salario</th>
    </tr>
    <tr>
        <td>Jugador 1</td>
        <td>$10,000,000</td>
    </tr>
    <tr>
        <td>Jugador 2</td>
        <td>$8,500,000</td>
    </tr>
</table>


## BeautifulSoup

| Concepto              | Explicación | Librería |
|-----------------------|------------|------------|
| **Web Scraping** | Técnica para extraer datos de páginas web de forma automática mediante código. | |
| **BeautifulSoup** | Librería de Python que permite analizar y extraer datos del HTML. | `from bs4 import BeautifulSoup` |
| **Requests** | Librería que permite hacer solicitudes HTTP para obtener contenido/ el HTML de páginas web. | `import requests` |

---

### Extraer el Código HTML de una Página
| Paso | Código | Explicación |
|------|--------|------------|
| **1️⃣ Hacer la solicitud HTTP** | `response = requests.get("URL_DEL_SITIO")` | Descarga el contenido HTML de la página. |
| **2️⃣ Obtener el texto HTML** | `html = response.text` | Extrae el código fuente HTML como texto. |
| **3️⃣ Crear un objeto usando el constructor BeautifulSoup** | `soup = BeautifulSoup(html, "html.parser")` | Convierte el HTML en una estructura de árbol (datos anidada) para manipularlo. |

---

### Navegación en BeautifulSoup
| Acción | Código | Explicación |
|--------|--------|------------|
| **Obtener el título de la página** | `soup.title` | Devuelve la etiqueta `<title>`. |
| **Obtener solo el texto del título** | `soup.title.text` | Extrae el contenido de `<title>`. |
| **Obtener la primera etiqueta específica** | `soup.h3` | Devuelve el primer `<h3>` encontrado en el HTML. |
| **Obtener todas las etiquetas de un tipo** | `soup.find_all("h3")` | Encuentra todas las etiquetas `<h3>`. |
| **Acceder a los atributos de una etiqueta** | `soup.find("a")["href"]` | Extrae el valor del atributo `href` de la primera etiqueta `<a>`. |

---

### Método `find_all()`
* Se usa para filtra segun el nombre de la etiqueta, aatributos, el texto de una cadena o combinación de éstos.
| Uso | Código | Explicación |
|-----|--------|------------|
| **Buscar todas las etiquetas `<p>`** | `soup.find_all("p")` | Devuelve una lista con todas las etiquetas `<p>`. |
| **Filtrar por clase CSS** | `soup.find_all("div", class_="contenido")` | Busca todos los `<div>` con clase `contenido`. |
| **Filtrar por ID** | `soup.find_all(id="especial")` | Encuentra la etiqueta con `id="especial"`. |
| **Buscar por texto dentro de una etiqueta** | `soup.find_all(string="Python")` | Busca etiquetas que contengan el texto "Python". |

---

### Navegación en el Árbol del HTML
| Método | Código | Explicación |
|--------|--------|------------|
| **Navegar hacia abajo (hijos)** | `soup.div.contents` | Lista de los hijos de la primera etiqueta `<div>`. |
| **Obtener primer hijo de una etiqueta** | `soup.div.p` | Devuelve la primera `<p>` dentro de `<div>`. |
| **Navegar hacia arriba (padre)** | `soup.div.parent` | Devuelve el elemento padre de `<div>`. |
| **Encontrar el siguiente elemento (hermano)** | `soup.div.next_sibling` | Obtiene el siguiente elemento en el mismo nivel. |
| **Encontrar el elemento anterior (hermano)** | `soup.div.previous_sibling` | Obtiene el elemento anterior en el mismo nivel. |

---

### Extraer Datos de una Tabla
| Paso | Código | Explicación |
|------|--------|------------|
| **1️⃣ Encontrar la tabla** | `table = soup.find("table")` | Busca la primera tabla en el HTML. |
| **2️⃣ Encontrar todas las filas** | `rows = table.find_all("tr")` | Devuelve todas las filas de la tabla. |
| **3️⃣ Extraer celdas de cada fila** | `cells = row.find_all("td")` | Extrae las celdas de una fila específica. |
| **4️⃣ Iterar sobre todas las filas** | `for row in rows: cells = row.find_all("td")` | Recorre todas las filas y obtiene sus celdas. |

---

### Ejemplos

#### 1). Obtener el HTML de una página web
* Para hacer scraping, primero obtenemos el código HTML de la web usando requests.

In [None]:
import requests  
from bs4 import BeautifulSoup  

url = "https://example.com"  # Página web a extraer  
response = requests.get(url)  # Descargar HTML  
html = response.text  # Extraer contenido HTML  

---
#### 2). Crear un BeautifulSoup Object
* `BeautifulSoup` transforma el HTML en una estructura de árbol para facilitar la extracción de datos.
* `BeautifulSoup(html, "html.parser")` → Convierte el HTML en un objeto navegable.

In [None]:
soup = BeautifulSoup(html, "html.parser")  

---
#### 3). Navegación en el árbol HTML
* `BeautifulSoup` representa el HTML como un árbol de nodos. Podemos navegar y extraer información de distintas maneras.
  - `soup.title` → Obtiene la primera etiqueta `<title>` encontrada en el documento.
  - `text` → Extrae solo el texto de la etiqueta.

In [None]:
title_tag = soup.title  
print(title_tag.text)  # Imprime el contenido de la etiqueta <title>

---
##### 3.1). Métodos de navegación en BeautifulSoup
* Podemos movernos en el árbol HTML con varios métodos.

---
a) *Acceder a etiquetas hijas*
- `.contents` → Lista de todos los elementos dentro del `<div>`.

In [None]:
div = soup.find("div")  
print(div.contents)  # Lista de elementos dentro del div

---
b) *Acceder al padre de una etiqueta*
- `.parent` →  Accede a la etiqueta superior del `<div>`.

In [None]:
parent = div.parent  
print(parent.name)  # Nombre de la etiqueta padre

---
c) *Acceder a hermanos de una etiqueta*
- `.next_sibling` →  Encuentra la siguiente etiqueta en el mismo nivel.

In [None]:
sibling = div.next_sibling  
print(sibling)  

---
#### 4). Extraer contenido con `find_all()`
* `find_all()` permite buscar todas las etiquetas con un nombre específico.


a) *Extraer todas las etiquetas* `<h3>`
- `.find_all("h3")` → Busca todas las etiquetas `<h3>`.
- `tag.text` → Extrae solo el texto dentro de la etiqueta.


In [None]:
h3_tags = soup.find_all("h3")  
for tag in h3_tags:
    print(tag.text)  # Imprime el texto de cada <h3>

---
#### 5). Extraer datos de una tabla HTML
* Podemos extraer información de una tabla usando `find_all()`
  - `.find("table")` → Encuentra la primera tabla en el HTML.
  - `.find_all("tr")` → Encuentra todas las filas `<tr>`.
  - `.find_all("td")` → Encuentra todas las celdas `<td>` dentro de cada fila.
  - `.strip()` → Elimina espacios innecesarios.

In [None]:
table = soup.find("table")  
rows = table.find_all("tr")  # Encuentra todas las filas  

for row in rows:
    cells = row.find_all("td")  # Encuentra todas las celdas  
    for cell in cells:
        print(cell.text.strip())  # Extrae y limpia el texto  

---
#### 6). Scraping de una página web completa
* Podemos combinar requests y BeautifulSoup para obtener datos de una web real.
  - Se hace la petición ` HTTP`  con ` requests.get()` .
  - Se crea un objeto ` BeautifulSoup`  con el ` HTML`  descargado.
  - Se buscan todas las etiquetas ` <h2>`  con ` .find_all()` .
  - Se imprimen los títulos extraídos.

In [None]:
import requests  
from bs4 import BeautifulSoup  

# Obtener el HTML de la página  
url = "https://example.com"  
response = requests.get(url)  
html = response.text  

# Crear un objeto BeautifulSoup  
soup = BeautifulSoup(html, "html.parser")  

# Extraer información (ejemplo: todas las etiquetas <h2>)  
titles = soup.find_all("h2")  
for title in titles:
    print(title.text)

## Scrapy
* Scrapy es un framework de trabajo de rastreo web de código abierto y colaborativo para Python.
* *Se utiliza para extraer datos de los sitios web.*
* Permite navegar sitios web, extraer información específica y almacenarla en formatos como JSON, CSV o bases de datos.

### Ejemplo

In [None]:
import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://quotes.toscrape.com/tag/humor/',]
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {'quote': quote.css('span.text::text').get()}

## Selenium
* Selenium es una herramienta utilizada para controlar navegadores web a través de programas y automatizar tareas en el navegador.

### Ejemplo

In [None]:
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.example.com")

## Extraer tablas web con Pandas

#### Instalar dependencias necesarias

In [None]:
!pip install lxml html5lib beautifulsoup4

#### Ejecutar el código para extraer la tabla

In [12]:
import pandas as pd

URL = 'https://en.wikipedia.org/wiki/List_of_largest_banks'
tables = pd.read_html(URL)
df = tables[0]  # Seleccionar la primera tabla
print(df)


    Rank                                Bank name  \
0      1  Industrial and Commercial Bank of China   
1      2               Agricultural Bank of China   
2      3                  China Construction Bank   
3      4                            Bank of China   
4      5                           JPMorgan Chase   
..   ...                                      ...   
95    96                         Raiffeisen Group   
96    97                            Handelsbanken   
97    98                 Industrial Bank of Korea   
98    99                                      DNB   
99   100                      Qatar National Bank   

    Total assets (2023) (US$ billion)  
0                             6303.44  
1                             5623.12  
2                             5400.28  
3                             4578.28  
4                             3875.39  
..                                ...  
95                             352.87  
96                             351.79  
97 