<img src="https://prod-edx-ai-translations-assets.s3.amazonaws.com/google-translate.png" alt="Traducido por el logotipo de Google"><br><br>[GENERADO AUTOMÁTICAMENTE ]

En este video, revisaremos el lenguaje de marcado de hipertexto o HTML para raspado web. Hay muchos datos útiles disponibles en páginas web, como los precios inmobiliarios y soluciones a preguntas de codificación. El sitio web Wikipedia es un depósito de información mundial. Si comprendes HTML, puedes utilizar Python para extraer esta información.

## Contenido del Video

1. **Revisar el HTML de una página web básica.**
2. **Comprender la composición de una etiqueta HTML.**
3. **Comprender los árboles HTML.**
4. **Comprender las tablas HTML.**

### HTML Básico

Las páginas web están compuestas de HTML, que consiste en texto rodeado por elementos de texto encerrados entre corchetes angulares llamados etiquetas. Las etiquetas indican al navegador cómo mostrar el contenido.

**Ejemplo de estructura básica en HTML:**

In [7]:
<!DOCTYPE html>
<html>
<head>
    <title>Ejemplo de Página</title>
</head>
<body>
    <h3>Nombre del Jugador</h3>
    <p>Salario: $1,000,000</p>
</body>
</html>

SyntaxError: invalid syntax (926830582.py, line 1)

En este ejemplo:

- <!DOCTYPE html> declara que el documento es HTML.
-<html> es el elemento raíz.
-<head> contiene metainformación.
-<body> es la parte visible de la página.

### Composición de una Etiqueta HTML
Cada etiqueta HTML tiene:

- Nombre de la etiqueta: Por ejemplo, a para un enlace.
- Etiqueta de apertura: <a>
- Etiqueta de cierre: </a>
- Contenido: Lo que se muestra en la página.
- Atributos: Información adicional, como href en un enlace.

Ejemplo de etiqueta de anclaje HTML:

In [8]:
<a href="http://www.ibm.com">Visitar IBM</a>

SyntaxError: invalid syntax (1974733503.py, line 1)

### Árboles HTML
Un documento HTML puede visualizarse como un árbol de documentos:

- Etiqueta raíz: `<html>`
- Hijos de `<html>`: `<head>` y `<body>`
- Hijos de `<body>`: `<h3>`, `<p>`, etc.

Representación en árbol:


<html>
  ├── <head>
  └── <body>
      ├── <h3>
      └── <p>


### Tablas HTML

Para definir una tabla en HTML:

- Etiqueta `<table>`: Define la tabla.
- Etiqueta `<tr>`: Define una fila.
- Etiqueta `<td>`: Define una celda en una fila.
Ejemplo de tabla HTML:

In [9]:
<table>
  <tr>
    <td>Nombre</td>
    <td>Salario</td>
  </tr>
  <tr>
    <td>Jugador 1</td>
    <td>$1,000,000</td>
  </tr>
  <tr>
    <td>Jugador 2</td>
    <td>$2,000,000</td>
  </tr>
</table>


SyntaxError: invalid syntax (1735235388.py, line 1)

### Raspado Web con Python
Usaremos `BeautifulSoup` para extraer datos de una página web. Instala `beautifulsoup4` y `requests` si no lo has hecho:

In [10]:
!pip install beautifulsoup4 requests

Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 23.2.1 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


Ejemplo de raspado web:

In [12]:
import requests
from bs4 import BeautifulSoup

# Realizar una solicitud GET a la página web
response = requests.get('http://example.com')

# Analizar el contenido HTML
soup = BeautifulSoup(response.text, 'html.parser')
soup

<!DOCTYPE html>

<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative example

In [14]:
# Extraer los datos que necesitas
for player in soup.find_all('h3'):
    name = player.get_text()
    salary = player.find_next_sibling('p').get_text()
    print(f"Nombre: {name}, {salary}")


Este ejemplo obtiene los nombres de los jugadores y sus salarios de una página web ficiticia (por lo que la salida sera ninguna), siempre que estén en etiquetas `<h3>` y `<p>`, respectivamente.

Ahora que tienes algunos conocimientos básicos de HTML y raspado web, puedes intentar extraer datos de cualquier página web que te interese. ¡Buena suerte!