# Descripción general de la estructura HTML

* Una página web se construye utilizando **HTML** (HyperText Markup Language), que define la estructura y el contenido de la página.

* El **DOM** (Document Object Model), Modelo de Objetos del Documento, es la representación que los navegadores crean a partir del HTML, permitiendo interpretar y manipular la estructura de la página de manera dinámica.

![](./imgs/dom_html.png)

Dicho de otra manera

![](imgs/dom_castle.png)


HTML: los planos que describen la estructura y el diseño  

DOM: la construcción, la versión dinámica del plano donde los elementos cobran vida.


## Componentes HTML más comunes

**Elementos:**

1. **`<html>`:** El elemento raíz de un documento HTML.
2. **`<head>`:** Contiene metadatos sobre la página, como el título y las hojas de estilo.
3. **`<body>`:** Contiene el contenido visible de la página.
4. **`<h1-h6>`:** Elementos de encabezado, utilizados para estructurar el contenido.
5. **`<p>`:** Elemento de párrafo, utilizado para bloques de texto.
6. **`<a>`:** Elemento de ancla, utilizado para crear enlaces.
7. **`<img>`:** Elemento de imagen, utilizado para incrustar imágenes.
8. **`<ul>` y `<ol>`:** Elementos de lista ordenados y no ordenados, utilizados para listas.
9. **`<li>`:** Elemento de elemento de lista, utilizado dentro de listas.
10. **`<div>` y `<span>`:** Elementos contenedores genéricos, utilizados para agrupar y dar estilo al contenido.

**Atributos:**

1. **`id`:** Identificador único para un elemento.
2. **`class`:** Se utiliza para agrupar elementos con estilos o comportamientos similares.
3. **`src`:** Especifica la URL de un recurso, como una imagen o un script.
4. **`href`:** Especifica la URL de un recurso vinculado, como una página o un archivo.
5. **`alt`:** Proporciona texto alternativo para imágenes, utilizado por lectores de pantalla.
6. **`style`:** Declaraciones de estilo en línea para un elemento.
7. **`type`:** Especifica el tipo de contenido, como "text/html" o "image/jpeg".
8. **`name`:** Se utiliza para elementos de formulario, como campos de entrada.
9. **`target`:** Especifica dónde abrir un recurso vinculado (p. ej., "_blank" para una nueva pestaña).
10. **`title`:** Proporciona una información sobre herramientas para un elemento.

**Clases:**

1. **`container`:** Una clase común que se utiliza para definir un contenedor para elementos.
2. **`row` y `col`:** Clases que se utilizan para diseños basados en cuadrículas.
3. **`button`:** Una clase que se aplica a menudo a elementos de botón.
4. **`nav`:** Una clase que se utiliza para elementos de navegación.
5. **`header` y `footer`:** Clases que se utilizan para las secciones de encabezado y pie de página de una página.
6. **`card`:** Una clase que se utiliza para elementos similares a tarjetas.
7. **`modal`:** Una clase que se utiliza para cuadros de diálogo modales.
8. **`dropdown`:** Una clase que se utiliza para menús desplegables.
9. **`alert`:** Clase utilizada para mensajes de alerta.
10. **`input-group`:** Clase utilizada para agrupar elementos de entrada.

**ID:**

1. **`main`:** ID común para el área de contenido principal de una página.
2. **`header` y `footer`:** ID que se utilizan a menudo para las secciones de encabezado y pie de página.
3. **`content`:** ID genérico para el área de contenido principal.
4. **`nav`:** ID utilizado para la sección de navegación.
5. **`logo`:** ID utilizado para la imagen del logotipo.
6. **`search-bar`:** ID utilizado para la barra de búsqueda.
7. **`form`:** ID utilizado para un elemento de formulario.
8. **`modal`:** ID utilizado para un cuadro de diálogo modal.
9. **`dropdown-menu`:** ID utilizado para un menú desplegable.
10. **`alert-message`:** Un identificador utilizado para un mensaje de alerta.

¿Puedes identificar cuántos elementos están presentes en el siguiente ejemplo?

In [None]:
ejemplo_html="""
<!DOCTYPE html>
<html>
<head>
    <title>Mi Sitio Web de Ejemplo</title>
    <meta charset="UTF-8">
    <meta name="description" content="Un sitio web de ejemplo para demostrar componentes comunes de HTML.">
    <link rel="stylesheet" href="styles.css">
</head>
<body>
    <header id="header" class="header">
        <h1>Bienvenido a Mi Sitio Web de Ejemplo</h1>
        <nav id="nav" class="nav">
            <ul>
                <li><a href="#home" class="nav-link">Inicio</a></li>
                <li><a href="#about" class="nav-link">Acerca de</a></li>
                <li><a href="#contact" class="nav-link">Contacto</a></li>
            </ul>
        </nav>
    </header>

    <main id="main" class="container">
        <section id="content">
            <h2>Sobre Nosotros</h2>
            <p>Somos una empresa que valora la excelencia y la innovación.</p>
            <img src="logo.png" alt="" id="logo" class="logo">
        </section>

        <section id="services">
            <h2>Nuestros Servicios</h2>
            <ul>
                <li>Desarrollo Web</li>
                <li>Desarrollo de Aplicaciones</li>
                <li>Optimización SEO</li>
            </ul>
        </section>

        <section id="contact">
            <h2>Contáctanos</h2>
            <form id="form" class="form">
                <label for="name">Nombre:</label>
                <input type="text" id="name" name="name" class="input-group">
                <label for="email">Correo Electrónico:</label>
                <input type="email" id="email" name="email" class="input-group">
                <button type="submit" class="button">Enviar</button>
            </form>
        </section>
    </main>

    <footer id="footer" class="footer">
        <p>© 2024 Mi Sitio Web de Ejemplo</p>
    </footer>

    <div id="modal" class="modal">
        <div class="modal-content">
            <span class="close-button">×</span>
            <p>Este es un cuadro de diálogo modal.</p>
        </div>
    </div>
</body>
</html>
"""

## Instalación de paquetes

In [None]:
import sys

In [None]:
!{sys.executable} -m pip install beautifulsoup4 selenium

In [None]:
import requests
from bs4 import BeautifulSoup as bs
import selenium
from pprint import pprint as pp

## Explorando estructura HTML

In [None]:
url = "https://www.google.com"
response = requests.get(url)

Incluir un método para revisar posibles errores en nuestra solicitud

In [None]:
response.raise_for_status()

Revisamos nuestra solicitud. Obtenemos 200, el cuál es el código de OK. Los códigos de estado están definidos por el estándar [RFC 9110](https://httpwg.org/specs/rfc9110.html#overview.of.status.codes), donde se espeficica el formato y los requisitos para que el funcionamiento de los DNS, los que te permiten traducir la IP de los servicios a nombres que podemos entender.

In [None]:
response

Podemos acceder al contenido, pero sigue estándo en bytes. Después de todo, es contenido digital. HTTP usa bytes para medir la cantidad de información transmitida.

In [None]:
response.content

In [None]:
type(response.content)

BeautifulSoup es un parseador de HTML/XML byte a formato estructurado, haciendo más fácil la extracción de información. 

In [None]:
soup = bs(response.content, 'html.parser')

In [None]:
soup

In [None]:
type(soup)

In [None]:
print(soup.prettify())

> **TIP**
> 
> `soup` es una instancia de la clase BeautifulSoup. Recordando un poco de la Programación Orientada a Objetos:
> 
>```python
>class MyClass:
>   def __init__(self):
>        self.attribute1 = "value1"
>
>    def method1(self):
>        pass
>
> obj = MyClass()
> attributes_and_methods = dir(obj)
> attributes_and_methods
>```
>
>* `soup` es un objeto de la **clase** BeautifulSoup que representa el documento HTML
>  
>   ```python
>   soup = BeautifulSoup()
>    ```
>
>* El método `find_all()` es un método de la clase BeautifulSoup que busca todas las etiquetas `p` en el documento y devuelve una lista con los resultados.
>
>    ```python
>    parrafos = soup.find_all('p') 
>    ```
>
>* El atributo text nos permite acceder al texto contenido dentro de un elemento.
>
>    ```python
>    texto_parrafo_1 = paragraphs[0].text
>    ```
>
> Utilizando la tecla de tabulador podemos usar el autocompletar de Jupyter para listar los métodos y atributos disponibles para nuestro objeto `soup`. También podemos acceder a las clases y métodos de un objeto con `dir`
> ```python
> dir(soup)
>```
> 

**¿Cómo podemos acceder a todos las etiquetas, atributos y IDs disponibles en una página a través de BeautifulSoup?**

In [None]:
def extract_elements(html_content):
    """
    Extrae todos los tags, attributes, classes, y IDs de un documento HTML.

    Args:
        html_content: El contenido HTML como texto.

    Returns:
        Un diccionario que contiene una lista de tags, attributes, classes, y IDs.
    """

    soup = bs(html_content, 'html.parser')

    tags = {tag.name for tag in soup.find_all()}
    attributes = {attr for tag in soup.find_all() for attr in tag.attrs}
    classes = {class_name for tag in soup.find_all() for class_name in tag.get('class', [])}
    ids = {tag.get('id') for tag in soup.find_all() if tag.get('id')}

    return {'tags': tags, 'attributes': attributes, 'classes': classes, 'ids': ids}

In [None]:
pp(extract_elements(response.content))

**Obtengamos los elementos de nuestro `ejemplo_html`**

In [None]:
pp(extract_elements(ejemplo_html))