# Introducción a HTML para Principiantes

Este documento sirve como una introducción a los elementos básicos de HTML, que es fundamental para entender cómo estructurar una página web y cómo extraer información de ella usando web scraping.

HTML (Hypertext Markup Language) es el lenguaje estándar de marcado utilizado para crear y diseñar páginas web. Consiste en una serie de elementos, que son representados por etiquetas, utilizadas para estructurar y presentar contenido en la web.



Puedes ver un tutorial rápido de HTML si quieres: https://www.youtube.com/watch?v=mNbnV3aN3KA 

## Estructura Básica de una Página HTML

- `<!DOCTYPE html>`: Declara el tipo de documento y la versión de HTML (HTML5 en este caso).
- `<html>`: Elemento raíz de un documento HTML.
- `<head>`: Contiene metadatos sobre el documento.
- `<body>`: Contiene el contenido visible de la página web.


## Etiquetas Comunes y Sus Funciones

- `<title>`: Define el título de la página, que aparece en la pestaña del navegador.
- `<h1>` a `<h6>`: Encabezados de diferentes niveles. `<h1>` es el más importante y `<h6>` el menos importante.
- `<p>`: Define un párrafo de texto.
- `<div>`: Un contenedor genérico para agrupar otros elementos.
- `<span>`: Un contenedor en línea para agrupar elementos en un texto.
- `<ul>`, `<ol>`: Define una lista desordenada o ordenada.
- `<li>`: Define un ítem de una lista.
- `<a>`: Define un hipervínculo.


## Contenedores HTML: `<div>` y `<span>`

- `<div>`: Representa un contenedor o sección genérica en un documento HTML. Se utiliza principalmente para agrupar elementos con fines de estilos (usando CSS) o para manipular secciones específicas de la página con JavaScript. El `<div>` es un contenedor de nivel de bloque, lo que significa que crea un nuevo bloque o línea en el documento.
  
- `<span>`: Similar al `<div>`, pero es un contenedor en línea. Se utiliza para agrupar contenido dentro de una línea o dentro de otros elementos, sin causar un salto de línea. Ideal para aplicar estilos o efectos a partes específicas del texto.


## Ejemplo 1 de Uso en el Contexto de Bleach Wiki

Aquí hay un fragmento de HTML que podría representar una sección de la página de Bleach Wiki:


<h2><span id="Shinigami">Shinigami</span></h2>
<p>Los Shinigami son almas con poderes sobrenaturales y responsables de mantener el flujo de las almas entre el mundo humano y la Sociedad de Almas.</p>


In [None]:
<h2><span id="Shinigami">Shinigami</span></h2>
<p>Los Shinigami son almas con poderes sobrenaturales y responsables de mantener el flujo de las almas entre el mundo humano y la Sociedad de Almas.</p>

En el ejemplo anterior:

- `<h2>` define un encabezado de nivel 2. Los encabezados (`<h1>` a `<h6>`) son utilizados para estructurar y organizar el contenido de la página en secciones jerárquicas.
- `<span id="Shinigami">` es un contenedor en línea que agrupa la palabra "Shinigami". El atributo `id` asigna un identificador único a este elemento, permitiendo que sea referenciado específicamente por CSS o JavaScript.
- `<p>` define un párrafo, utilizado para agrupar contenido textual en bloques.

Estas etiquetas son fundamentales para estructurar contenido en páginas web y permiten la organización lógica y estilística de la información.


## Ejemplo 2: Estructura de Página de Bleach Wiki

Este ejemplo muestra cómo podría estar estructurada una página típica en la Wiki de Bleach, incluyendo diferentes secciones y tipos de contenido.


En el código HTML a continuación, se presentan varias secciones que se encuentran en la página de Bleach Wiki. Cada sección está marcada con un `<h2>` y contiene información relevante sobre diferentes razas y personajes del universo de Bleach.


In [None]:
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Bleach Wiki - Razas</title>
</head>
<body>

<h1>Bleach Wiki</h1>
<h2>Razas</h2>
<div class="mw-parser-output">
    <h2><span id="Shinigami">Shinigami</span></h2>
    <p>Los Shinigami son almas con poderes sobrenaturales y responsables de mantener el flujo de las almas entre el mundo humano y la Sociedad de Almas.</p>

    <h2><span id="Hollow">Hollow</span></h2>
    <p>Los Hollows son almas corruptas con poderes destructivos que residen en Hueco Mundo.</p>

    <h2><span id="Quincy">Quincy</span></h2>
    <p>Los Quincy son humanos con habilidades especiales para detectar y combatir Hollows.</p>
</div>

<h2>Personajes</h2>
<div class="personajes">
    <ul>
        <li><a href="https://bleach.fandom.com/es/wiki/Ichigo_Kurosaki">Ichigo Kurosaki</a></li>
        <li><a href="https://bleach.fandom.com/es/wiki/Rukia_Kuchiki">Rukia Kuchiki</a></li>
        <li><a href="https://bleach.fandom.com/es/wiki/Uryu_Ishida">Uryū Ishida</a></li>
    </ul>
</div>

</body>
</html>


### Descripción del Código

- `<!DOCTYPE html>` indica que este documento es un documento HTML5.
- La etiqueta `<html lang="es">` especifica que el idioma principal de este documento es el español.
- Dentro de `<head>`, el `<meta charset="UTF-8">` asegura que el documento pueda usar cualquier carácter del estándar Unicode, lo que es esencial para los idiomas internacionales.
- `<title>` define el título que se muestra en la pestaña del navegador.
- `<body>` contiene el contenido de la página que los usuarios verán en el navegador.
- Los elementos `<h1>` y `<h2>` se utilizan para definir encabezados, estructurando semánticamente el contenido.
- `<div class="mw-parser-output">` y `<div class="personajes">` son contenedores que agrupan elementos relacionados, con clases CSS que podrían utilizarse para aplicar estilos específicos.
- Los `<span>` con `id` se utilizan para crear anclas que pueden ser referenciadas directamente en la URL.
- `<ul>` y `<li>` definen una lista de personajes, donde cada `<li>` contiene un enlace a una página específica de cada personaje en la Wiki de Bleach.




- `class`: Es un atributo utilizado en HTML para especificar una clase de estilo para un elemento. En CSS (Cascading Style Sheets), las clases se utilizan para aplicar estilos específicos a todos los elementos que comparten la misma clase.
  
- `"mw-parser-output"`: Es el nombre de la clase utilizado aquí. Este es un atributo de clase comúnmente encontrado en las páginas generadas por MediaWiki, el software que potencia la mayoría de las wikis, incluyendo la Wiki de Bleach. En el contexto de MediaWiki, `mw-parser-output` es una clase estándar aplicada al contenido que ha sido procesado por el parser de MediaWiki. Esto incluye todo el contenido del artículo que se muestra a los usuarios.

#### Propósito de `mw-parser-output`

- **Estilización**: Permite a los desarrolladores de MediaWiki y a los administradores del sitio aplicar estilos CSS específicos al contenido del artículo. Por ejemplo, pueden querer cambiar el tamaño de fuente, color, margen, o cualquier otro estilo visual para mejorar la legibilidad y la presentación del contenido.

- **Funcionalidad JavaScript**: Facilita la vinculación de comportamientos JavaScript a todo el bloque de contenido. Esto puede incluir la interactividad como desplegables, pestañas, modales, etc.

- **Segmentación del Contenido**: Sirve como un contenedor claro para el contenido principal de la página, distinguiéndolo de otros elementos como barras laterales, encabezados o pies de página. Esto es útil no solo para el diseño y scripts, sino también para herramientas de scraping que pueden extraer eficientemente el contenido relevante.

Al comprender el propósito de estas clases, los desarrolladores y scrapers pueden apuntar con precisión a las secciones de interés dentro de la página y manipular o extraer la información de manera más efectiva.

Este ejemplo ilustra cómo el HTML estructura el contenido y cómo se puede utilizar para organizar la información de manera que los usuarios y las herramientas de scraping puedan acceder fácilmente a ella.
