## ✅ Estructuras de Datos Web


### ✨ HTML y el DOM

La estructura de datos web es la que se encuentra en el HTML de una página web. Por ejemplo, si visitamos la página web de [https://www.up.edu.mx/](https://www.up.edu.mx/), podemos ver que la estructura de datos web es la siguiente:

```html
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Universidad Panamericana</title>
</head>
<body>
    <header>
        ...
    </header>
    <main>
        ...
    </main>
    <footer>
        ...
    </footer>
</body>
</html>
```

Sin embargo, cuando un parser o un navegador web lee esta página web, crea una estructura de datos que se llama DOM (Document Object Model).

El DOM es una representación en memoria de la estructura de datos web que se encuentra en el HTML de una página web.

Un Scraper no interactúa con el HTML de una página web, sino con el DOM que se encuentra en la memoria del navegador web.

In [1]:
%pip install beautifulsoup4
%pip install requests

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import requests
from bs4 import BeautifulSoup

PAGE_URL = "https://wrsbyte.com"

def main():
    response = requests.get(PAGE_URL)
    soup = BeautifulSoup(response.text, "html.parser")
    print(soup.prettify())

if __name__ == "__main__":
    main()


<!DOCTYPE html>
<html lang="es">
 <head>
  <title>
   wrsbyte | Portfolio
  </title>
  <meta charset="utf-8"/>
  <meta content="Portfolio of wrsbyte, a software engineer with a passion for web development and open source." name="description"/>
  <link as="font" crossorigin="" href="/_astro/jetbrains-mono-latin-wght-normal.B9CIFXIH.woff2" rel="preload" type="font/woff2"/>
  <link as="font" crossorigin="" href="/_astro/grenze-latin-400-normal.DvbDi0Go.woff2" rel="preload" type="font/woff2"/>
  <link href="https://wrsbyte.com/" rel="canonical"/>
  <link href="/sitemap-index.xml" rel="sitemap"/>
  <meta content="width=device-width" name="viewport"/>
  <meta content="#d5ff00" name="theme-color"/>
  <meta content="wrsbyte, developer, software engineer, web developer, full-stack developer, front-end developer, back-end developer" name="keywords"/>
  <meta content="summary_large_image" name="twitter:card"/>
  <meta content="@wrsbyte" name="twitter:site"/>
  <meta content="@wrsbyte" name="twitt

In [4]:
import requests
from bs4 import BeautifulSoup

PAGE_URL = "https://wrsbyte.com"

def main():
    response = requests.get(PAGE_URL)
    soup = BeautifulSoup(response.text, "html.parser")

    first_title = soup.find("h1")

    print("✅ First title (h1 tag):", f"-{first_title.text}-")
    print("✅ First title (h1 tag):", f"-{first_title.getText(strip=True, separator=" ")}-")

if __name__ == "__main__":
    main()

✅ First title (h1 tag): - Wilmer Rodríguez Sánchez -
✅ First title (h1 tag): -Wilmer Rodríguez Sánchez-


In [None]:
import requests
from bs4 import BeautifulSoup

PAGE_URL = "https://wrsbyte.com"


def main():
    response = requests.get(PAGE_URL)
    soup = BeautifulSoup(response.text, "html.parser")

    experience = soup.find('div', class_="text-carbon-700 dark:text-ivory-200 font-georgia")
    if not experience:
        print("❌ Experience not found")
        return

    print(
        "✅ Experience:",
        experience.getText(strip=True, separator="\n\n✨")
    )

if __name__ == "__main__":
    main()

✅ Experience: Entregué soluciones de software completas, incluyendo arquitecturas en la nube y autogestionadas, garantizando la estabilidad, el monitoreo y la escalabilidad del sistema, mientras mejoré los tiempos de respuesta de los endpoints B2B clave en un 80%.

✨Diseñé e implementé sistemas avanzados de frontend y backend, incorporando gestión de estado, estructuras de datos optimizadas y lógica de negocio que digitalizaron procesos internos y de clientes, reduciendo tareas manuales y permitiendo la toma de decisiones basada en datos.

✨Desarrollé flujos de trabajo y sistemas de recomendación impulsados por IA, automatizando procesos con OpenAI y creando paneles y visualizaciones de análisis de datos para generar información de valor para el negocio.

✨Colaboré de forma transversal con clientes y equipos internos para recopilar requisitos, traducir necesidades de negocio en soluciones técnicas y mantener sistemas confiables y de alto rendimiento.


In [7]:
import requests
from bs4 import BeautifulSoup

PAGE_URL = "https://wrsbyte.com"

def main():
    response = requests.get(PAGE_URL)
    soup = BeautifulSoup(response.text, "html.parser")

    experience = soup.find('div', class_="text-carbon-700 dark:text-ivory-200 font-georgia")
    if not experience:
        print("❌ Experience not found")
        return

    achievements = []
    for a in experience.find_all('p'):
        achievements.append(a.getText(strip=True, separator="\n\n✨"))

    print("✅ Achievements length:", len(achievements))
    print(" *", "\n * ".join(achievements))

if __name__ == "__main__":
    main()

✅ Achievements length: 4
 * Entregué soluciones de software completas, incluyendo arquitecturas en la nube y autogestionadas, garantizando la estabilidad, el monitoreo y la escalabilidad del sistema, mientras mejoré los tiempos de respuesta de los endpoints B2B clave en un 80%.
 * Diseñé e implementé sistemas avanzados de frontend y backend, incorporando gestión de estado, estructuras de datos optimizadas y lógica de negocio que digitalizaron procesos internos y de clientes, reduciendo tareas manuales y permitiendo la toma de decisiones basada en datos.
 * Desarrollé flujos de trabajo y sistemas de recomendación impulsados por IA, automatizando procesos con OpenAI y creando paneles y visualizaciones de análisis de datos para generar información de valor para el negocio.
 * Colaboré de forma transversal con clientes y equipos internos para recopilar requisitos, traducir necesidades de negocio en soluciones técnicas y mantener sistemas confiables y de alto rendimiento.


In [None]:
import requests
from bs4 import BeautifulSoup

PAGE_URL = "https://wrsbyte.com"

def main():
    response = requests.get(PAGE_URL)
    soup = BeautifulSoup(response.text, "html.parser")

    # Important methods

    # find()
    # find_all()
    # find_parent()
    # find_next_sibling()
    # find_previous_sibling()
    # select()

    # get all h2 tags
    all_titles = soup.find_all("h2")
    print("✅ All titles (h2 tags):", len(all_titles), all_titles)

    # get parent of h2 tag
    parent = soup.find("h2").find_parent()
    print("✅ Parent of h2 tag:", parent)

    # get next sibling of h2 tag
    next_sibling = soup.find("h2").find_next_sibling()
    print("✅ Next sibling of h2 tag:", next_sibling)

    # get previous sibling of h2 tag
    previous_sibling = soup.find("h2").find_previous_sibling()
    print("✅ Previous sibling of h2 tag:", previous_sibling)

    # get all h2 tags using select()
    all_titles = soup.select(".font-grenze.text-5xl.font-bold.tracking-tight.mb-4.text-center")
    print("✅ All titles (css search select()):", len(all_titles), all_titles)

    # Some object properties
    print("✅ Object properties of h2 tag (attrs):", soup.find("h2").attrs)
    print("✅ Object properties of h2 tag (parent):", soup.find("h2").parent)
    print("✅ Object properties of h2 tag (text):", soup.find("h2").text)

if __name__ == "__main__":
    main()

  all_titles = soup.select("body > main > section:nth-child(7) > div > div.lg\:col-span-5 > div.mb-10 > div > div:nth-child(1) > h3")


✅ All titles (h2 tags): 6 [<h2 class="font-mono text-lg font-semibold"> Juego de la vida de Conway </h2>, <h2 class="font-mono text-2xl text-center mb-8 font-bricolage-grotesque"> Software Engineer </h2>, <h2 class="text-3xl font-grenze font-bold mb-6 tracking-tight"> Experiencia </h2>, <h2 class="text-3xl font-grenze font-bold mb-6 tracking-tight"> Educación </h2>, <h2 class="text-3xl font-bold mb-6 font-grenze tracking-tight"> Habilidades </h2>, <h2 class="text-3xl font-grenze font-bold mb-6 tracking-tight" id="contact"> Contacto </h2>]
✅ Parent of h2 tag: <div> <h2 class="font-mono text-lg font-semibold"> Juego de la vida de Conway </h2> <p class="flex flex-wrap gap-1 font-mono text-sm"> <span>Generaciones:</span> <span class="w-[50px] text-center" id="generations">-</span> <span>| </span> <span>Clic izquierdo o arrastrar para añadir células. Clic derecho para eliminar células.</span> </p> </div>
✅ Next sibling of h2 tag: <p class="flex flex-wrap gap-1 font-mono text-sm"> <span>Gene

### ✨ Selectores Avanzados

`lxml` es una librería de Python extremadamente rápida y potente para procesar HTML y XML.
Está construida sobre libxml2 y libxslt, lo que la hace mucho más rápida y estricta que otras librerías en Python.

En algunos casos, BeautifulSoup puede no ser capaz de resolver correctamente la estructura de datos web, por lo que es recomendable usar un parser como lxml.

**Ventajas:**
- Velocidad: Si estás haciendo scraping masivo o parseando miles de documentos, lxml es muchísimo más rápido que BeautifulSoup.
- Precisión y estructura estricta: Cuando el documento tiene estructura XML bien formada (sitemaps, RSS, APIs antiguas, etc.).
- XPath: XPath es más potente que CSS selectors y lxml lo ejecuta muy rápido.

In [8]:
%pip install lxml
%pip install cssselect

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [54]:
import requests
from lxml import html

PAGE_URL = 'https://wrsbyte.com'

def main():
    response = requests.get(PAGE_URL)
    
    if response.status_code != 200:
        raise ValueError(f'Error: {response.status_code}')

    html_content = response.content
    tree = html.fromstring(html_content)
    
    title_web = tree.xpath('//title/text()')
    print(title_web)

    h1 = tree.xpath('//h1/text()')
    print(h1)

    time = tree.xpath('//*[@id="experience"]/div/div[1]/div[2]')[0].text_content()
    print(time)


if __name__ == '__main__':
    main()

['wrsbyte | Portfolio']
[' Wilmer Rodríguez Sánchez ']
        Enero 2022 - Presente       3a 9m  


In [56]:
import requests
from lxml import html

PAGE_URL = 'https://wrsbyte.com'

def main():
    response = requests.get(PAGE_URL)
    
    if response.status_code != 200:
        raise ValueError(f'Error: {response.status_code}')

    html_content = response.content
    tree = html.fromstring(html_content)
    
    font_mono = tree.xpath("//div[contains(@class, 'font-mono')]/text()")
    print(font_mono)


if __name__ == '__main__':
    main()

[' ', ' Enero 2022 - Presente ', ' ', ' 3a 9m ', ' ', ' Junio 2022 - Presente ', ' ', ' 3a 4m ', ' ', ' Junio 2023 - Agosto 2023 ', ' ', ' 2m ', ' ', ' Junio 2022 - Agosto 2022 ', ' ', ' 2m ', ' ', ' Mayo 2021 - Enero 2022 ', ' ', ' 8m ', ' Abril 2019 - Abril 2025 ', ' Mayo 2021 – Diciembre 2021 ']


### 🪂 Reglas básicas de XPath

| Característica | Sintaxis                               | Uso Práctico                                                    |
|----------------|-----------------------------------------|------------------------------------------------------------------|
| Absoluto       | /html/body/div[2]/p                    | Muy frágil. Evitar.                                              |
| Relativo       | //tag                                   | Selecciona la etiqueta `tag` en cualquier lugar del documento.   |
| Atributo       | //tag[@atributo='valor']               | El estándar. Útil para clases o IDs.                             |
| Contiene       | //tag[contains(@atributo, 'parte')]    | Robusto cuando las clases/atributos cambian.                     |
| Texto          | //tag[text()='Texto exacto']           | Útil para botones o encabezados fijos.                           |
| Navegación     | /parent::*, /following-sibling::*      | Permite ir a un nodo y luego navegar a un hermano o al padre.    |

### 🔍 Algunos ejemplos de búsqueda

| #  | Descripción breve                                                         | XPath ejemplo |
|----|---------------------------------------------------------------------------|----------------|
| 1  | Buscar por clase, texto y posición (“2do botón que contiene ‘Comprar’”)   | `(//button[contains(text(), 'Comprar')])[2]` |
| 2  | Producto con varias condiciones (clase, stock > 0, precio > 20)           | `//div[contains(@class, 'card')][@data-stock > 0][.//span[@class='price' and number(text()) > 20]]` |
| 3  | Filtrar filas donde una columna contenga texto parcial                    | `//table//tr[td[contains(., 'Total')]]` |
| 3b | Extraer el valor de esa fila                                              | `//table//tr[td[contains(., 'Total')]]/td[2]/text()` |
| 4  | Item por atributo `data-*` y texto en un hijo (“book” y título contiene Python) | `//div[@data-category='book'][.//h3[contains(., 'Python')]]` |
| 5  | Buscar nodos sólo si NO existe otro nodo (“sin Agotado”)                  | `//div[@class='item'][not(.//span[contains(., 'Agotado')])]` |
| 6  | Buscar el hermano siguiente de un nodo (“span después de label Email”)     | `//label[contains(., 'Email')]/following-sibling::span[1]/text()` |
| 7  | Múltiples atributos data-* (save + admin)                                  | `//button[@data-action='save' and contains(@data-user, 'admin')]` |
| 8  | Posición relativa dentro de contenedor (#main, 3er p con ‘precio’)        | `//*[@id='main']//p[contains(., 'precio')][3]` |
| 9  | Condiciones complejas (imagen + precio válido + activo)                   | `//div[contains(@class,'product')][img][.//span[@class='price' and number(text()) > 0]][contains(@data-status, 'active')]` |
| 10 | Condición OR (promo o featured)                                           | `//div[contains(@class, 'promo') or contains(@class, 'featured')]` |
| 11 | Obtener todo el texto incluso anidado                                     | `//div[@class='description']//text()` |
| 12 | Atributo numérico dentro de un rango (price entre 10 y 50)                | `//div[number(@data-price) >= 10 and number(@data-price) <= 50]` |

Página para hacer pruebas de XPath: https://xpather.com/


### ✨JSON: Estructura y Parsing

Muchas webs modernas cargan sus datos a través de APIs que devuelven JSON (JavaScript Object Notation) en lugar de HTML.

JSON es un formato de datos que se utiliza para transmitir datos entre un servidor y un cliente.

```json
{
    "name": "John",
    "age": 30,
    "city": "New York"
}
```

**Ventaja para Scraping**: Si obtenemos JSON, nos saltamos la etapa de parsing del HTML. El proceso es mucho más rápido y directo.

In [63]:
import requests
import json

GITHUB_PAGE = 'https://github.com/wrsbyte/web-scraping-course/latest-commit/main'


def main():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
        'Content-Type': 'application/json',
        'Accept': 'application/json',
    }
    response = requests.get(
        GITHUB_PAGE,
        headers=headers
        )
    
    data = response.json()
    print(json.dumps(data, indent=4))


if __name__ == '__main__':
    main()


{
    "oid": "b0c903686190d2cc5e3fbbbd019c550208eaf2c1",
    "url": "/wrsbyte/web-scraping-course/commit/b0c903686190d2cc5e3fbbbd019c550208eaf2c1",
    "date": "2025-12-07T11:33:22.000-06:00",
    "shortMessageHtmlLink": "<a data-pjax=\"true\" class=\"Link--secondary\" href=\"/wrsbyte/web-scraping-course/commit/b0c903686190d2cc5e3fbbbd019c550208eaf2c1\">\ud83d\udc1b fix: remove python code</a>",
    "bodyMessageHtml": "",
    "author": {
        "displayName": "wrsbyte",
        "login": "wrsbyte",
        "path": "/wrsbyte",
        "avatarUrl": "https://avatars.githubusercontent.com/u/61599129?s=40&v=4"
    },
    "authors": [
        {
            "login": "wrsbyte",
            "displayName": "wrsbyte",
            "avatarUrl": "https://avatars.githubusercontent.com/u/61599129?v=4",
            "path": "/wrsbyte",
            "profileName": "Wilmer Rodr\u00edguez S",
            "isGitHub": false
        }
    ],
    "committerAttribution": false,
    "committer": {
        "login"

In [None]:
import requests
import json

API_GRAPHQL = 'https://apitours.citix.com.co/graphql'


def main():
    query = """
    query getToursByFiltersV2(
      $language: String
      $currency: String
      $filters: TourFilterArgs
      $pagination: PaginationArgsVersion2
    ) {
      getToursByFiltersV2(
        language: $language
        filters: $filters
        currency: $currency
        pagination: $pagination
      ) {
        edges {
          node {
            id
            name
            starts
            slugName
            latitude
            longitude
            region
            departuresFrom
            numberOfReviews
            medals
            city
            price {
              price
              currency {
                id
                name
                toBaseUnit
                fromBaseUnit
              }
            }
            isHighlighted
            whatWillYouDo
            approximateDuration
            unitOfDuration {
              id
              name
              code
            }
            tourLanguages {
              language {
                name
              }
            }
            tourMedia {
              alt
              mediaType
              mediaUrl
              thumbnailUrl
              createdAt
              updatedAt
            }
            category {
              id
              code
              createdAt
              name
              updatedAt
            }
          }
        }
        pageInfo {
          hasNextPage
          hasPreviousPage
          startCursor
          endCursor
        }
      }
    }
    """
    variables = {
        "language": "en_US",
        "currency": "COP",
        "filters": {
            "browseRadius": 100
        },
        "pagination": {
            "first": 3
        }
    }
    headers = {
        "Content-Type": "application/json",
        "Accept": "application/json",
    }
    response = requests.post(
        API_GRAPHQL,
        json={"query": query, "variables": variables},
        headers=headers
    )
    data = response.json()

    print(json.dumps(data, indent=4))

    tours = data["data"]["getToursByFiltersV2"]["edges"]
    print("✅ Total tours: ", len(tours))
    for tour in tours:
        print("✨ Tour: ", tour["node"]["name"])


if __name__ == "__main__":
    main()

    

{
    "data": {
        "getToursByFiltersV2": {
            "edges": [
                {
                    "node": {
                        "id": "f333be7f-a243-44bc-a181-2217f3108a81"
                    }
                },
                {
                    "node": {
                        "id": "60ac0fd8-e674-462a-a0ff-0223eb9bdb8a"
                    }
                },
                {
                    "node": {
                        "id": "6fe8a7f0-1451-4226-9379-44390acbcd88"
                    }
                }
            ],
            "pageInfo": {
                "hasNextPage": true,
                "hasPreviousPage": false,
                "startCursor": "f333be7f-a243-44bc-a181-2217f3108a81",
                "endCursor": "6fe8a7f0-1451-4226-9379-44390acbcd88"
            }
        }
    }
}
✅ Total tours:  3


KeyError: 'name'