🔹 **Ejercicio 1: Comprobar la estructura jerárquica de encabezados HTML** 
**Objetivo:**  Asegúrate de que una página tenga solo un `<h1>`, y que los encabezados `<h2>` y `<h3>` estén bien organizados.
 
- Extrae todos los encabezados `<h1>`, `<h2>`, `<h3>`.
 
- Verifica que solo exista **
Verifica que solo exista un `<h1>`** .
 
- Exporta la lista de encabezados y su jerarquía a un archivo Excel o CSV.
 
- Marca si hay errores de estructura.



---


🔹 **Ejercicio 2: Analizar velocidad de respuesta (Time to First Byte)** 
**Objetivo:**  Detectar páginas con tiempo de carga lento.
 
- Usa `requests.get()` con `response.elapsed.total_seconds()` para medir el tiempo de carga.
 
- Clasifica la velocidad:

 
  - 🟢 < 0.5s
 
  - 🟡 0.5s - 1s
 
  - 🔴 > 1s
 
- Aplica a una lista de URLs.
 
- Exporta los resultados a Excel con: URL, TTFB, categoría.



---


🔹 **Ejercicio 3: Detección de metadatos sociales** 
**Objetivo:**  Verificar si una página tiene etiquetas Open Graph (`og:`) y Twitter Cards.
 
- Extrae todas las etiquetas `<meta>` que comiencen por `og:` o `twitter:`.
 
- Reporta las que faltan (por ejemplo: `og:title`, `og:description`, etc).
 
- Exporta los resultados por URL: etiquetas presentes, etiquetas ausentes.



---


🔹 **Ejercicio 4: Comprobación de enlaces internos sin HTTPS** 
**Objetivo:**  Detectar enlaces internos que no utilizan HTTPS.
 
- Extrae todos los `<a>` con `href`.
 
- Revisa si apuntan a un dominio interno **
Revisa si apuntan a un dominio interno sin `https://`** .
 
- Exporta a CSV: texto del enlace, destino, estado de seguridad (`seguro` / `no seguro`).



---


🔹 **Ejercicio 5: Extraer imágenes externas y analizar tamaños** 
**Objetivo:**  Detectar imágenes externas que puedan afectar rendimiento SEO.
 
- Encuentra todas las etiquetas `<img>` cuyo `src` apunte a otro dominio.
 
- Intenta descargar el archivo y obtener su tamaño (en KB).
 
- Marca imágenes de más de 300 KB como "pesadas".



---


🔹 **Ejercicio 6: Verificación de presencia de Google Analytics** 
**Objetivo:**  Comprobar si una web incluye el script de Google Analytics.
 
- Analiza el HTML en busca de `gtag`, `ga.js`, `analytics.js`, `UA-`, `G-`.
 
- Marca si se detecta el código o no.
 
- Exporta la información por página auditada.



---


🔹 Ejercicio 7: Comprobar duplicidad de `<title>` y `<meta description>` entre páginas** 
**Objetivo:**  Identificar títulos o descripciones duplicadas en múltiples URLs.
 
- Crea una lista de páginas.
 
- Extrae `<title>` y `<meta name="description">` de cada una.
 
- Detecta repeticiones exactas.
 
- Exporta un informe agrupado por duplicados.



---


🔹 **Ejercicio 8: Densidad de palabras clave por página** 
**Objetivo:**  Medir si hay sobreoptimización (keyword stuffing).
 
- Extrae texto visible de la página.
 
- Cuenta palabras clave principales.
 
- Calcula su densidad sobre el total del contenido.
 
- Marca si alguna supera el 5% del total (riesgo SEO).



---


🔹 **Ejercicio 9: Validar sitemap.xml** 
**Objetivo:**  Verificar si el archivo `sitemap.xml` existe y contiene URLs válidas.
 
- Intenta acceder a `/sitemap.xml`.
 
- Si existe, parsea el XML.
 
- Valida que haya al menos 10 URLs.
 
- Exporta el listado a Excel o CSV.



---


🔹 **Ejercicio 10: Generar informe de auditoría SEO básica** 
**Objetivo:**  Combinar todos los análisis en un solo informe.

Para cada URL:

 
- ¿Tiene `<title>` y `<meta description>`?
 
- ¿Tiene `<h1>` único?
 
- ¿Enlaces rotos?
 
- ¿Imágenes sin `alt`?
 
- ¿Sitemap? ¿robots.txt?
 
- ¿Canonical?
 
- ¿Tiempo de respuesta?

**Exporta todo a un único Excel**  con una fila por URL y columnas por criterio.


# 🧪 Ejercicio 1: Estructura jerárquica de encabezados HTML

In [1]:
import requests
from bs4 import BeautifulSoup

url = "https://webscraper.io/test-sites/e-commerce/static"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

encabezados = {}

for tag in ["h1", "h2", "h3"]:
    encabezados[tag] = []  # Inicializa la lista para cada tipo de encabezado
    elementos = soup.find_all(tag)
    for h in elementos:
        texto = h.get_text(strip=True)
        encabezados[tag].append(texto)

print("Encabezados encontrados:", encabezados)

# Verificación adicional
if len(encabezados["h1"]) != 1:
    print("⚠️ Error: debe haber exactamente un <h1>")
else:
    print("✅ Estructura de encabezados válida")


Encabezados encontrados: {'h1': ['Test Sites'], 'h2': ['E-commerce training site'], 'h3': ['Top items being scraped right now']}
✅ Estructura de encabezados válida


# 🧪 Ejercicio 2: Análisis de velocidad de respuesta (TTFB)

In [2]:
import time

start = time.time()
response = requests.get(url)
ttfb = response.elapsed.total_seconds()
print(f"Tiempo de respuesta (TTFB): {ttfb:.3f} segundos")

if ttfb < 0.5:
    print("🟢 Rápido")
elif ttfb < 1.0:
    print("🟡 Medio")
else:
    print("🔴 Lento")

Tiempo de respuesta (TTFB): 0.125 segundos
🟢 Rápido


# 🧪 Ejercicio 3: Detección de metadatos sociales

In [4]:
og_expect = ['og:title', 'og:description', 'og:image', 'og:url']
twitter_expect = ['twitter:card', 'twitter:title', 'twitter:description', 'twitter:image']

og_tags = [tag.get('property') for tag in soup.find_all('meta', property=True) if tag['property'].startswith('og:')]
twitter_tags = [tag.get('name') for tag in soup.find_all('meta', attrs={'name': True}) if tag['name'].startswith('twitter:')]

print("OG encontrados:", og_tags)
print("OG faltantes:", [tag for tag in og_expect if tag not in og_tags])
print("Twitter encontrados:", twitter_tags)
print("Twitter faltantes:", [tag for tag in twitter_expect if tag not in twitter_tags])

OG encontrados: ['og:title', 'og:description', 'og:type', 'og:url', 'og:image']
OG faltantes: []
Twitter encontrados: []
Twitter faltantes: ['twitter:card', 'twitter:title', 'twitter:description', 'twitter:image']


# 🧪 Ejercicio 4: Enlaces internos sin HTTPS

In [None]:
from urllib.parse import urlparse, urljoin

parsed_base = urlparse(url)
inseguros = []

for a in soup.find_all("a", href=True):
    full_url = urljoin(url, a["href"])
    parsed = urlparse(full_url)
    if parsed.netloc == parsed_base.netloc and not full_url.startswith("https://"):
        inseguros.append(full_url)

print("Enlaces internos sin HTTPS:", inseguros)

# 🧪 Ejercicio 5: Imágenes externas y su tamaño

In [None]:
external_imgs = [img["src"] for img in soup.find_all("img", src=True) if urlparse(img["src"]).netloc not in ["", urlparse(url).netloc]]
pesadas = []

for img_url in external_imgs:
    try:
        img_resp = requests.head(img_url, allow_redirects=True)
        size = int(img_resp.headers.get("Content-Length", 0)) / 1024
        if size > 300:
            pesadas.append((img_url, size))
    except:
        continue

print("Imágenes externas > 300KB:", pesadas)

# 🧪 Ejercicio 6: Verificación de Google Analytics

In [None]:
if any(code in response.text for code in ["UA-", "G-", "gtag(", "ga("]):
    print("✅ Google Analytics detectado")
else:
    print("❌ No se encontró Google Analytics")

# 🧪 Ejercicio 7: Títulos y descripciones duplicados

In [None]:
# Suponiendo múltiples URLs (solo simulación con una por simplicidad)
urls = [url]
titulos = []
descripciones = []

for u in urls:
    r = requests.get(u)
    s = BeautifulSoup(r.text, 'html.parser')
    titulo = s.title.string.strip() if s.title else ""
    descripcion = s.find("meta", attrs={"name": "description"})
    desc = descripcion["content"].strip() if descripcion and descripcion.get("content") else ""
    titulos.append(titulo)
    descripciones.append(desc)

print("Duplicados de título:", [t for t in set(titulos) if titulos.count(t) > 1])
print("Duplicados de descripción:", [d for d in set(descripciones) if descripciones.count(d) > 1])

# 🧪 Ejercicio 8: Densidad de palabras clave

In [None]:
import re
from collections import Counter

stopwords = {'de', 'la', 'y', 'el', 'en', 'los', 'las', 'con', 'por', 'una', 'para', 'que', 'del', 'sus', 'más'}
texto = soup.get_text().lower()
palabras = re.findall(r'\b\w{4,}\b', texto)
palabras_filtradas = [p for p in palabras if p not in stopwords]
total = len(palabras_filtradas)
conteo = Counter(palabras_filtradas)
for palabra, freq in conteo.most_common(10):
    densidad = (freq / total) * 100
    print(f"{palabra}: {freq} veces - {densidad:.2f}%")

# 🧪 Ejercicio 9: Validación de sitemap.xml

In [None]:
sitemap_url = url + "/sitemap.xml"
try:
    r = requests.get(sitemap_url)
    if r.status_code == 200 and "<loc>" in r.text:
        print("✅ Sitemap encontrado")
    else:
        print("❌ Sitemap no válido o vacío")
except:
    print("❌ Error al acceder al sitemap")

# 🧪 Ejercicio 10: Informe de auditoría SEO básica

In [None]:
import pandas as pd

info = {
    "URL": url,
    "Tiene <title>": soup.title is not None,
    "Tiene <meta description>": soup.find("meta", attrs={"name": "description"}) is not None,
    "Un solo <h1>": len(soup.find_all("h1")) == 1,
    "Imágenes sin alt": sum(1 for img in soup.find_all("img") if not img.get("alt")),
    "Tiene canonical": soup.find("link", rel="canonical") is not None,
    "Google Analytics": any(x in response.text for x in ["UA-", "G-", "gtag(", "ga("]),
}

df = pd.DataFrame([info])
df.to_excel("informe_seo_basico.xlsx", index=False)
print("✅ Informe exportado a informe_seo_basico.xlsx")