# Continuaci√≥n webcrawling/scrapping para Seo

# Ejemplo 1: Extraer el t√≠tulo y la meta descripci√≥n
- Aplicaci√≥n SEO: Verificamos que cada p√°gina tenga un t√≠tulo adecuado y una descripci√≥n optimizada.



In [75]:
import requests
from bs4 import BeautifulSoup

url = "https://www.python.org"
url2 = "https://webscraper.io/test-sites/e-commerce/static"

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# T√≠tulo de la p√°gina
titulo = soup.title.string

# Meta descripci√≥n
meta_descripcion = soup.find('meta', attrs={'name': 'description'})
# descripcion = meta_descripcion['content'] if meta_descripcion else "No tiene descripci√≥n"

if meta_descripcion:
    descripcion = meta_descripcion['content']
else:
    descripcion = "No tiene descripci√≥n"

print("T√≠tulo:", titulo)
print("Descripci√≥n:", descripcion)
#print(soup.prettify())


T√≠tulo: Welcome to Python.org
Descripci√≥n: The official home of the Python Programming Language


# Ejemplo 2: Revisar estructura de encabezados H1, H2, H3

Aplicaci√≥n SEO: Un solo <h1>, uso jer√°rquico de encabezados. Puedes revisar si una p√°gina est√° correctamente estructurada.

In [46]:
encabezados = {}
for tag in ['h1', 'h2', 'h3']:
    encabezados[tag] = [h.get_text(strip=True) for h in soup.find_all(tag)]

print(encabezados)


{'h1': ['', 'Functions Defined', 'Compound Data Types', 'Intuitive Interpretation', 'All the Flow You‚Äôd Expect', 'Quick & Easy to Learn'], 'h2': ['Get Started', 'Download', 'Docs', 'Jobs', 'Latest News', 'Upcoming Events', 'Success Stories', 'Use Python for‚Ä¶', '>>>Python Software Foundation'], 'h3': []}


# Ejemplo 3: Verificar si hay enlaces rotos (broken links)
Aplicaci√≥n SEO: Detectar enlaces rotos que afectan el posicionamiento y la experiencia del usuario.

In [47]:
from urllib.parse import urljoin

enlaces = soup.find_all('a', href=True)
for enlace in enlaces[:10]:  # Limita para pruebas
    link = urljoin(url2, enlace['href'])
    try:
        r = requests.head(link, timeout=5)
        if r.status_code >= 400:
            print("Enlace roto:", link, "Status:", r.status_code)
        else:
            print("Enlace OK:", r.status_code)
    except requests.RequestException:
        print("Enlace roto:", link)


Enlace OK: 200
Enlace OK: 200
Enlace OK: 200
Enlace OK: 301
Enlace OK: 302
Enlace OK: 200
Enlace OK: 200
Enlace roto: https://webscraper.io/community/ Status: 404
Enlace OK: 200
Enlace OK: 200


# Ejemplo 4: Verificar im√°genes sin atributo alt
Aplicaci√≥n SEO: Las im√°genes sin atributo alt perjudican la accesibilidad y el SEO de im√°genes.



In [38]:
imagenes = soup.find_all('img')
sin_alt = [img['src'] for img in imagenes if not img.get('alt')]

print("Im√°genes sin 'alt':", sin_alt)


Im√°genes sin 'alt': []


# Ejemplo 5: Verificar la presencia del atributo canonical
El atributo rel="canonical" evita contenido duplicado indicando la versi√≥n principal de una p√°gina.

Aplicaci√≥n SEO: Asegura que se indica cu√°l es la URL original de la p√°gina.



In [55]:
canonical = soup.find('link', rel='canonical')
if canonical:
    print("Canonical:", canonical['href'])
else:
    print("No se encontr√≥ etiqueta canonical.")


Canonical: https://webscraper.io/test-sites/e-commerce/static


# Ejemplo 6: Listar todas las URLs internas y externas
Aplicaci√≥n SEO: Ayuda a entender la estructura de enlaces internos y salientes.



In [56]:
from urllib.parse import urlparse

internas = []
externas = []

for a in soup.find_all('a', href=True):
    href = a['href']
    if href.startswith('#') or href.startswith('mailto:') or href.startswith('tel:'):
        continue
    if urlparse(href).netloc == "" or urlparse(href).netloc == urlparse(url).netloc:
        internas.append(href)
    else:
        externas.append(href)

print("Enlaces internos:", internas[:5])
print("Enlaces externos:", externas[:5])


Enlaces internos: ['/', '/', '/cloud-scraper', '/pricing', '/documentation']
Enlaces externos: ['https://forum.webscraper.io/', 'https://chromewebstore.google.com/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=en', 'https://cloud.webscraper.io/', 'https://webscraper.io/downloads/Web_Scraper_Media_Kit.zip', 'https://forum.webscraper.io/']


# Ejemplo 7: Revisar si el archivo robots.txt permite el acceso
Aplicaci√≥n SEO: Verifica si la p√°gina permite ser rastreada por motores de b√∫squeda.



In [59]:
robots_url = url + "/robots.txt"
try:
    r = requests.get(robots_url)
    print("Contenido de robots.txt:\n", r.text[:300])
except:
    print("No se pudo obtener robots.txt")


Contenido de robots.txt:
 # Directions for robots.  See this URL:
# http://www.robotstxt.org/robotstxt.html
# for a description of the file format.

User-agent: HTTrack
User-agent: puf
User-agent: MSIECrawler
Disallow: /

# The Krugle web crawler (though based on Nutch) is OK.
User-agent: Krugle
Allow: /
Disallow: /~guido/or


# Ejemplo 8: Detectar p√°ginas sin etiquetas <meta name="robots">
Aplicaci√≥n SEO: Se puede indicar noindex, nofollow, etc. Esta etiqueta debe estar bien configurada.



In [62]:
robots_meta = soup.find('meta', attrs={'name': 'robots'})
if robots_meta:
    print("Meta robots:", robots_meta['content'])
else:
    print("No se encontr√≥ etiqueta meta robots.")


No se encontr√≥ etiqueta meta robots.


# Ejemplo 9: Verificar si est√° el sitemap.xml

In [68]:
import requests



# 2. Posibles rutas de sitemap
posibles_sitemaps = [url, url2]

# 3. Verificaci√≥n de existencia
for path in posibles_sitemaps:

    try:
        response = requests.head(path, timeout=5)
        if response.status_code == 200:
            print(f"‚úÖ Sitemap encontrado en: {path}")
        else:
            print(f"‚ùå No encontrado: {path} (Status {response.status_code})")
    except Exception as e:
        print(f"‚ö†Ô∏è Error al acceder a {path}: {e}")



‚úÖ Sitemap encontrado en: https://www.python.org
‚úÖ Sitemap encontrado en: https://webscraper.io/test-sites/e-commerce/static


# Ejemplo 10: Detectar m√∫ltiples etiquetas <title> (error com√∫n)
Aplicaci√≥n SEO: Tener m√°s de un <title> puede confundir a los motores de b√∫squeda.



In [71]:
titulos = soup.find_all('title')
if len(titulos) > 1:
    print(f"¬°Cuidado! Hay {len(titulos)} etiquetas <title>")
else:
    print("Etiqueta <title> correcta:", titulos[0].string if titulos else "No hay t√≠tulo")


Etiqueta <title> correcta: Static | Web Scraper Test Sites


# Ejemplo 11: Detectar p√°ginas sin favicon
Aplicaci√≥n SEO: Aunque no afecta directamente al ranking, es importante para la apariencia en resultados y marcadores.

In [73]:
favicon = None
for link in soup.find_all("link"):
    rel = link.get("rel")
    if rel and any("icon" in r.lower() for r in rel):
        favicon = link
        break

if favicon and favicon.get("href"):
    print("Favicon encontrado:", favicon["href"])
else:
    print("No tiene favicon")


Favicon encontrado: /favicon.png


# Ejemplo 12: Verificar el uso de etiquetas <strong> y <em>
Aplicaci√≥n SEO: √ötil para destacar contenido relevante y palabras clave.



In [None]:
strongs = soup.find_all('strong')
ems = soup.find_all('em')

print(f"<strong>: {len(strongs)} - <em>: {len(ems)}")

if len(strongs) + len(ems) == 0:
    print("No se est√°n destacando palabras clave con <strong> o <em>")

# Ejemplo 13: EVerificar uso de Open Graph (Facebook) y Twitter Cards


In [80]:
og_tags = soup.find_all('meta', property=lambda p: p and p.startswith('og:'))
twitter_tags = soup.find_all('meta', attrs={'name': lambda n: n and n.startswith('twitter:')})

print("Etiquetas Open Graph:", [tag['property'] for tag in og_tags])
print("Etiquetas Twitter:", [tag['name'] for tag in twitter_tags])


Etiquetas Open Graph: ['og:type', 'og:site_name', 'og:title', 'og:description', 'og:image', 'og:image:secure_url', 'og:url']
Etiquetas Twitter: []


# Ejemplo 14: Extraer y analizar la densidad de palabras clave

In [83]:
import re
from collections import Counter

texto = soup.get_text().lower()
palabras = re.findall(r'\b\w{4,}\b', texto)  # solo palabras de 4 letras o m√°s
stopwords = {'de', 'la', 'y', 'el', 'en', 'los', 'las', 'con', 'por', 'una', 'para', 'que', 'del', 'sus', 'm√°s'}

# Filtra y cuenta
palabras_filtradas = [p for p in palabras if p not in stopwords]
top_keywords = Counter(palabras_filtradas).most_common(10)

print("Top 10 palabras clave:", top_keywords)


Top 10 palabras clave: [('python', 56), ('2025', 15), ('news', 12), ('events', 11), ('more', 11), ('community', 9), ('with', 8), ('docs', 7), ('code', 6), ('other', 6)]


# EJERCICIO PR√ÅCTICO

In [86]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from urllib.parse import urljoin, urlparse

def analyze_url(url):
    result = {
        "URL": url,
        "Title": None,
        "Title Length": None,
        "Meta Description": None,
        "Meta Description Length": None,
        "H1 Count": None,
        "Images Missing Alt": None,
        "Canonical Tag": None,
        "Internal Links Count": None,
        "External Links Count": None,
        "Broken Links Count": None,
        "Broken Links Sample": None,
    }

    try:
        response = requests.get(url, timeout=10)
        if response.status_code != 200:
            result["Title"] = f"Error: status {response.status_code}"
            return result

        soup = BeautifulSoup(response.text, 'html.parser')

        # T√≠tulo
        if soup.title and soup.title.string:
            title = soup.title.string.strip()
            result["Title"] = title
            result["Title Length"] = len(title)
        else:
            result["Title"] = "No Title"
            result["Title Length"] = 0

        # Meta descripci√≥n
        meta_desc = soup.find("meta", attrs={"name": "description"})
        if meta_desc and meta_desc.get("content"):
            desc = meta_desc["content"].strip()
            result["Meta Description"] = desc
            result["Meta Description Length"] = len(desc)
        else:
            result["Meta Description"] = "No Meta Description"
            result["Meta Description Length"] = 0

        # H1
        h1_tags = soup.find_all("h1")
        result["H1 Count"] = len(h1_tags)

        # Im√°genes sin alt
        images = soup.find_all("img")
        missing_alt = sum(1 for img in images if not img.get("alt"))
        result["Images Missing Alt"] = missing_alt

        # Canonical
        canonical = soup.find("link", rel=lambda val: val and "canonical" in val.lower())
        result["Canonical Tag"] = canonical["href"] if canonical and canonical.get("href") else "No canonical"

        # Enlaces
        parsed_base = urlparse(url)
        internal_links = []
        external_links = []
        broken_links = []

        for a in soup.find_all("a", href=True):
            href = a["href"]
            if href.startswith("#") or href.startswith("mailto:") or href.startswith("tel:"):
                continue
            full_link = urljoin(url, href)
            parsed_link = urlparse(full_link)
            if parsed_link.netloc == "" or parsed_link.netloc == parsed_base.netloc:
                internal_links.append(full_link)
            else:
                external_links.append(full_link)

            # Comprobaci√≥n de enlace roto
            try:
                r = requests.head(full_link, allow_redirects=True, timeout=5)
                if r.status_code >= 400:
                    broken_links.append(full_link)
            except:
                broken_links.append(full_link)

        result["Internal Links Count"] = len(internal_links)
        result["External Links Count"] = len(external_links)
        result["Broken Links Count"] = len(broken_links)
        result["Broken Links Sample"] = "\n".join(broken_links[:3]) if broken_links else "Ninguno"

    except Exception as e:
        result["Title"] = f"Error: {e}"

    return result

def main():
    urls = [
        # "http://books.toscrape.com/",
        # "http://quotes.toscrape.com/",
        # "https://demo.opencart.com/"
        "https://www.python.org",
        "https://webscraper.io/test-sites/e-commerce/static"
    ]

    results = []
    for url in urls:
        print(f"Analizando: {url}")
        data = analyze_url(url)
        results.append(data)

    df = pd.DataFrame(results)
    df.to_excel("seo_audit_with_broken_links.xlsx", index=False)
    print("¬°Informe completo exportado a seo_audit_with_broken_links.xlsx!")

if __name__ == "__main__":
    main()


Analizando: https://www.python.org
Analizando: https://webscraper.io/test-sites/e-commerce/static
¬°Informe completo exportado a seo_audit_with_broken_links.xlsx!


# Ejercicio: Analizar palabras clave SEO y exportar a Excel
## Objetivo

- Extraer el texto visible de una p√°gina web.

- Contar cu√°ntas veces aparece cada palabra.

- Eliminar las stopwords (palabras vac√≠as comunes).

```

stopwords = ['de', 'la', ...']'
```


- Quedarse con las m√°s relevantes (longitud > 3).

- Exportar a un archivo Excel con las columnas:
Palabra, Frecuencia.



---



‚úÖ **Test de Autoevaluaci√≥n: SEO On-Page con Python (20 preguntas)**
**Instrucciones:**  Elige la opci√≥n correcta en cada pregunta. Solo una respuesta es v√°lida por √≠tem.


---


üß† **1. Fundamentos y herramientas**

**1.1.**  ¬øQu√© librer√≠a en Python es m√°s adecuada para analizar el HTML de una p√°gina?

A) urllib

B) re

C) BeautifulSoup

D) time


**1.2.**  ¬øCu√°l de estas librer√≠as se utiliza para hacer peticiones HTTP?

A) matplotlib

B) requests

C) pandas

D) os

**1.3.**  ¬øQu√© librer√≠a se usa para exportar datos a Excel desde Python?

A) numpy

B) selenium

C) pandas

D) hashlib

**1.4.**  ¬øCu√°l es el objetivo principal de BeautifulSoup?

A) Controlar formularios

B) Parsear (analizar) HTML y XML

C) Dibujar gr√°ficos

D) Descargar archivos binarios

**1.5.**  ¬øQu√© funci√≥n tiene `urljoin()` en el an√°lisis de enlaces?

A) Analiza direcciones IP

B) Convierte URL a may√∫sculas

C) Une URLs base con relativas

D) Divide una URL en partes


---


üîç **2. Elementos SEO on-page**

**2.1.**  ¬øCu√°l es la etiqueta principal que debe representar el t√≠tulo del contenido?

A) `<title>`

B) `<h1>`

C) `<meta>`

D) `<header>`

**2.2.**  ¬øCu√°l es la longitud recomendada para una etiqueta `<title>`?

A) M√°ximo 20 caracteres

B) Entre 60 y 70 caracteres

C) M√°s de 100 caracteres

D) No tiene l√≠mite

**2.3.**  ¬øQu√© atributo de la imagen se analiza para evaluar la accesibilidad y el SEO?

A) `src`

B) `href`

C) `alt`

D) `class`

**2.4.**  ¬øCu√°l de estos c√≥digos HTTP indica un enlace roto?

A) 200

B) 301

C) 403

D) 404

**2.5.**  ¬øQu√© metaetiqueta se usa para evitar que una p√°gina sea indexada?

A) `<meta name="robots" content="noindex">`

B) `<meta charset="UTF-8">`

C) `<meta name="canonical">`

D) `<meta name="nofollow">`


---


‚úçÔ∏è **3. An√°lisis de contenido y palabras clave**

**3.1.**  ¬øQu√© hace la funci√≥n `get_text()` en BeautifulSoup?

A) Elimina los enlaces

B) Extrae todo el texto visible del HTML

C) Extrae solo el contenido de im√°genes

D) Corta el contenido

**3.2.**  ¬øQu√© son las ‚Äústopwords‚Äù?

A) Enlaces rotos

B) Palabras que deben destacarse

C) Palabras comunes que se excluyen del an√°lisis

D) Palabras duplicadas

**3.3.**  ¬øPara qu√© se usa `collections.Counter()`?

A) Ordenar listas alfab√©ticamente

B) Contar elementos repetidos

C) Dividir cadenas de texto

D) Verificar enlaces rotos

**3.4.**  ¬øQu√© estructura de datos devuelve `Counter(palabras)`?

A) Lista

B) Diccionario

C) Tupla

D) Conjunto (set)

**3.5.**  ¬øCu√°l es un buen indicador de que una p√°gina tiene contenido suficiente para SEO?

A) M√°s de 50 palabras

B) M√°s de 100 enlaces

C) M√°s de 300 palabras de contenido real

D) Tener un sitemap


---


üß™ **4. Pr√°ctica con enlaces, im√°genes y exportaci√≥n**

**4.1.**  ¬øC√≥mo detectamos im√°genes sin atributo `alt` con BeautifulSoup?

A) `img.get("src") == None`

B) `img.get("alt") == None`

C) `img.has_class("alt")`

D) `img.text == ""`


**4.2.**  ¬øQu√© atributo usamos para identificar un enlace can√≥nico?

A) `rel="canonical"`

B) `name="robots"`

C) `meta="description"`

D) `href="canonical"`


**4.3.**  ¬øQu√© diferencia hay entre un enlace interno y uno externo?

A) El interno usa `mailto:`

B) El externo tiene un dominio distinto

C) El externo no tiene protocolo

D) El interno es siempre un script


**4.4.**  ¬øQu√© c√≥digo HTTP representa acceso prohibido?

A) 302

B) 200

C) 403

D) 100

**4.5.**  ¬øQu√© funci√≥n usamos en pandas para guardar un DataFrame en Excel?

A) `save_as_excel()`

B) `export_excel()`

C) `to_excel()`

D) `write_xls()`


---


üß© **5. Verificaci√≥n de estructura SEO**

**5.1.**  ¬øQu√© pasa si una p√°gina tiene varios `<h1>`?

A) Mejora el SEO

B) Se considera contenido duplicado

C) Rompe el HTML

D) Afecta la jerarqu√≠a sem√°ntica

**5.2.**  ¬øPor qu√© es importante verificar enlaces rotos?

A) Rompen la maquetaci√≥n

B) Penalizan el SEO y afectan al usuario

C) Solo son molestos en m√≥viles

D) Impiden cargar CSS

**5.3.**  ¬øQu√© extensi√≥n debe tener el archivo de un sitemap est√°ndar?

A) `.html`

B) `.txt`

C) `.json`

D) `.xml`

**5.4.**  ¬øQu√© significa que una p√°gina tenga un ‚Äúcanonical tag‚Äù?

A) Es la p√°gina m√°s vista

B) Es la versi√≥n original para evitar duplicaci√≥n

C) Es la que carga m√°s r√°pido

D) Es la √∫ltima p√°gina actualizada

**5.5.**  ¬øD√≥nde se suele declarar el `favicon` en HTML?

A) En `<footer>`

B) En `<body>`

C) En `<link rel="icon">` dentro de `<head>`

D) En `robots.txt`