# Solución Ejercicio práctico 10 de Abril



In [None]:
import requests
from bs4 import BeautifulSoup
from collections import Counter
import pandas as pd
import string

# Lista de palabras vacías (stopwords)
stopwords = [
    'de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por',
    'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero',
    'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando',
    'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien',
    'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra',
    'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos',
    'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos',
    'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas',
    'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas',
    'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo',
    'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra',
    'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras'
]

def extraer_texto(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    textos = soup.stripped_strings
    texto_completo = ' '.join(textos)
    return texto_completo

def procesar_texto(texto):
    texto = texto.lower()

    # Elimina signos de puntuación
    for signo in string.punctuation:
        texto = texto.replace(signo, ' ')

    # Divide por espacios
    palabras = texto.split()

    palabras_filtradas = []
    for palabra in palabras:
        # Validamos que sea solo letras y no esté en stopwords y tenga más de 3 letras
        if palabra.isalpha() and palabra not in stopwords and len(palabra) > 3:
            palabras_filtradas.append(palabra)

    frecuencia = Counter(palabras_filtradas)
    return frecuencia

def exportar_a_excel(frecuencias, nombre_archivo='palabras_clave.xlsx'):
    df = pd.DataFrame(frecuencias.items(), columns=['Palabra', 'Frecuencia'])
    df.sort_values(by='Frecuencia', ascending=False, inplace=True)
    df.to_excel(nombre_archivo, index=False)
    print(f"Archivo Excel generado: {nombre_archivo}")

# === USO ===
url = 'https://es.wikipedia.org/wiki/Marketing_digital'
texto = extraer_texto(url)
frecuencias = procesar_texto(texto)
exportar_a_excel(frecuencias)


Archivo Excel generado: palabras_clave.xlsx


##  Explicación del código

1. **Importación de librerías**


```python
import requests
from bs4 import BeautifulSoup
from collections import Counter
import pandas as pd
import string
```


Estas librerías sirven para:


- `requests`: hacer peticiones HTTP a una página web.

- `BeautifulSoup`: extraer texto limpio del HTML.

- `Counter`: contar frecuencias de palabras.

- `pandas`: manipular y exportar datos a Excel.

- `string`: contiene signos de puntuación (`string.punctuation`) que vamos a eliminar.



---


2. **Lista de palabras vacías (stopwords)**


```python
stopwords = [ ... ]
```


Es una lista de palabras muy comunes (como "de", "la", "que") que no aportan valor en SEO y queremos eliminar del análisis.



---


3. Función: `extraer_texto(url)`**


```python
def extraer_texto(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    textos = soup.stripped_strings
    texto_completo = ' '.join(textos)
    return texto_completo
```


#### ¿Qué hace?


- Carga la página desde la URL.

- Analiza el HTML con BeautifulSoup.

- Extrae todo el texto visible ignorando etiquetas HTML.

- Une todo ese texto en una única cadena (`str`).



---


4. Función: `procesar_texto(texto)`**


```python
def procesar_texto(texto):
    texto = texto.lower()
```


- Pasa todo a minúsculas para evitar duplicados por mayúsculas/minúsculas.



```python
for signo in string.punctuation:
        texto = texto.replace(signo, ' ')
```


- Elimina todos los signos de puntuación (como comas, puntos, paréntesis...).



```python
palabras = texto.split()
```


- Divide el texto en una lista de palabras usando espacios.



```python
palabras_filtradas = []
    for palabra in palabras:
        if palabra.isalpha() and palabra not in stopwords and len(palabra) > 3:
            palabras_filtradas.append(palabra)
```


- Recorre todas las palabras y guarda solo las que:


  - Están compuestas solo por letras (`isalpha()`).

  - No están en la lista de stopwords.

  - Tienen más de 3 letras (para evitar cosas como "web", "seo").



```python
frecuencia = Counter(palabras_filtradas)
    return frecuencia
```


- Cuenta cuántas veces aparece cada palabra filtrada.



---


5. Función: `exportar_a_excel(frecuencias)`**


```python
def exportar_a_excel(frecuencias, nombre_archivo='palabras_clave.xlsx'):
    df = pd.DataFrame(frecuencias.items(), columns=['Palabra', 'Frecuencia'])
    df.sort_values(by='Frecuencia', ascending=False, inplace=True)
    df.to_excel(nombre_archivo, index=False)
    print(f"Archivo Excel generado: {nombre_archivo}")
```


#### ¿Qué hace?


- Convierte el diccionario de frecuencias en un `DataFrame` con dos columnas.

- Ordena las palabras por frecuencia (de mayor a menor).

- Exporta los datos a un archivo `.xlsx`.



---


6. **Uso del script**


```python
url = 'https://es.wikipedia.org/wiki/Marketing_digital'
texto = extraer_texto(url)
frecuencias = procesar_texto(texto)
exportar_a_excel(frecuencias)
```


- Se define la URL a analizar.

- Se extrae el texto de la página.

- Se procesan las palabras y se cuentan.

- Se exporta el resultado a Excel.



## 🧪 Test de comprensión funcional (enfoque SEO)



---


**1. ¿Cuál es el propósito principal del código proporcionado?**

A) Generar gráficos estadísticos

B) Traducir contenido web al inglés

C) Extraer y analizar palabras clave de una página web

D) Crear un mapa del sitio de una página web


---


**2. ¿Qué tipo de palabras se eliminan para que el análisis sea útil en SEO?**

A) Palabras largas y en inglés

B) Palabras muy técnicas

C) Palabras comunes sin valor semántico (stopwords)

D) Palabras duplicadas dentro del HTML


---


**3. ¿Por qué se descartan las palabras con 3 letras o menos?**

A) Porque suelen ser errores de codificación

B) Porque normalmente son palabras sin relevancia para buscadores

C) Porque los navegadores no las interpretan bien

D) Porque pueden tener tildes


---


**4. ¿Qué contiene el archivo Excel generado por el script?**

A) Lista de títulos y enlaces internos

B) Tabla de palabras con frecuencia de aparición

C) Listado de errores ortográficos

D) Mapa visual de la estructura HTML


---


**5. ¿Por qué es útil este análisis para mejorar el SEO de un sitio web?**

A) Porque ayuda a saber qué palabras clave se repiten y cuáles reforzar

B) Porque detecta imágenes sin etiquetas ALT

C) Porque traduce todo al inglés automáticamente

D) Porque genera una versión ligera del sitio


---



## ✅ Soluciones


1. ✅ **C)**  Extraer y analizar palabras clave de una página web

2. ✅ **C)**  Palabras comunes sin valor semántico (stopwords)

3. ✅ **B)**  Porque normalmente son palabras sin relevancia para buscadores

4. ✅ **B)**  Tabla de palabras con frecuencia de aparición

5. ✅ **A)**  Porque ayuda a saber qué palabras clave se repiten y cuáles reforzar
