# Soluci√≥n Ejercicio pr√°ctico 10 de Abril



In [None]:
import requests
from bs4 import BeautifulSoup
from collections import Counter
import pandas as pd
import string

# Lista de palabras vac√≠as (stopwords)
stopwords = [
    'de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por',
    'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'm√°s', 'pero',
    'sus', 'le', 'ya', 'o', 'este', 's√≠', 'porque', 'esta', 'entre', 'cuando',
    'muy', 'sin', 'sobre', 'tambi√©n', 'me', 'hasta', 'hay', 'donde', 'quien',
    'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra',
    'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'm√≠', 'antes', 'algunos',
    'qu√©', 'unos', 'yo', 'otro', 'otras', 'otra', '√©l', 'tanto', 'esa', 'estos',
    'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas',
    'algunas', 'algo', 'nosotros', 'mi', 'mis', 't√∫', 'te', 'ti', 'tu', 'tus', 'ellas',
    'nosotras', 'vosotros', 'vosotras', 'os', 'm√≠o', 'm√≠a', 'm√≠os', 'm√≠as', 'tuyo',
    'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra',
    'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras'
]

def extraer_texto(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    textos = soup.stripped_strings
    texto_completo = ' '.join(textos)
    return texto_completo

def procesar_texto(texto):
    texto = texto.lower()

    # Elimina signos de puntuaci√≥n
    for signo in string.punctuation:
        texto = texto.replace(signo, ' ')

    # Divide por espacios
    palabras = texto.split()

    palabras_filtradas = []
    for palabra in palabras:
        # Validamos que sea solo letras y no est√© en stopwords y tenga m√°s de 3 letras
        if palabra.isalpha() and palabra not in stopwords and len(palabra) > 3:
            palabras_filtradas.append(palabra)

    frecuencia = Counter(palabras_filtradas)
    return frecuencia

def exportar_a_excel(frecuencias, nombre_archivo='palabras_clave.xlsx'):
    df = pd.DataFrame(frecuencias.items(), columns=['Palabra', 'Frecuencia'])
    df.sort_values(by='Frecuencia', ascending=False, inplace=True)
    df.to_excel(nombre_archivo, index=False)
    print(f"Archivo Excel generado: {nombre_archivo}")

# === USO ===
url = 'https://es.wikipedia.org/wiki/Marketing_digital'
texto = extraer_texto(url)
frecuencias = procesar_texto(texto)
exportar_a_excel(frecuencias)


Archivo Excel generado: palabras_clave.xlsx


##  Explicaci√≥n del c√≥digo

1. **Importaci√≥n de librer√≠as**


```python
import requests
from bs4 import BeautifulSoup
from collections import Counter
import pandas as pd
import string
```


Estas librer√≠as sirven para:


- `requests`: hacer peticiones HTTP a una p√°gina web.

- `BeautifulSoup`: extraer texto limpio del HTML.

- `Counter`: contar frecuencias de palabras.

- `pandas`: manipular y exportar datos a Excel.

- `string`: contiene signos de puntuaci√≥n (`string.punctuation`) que vamos a eliminar.



---


2. **Lista de palabras vac√≠as (stopwords)**


```python
stopwords = [ ... ]
```


Es una lista de palabras muy comunes (como "de", "la", "que") que no aportan valor en SEO y queremos eliminar del an√°lisis.



---


3. Funci√≥n: `extraer_texto(url)`**


```python
def extraer_texto(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    textos = soup.stripped_strings
    texto_completo = ' '.join(textos)
    return texto_completo
```


#### ¬øQu√© hace?


- Carga la p√°gina desde la URL.

- Analiza el HTML con BeautifulSoup.

- Extrae todo el texto visible ignorando etiquetas HTML.

- Une todo ese texto en una √∫nica cadena (`str`).



---


4. Funci√≥n: `procesar_texto(texto)`**


```python
def procesar_texto(texto):
    texto = texto.lower()
```


- Pasa todo a min√∫sculas para evitar duplicados por may√∫sculas/min√∫sculas.



```python
for signo in string.punctuation:
        texto = texto.replace(signo, ' ')
```


- Elimina todos los signos de puntuaci√≥n (como comas, puntos, par√©ntesis...).



```python
palabras = texto.split()
```


- Divide el texto en una lista de palabras usando espacios.



```python
palabras_filtradas = []
    for palabra in palabras:
        if palabra.isalpha() and palabra not in stopwords and len(palabra) > 3:
            palabras_filtradas.append(palabra)
```


- Recorre todas las palabras y guarda solo las que:


  - Est√°n compuestas solo por letras (`isalpha()`).

  - No est√°n en la lista de stopwords.

  - Tienen m√°s de 3 letras (para evitar cosas como "web", "seo").



```python
frecuencia = Counter(palabras_filtradas)
    return frecuencia
```


- Cuenta cu√°ntas veces aparece cada palabra filtrada.



---


5. Funci√≥n: `exportar_a_excel(frecuencias)`**


```python
def exportar_a_excel(frecuencias, nombre_archivo='palabras_clave.xlsx'):
    df = pd.DataFrame(frecuencias.items(), columns=['Palabra', 'Frecuencia'])
    df.sort_values(by='Frecuencia', ascending=False, inplace=True)
    df.to_excel(nombre_archivo, index=False)
    print(f"Archivo Excel generado: {nombre_archivo}")
```


#### ¬øQu√© hace?


- Convierte el diccionario de frecuencias en un `DataFrame` con dos columnas.

- Ordena las palabras por frecuencia (de mayor a menor).

- Exporta los datos a un archivo `.xlsx`.



---


6. **Uso del script**


```python
url = 'https://es.wikipedia.org/wiki/Marketing_digital'
texto = extraer_texto(url)
frecuencias = procesar_texto(texto)
exportar_a_excel(frecuencias)
```


- Se define la URL a analizar.

- Se extrae el texto de la p√°gina.

- Se procesan las palabras y se cuentan.

- Se exporta el resultado a Excel.



## üß™ Test de comprensi√≥n funcional (enfoque SEO)



---


**1. ¬øCu√°l es el prop√≥sito principal del c√≥digo proporcionado?**

A) Generar gr√°ficos estad√≠sticos

B) Traducir contenido web al ingl√©s

C) Extraer y analizar palabras clave de una p√°gina web

D) Crear un mapa del sitio de una p√°gina web


---


**2. ¬øQu√© tipo de palabras se eliminan para que el an√°lisis sea √∫til en SEO?**

A) Palabras largas y en ingl√©s

B) Palabras muy t√©cnicas

C) Palabras comunes sin valor sem√°ntico (stopwords)

D) Palabras duplicadas dentro del HTML


---


**3. ¬øPor qu√© se descartan las palabras con 3 letras o menos?**

A) Porque suelen ser errores de codificaci√≥n

B) Porque normalmente son palabras sin relevancia para buscadores

C) Porque los navegadores no las interpretan bien

D) Porque pueden tener tildes


---


**4. ¬øQu√© contiene el archivo Excel generado por el script?**

A) Lista de t√≠tulos y enlaces internos

B) Tabla de palabras con frecuencia de aparici√≥n

C) Listado de errores ortogr√°ficos

D) Mapa visual de la estructura HTML


---


**5. ¬øPor qu√© es √∫til este an√°lisis para mejorar el SEO de un sitio web?**

A) Porque ayuda a saber qu√© palabras clave se repiten y cu√°les reforzar

B) Porque detecta im√°genes sin etiquetas ALT

C) Porque traduce todo al ingl√©s autom√°ticamente

D) Porque genera una versi√≥n ligera del sitio


---



## ‚úÖ Soluciones


1. ‚úÖ **C)**  Extraer y analizar palabras clave de una p√°gina web

2. ‚úÖ **C)**  Palabras comunes sin valor sem√°ntico (stopwords)

3. ‚úÖ **B)**  Porque normalmente son palabras sin relevancia para buscadores

4. ‚úÖ **B)**  Tabla de palabras con frecuencia de aparici√≥n

5. ‚úÖ **A)**  Porque ayuda a saber qu√© palabras clave se repiten y cu√°les reforzar
