# **PROCESAMIENTO DE LENGUAJE NATURAL**

## **Ejercicio: Normalización de textos y Bolsa de Palabras**

* En el siguiente ejercicio vamos a trabajar con una serie de artículos obtenidos de la web "https://www.elmundotoday.com/".

* Estos artículos se encuentran en un archivo csv dentro de la carpeta "data"  (./data/corpus_mundo_today.csv).

* Este CSV esta formado por 3 campos que son:
    - Tema
    - Título
    - Texto
        
* El ejercicio consiste en Normalizar este ***Corpus*** tomando el *título* y *texto* como contenido de cada documento y crear 3 ***Bolsa de Palabras*** de la tres formas vistas en el COLAB anterior.




In [4]:
import csv

# Ruta del archivo CSV que contiene los documentos.
docs_file = './corpus_mundo_today.csv'

# Abrir el archivo CSV y leer sus primeras 5 líneas e imprimir.
with open(docs_file, 'r', encoding="utf8") as file:
    csv_reader = csv.reader(file)
    for i, row in enumerate(csv_reader):
        if i < 10:  # Imprimir solo las primeras 5 líneas
            print(','.join(row))  # Imprimir la fila original
        else:
            break


tema||título||texto
politica||El Gobierno español sumará a Junqueras las condenas que no vaya a cumplir Puigdemont||Después del revés recibido por el Gobierno de España tras la puesta en libertad de Carles Puigdemont por parte de la justicia alemana, el juez Pablo Llarena ha decidido esta semana, a instancias del Ejecutivo, que sumará a Oriol Junqueras las condenas que no vaya a cumplir el líder del PDeCAT. El exvicepresidente de Cataluña, que permanece en la prisión madrileña de Estremera desde el pasado dos de noviembre, asumiría por tanto todos los delitos atribuidos a Carles Puigdemont y, de esta manera, el Tribunal Supremo se asegura de que los actos del expresidente catalán durante la última legislatura no quedan impunes, ya que “Junqueras pagará por todos y cada uno de ellos”. Con esta maniobra ideada para burlar la justicia alemana, el líder de Esquerra Republicana se enfrenta a 50 años más de prisión. “Seguiremos adelante aunque a Junqueras le caigan cien años más, nadie nos v

In [5]:
# Lista para almacenar los documentos.
docs_list = list()

# Abrir el archivo CSV y leer todas las líneas, omitiendo la primera línea.
with open(docs_file, 'r', encoding="utf8") as file:
    # Leer todas las líneas del archivo.
    lines = file.readlines()

    # Iterar sobre cada línea del archivo CSV a partir de la segunda línea.
    for line in lines[1:]:
        # Dividir la línea en campos usando '||' como delimitador.
        row = line.strip().split('||')
        # Verificar si hay suficientes elementos en la fila.
        if len(row) >= 3:
            # Concatenar el título (columna 1) y el contenido (columna 2) del documento y agregarlo a la lista de documentos.
            docs_list.append(row[1] + ' ' + row[2])

# Imprimir los primeros 2 documentos de docs_list.
for doc in docs_list[:2]:
    print(doc)


El Gobierno español sumará a Junqueras las condenas que no vaya a cumplir Puigdemont Después del revés recibido por el Gobierno de España tras la puesta en libertad de Carles Puigdemont por parte de la justicia alemana, el juez Pablo Llarena ha decidido esta semana, a instancias del Ejecutivo, que sumará a Oriol Junqueras las condenas que no vaya a cumplir el líder del PDeCAT. El exvicepresidente de Cataluña, que permanece en la prisión madrileña de Estremera desde el pasado dos de noviembre, asumiría por tanto todos los delitos atribuidos a Carles Puigdemont y, de esta manera, el Tribunal Supremo se asegura de que los actos del expresidente catalán durante la última legislatura no quedan impunes, ya que “Junqueras pagará por todos y cada uno de ellos”. Con esta maniobra ideada para burlar la justicia alemana, el líder de Esquerra Republicana se enfrenta a 50 años más de prisión. “Seguiremos adelante aunque a Junqueras le caigan cien años más, nadie nos va a parar”, ha dicho hoy Carles

### **1. Ejercicios de Nomalización:**

* Dada una lista en la que cada elemento de la misma tiene el contenido (título + texto) de cada documento del corpus se pide:
<span></span><br><br>
    1. **Crear una función que devuelva los documentos *Tokenizados* (una lista de listas) y con los tokens (palabras) en minúsculas.**
        * **input**: lista de documentos (lista de Strings).
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>
    2. **Crear una función que elimine los tokens que sean signos de puntuación y *Stop-Words*.**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>
    3. **Crear una función que transforme cada token a su lema (*Lematización*)**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>
    4. **Crear una función que elimine todos los tokens que no sean *Nombres* (NOUN, PROPN), *Verbos*, *Advervios* o *Adjetivos*.**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
 <span></span><br><br>       
    5. **Función que dada una lista de documentos, devuelva los documentos normalizados. Este ejercicio ya esta hecho y simplemente tiene que funcionar llamando a las 4 funciones anteriores.**
        * **input**: lista de documentos (lista de Strings).
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.



### **2. Ejercicios de BoW:**

* Aprovechando la normalización realizada anteriormente se pide:

    6. **Crear una función que dada una lista de documentos (*corpus*) tokenizados, elimine del corpus aquellos tokens que aparecen menos de 'N' veces (N=10) en el corpus**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.
        * **input**: 'N' -> Parámetro que nos indica el número mínimo de apariciones de la palabra en el corpus.
        * **output**: lista de terminos con nro de apariciones de los que tengan mas o igual a N apariciones.
<span></span><br><br>
    7. **Dado el corpus, normalizado y con tokens que aparecen N veces o más en el corpus, se pide crear una bolsa de palabras en ONE-HOT-ENCODE con Gensim**
<span></span><br><br>   
    8. **Dado el corpus, normalizado y con tokens que aparecen N veces o más en el corpus, se pide crear una bolsa de palabras aplicando el TF-IDF con Scikit**
    
<hr>

### **1. Ejercicios de Nomalización (solución):**

* Leemos el corpus y pasamos los documentos (Título + Texto) a una lista

In [6]:
# Ruta del archivo CSV que contiene los documentos.
docs_file = './corpus_mundo_today.csv'

# Lista para almacenar los documentos.
docs_list = list()

# Abrir el archivo CSV y leer su contenido.
file_txt = open(docs_file, encoding="utf8").read()

# Iterar sobre cada línea del archivo CSV.
for line in file_txt.split('\n'):
    # Dividir la línea en columnas usando '||' como delimitador.
    line = line.split('||')
    # Concatenar el título (columna 1) y el contenido (columna 2) del documento y agregarlo a la lista de documentos.
    docs_list.append(line[1] + ' ' + line[2])

# Eliminar la primera entrada de la lista (cabecera del archivo CSV).
docs_list = docs_list[1:]

# visualizar los primeros documentos
for doc in docs_list[:2]:
    print(doc)

El Gobierno español sumará a Junqueras las condenas que no vaya a cumplir Puigdemont Después del revés recibido por el Gobierno de España tras la puesta en libertad de Carles Puigdemont por parte de la justicia alemana, el juez Pablo Llarena ha decidido esta semana, a instancias del Ejecutivo, que sumará a Oriol Junqueras las condenas que no vaya a cumplir el líder del PDeCAT. El exvicepresidente de Cataluña, que permanece en la prisión madrileña de Estremera desde el pasado dos de noviembre, asumiría por tanto todos los delitos atribuidos a Carles Puigdemont y, de esta manera, el Tribunal Supremo se asegura de que los actos del expresidente catalán durante la última legislatura no quedan impunes, ya que “Junqueras pagará por todos y cada uno de ellos”. Con esta maniobra ideada para burlar la justicia alemana, el líder de Esquerra Republicana se enfrenta a 50 años más de prisión. “Seguiremos adelante aunque a Junqueras le caigan cien años más, nadie nos va a parar”, ha dicho hoy Carles

#### **Ejercicio 1**
**Crear una función que devuelva los documentos *Tokenizados* (una lista de listas) y con los tokens (palabras) en minúsculas.**

* **input**: lista de documentos (lista de Strings).
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [10]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m90.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [19]:
import spacy

# Cargar el modelo de spaCy en español
nlp = spacy.load("es_core_news_sm")

def tokenization(docs_list):
    tokenized_docs = []
    for doc in docs_list:
        spacy_doc = nlp(doc)
        tokens = [token.text.lower() for token in spacy_doc]
        tokenized_docs.append(tokens)
    return tokenized_docs

# Probar con docs_list ya creado en el contexto
corpus = tokenization(docs_list)

print("Corpus tokenizado (primeros 3 documentos):\n")
for i, tokens in enumerate(corpus[:3]):
    print(f"Documento {i+1}: {tokens}\n")

Corpus tokenizado (primeros 3 documentos):

Documento 1: ['el', 'gobierno', 'español', 'sumará', 'a', 'junqueras', 'las', 'condenas', 'que', 'no', 'vaya', 'a', 'cumplir', 'puigdemont', 'después', 'del', 'revés', 'recibido', 'por', 'el', 'gobierno', 'de', 'españa', 'tras', 'la', 'puesta', 'en', 'libertad', 'de', 'carles', 'puigdemont', 'por', 'parte', 'de', 'la', 'justicia', 'alemana', ',', 'el', 'juez', 'pablo', 'llarena', 'ha', 'decidido', 'esta', 'semana', ',', 'a', 'instancias', 'del', 'ejecutivo', ',', 'que', 'sumará', 'a', 'oriol', 'junqueras', 'las', 'condenas', 'que', 'no', 'vaya', 'a', 'cumplir', 'el', 'líder', 'del', 'pdecat', '.', 'el', 'exvicepresidente', 'de', 'cataluña', ',', 'que', 'permanece', 'en', 'la', 'prisión', 'madrileña', 'de', 'estremera', 'desde', 'el', 'pasado', 'dos', 'de', 'noviembre', ',', 'asumiría', 'por', 'tanto', 'todos', 'los', 'delitos', 'atribuidos', 'a', 'carles', 'puigdemont', 'y', ',', 'de', 'esta', 'manera', ',', 'el', 'tribunal', 'supremo', 'se',

#### **Ejercicio 2**
**Crear una función que elimine los tokens que sean signos de puntuación y *Stop-Words*.**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [20]:
import string

def remove_words(docs):
    cleaned_docs = []
    for doc in docs:
        tokens = [token for token in doc if token not in string.punctuation and not nlp.vocab[token].is_stop]
        cleaned_docs.append(tokens)
    return cleaned_docs

# Probar con el corpus del Ejercicio 1
corpus_clean = remove_words(corpus)

print("Corpus sin puntuación ni stopwords (primeros 3 documentos):\n")
for i, tokens in enumerate(corpus_clean[:3]):
    print(f"Documento {i+1}: {tokens}\n")

Corpus sin puntuación ni stopwords (primeros 3 documentos):

Documento 1: ['gobierno', 'español', 'sumará', 'junqueras', 'condenas', 'cumplir', 'puigdemont', 'revés', 'recibido', 'gobierno', 'españa', 'puesta', 'libertad', 'carles', 'puigdemont', 'justicia', 'alemana', 'juez', 'pablo', 'llarena', 'decidido', 'semana', 'instancias', 'ejecutivo', 'sumará', 'oriol', 'junqueras', 'condenas', 'cumplir', 'líder', 'pdecat', 'exvicepresidente', 'cataluña', 'permanece', 'prisión', 'madrileña', 'estremera', 'noviembre', 'asumiría', 'delitos', 'atribuidos', 'carles', 'puigdemont', 'tribunal', 'supremo', 'asegura', 'actos', 'expresidente', 'catalán', 'legislatura', 'quedan', 'impunes', '“', 'junqueras', 'pagará', '”', 'maniobra', 'ideada', 'burlar', 'justicia', 'alemana', 'líder', 'esquerra', 'republicana', 'enfrenta', '50', 'años', 'prisión', '“', 'seguiremos', 'junqueras', 'caigan', 'cien', 'años', 'parar', '”', 'carles', 'puigdemont', 'alemania', '“', 'haré', 'junqueras', 'sacrificar', 'asumiré

#### **Ejercicio 3**
**Crear una función que transforme cada token a su lema (*Lematización*)**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [21]:
def lematization(docs):
    lemmatized_docs = []
    for doc in docs:
        spacy_doc = nlp(" ".join(doc))
        tokens = [token.lemma_.lower() for token in spacy_doc]
        lemmatized_docs.append(tokens)
    return lemmatized_docs

# Probar con corpus_clean del Ejercicio 2
corpus_lemma = lematization(corpus_clean)

print("Corpus lematizado (primeros 3 documentos):\n")
for i, tokens in enumerate(corpus_lemma[:3]):
    print(f"Documento {i+1}: {tokens}\n")


Corpus lematizado (primeros 3 documentos):

Documento 1: ['gobierno', 'español', 'sumar', 'junquera', 'condena', 'cumplir', 'puigdemont', 'revés', 'recibido', 'gobierno', 'españa', 'puesta', 'libertad', 'carles', 'puigdemont', 'justicia', 'alemán', 'juez', 'pablo', 'llarena', 'decidido', 'semana', 'instancia', 'ejecutivo', 'sumar', 'oriol', 'junquera', 'condena', 'cumplir', 'líder', 'pdecat', 'exvicepresidente', 'cataluña', 'permanecer', 'prisión', 'madrileño', 'estremero', 'noviembre', 'asumir', 'delito', 'atribuido', 'carl', 'puigdemont', 'tribunal', 'supremo', 'asegurar', 'acto', 'expresidente', 'catalán', 'legislaturar', 'quedar', 'impún', '“', 'junquera', 'pagar', '”', 'maniobra', 'ideado', 'burlar', 'justicia', 'alemán', 'líder', 'esquerro', 'republicano', 'enfrentar', '50', 'año', 'prisión', '“', 'seguir', 'junquera', 'caer', 'cien', 'año', 'parar', '”', 'carles', 'puigdemont', 'alemania', '“', 'hacer', 'junquera', 'sacrificar', 'asumiré', 'resignación', 'determinación', '”', 'p

#### **Ejercicio 4**
**Crear una función que elimine todos los tokens que no sean *Nombres* (NOUN, PROPN), *Verbos*, *Advervios* o *Adjetivos*.**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [22]:
def filter_words(docs):
    filtered_docs = []
    allowed_pos = {"NOUN", "PROPN", "VERB", "ADV", "ADJ"}
    for doc in docs:
        spacy_doc = nlp(" ".join(doc))
        tokens = [token.lemma_.lower() for token in spacy_doc if token.pos_ in allowed_pos]
        filtered_docs.append(tokens)
    return filtered_docs

# Probar con corpus_lemma del Ejercicio 3
corpus_filtered = filter_words(corpus_lemma)

print("Corpus filtrado por POS (primeros 3 documentos):\n")
for i, tokens in enumerate(corpus_filtered[:3]):
    print(f"Documento {i+1}: {tokens}\n")

Corpus filtrado por POS (primeros 3 documentos):

Documento 1: ['gobierno', 'español', 'sumar', 'junquero', 'condena', 'cumplir', 'puigdemont', 'revés', 'recibido', 'gobierno', 'españa', 'puesta', 'libertad', 'carles', 'puigdemont', 'justicia', 'alemán', 'juez', 'pablo', 'llarena', 'decidido', 'semana', 'instancia', 'ejecutivo', 'sumar', 'oriol', 'junquero', 'condena', 'cumplir', 'líder', 'pdecat', 'exvicepresidente', 'cataluña', 'permanecer', 'prisión', 'madrileño', 'estremero', 'noviembre', 'asumir', 'delito', 'atribuido', 'carl', 'puigdemont', 'tribunal', 'supremo', 'asegurar', 'acto', 'expresidente', 'catalán', 'legislaturar', 'quedar', 'impún', '“', 'junquera', 'pagar', 'maniobra', 'ideado', 'burlar', 'justicia', 'alemán', 'líder', 'esquerro', 'republicano', 'enfrentar', 'año', 'prisión', '“', 'seguir', 'junquera', 'caer', 'año', 'parar', '”', 'carles', 'puigdemont', 'alemania', '“', 'hacer', 'junquera', 'sacrificar', 'asumiré', 'resignación', 'determinación', 'prometido', '“', 's

#### **Ejercicio 5**
**Función que dada una lista de documentos, devuelva los documentos normalizados. Este ejercicio ya esta hecho y simplemente tiene que funcionar llamando a las 4 funciones anteriores.**

* **input**: lista de documentos (lista de Strings).
* **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.

In [23]:
def normalization(docs_list):
    corpus = tokenization(docs_list)
    corpus = remove_words(corpus)
    corpus = lematization(corpus)
    corpus = filter_words(corpus)
    return corpus

corpus = normalization(docs_list)
print("Corpus normalizado:", corpus[0][:20])

Corpus normalizado: ['gobierno', 'español', 'sumar', 'junquero', 'condena', 'cumplir', 'puigdemont', 'revés', 'recibido', 'gobierno', 'españa', 'puesta', 'libertad', 'carles', 'puigdemont', 'justicia', 'alemán', 'juez', 'pablo', 'llarena']


<hr>


### **2. Ejercicios de BoW (solución):**



#### **Ejercicio 6**
**Crear una función que dada una lista de documentos (*corpus*) tokenizados, elimine del corpus aquellos tokens que aparecen menos de 'N' veces (N=10) en el corpus**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.
* **input**: 'n' -> Parámetro que nos indica el número mínimo de apariciones de la palabra en el corpus.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.

In [24]:
from collections import Counter

def drop_less_frecuency_words(corpus, n):
    all_tokens = [token for doc in corpus for token in doc]
    freq = Counter(all_tokens)

    filtered_corpus = []
    for doc in corpus:
        tokens = [token for token in doc if freq[token] >= n]
        filtered_corpus.append(tokens)
    return filtered_corpus

# Probar con corpus_filtered del Ejercicio 4
corpus_final = drop_less_frecuency_words(corpus_filtered, 10)

print("Corpus filtrado por frecuencia (primeros 3 documentos):\n")
for i, tokens in enumerate(corpus_final[:3]):
    print(f"Documento {i+1}: {tokens}\n")

Corpus filtrado por frecuencia (primeros 3 documentos):

Documento 1: ['gobierno', 'español', 'puigdemont', 'gobierno', 'españa', 'puigdemont', 'semana', 'líder', 'cataluña', 'puigdemont', 'asegurar', 'catalán', 'quedar', '“', 'líder', 'año', '“', 'seguir', 'año', '”', 'puigdemont', '“', 'hacer', '“', 'semana', 'encontrar']

Documento 2: ['ciudadano', 'cifuent', 'año', 'venir', 'elección', 'ciudadano', 'gobierno', 'partido', 'semana', 'cifuent', 'ciudadano', 'año', 'venir', 'elección', 'madrid', 'hacer', '”', 'líder', '“', 'año', 'venir', 'elección', 'cifuent', 'ciudadano', 'demostrar', 'partido', 'gobierno', '“', 'cifuent', 'seguir', 'puesto', '“', 'pasar', '”', 'madrid', '“', 'cifuent', 'puesto', 'madrid', '”']

Documento 3: ['mariano', 'rajoy', 'presidencia', 'españa', 'recordar', 'líder', 'partido', 'mariano', 'rajoy', 'partido', 'presidencia', 'españa', '“', 'recordar', 'prensa', 'cifuent', '“', 'año', '”', 'presidencia', 'país', '“', 'equipo', 'poner', 'año', 'importante', 'rajoy

#### **Ejercicio 7**
**Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras en ONE-HOT-ENCODE con Gensim**

In [15]:
!pip install gensim

Collecting gensim
  Downloading gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.6/60.6 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
Downloading gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.6/26.6 MB[0m [31m74.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.0 MB)
[2K   [90m━━━━━━━━━━━

In [14]:
### Paso previo: generar corpus normalizado desde docs_list
corpus = normalization(docs_list)
corpus = drop_less_frecuency_words(corpus, 10)
print("Corpus procesado listo para BoW:", corpus[0][:20])


Corpus procesado listo para BoW: ['gobierno', 'español', 'puigdemont', 'gobierno', 'españa', 'puigdemont', 'semana', 'líder', 'cataluña', 'puigdemont', 'asegurar', 'catalán', 'quedar', '“', 'líder', 'año', '“', 'seguir', 'año', '”']


In [15]:
import gensim
from gensim import corpora

def one_hot_gensim(corpus):
    dictionary = corpora.Dictionary(corpus)
    one_hot = [dictionary.doc2bow(doc) for doc in corpus]
    return dictionary, one_hot

dictionary, one_hot = one_hot_gensim(corpus)
print("Diccionario tamaño:", len(dictionary))
print("Ejemplo One-Hot primer doc:", one_hot[0][:10])

Diccionario tamaño: 116
Ejemplo One-Hot primer doc: [(0, 1), (1, 2), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 2), (8, 1), (9, 2)]


#### **Ejercicio 8**
**Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras aplicando el TF-IDF con scikit**

In [27]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

def tfidf_sklearn(corpus):
    docs = [" ".join(doc) for doc in corpus]
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(docs)
    return vectorizer, X

vectorizer, X = tfidf_sklearn(corpus)

print("TF-IDF dimensiones (docs x términos):", X.shape)
print("Número de términos únicos:", len(vectorizer.get_feature_names_out()))

# Mostrar una parte de la matriz BoW
df_bow = pd.DataFrame(
    X.toarray()[:5, :20],
    columns=vectorizer.get_feature_names_out()[:20]
)

print("\nBag of Words (primeros 5 documentos x 20 términos):")
print(df_bow)

TF-IDF dimensiones (docs x términos): (52, 2677)
Número de términos únicos: 2677

Bag of Words (primeros 5 documentos x 20 términos):
   2015   30   80  abajo  abandonar  abanicar  abaratamiento  abdominal  \
0   0.0  0.0  0.0    0.0        0.0       0.0            0.0        0.0   
1   0.0  0.0  0.0    0.0        0.0       0.0            0.0        0.0   
2   0.0  0.0  0.0    0.0        0.0       0.0            0.0        0.0   
3   0.0  0.0  0.0    0.0        0.0       0.0            0.0        0.0   
4   0.0  0.0  0.0    0.0        0.0       0.0            0.0        0.0   

   abdullah  abierto  abrar  abrazar  abrazo     abrir  absolutamente  \
0       0.0      0.0    0.0      0.0     0.0  0.000000            0.0   
1       0.0      0.0    0.0      0.0     0.0  0.000000            0.0   
2       0.0      0.0    0.0      0.0     0.0  0.000000            0.0   
3       0.0      0.0    0.0      0.0     0.0  0.000000            0.0   
4       0.0      0.0    0.0      0.0     0.0  0.07