# Tarea 1: Introducción, Vector Space Models, Information Retrieval y Language Models</h1>
**Procesamiento de Lenguaje Natural (CC6205-1 - Otoño 2024)**

## Tarjeta de identificación

**Nombres:**

```- Ignacio Albornoz```

```- Eduardo Silva```

**Fecha límite de entrega 📆:** 10/04.

**Tiempo estimado de dedicación:** 4 horas


## Instrucciones
Bienvenid@s a la primera tarea en el curso de Natural Language Processing (NLP). Esta tarea tiene como objetivo evaluar los contenidos teóricos de las primeras semanas de clases, enfocado principalmente en **Information Retrieval (IR)**, **Vector Space Models** y **Language Models**. Si aún no has visto las clases, se recomienda visitar los links de las referencias.

La tarea consta de una parte teórica que busca evaluar conceptos vistos en clases. Seguido por una parte práctica con el fín de introducirlos a la programación en Python enfocada en NLP.

* La tarea es en **grupo** (maximo hasta 3 personas).
* La entrega es a través de u-cursos a más tardar el día estipulado arriba. No se aceptan atrasos.
* El formato de entrega es este mismo Jupyter Notebook.
* Al momento de la revisión su código será ejecutado. Por favor verifiquen que su entrega no tenga errores de compilación.
* Completar la tarjeta de identificación. Sin ella no podrá tener nota.

## Material de referencia

Diapositivas del curso 📄
    
- [Introducción al curso](https://github.com/dccuchile/CC6205/blob/master/slides/NLP-introduction.pdf)
- [Vector Space Model / Information Retrieval](https://github.com/dccuchile/CC6205/blob/master/slides/NLP-IR.pdf)    
- [Probabilistic Language Models](https://github.com/dccuchile/CC6205/blob/master/slides/NLP-PLM.pdf)

Videos del curso 📺
- Introducción  [Parte 1](https://www.youtube.com/watch?v=HEKTNOttGvU)  [Parte 2](https://www.youtube.com/watch?v=P8cwnI-f-Kg)

- Information Retrieval [Parte 1](https://www.youtube.com/watch?v=FXIVClF370w&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=3) [Parte 2](https://www.youtube.com/watch?v=f8nG1EMmPZk&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=3)
- Probabilistic Language Models [Parte 1](https://www.youtube.com/watch?v=9E2jJ6kcb4Y&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=3) [Parte 2](https://www.youtube.com/watch?v=ZWqbEQXLra0&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=5) [Parte 3](https://www.youtube.com/watch?v=tsumFqwFlaA&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=6) [Parte 4](https://www.youtube.com/watch?v=s3TWdv4sqkg&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJq)

In [1]:
#!pip install nltk
#!pip install pandas numpy

## P1. Tokenización

En el primer ejercicio veremos la dificultad de tokenizar textos no estructurados, destacando la importancia de tener librerías que realicen este trabajo.

In [2]:
# En caso de desarrollar la tarea desde colab, con el siguiente código podemos cargar los archivos desde drive:

import os

# Imprime el directorio de trabajo actual
print("Directorio de trabajo actual:", os.getcwd())

try:
    # Intenta importar el módulo específico de Colab y montar Google Drive
    from google.colab import drive
    drive.mount("/content/drive", force_remount=True)
    # Especifica la ruta de acceso en Google Drive
    path = '/content/drive/MyDrive/nlp/oh_algoritmo.txt'
except ImportError:
    # Maneja el caso cuando se ejecute fuera de Colab, e.g., en Jupyter
    print('No está en Google Colab. Se dejara el path de archivo local.')
    # Especifica la ruta de acceso local
    path = './oh_algoritmo.txt'

Directorio de trabajo actual: /home/ignacio/2024-1/NLP/nlp_t1
No está en Google Colab. Se dejara el path de archivo local.


Ejecute el código a continuación para cargar el ejemplo. Recuerde realizar la modificación al directorio en caso que el archivo no se encuentre en el mismo directorio del Jupyter Notebook


In [3]:
try:
    # Abre el archivo en modo lectura ("r")
    with open(path, "r") as archivo:
        # Lee el contenido del archivo
        texto = archivo.read()
        # Imprime el contenido
        print(texto)
except FileNotFoundError:
    print("El archivo no se encuentra.")
except Exception as e:
    print("Ocurrió un error:", e)

[Letra de "¡Oh, Algoritmo!" ft. Nora Erez]

[Refrán: Jorge Drexler]
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?

[Estribillo: Jorge Drexler]
Dime qué debo cantar
Oh, algoritmo
Sé que lo sabes mejor
Incluso que yo mismo

[Verso 1: Nora Erez]
Wait, what's that money that you spent?
What's that sitting on your plate?
Do you want what you've been fed?
Are you the fish or bait?
Mmm, I'm on the top of the roof and I feel like a jail
Rather not pay the bail
To dangerous people with blood on their faces
So I'm sharing a cell with the masses
The underground always strive for the main
Streaming like Grande's big-ass ring
Screaming: I'll write you out my will
Conscious is free, but not the will
Conscious is free, but not the will
You

Fuente: https://genius.com/Jorge-drexler-oh-algoritmo-lyrics

### Pregunta 1.a (0.25 puntos)

Diseñe una función **`get_tokens()`** que reciba un texto y entregue una lista con sus tokens. Es libre de elegir la forma de tokenizar mientras no utilice librerías con tokenizadores ya implementados. Puede utilizar la librería **re** importada para trabajar símbolos. Explique su razonamiento.


In [4]:
import re
import math

In [5]:
def get_tokens(texto):


    pattern = r'\w+'

    matches = re.findall(pattern, texto)
    return matches



In [6]:
tokens = get_tokens(texto)
tokens

['Letra',
 'de',
 'Oh',
 'Algoritmo',
 'ft',
 'Nora',
 'Erez',
 'Refrán',
 'Jorge',
 'Drexler',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 'Estribillo',
 'Jorge',
 'Drexler',
 'Dime',
 'qué',
 'debo',
 'cantar',
 'Oh',
 'algoritmo',
 'Sé',
 'que',
 'lo',
 'sabes',
 'mejor',
 'Incluso',
 'que',
 'yo',
 'mismo',
 'Verso',
 '1',
 'Nora',
 'Erez',
 'Wait',
 'what',
 's',
 'that',
 'money',
 'that',
 'you',
 'spent',
 'What',
 's',
 'that',
 'sitting',
 'on',
 'your',
 'plate',
 'Do',
 'you',
 'want',


### Pregunta 1.b (0.25 puntos)
Explique su implementación aquí:
> La implementación de forma manual consiste en utilizar la libreria "re" para buscar un patrón en particular de un string. El patron a buscar es cualquier palabra que encuentre en el String, el cual guarda en una lista posteriomente.

Implementación con la libreria NLTK

In [7]:
from nltk.tokenize import wordpunct_tokenize
nltk_tokens = wordpunct_tokenize(texto)
nltk_tokens

['[',
 'Letra',
 'de',
 '"¡',
 'Oh',
 ',',
 'Algoritmo',
 '!"',
 'ft',
 '.',
 'Nora',
 'Erez',
 ']',
 '[',
 'Refrán',
 ':',
 'Jorge',
 'Drexler',
 ']',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '[',
 'Estribillo',
 ':',
 'Jorge',
 'Drexler',
 ']',
 'Dime',
 'qué',
 'debo',
 'cantar',
 'Oh',
 ',',
 'algoritmo',
 'Sé',
 'que',
 'lo',
 'sabes',
 'mejor',
 'Incluso',
 'que',
 'yo',
 'mismo',
 '[',
 'Verso',
 '1',
 ':',
 'Nora',
 

### Pregunta 1.c (0.5 puntos)
¿Qué diferencias y similitudes encontrase al comparar la función de tokenización creada manualmente por ti contra la implementación de NLTK, al tokenizar la letra de la canción "Oh, algoritmo"?

Las principales diferencias son que la tokenización implementada manualmente no guarda simbolos tales como "?", ":",  ni puntos o comas a diferencia de la tokenización implementada con una libreria especifica para aquella tarea. Respecto a las similitudes, se puede observar que ambas implementaciones separan las palabras correctamente, además en ambas implementaciones se aprecian particularidades tales como que la palabra en ingles "What´s" es detectada como dos palabras distintas (What, s).

## P2. Stemming y Stopwords

En esta sección debera implementar funciones de stemming y stopwords basado en lo visto en clase. En la siguiente celda tiene el corpus que usara en esta sección:

In [8]:
# Corpus en español
corpus_espanol = [
    "¿Quién quiere que yo quiera lo que creo que quiero?",
    "Dime qué debo cantar",
    "Sé que lo sabes mejor"
]

# Corpus en inglés
corpus_ingles = [
    "What's that sitting on your plate?",
    "Do you want what you've been fed?",
    "Are you the fish or bait?"
]

### Pregunta 2.a (0.5 puntos)
Implemente una función **`get_vocab()`** que extraiga los tokens de un corpus. Puede utilizar la función de la sección anterior.

In [9]:
def get_vocab(corpus):
  string = ""
  if isinstance(corpus, str):
    tokens= get_tokens(corpus)
  else:
    for i in corpus:
      string = string + " " + i
    tokens= get_tokens(string)

  return set(tokens)

  ### Aquí inicia tu código ###
  #uniques =set(tokens)
  #return uniques
  ### Aquí termina tu código ###

In [10]:
vocab_espanol = get_vocab(corpus_espanol)
print(list(vocab_espanol))

['quiero', 'qué', 'sabes', 'quiere', 'Quién', 'Dime', 'quiera', 'Sé', 'creo', 'debo', 'mejor', 'que', 'lo', 'yo', 'cantar']


Resultado esperado (el orden puede variar):
```
['yo', 'debo', 'creo', 'Dime', 'lo', 'cantar', 'mejor', 'Sé', 'que', 'quiere', 'quiero', 'sabes', 'Quién', 'quiera', 'qué']
```

In [11]:
vocab_ingles = get_vocab(corpus_ingles)
print(list(vocab_ingles))

['the', 'bait', 've', 'you', 'on', 'sitting', 'What', 'been', 'want', 'Are', 's', 'plate', 'fish', 'your', 'what', 'fed', 'or', 'that', 'Do']


Resultado esperado:
```
['fed', 'been', 'or', 'want', 'plate', 'the', 've', 'your', 's', 'you', 'what', 'Are', 'bait', 'What', 'fish', 'that', 'sitting', 'Do', 'on']
```

### Pregunta 2.b (0.5 puntos)
Ahora diseñe reglas que usted estime convenientes tanto de **Stemming** como de **Stopwords**. Implemente una función que reciba una lista con los elementos del vocabulario, le aplique sus reglas y devuelva el vocabulario preprocesado. Explique las reglas de stemming y elección de stopwords:

Para el Stemming se eligieron subjifos comunes tanto en ingles como en español, los cuales son:

- sufijos español = ["ar", "er", "ir", "ado", "ido", "ción", "sión", "es", "s", "e", "o"]
- sufijos_ingles = ["s", "es", "ed", "ing", "ly", "s", ]

Para el caso de las Stopword, se eligieron palabras bastante usuales en ambos idiomas, las cuales son:

- stop_words_español: ["Sé", "y", "a", "el", "en", "o", "este", "sí", "porque", "esta", "entre", "cuando",
    "muy", "sin", "sobre", "también", "me", "hasta", "hay", "donde", "quien",
    "desde","debo", "que", "yo", "qué", "lo"]

- stop_words_ingles: ["ve","your","you","the", "s", "a", "an", "on","and","or" ,"has", "do","don´t", "am", "is", "are", "was", "were", "be", "been", "being",
    "have", "has", "had", "having", "do", "does", "did", "doing"
    "the", "and", "but", "if", "or", "because", "as", "until", "while", "of", "that", "what", "Do", "What", "Are", "fed"]





In [12]:
def stemming(vocabulario, idioma):
  suf_espanol = ["ar", "er", "ir", "ado", "ido", "ción", "sión", "es", "s", "e", "o"]
  suf_ingles = ["s", "es", "ed", "ing", "ly", "s", ]
  voc = []
  if idioma == "espanol":
    sufijo = suf_espanol
  else:
    sufijo = suf_ingles


  for i in vocabulario:
      palabra = i
      for k in sufijo:
        if i.endswith(k):
            palabra = re.sub(rf'{k}$', '', i)

            break
      voc.append(palabra)
  return voc

def stopWords(vocabulario, idioma):
  stop_espanol = ["Sé","y", "a", "el", "en", "o", "este", "sí", "porque", "esta", "entre", "cuando",
    "muy", "sin", "sobre", "también", "me", "hasta", "hay", "donde", "quien",
    "desde","debo", "que", "yo", "qué", "lo"]
  stop_ingles = ["ve","your","you","the", "s","a", "an", "on","and","or" ,"has", "do","don´t", "am", "is", "are", "was", "were", "be", "been", "being",
    "have", "has", "had", "having", "do", "does", "did", "doing"
    "the", "and", "but", "if", "or", "because", "as", "until", "while", "of", "that", "what", "Do", "What", "Are", "fed"]

  if idioma == "espanol":
    stopwords = stop_espanol
  else:
    stopwords = stop_ingles


  voc = [i for i in vocabulario if i not in stopwords]



  return voc




In [13]:
def pre_processing(vocabulario, idioma):
   voc = stopWords(vocabulario, idioma)
   voc = stemming(voc, idioma)
     
   return voc


In [14]:
# Aplicar preprocesamiento a los vocabularios de ejemplo con NLTK
vocab_procesado_espanol = pre_processing(vocab_espanol, 'espanol')
vocab_procesado_ingles = pre_processing(vocab_ingles, 'ingles')

# Mostrar resultados
print("Vocabulario procesado en español:", vocab_procesado_espanol, "\n")
print("Vocabulario procesado en inglés:", vocab_procesado_ingles, "\n")

Vocabulario procesado en español: ['quier', 'sab', 'quier', 'Quién', 'Dim', 'quiera', 'cre', 'mejor', 'cant'] 

Vocabulario procesado en inglés: ['bait', 'sitt', 'want', 'plate', 'fish'] 



## P3. Bag of Words (0.5 puntos)
Considere el siguiente corpus, donde cada elemento del arreglo representa un documento:


In [15]:
d0 = 'El pájaro come semillas'
d1 = 'El pájaro se despierta y canta'
d2 = 'El pájaro canta y come semillas'
d3 = 'El pez come y nada en el agua'
d4 = 'El pez empieza a nadar'
d5 = 'El pez come alimento'
corpus = [d0, d1, d2, d3, d4, d5]

El objetivo da las siguientes secciones es determinar cuáles de  los documentos entregados son los más similares entre sí. Para ello utilizaremos la técnica **TF-IDF**.

Como los algoritmos de Machine Learning no comprenden el texto en lenguaje natural, estos documentos deben ser convertidos a vectores numéricos. La representación más simple vista en clases es la de **Bag of Words**, método mediante el cual se cuentan las apariciones de cada palabra en cada uno de los documentos entregados.

Implemente la función **`bag_of_words()`**, que recibe como input un arreglo de documentos y devuelve un dataframe de pandas con la representación Bag of Words de los documentos entregados. En esta representación las columnas son el vocabulario y las filas representan las apariciones de cada una de las palabras en los documentos. En otras palabras, cada fila representa el BoW de un documento.

***Disclaimer: el orden de los resultados pueden variar.***


Por ejemplo para el siguiente corpus:

```
corpus = ['El perro ladra', 'El perro come']
```

Debiese entregarnos lo siguiente:


|   | el | perro | ladra | come |
|---|----|-------|------|-------|
| 0 | 1  | 1     | 1    | 0     |
| 1 | 1  | 1     | 0    | 1     |




In [16]:
for i, doc in enumerate(corpus):
  print(i , get_vocab(doc))

0 {'come', 'semillas', 'pájaro', 'El'}
1 {'se', 'y', 'canta', 'pájaro', 'El', 'despierta'}
2 {'canta', 'y', 'pájaro', 'El', 'come', 'semillas'}
3 {'y', 'El', 'come', 'en', 'el', 'pez', 'agua', 'nada'}
4 {'a', 'El', 'pez', 'empieza', 'nadar'}
5 {'pez', 'come', 'alimento', 'El'}


In [17]:
import pandas as pd
import numpy as np

Implementar función `bag_of_words()`

In [18]:
def bag_of_words(corpus):
    columns = get_vocab(corpus)
    columns = list(columns)
    dataset = pd.DataFrame(columns = columns)
    for i, doc in enumerate(corpus):
      dic = {}
      palabras = get_tokens(doc)

      for pal in palabras:
          dic[pal] = columns.count(pal)


      new_row = pd.DataFrame(dic, index=[f"d{i}"])
      dataset = pd.concat([dataset, new_row])
    dataset = dataset.fillna(0)
    return dataset



In [19]:
dataset_bow = bag_of_words(corpus)
dataset_bow

  dataset = dataset.fillna(0)


Unnamed: 0,se,y,canta,pájaro,El,a,come,alimento,despierta,en,el,semillas,pez,agua,nada,empieza,nadar
d0,0,0,0,1,1,0,1,0,0,0,0,1,0,0,0,0,0
d1,1,1,1,1,1,0,0,0,1,0,0,0,0,0,0,0,0
d2,0,1,1,1,1,0,1,0,0,0,0,1,0,0,0,0,0
d3,0,1,0,0,1,0,1,0,0,1,1,0,1,1,1,0,0
d4,0,0,0,0,1,1,0,0,0,0,0,0,1,0,0,1,1
d5,0,0,0,0,1,0,1,1,0,0,0,0,1,0,0,0,0


Solución esperada:

|    |   El |   pájaro |   despierta |   el |   come |   a |   nadar |   se |   en |   y |   alimento |   semillas |   pez |   empieza |   canta |   agua |   nada |
|:---|-----:|---------:|------------:|-----:|-------:|----:|--------:|-----:|-----:|----:|-----------:|-----------:|------:|----------:|--------:|-------:|-------:|
| d0 |    1 |        1 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   0 |          0 |          1 |     0 |         0 |       0 |      0 |      0 |
| d1 |    1 |        1 |           1 |    0 |      0 |   0 |       0 |    1 |    0 |   1 |          0 |          0 |     0 |         0 |       1 |      0 |      0 |
| d2 |    1 |        1 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   1 |          0 |          1 |     0 |         0 |       1 |      0 |      0 |
| d3 |    1 |        0 |           0 |    1 |      1 |   0 |       0 |    0 |    1 |   1 |          0 |          0 |     1 |         0 |       0 |      1 |      1 |
| d4 |    1 |        0 |           0 |    0 |      0 |   1 |       1 |    0 |    0 |   0 |          0 |          0 |     1 |         1 |       0 |      0 |      0 |
| d5 |    1 |        0 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   0 |          1 |          0 |     1 |         0 |       0 |      0 |      0 |

## P4. TF-IDF

### 4.a TF (0.25 puntos)

Ahora debemos usar el dataframe del ejercicio anterior para calcular la matriz de TF normalizada por la máxima frecuencia $\max_i({\text{tf}_{i,j}})$, donde
$i$ corresponde al índice de las filas (BoW) y $j$ al de las columnas (palabras). Es decir, dividir cada BoW sobre la cantidad de veces de la palabra que aparezca más veces en ese vector.


$$\text{nft}_{i,j} = \frac{\text{tf}_{i,j}}{\max_i({\text{tf}_{i,j})}}$$

Implemente la función `calc_tf(dataset_bow)`, que entrega la matriz de TF normalizada del BoW del dataset.

In [20]:
def calc_tf(dataset_bow):
      # Obtener el valor máximo de cada fila
    max_row = dataset_bow.max(axis=1)

    # Dividir cada fila por su máximo
    dataset = dataset_bow.div(max_row, axis=0)
    ### Aquí inicia tu código ###
    return dataset
    ### Aquí termina tu código ##

In [21]:
tf = calc_tf(dataset_bow)
tf

Unnamed: 0,se,y,canta,pájaro,El,a,come,alimento,despierta,en,el,semillas,pez,agua,nada,empieza,nadar
d0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
d1,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
d2,0.0,1.0,1.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
d3,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0
d4,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0
d5,0.0,0.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0


Solución esperada:

|    |   El |   pájaro |   despierta |   el |   come |   a |   nadar |   se |   en |   y |   alimento |   semillas |   pez |   empieza |   canta |   agua |   nada |
|:---|-----:|---------:|------------:|-----:|-------:|----:|--------:|-----:|-----:|----:|-----------:|-----------:|------:|----------:|--------:|-------:|-------:|
| d0 |    1 |        1 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   0 |          0 |          1 |     0 |         0 |       0 |      0 |      0 |
| d1 |    1 |        1 |           1 |    0 |      0 |   0 |       0 |    1 |    0 |   1 |          0 |          0 |     0 |         0 |       1 |      0 |      0 |
| d2 |    1 |        1 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   1 |          0 |          1 |     0 |         0 |       1 |      0 |      0 |
| d3 |    1 |        0 |           0 |    1 |      1 |   0 |       0 |    0 |    1 |   1 |          0 |          0 |     1 |         0 |       0 |      1 |      1 |
| d4 |    1 |        0 |           0 |    0 |      0 |   1 |       1 |    0 |    0 |   0 |          0 |          0 |     1 |         1 |       0 |      0 |      0 |
| d5 |    1 |        0 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   0 |          1 |          0 |     1 |         0 |       0 |      0 |      0 |

### 4.b IDF (0.5 puntos)

Implementar `calc_idf(dataset_bow)`. Ésta debe retornar un diccionario en donde las llaves sean las palabras y los valores sean el cálculo de cada idf por palabra.

Recordar que $\text{idf}_{t_i} = \log_{10}\frac{N}{n_i}$ con $N = $ número de documentos y $n_i = $ número de documentos que contienen la palabra $t_i$

In [22]:
import numpy as np

In [23]:
def calc_idf(dataset_bow):
    words = dataset_bow.columns
    dic = {}
    for i in words:
      dic[i] = math.log10(len(dataset_bow)/dataset_bow[dataset_bow[i] != 0][i].value_counts().sum())
    ### Aquí inicia tu código ###
    return dic
    ### Aquí termina tu código ##

In [24]:
idf = calc_idf(dataset_bow)
idf

{'se': 0.7781512503836436,
 'y': 0.3010299956639812,
 'canta': 0.47712125471966244,
 'pájaro': 0.3010299956639812,
 'El': 0.0,
 'a': 0.7781512503836436,
 'come': 0.17609125905568124,
 'alimento': 0.7781512503836436,
 'despierta': 0.7781512503836436,
 'en': 0.7781512503836436,
 'el': 0.7781512503836436,
 'semillas': 0.47712125471966244,
 'pez': 0.3010299956639812,
 'agua': 0.7781512503836436,
 'nada': 0.7781512503836436,
 'empieza': 0.7781512503836436,
 'nadar': 0.7781512503836436}

Solución esperada:
```
{'El': 0.0,
 'pájaro': 0.3010299956639812,
 'despierta': 0.7781512503836436,
 'el': 0.7781512503836436,
 'come': 0.17609125905568124,
 'a': 0.7781512503836436,
 'nadar': 0.7781512503836436,
 'se': 0.7781512503836436,
 'en': 0.7781512503836436,
 'y': 0.3010299956639812,
 'alimento': 0.7781512503836436,
 'semillas': 0.47712125471966244,
 'pez': 0.3010299956639812,
 'empieza': 0.7781512503836436,
 'canta': 0.47712125471966244,
 'agua': 0.7781512503836436,
 'nada': 0.7781512503836436}
 ```

### 4.c TF-IDF (0.25 puntos)
Programe la función `calc_tf_idf(tf, idf)` que entrega el dataframe TF-IDF asociado al dataset que estamos analizando.

In [25]:
def calc_tf_idf(tf, idf):


    for word in tf.columns:
      tf.loc[tf[word]> 0, word] = idf[word]

    return tf



In [26]:
tf_idf = calc_tf_idf(tf, idf)
tf_idf

Unnamed: 0,se,y,canta,pájaro,El,a,come,alimento,despierta,en,el,semillas,pez,agua,nada,empieza,nadar
d0,0.0,0.0,0.0,0.30103,0.0,0.0,0.176091,0.0,0.0,0.0,0.0,0.477121,0.0,0.0,0.0,0.0,0.0
d1,0.778151,0.30103,0.477121,0.30103,0.0,0.0,0.0,0.0,0.778151,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
d2,0.0,0.30103,0.477121,0.30103,0.0,0.0,0.176091,0.0,0.0,0.0,0.0,0.477121,0.0,0.0,0.0,0.0,0.0
d3,0.0,0.30103,0.0,0.0,0.0,0.0,0.176091,0.0,0.0,0.778151,0.778151,0.0,0.30103,0.778151,0.778151,0.0,0.0
d4,0.0,0.0,0.0,0.0,0.0,0.778151,0.0,0.0,0.0,0.0,0.0,0.0,0.30103,0.0,0.0,0.778151,0.778151
d5,0.0,0.0,0.0,0.0,0.0,0.0,0.176091,0.778151,0.0,0.0,0.0,0.0,0.30103,0.0,0.0,0.0,0.0


Solución esperada:

|    |   El |   pájaro |   despierta |       el |     come |        a |    nadar |       se |       en |       y |   alimento |   semillas |     pez |   empieza |    canta |     agua |     nada |
|:---|-----:|---------:|------------:|---------:|---------:|---------:|---------:|---------:|---------:|--------:|-----------:|-----------:|--------:|----------:|---------:|---------:|---------:|
| d0 |    0 |  0.30103 |    0        | 0        | 0.176091 | 0        | 0        | 0        | 0        | 0       |   0        |   0.477121 | 0       |  0        | 0        | 0        | 0        |
| d1 |    0 |  0.30103 |    0.778151 | 0        | 0        | 0        | 0        | 0.778151 | 0        | 0.30103 |   0        |   0        | 0       |  0        | 0.477121 | 0        | 0        |
| d2 |    0 |  0.30103 |    0        | 0        | 0.176091 | 0        | 0        | 0        | 0        | 0.30103 |   0        |   0.477121 | 0       |  0        | 0.477121 | 0        | 0        |
| d3 |    0 |  0       |    0        | 0.778151 | 0.176091 | 0        | 0        | 0        | 0.778151 | 0.30103 |   0        |   0        | 0.30103 |  0        | 0        | 0.778151 | 0.778151 |
| d4 |    0 |  0       |    0        | 0        | 0        | 0.778151 | 0.778151 | 0        | 0        | 0       |   0        |   0        | 0.30103 |  0.778151 | 0        | 0        | 0        |
| d5 |    0 |  0       |    0        | 0        | 0.176091 | 0        | 0        | 0        | 0        | 0       |   0.778151 |   0        | 0.30103 |  0        | 0        | 0        | 0        |

## P5. Cosine-similarity (0.25 puntos)
Ahora que tenemos el dataframe de TF-IDF, nos queda calcular la similitud coseno entre todos los vectores. Notar que la matriz resultante será una matriz simétrica.

Implemente la función *cosine_similarity(v1, v2)* que recibe dos vectores (v1 y v2) y calcula la similitud coseno entre ambos. Concluya cuáles son los dos documentos más similares.

In [27]:
import numpy as np

def cosine_similarity(v1, v2):
    # Calcula el producto punto entre los dos vectores
    dot_product = np.dot(v1, v2)
    # Calcula la norma (magnitud) de cada vector
    norm_v1 = np.linalg.norm(v1)
    norm_v2 = np.linalg.norm(v2)
    # Calcula la similitud coseno
    similarity = dot_product / (norm_v1 * norm_v2)
    return similarity

In [28]:
similarity_matrix = np.zeros((6,6))
for i, v1 in enumerate(tf_idf.index.values):
  for j, v2 in enumerate(tf_idf.index.values):
      similarity = cosine_similarity(tf_idf.loc[v1].values, tf_idf.loc[v2].values)
      similarity_matrix[i][j] = similarity

for i in range(6):
  mask = [k != i for k in range(6)]
  j = np.argmax(similarity_matrix[i][mask])

  print(corpus[i])
  print("> Mas similar:", np.array(corpus)[mask][j])
  print("> Similitud:", similarity_matrix[i][mask][j], "\n")

El pájaro come semillas
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.7233435041520414 

El pájaro se despierta y canta
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.39320101823128945 

El pájaro canta y come semillas
> Mas similar: El pájaro come semillas
> Similitud: 0.7233435041520414 

El pez come y nada en el agua
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.09171890791406168 

El pez empieza a nadar
> Mas similar: El pez come alimento
> Similitud: 0.07695078406752713 

El pez come alimento
> Mas similar: El pez come y nada en el agua
> Similitud: 0.08787900372173231 



Solución esperada:
```
El pájaro come semillas
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.7233435041520414

El pájaro se despierta y canta
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.39320101823128945

El pájaro canta y come semillas
> Mas similar: El pájaro come semillas
> Similitud: 0.7233435041520414

El pez come y nada en el agua
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.09171890791406168

El pez empieza a nadar
> Mas similar: El pez come alimento
> Similitud: 0.07695078406752713

El pez come alimento
> Mas similar: El pez come y nada en el agua
> Similitud: 0.0878790037217323
```

## P6 N-gramas (0.75 punto)

En esta sección debera determinar los n-gramas del la cancion "Oh algoritmo".

### 6.a Corpus de entrenamiento y test (0.25 puntos)

En esta subsección debera definir el conjunto de entrenamiento y test de un corpus. Eliga una particion del 80% y 20% del texto.

In [29]:
try:
    # Abre el archivo en modo lectura ("r")
    with open("oh_algoritmo.txt", "r") as archivo:
        # Lee el contenido del archivo
        texto = archivo.read()
        # Imprime el contenido
        print(texto)
except FileNotFoundError:
    print("El archivo no se encuentra.")
except Exception as e:
    print("Ocurrió un error:", e)

[Letra de "¡Oh, Algoritmo!" ft. Nora Erez]

[Refrán: Jorge Drexler]
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?

[Estribillo: Jorge Drexler]
Dime qué debo cantar
Oh, algoritmo
Sé que lo sabes mejor
Incluso que yo mismo

[Verso 1: Nora Erez]
Wait, what's that money that you spent?
What's that sitting on your plate?
Do you want what you've been fed?
Are you the fish or bait?
Mmm, I'm on the top of the roof and I feel like a jail
Rather not pay the bail
To dangerous people with blood on their faces
So I'm sharing a cell with the masses
The underground always strive for the main
Streaming like Grande's big-ass ring
Screaming: I'll write you out my will
Conscious is free, but not the will
Conscious is free, but not the will
You

Defina una funcion `get_sentences()` que entregue todas las oraciones del corpus que contengan al menos una palabra.

In [30]:
def get_sentences(texto):
    # Divide el texto en líneas
    lineas = texto.split('\n')
    # Filtra las líneas que contienen al menos una palabra
    oraciones_limpias = [linea.strip() for linea in lineas if len(linea.strip().split()) >= 1]
    return oraciones_limpias


In [31]:
oraciones_limpias = get_sentences(texto)
oraciones_limpias

['[Letra de "¡Oh, Algoritmo!" ft. Nora Erez]',
 '[Refrán: Jorge Drexler]',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '[Estribillo: Jorge Drexler]',
 'Dime qué debo cantar',
 'Oh, algoritmo',
 'Sé que lo sabes mejor',
 'Incluso que yo mismo',
 '[Verso 1: Nora Erez]',
 "Wait, what's that money that you spent?",
 "What's that sitting on your plate?",
 "Do you want what you've been fed?",
 'Are you the fish or bait?',
 "Mmm, I'm on the top of the roof and I feel like a jail",
 'Rather not pay the bail',
 'To dangerous people with blood on their faces',
 "So I'm sharing a cell with the masses",
 'The underground always strive for the main',
 "Streaming like Grande's big-ass ring",
 "Screaming: I'll wr

Debería obtener en total 87 oraciones.

In [32]:
len(oraciones_limpias) == 87

True

Ahora definiremos el conjunto de entrenamiento y prueba para las oraciones:

In [33]:
split = int(len(oraciones_limpias) * 0.8)
train_corpus = oraciones_limpias[:split]
test_corpus = oraciones_limpias[split:]

len(train_corpus), len(test_corpus)

(69, 18)

### 6.b Estimación de N-gramas (0.5 puntos)

Defina una función que reciba una lista de oraciones de un corpus y un N que indique el tamaño de los N-gramas. La función debe retornar un diccionario de Python donde la llave es un token (o palabra) y el valor es la cantidad de veces que ocurre el token, es decir, la frecuencia. En el caso de N-gramas con N mayor a 1 (como bi-gramas o tri-gramas) debe añadir un token especial al inicio o final de cada oración según corresponda (ver clases del curso).

In [34]:
from nltk.tokenize import word_tokenize
#import nltk
#nltk.download("punkt")

In [35]:
def n_grams(corpus, n=3):
    # Define an empty dictionary to store n-gram frequencies
    n_grams_freq = {}

    # Iterate through each sentence in the corpus
    for sentence in corpus:

        modified_sentence = ' '.join(['*'] * (n-1) + [sentence] + ['*'] * (n-1))
        tokens = word_tokenize(modified_sentence)
        # Loop through the tokens and create n-grams
        for i in range(len(tokens)-n+1):
            # Create a tuple for the n-gram
            ngram = tuple(tokens[i:i+n])
            
            # Check if the n-gram exists in the dictionary
            if ngram in n_grams_freq:
                # Increment the count if it exists
                n_grams_freq[ngram] += 1
            else:
                # Initialize the count to 1 for new n-grams
                n_grams_freq[ngram] = 1

    return dict(sorted(n_grams_freq.items(), key=lambda x: x[1], reverse=True))


In [36]:
n_grams(train_corpus, n=1)

{('que',): 38,
 ('?',): 18,
 ('yo',): 14,
 ('lo',): 13,
 (',',): 11,
 (':',): 11,
 ('¿Quién',): 11,
 ('quiere',): 11,
 ('quiera',): 11,
 ('creo',): 11,
 ('quiero',): 11,
 ('[',): 10,
 (']',): 10,
 ('Jorge',): 10,
 ('Drexler',): 10,
 ('the',): 8,
 ('I',): 7,
 ('you',): 6,
 ('Verso',): 4,
 ('that',): 4,
 ('want',): 4,
 ('la',): 4,
 ('de',): 3,
 ('Nora',): 3,
 ('Erez',): 3,
 ('Dime',): 3,
 ('qué',): 3,
 ('debo',): 3,
 ('cantar',): 3,
 ('algoritmo',): 3,
 ('what',): 3,
 ("'s",): 3,
 ('on',): 3,
 ('like',): 3,
 ('a',): 3,
 ('not',): 3,
 ('will',): 3,
 ('no',): 3,
 ('Refrán',): 2,
 ('Estribillo',): 2,
 ('Oh',): 2,
 ('Sé',): 2,
 ('sabes',): 2,
 ('mejor',): 2,
 ('Incluso',): 2,
 ('mismo',): 2,
 ("'m",): 2,
 ('with',): 2,
 ('So',): 2,
 ('Conscious',): 2,
 ('is',): 2,
 ('free',): 2,
 ('but',): 2,
 ('al',): 2,
 ('to',): 2,
 ('o',): 2,
 ('del',): 2,
 ('Y',): 2,
 ('el',): 2,
 ('ven',): 2,
 ('Letra',): 1,
 ('``',): 1,
 ('¡Oh',): 1,
 ('Algoritmo',): 1,
 ('!',): 1,
 ("''",): 1,
 ('ft.',): 1,
 ('1',): 

In [37]:
n_grams(train_corpus, n=2)

{('?', '*'): 18,
 ('que', 'yo'): 13,
 ('*', '¿Quién'): 11,
 ('¿Quién', 'quiere'): 11,
 ('quiere', 'que'): 11,
 ('yo', 'quiera'): 11,
 ('quiera', 'lo'): 11,
 ('lo', 'que'): 11,
 ('que', 'creo'): 11,
 ('creo', 'que'): 11,
 ('que', 'quiero'): 11,
 ('quiero', '?'): 11,
 ('*', '['): 10,
 (']', '*'): 10,
 ('Jorge', 'Drexler'): 10,
 (':', 'Jorge'): 7,
 ('Drexler', ']'): 7,
 ('[', 'Verso'): 4,
 ('Nora', 'Erez'): 3,
 ('Erez', ']'): 3,
 ('Dime', 'qué'): 3,
 ('qué', 'debo'): 3,
 ('debo', 'cantar'): 3,
 ('will', '*'): 3,
 ('*', 'Jorge'): 3,
 ('Drexler', '*'): 3,
 ('[', 'Refrán'): 2,
 ('Refrán', ':'): 2,
 ('[', 'Estribillo'): 2,
 ('Estribillo', ':'): 2,
 ('*', 'Dime'): 2,
 ('cantar', '*'): 2,
 ('*', 'Oh'): 2,
 ('Oh', ','): 2,
 (',', 'algoritmo'): 2,
 ('algoritmo', '*'): 2,
 ('*', 'Sé'): 2,
 ('Sé', 'que'): 2,
 ('que', 'lo'): 2,
 ('lo', 'sabes'): 2,
 ('sabes', 'mejor'): 2,
 ('mejor', '*'): 2,
 ('*', 'Incluso'): 2,
 ('Incluso', 'que'): 2,
 ('yo', 'mismo'): 2,
 ('mismo', '*'): 2,
 (':', 'Nora'): 2,
 ("

In [38]:
n_grams(train_corpus, n=3)

{('?', '*', '*'): 18,
 ('*', '*', '¿Quién'): 11,
 ('*', '¿Quién', 'quiere'): 11,
 ('¿Quién', 'quiere', 'que'): 11,
 ('quiere', 'que', 'yo'): 11,
 ('que', 'yo', 'quiera'): 11,
 ('yo', 'quiera', 'lo'): 11,
 ('quiera', 'lo', 'que'): 11,
 ('lo', 'que', 'creo'): 11,
 ('que', 'creo', 'que'): 11,
 ('creo', 'que', 'quiero'): 11,
 ('que', 'quiero', '?'): 11,
 ('quiero', '?', '*'): 11,
 ('*', '*', '['): 10,
 (']', '*', '*'): 10,
 (':', 'Jorge', 'Drexler'): 7,
 ('Jorge', 'Drexler', ']'): 7,
 ('Drexler', ']', '*'): 7,
 ('*', '[', 'Verso'): 4,
 ('Nora', 'Erez', ']'): 3,
 ('Erez', ']', '*'): 3,
 ('Dime', 'qué', 'debo'): 3,
 ('qué', 'debo', 'cantar'): 3,
 ('will', '*', '*'): 3,
 ('*', '*', 'Jorge'): 3,
 ('*', 'Jorge', 'Drexler'): 3,
 ('Jorge', 'Drexler', '*'): 3,
 ('Drexler', '*', '*'): 3,
 ('*', '[', 'Refrán'): 2,
 ('[', 'Refrán', ':'): 2,
 ('Refrán', ':', 'Jorge'): 2,
 ('*', '[', 'Estribillo'): 2,
 ('[', 'Estribillo', ':'): 2,
 ('Estribillo', ':', 'Jorge'): 2,
 ('*', '*', 'Dime'): 2,
 ('*', 'Dime',

Debe mostrar que su método funciona para $N = 1,2,3$.

## P7. Perplexity (1 punto)

En esta sección evaluarán su modelo de n-gramas y determinarán la probabilidad de oraciones y la perplejidad con un conjunto de test. Recuerde que la perplejidad se define de la siguiente manera:

$$
\text{Perplexity} = 2^{-l} \quad \quad l = \frac{1}{M} \sum_{i=1}^{m} \log p(s_i)
$$

con $m$ el número de oraciones del corpus y $M$ el tamaño del vocabulario.

### 7.a Obtener probabilidades (0.5 puntos)

En esta sección implementará una función que determine la probabilidad de una oración.

Defina una función que reciba una oración, un diccionario con n-gramas y el valor de $n$. La función debe entregar la probabilidad de cualquier oración.

**Hint**: No olvide los posibles casos borde, como palabras fuera del vocabulario.

In [39]:
def get_probability(sentence, n_grams_frequency, n):
    tokens = ['*'] * (n-1) + word_tokenize(sentence) + ['*'] * (n-1) 
    #print(tokens)
    V = len(set([token for n_gram in n_grams_frequency.keys() for token in n_gram])) + 1  # +1 for OOV (Out of Vocabulary) token
    probability_log_sum = 0
    for i in range(n-1, len(tokens)):
        n_gram = tuple(tokens[i-n+1:i+1])
        prefix = tuple(tokens[i-n+1:i])
        
        # Calculate counts
        n_gram_count = n_grams_frequency.get(n_gram, 0)
        prefix_count = sum([count for key, count in n_grams_frequency.items() if key[:n-1] == prefix])
        
        # Apply Laplace smoothing
        probability = (n_gram_count + 1) / (prefix_count + V)
        probability_log_sum += math.log(probability)
    
    return math.exp(probability_log_sum)




Pruebe su función con oraciones frecuentes y comente sus resultados

In [40]:
# Calcula los n-gramas para N = 1, 2, 3 usando el corpus de entrenamiento
n_grams_1 = n_grams(train_corpus, n=1)
n_grams_2 = n_grams(train_corpus, n=2)
n_grams_3 = n_grams(train_corpus, n=3)

# Selecciona algunas oraciones del conjunto de prueba para evaluar
test_sentences = test_corpus[:5]  # Se toman las primeras 5

# Función para imprimir las probabilidades de un conjunto de oraciones para un determinado N
def print_sentence_probabilities(sentences, n_grams_frequency, n):
    print(f"\nProbabilidades para N = {n}:")
    for sentence in sentences:
        probability = get_probability(sentence, n_grams_frequency, n)
        print(f"Oración: '{sentence}'\nProbabilidad: {probability}\n")

# Imprime las probabilidades para N = 1, 2, 3
print_sentence_probabilities(test_sentences, n_grams_1, 1)
print_sentence_probabilities(test_sentences, n_grams_2, 2)
print_sentence_probabilities(test_sentences, n_grams_3, 3)





Probabilidades para N = 1:
Oración: '(Oh, algoritmo)'
Probabilidad: 4.599417207845598e-12

Oración: '¿Quién quiere que yo quiera lo que creo que quiero?'
Probabilidad: 5.689703773464625e-18

Oración: '(Sé que lo sabes mejor)'
Probabilidad: 1.080958073124866e-15

Oración: '¿Quién quiere que yo quiera lo que creo que quiero?'
Probabilidad: 5.689703773464625e-18

Oración: '¿Quién quiere que yo quiera lo que creo que quiero?'
Probabilidad: 5.689703773464625e-18


Probabilidades para N = 2:
Oración: '(Oh, algoritmo)'
Probabilidad: 4.170077022376801e-13

Oración: '¿Quién quiere que yo quiera lo que creo que quiero?'
Probabilidad: 1.2863287869802262e-15

Oración: '(Sé que lo sabes mejor)'
Probabilidad: 7.988893043866766e-17

Oración: '¿Quién quiere que yo quiera lo que creo que quiero?'
Probabilidad: 1.2863287869802262e-15

Oración: '¿Quién quiere que yo quiera lo que creo que quiero?'
Probabilidad: 1.2863287869802262e-15


Probabilidades para N = 3:
Oración: '(Oh, algoritmo)'
Probabilidad: 

In [41]:
# Ejemplo de palabras al azar para verificar
palabras_al_azar = ["crepúsculo", "dinosaurio", "galaxia", "algoritmo", "datos"]

# Asumiendo que ya has generado n_grams_1 del train_corpus y extraído el vocabulario
vocabulario_train_corpus = set(word for (word,) in n_grams_1.keys())

# Clasificar palabras al azar en presentes en el corpus o OOV
palabras_en_corpus = []
palabras_oov = []

for palabra in palabras_al_azar:
    if palabra in vocabulario_train_corpus:
        palabras_en_corpus.append(palabra)
    else:
        palabras_oov.append(palabra)

print("Palabras en el corpus:", palabras_en_corpus)
print("Palabras OOV:", palabras_oov)


Palabras en el corpus: ['algoritmo']
Palabras OOV: ['crepúsculo', 'dinosaurio', 'galaxia', 'datos']


In [42]:
# Genera oraciones de prueba
def generar_oraciones_test(palabras_oov, palabras_en_vocabulario):
    oraciones = {
        "completamente_oov": " ".join(palabras_oov) + ".",
        "mixta": " ".join(palabras_en_vocabulario + [palabras_oov[0]]) + ".",
        "una_palabra_oov": "El " + palabras_oov[1] + " es desconocido."
    }
    return oraciones

In [43]:
# Llama a la función y guarda el resultado
oraciones_de_prueba = generar_oraciones_test(palabras_oov, palabras_en_corpus)

# Imprime las oraciones de prueba generadas
for tipo, oracion in oraciones_de_prueba.items():
    print(f"{tipo.capitalize()}: {oracion}")

Completamente_oov: crepúsculo dinosaurio galaxia datos.
Mixta: algoritmo crepúsculo.
Una_palabra_oov: El dinosaurio es desconocido.


In [44]:
# Calcular la probabilidad para cada oración de prueba y para cada n
resultados_probabilidades = {}
for n, n_grams_freq in zip([1, 2, 3], [n_grams_1, n_grams_2, n_grams_3]):
    print(f"\nProbabilidades para n={n}:")
    for tipo, oracion in oraciones_de_prueba.items():
        probabilidad = get_probability(oracion, n_grams_freq, n)
        print(f"{tipo.capitalize()}: '{oracion}' - Probabilidad: {probabilidad}")
        resultados_probabilidades[f"{tipo}_{n}"] = probabilidad


Probabilidades para n=1:
Completamente_oov: 'crepúsculo dinosaurio galaxia datos.' - Probabilidad: 7.985099319176363e-15
Mixta: 'algoritmo crepúsculo.' - Probabilidad: 1.3913237053732918e-08
Una_palabra_oov: 'El dinosaurio es desconocido.' - Probabilidad: 1.5970198638352814e-14

Probabilidades para n=2:
Completamente_oov: 'crepúsculo dinosaurio galaxia datos.' - Probabilidad: 1.2670309761289526e-14
Mixta: 'algoritmo crepúsculo.' - Probabilidad: 4.843462207529971e-10
Una_palabra_oov: 'El dinosaurio es desconocido.' - Probabilidad: 1.2606318297848626e-14

Probabilidades para n=3:
Completamente_oov: 'crepúsculo dinosaurio galaxia datos.' - Probabilidad: 6.431629320451519e-17
Mixta: 'algoritmo crepúsculo.' - Probabilidad: 2.4960510229740346e-12
Una_palabra_oov: 'El dinosaurio es desconocido.' - Probabilidad: 6.431629320451519e-17


### 7.b Perplexity en conjunto de test (0.5 puntos)

En esta sub-sección deberá calcular la perplejidad del corpus de test.

Defina una función que reciba un corpus de test y retorne la perplexity (ver clases del curso). Utilice la función de la sección anterior.

In [45]:
def get_perplexity(corpus, n):
    n_grams_frequency = n_grams(train_corpus, n)
    
    # Aquí, corpus es el corpus de test.
    # Calcular la probabilidad logarítmica total de todas las oraciones en el corpus de test
    total_log_probability = 0
    M = 0  # Total number of tokens
    
    for sentence in corpus:
        # Calcular la probabilidad de la oración actual y sumar su logaritmo al total
        sentence_probability = get_probability(sentence, n_grams_frequency, n)
        total_log_probability += math.log(sentence_probability)
        
        # Actualizar el contador total de tokens
        M += len(word_tokenize(sentence)) + ((n - 1)*2)  # +n-1 por los tokens de inicio/final añadidos
    
    # Calcular el promedio de la probabilidad logarítmica por token
    l = total_log_probability / M
    
    # Calcular y devolver la perplejidad
    perplexity = math.pow(2, -l)
    return perplexity

In [46]:
get_perplexity(test_corpus, 3)

7.605013477568717

Dé una interpretacion de la perplexity en el corpus de test:

Dada una perplexity aproximada de 7.6 para el modelo de trigramas en el corpus de test, compuesto exclusivamente por el texto de la canción "Oh algoritmo", esta medida indica que el modelo, en promedio, selecciona entre aproximadamente ocho posibles palabras siguientes en el texto de manera precisa. La perplejidad, al ser una medida de cuán bien un modelo de probabilidad predice una muestra, sugiere que el modelo tiene un buen desempeño en este contexto específico.

Este nivel de perplexity podría interpretarse como que el modelo de trigramas logra un equilibrio efectivo entre generalización y precisión para este corpus limitado. Es capaz de predecir con relativa precisión las palabras siguientes en el texto, lo que indica una afinidad y ajuste cercano al estilo y vocabulario específicos de la canción. Sin embargo, es importante considerar que dado el tamaño relativamente pequeño y la naturaleza específica del corpus (una única canción), el modelo puede no generalizar bien a otros textos o contextos lingüísticos fuera de este dominio específico.

Además, el proceso de suavizado de Laplace aplicado en el cálculo de probabilidades ayudó a manejar casos de palabras fuera del vocabulario, lo cual es crucial para modelos basados en corpus de tamaño limitado y evita la asignación de probabilidades cero a secuencias no vistas durante el entrenamiento. La aplicación de este suavizado permitió al modelo manejar mejor la incertidumbre y contribuyó a la perplejidad relativamente baja observada.

## P8. Interpolación Lineal (0.5 puntos)

Cree una función que obtenga la probabilidad de una oración interpolando linealmente modelos de unigrama, bigrama y trigrama ponderados por $\lambda_1, \lambda_2$ y $\lambda_3$ respectivamente. Para esto use las funciones que creó anteriormente.

In [47]:
def get_probability_lineal_interpol(sentence, corpus, l_1, l_2, l_3):
    # Asegurar que la suma de lambdas sea 1
    assert l_1 + l_2 + l_3 == 1, "La suma de lambdas debe ser 1"
    # Calcular n-gramas para n=1, 2, 3 usando todo el corpus para tener una base de datos completa de frecuencias?? o usar solo el train?
    n_grams_1 = n_grams(corpus, 1)
    n_grams_2 = n_grams(corpus, 2)
    n_grams_3 = n_grams(corpus, 3)
    
    # Calcular la probabilidad interpolada de la oración
    sentence_probability = 1

    p1 = get_probability(sentence, n_grams_1, 1)
    p2 = get_probability(sentence, n_grams_2, 2)
    p3 = get_probability(sentence, n_grams_3, 3)

    # Interpolación lineal de las probabilidades
    p = l_1 * p1 + l_2 * p2 + l_3 * p3
    sentence_probability *= p
    
    return sentence_probability, len(word_tokenize(sentence)) + ((n - 1)*2) 


Defina una función para calcular la perplejidad de un corpus con interpolación lineal.

In [48]:
def get_pp_interpol(corpus, l_1, l_2, l_3):

    # Inicializar variables para calcular la perplejidad
    total_log_probability = 0
    M = 0  # Contador total de tokens

    for sentence in corpus:

        sentence_probability, len_tokens = get_probability_lineal_interpol(sentence, train_corpus, l_1, l_2, l_3)
        M += len_tokens   # Ajustar M para no contar los tokens de inicio y fin
        total_log_probability += math.log(sentence_probability)

    # Calcular la perplejidad
    l = total_log_probability / M
    perplexity = math.pow(2, -l)
    return perplexity


Ahora haga pruebas con distintos valores de $\lambda_1, \lambda_2$ y $\lambda_3$, incluyendo valores extremos (por ejemplo $[1, 0, 0]$). Comente sus resultados.

In [49]:

# Diferentes configuraciones de pesos para probar
configuraciones_lambda = [
    (1, 0, 0),  # Todos los pesos en unigramas
    (0, 1, 0),  # Todos los pesos en bigramas
    (0, 0, 1),  # Todos los pesos en trigramas
    (0.33, 0.33, 0.34),  # Distribución equitativa
    (0.2, 0.3, 0.5),  # Mayor peso en trigramas
    # Agrega más configuraciones según lo desees
]

# Bucle para ejecutar la prueba con cada configuración de pesos
for l_1, l_2, l_3 in configuraciones_lambda:
    pp = get_pp_interpol(test_corpus, l_1, l_2, l_3)
    print(f"Perplejidad con λ1={l_1}, λ2={l_2}, λ3={l_3}: {pp}")


Perplejidad con λ1=1, λ2=0, λ3=0: 6.769822421660892
Perplejidad con λ1=0, λ2=1, λ3=0: 6.0068976018908256
Perplejidad con λ1=0, λ2=0, λ3=1: 7.605013477568717
Perplejidad con λ1=0.33, λ2=0.33, λ3=0.34: 6.038580577433671
Perplejidad con λ1=0.2, λ2=0.3, λ3=0.5: 6.111052853778965


La evaluación detallada de la perplejidad en función de la ponderación asignada a los unigramas, bigramas y trigramas en el modelo de n-gramas revela insights significativos sobre el desempeño predictivo del modelo utilizando diferentes configuraciones de interpolación en el corpus específico compuesto por la letra de "¡Oh, Algoritmo!" ft. Nora Erez. Este análisis muestra una jerarquía clara en la eficacia predictiva de las distintas estructuras de n-gramas, que es esencial para entender cómo la contextualización a diferentes niveles afecta la capacidad del modelo para anticipar el texto.

Sorprendentemente, los bigramas (con lambda_2=1) resultaron ser los más efectivos para predecir el conjunto de prueba, logrando la menor perplejidad con un valor de 6.0 aprox. Este resultado subraya el poder de incorporar un nivel de contexto inmediato al predecir la siguiente palabra en una secuencia, proporcionando un equilibrio óptimo entre la especificidad del contexto y la generalidad requerida para una buena capacidad de generalización en este corpus particular.

Le siguen las combinaciones de unigramas, bigramas y trigramas con pesos distribuidos (lambda_1=0.33, lambda_2=0.33, lambda_3=0.34 y lambda_1=0.2, lambda_2=0.3, lambda_3=0.5), que también muestran una mejora notable en la perplejidad comparado con los modelos que solo consideran un tipo de n-grama. Esto ilustra cómo una estrategia de interpolación que integra múltiples granularidades de contexto puede ser beneficiosa, aprovechando la información proporcionada por la relación entre palabras consecutivas y por configuraciones más locales y más amplias dentro de la oración.

Los unigramas, a pesar de ser el método más simple al considerar solo la frecuencia de aparición de palabras individuales sin contexto, sorprendentemente superan a los trigramas con una perplejidad de 6.8 aprox. Esto podría sugerir que, en un corpus con limitaciones de tamaño o con una diversidad significativa de construcciones lingüísticas, la inclusión de más contexto no siempre conduce a mejoras en la capacidad predictiva, posiblemente debido a la sobre-especificidad y a la dispersión de los datos en el caso de los trigramas.

Finalmente, el modelo basado exclusivamente en trigramas mostró la mayor perplejidad con un valor de 7.6, indicando que, para este conjunto de datos, considerar tres palabras anteriores en la predicción puede no ser tan efectivo como las otras configuraciones. Esto podría reflejar una limitación en la disponibilidad de patrones trigramas consistentes dentro del corpus de entrenamiento, lo que resalta los desafíos de equilibrar la riqueza contextual y la disponibilidad de datos suficientes para entrenar modelos predictivos efectivos.