# Tarea 1: Introducción, Vector Space Models, Information Retrieval y Language Models</h1>
**Procesamiento de Lenguaje Natural (CC6205-1 - Otoño 2024)**

## Tarjeta de identificación

**Nombres:** ```Sebastián Sanhueza y Martin Reyes Oviedo```

**Fecha límite de entrega 📆:** 10/04.

**Tiempo estimado de dedicación:** 4 horas


## Instrucciones
Bienvenid@s a la primera tarea en el curso de Natural Language Processing (NLP). Esta tarea tiene como objetivo evaluar los contenidos teóricos de las primeras semanas de clases, enfocado principalmente en **Information Retrieval (IR)**, **Vector Space Models** y **Language Models**. Si aún no has visto las clases, se recomienda visitar los links de las referencias.

La tarea consta de una parte teórica que busca evaluar conceptos vistos en clases. Seguido por una parte práctica con el fín de introducirlos a la programación en Python enfocada en NLP.

* La tarea es en **grupo** (maximo hasta 3 personas).
* La entrega es a través de u-cursos a más tardar el día estipulado arriba. No se aceptan atrasos.
* El formato de entrega es este mismo Jupyter Notebook.
* Al momento de la revisión su código será ejecutado. Por favor verifiquen que su entrega no tenga errores de compilación.
* Completar la tarjeta de identificación. Sin ella no podrá tener nota.

## Material de referencia

Diapositivas del curso 📄
    
- [Introducción al curso](https://github.com/dccuchile/CC6205/blob/master/slides/NLP-introduction.pdf)
- [Vector Space Model / Information Retrieval](https://github.com/dccuchile/CC6205/blob/master/slides/NLP-IR.pdf)    
- [Probabilistic Language Models](https://github.com/dccuchile/CC6205/blob/master/slides/NLP-PLM.pdf)

Videos del curso 📺
- Introducción  [Parte 1](https://www.youtube.com/watch?v=HEKTNOttGvU)  [Parte 2](https://www.youtube.com/watch?v=P8cwnI-f-Kg)

- Information Retrieval [Parte 1](https://www.youtube.com/watch?v=FXIVClF370w&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=3) [Parte 2](https://www.youtube.com/watch?v=f8nG1EMmPZk&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=3)
- Probabilistic Language Models [Parte 1](https://www.youtube.com/watch?v=9E2jJ6kcb4Y&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=3) [Parte 2](https://www.youtube.com/watch?v=ZWqbEQXLra0&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=5) [Parte 3](https://www.youtube.com/watch?v=tsumFqwFlaA&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJqBi&index=6) [Parte 4](https://www.youtube.com/watch?v=s3TWdv4sqkg&list=PLppKo85eGXiXIh54H_qz48yHPHeNVJq)

## P1. Tokenización

En el primer ejercicio veremos la dificultad de tokenizar textos no estructurados, destacando la importancia de tener librerías que realicen este trabajo.

In [None]:
# En caso de desarrollar la tarea desde colab, con el siguiente código podemos cargar los archivos desde drive:

try:
    from google.colab import drive

    drive.mount("/content/drive", force_remount=True)
    path = '/content/drive/MyDrive/Colab Notebooks/oh_algoritmo.txt'
except:
    print('Ignorando conexión drive-colab')

Mounted at /content/drive


Ejecute el código a continuación para cargar el ejemplo. Recuerde realizar la modificación al directorio en caso que el archivo no se encuentre en el mismo directorio del Jupyter Notebook


In [None]:
try:
    # Abre el archivo en modo lectura ("r")
    with open(path, "r") as archivo:
        # Lee el contenido del archivo
        texto = archivo.read()
        # Imprime el contenido
        print(texto)
except FileNotFoundError:
    print("El archivo no se encuentra.")
except Exception as e:
    print("Ocurrió un error:", e)

[Letra de "¡Oh, Algoritmo!" ft. Nora Erez]

[Refrán: Jorge Drexler]
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?

[Estribillo: Jorge Drexler]
Dime qué debo cantar
Oh, algoritmo
Sé que lo sabes mejor
Incluso que yo mismo

[Verso 1: Nora Erez]
Wait, what's that money that you spent?
What's that sitting on your plate?
Do you want what you've been fed?
Are you the fish or bait?
Mmm, I'm on the top of the roof and I feel like a jail
Rather not pay the bail
To dangerous people with blood on their faces
So I'm sharing a cell with the masses
The underground always strive for the main
Streaming like Grande's big-ass ring
Screaming: I'll write you out my will
Conscious is free, but not the will
Conscious is free, but not the will
You

Fuente: https://genius.com/Jorge-drexler-oh-algoritmo-lyrics

### Pregunta 1.a (0.25 puntos)

Diseñe una función **`get_tokens()`** que reciba un texto y entregue una lista con sus tokens. Es libre de elegir la forma de tokenizar mientras no utilice librerías con tokenizadores ya implementados. Puede utilizar la librería **re** importada para trabajar símbolos. Explique su razonamiento.


In [None]:
import re

In [None]:
def get_tokens(texto):
    """Entrega lista de tokens de un texto.

    Parameters:
    -----------------------------
    texto : str
        Texto a tokenizar.

    Returns:
    -----------------------------
    tokens : list
        Lista que contiene tokens del texto.

    """
    # Patrón de expresión regular para tokenizar
    per = r'\b\w+\b|[^\w\s]+'

    # encuentra todos los tokens en el texto utilizando el patrón definido
    tokens = re.findall(per, texto)

    return tokens


In [None]:
tokens = get_tokens(texto)
tokens

['[',
 'Letra',
 'de',
 '"¡',
 'Oh',
 ',',
 'Algoritmo',
 '!"',
 'ft',
 '.',
 'Nora',
 'Erez',
 ']',
 '[',
 'Refrán',
 ':',
 'Jorge',
 'Drexler',
 ']',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '[',
 'Estribillo',
 ':',
 'Jorge',
 'Drexler',
 ']',
 'Dime',
 'qué',
 'debo',
 'cantar',
 'Oh',
 ',',
 'algoritmo',
 'Sé',
 'que',
 'lo',
 'sabes',
 'mejor',
 'Incluso',
 'que',
 'yo',
 'mismo',
 '[',
 'Verso',
 '1',
 ':',
 'Nora',
 

### Pregunta 1.b (0.25 puntos)
Explique su implementación aquí:
> La implementación ...


>Primero se definió el patron de expresión regular r'\b\w+\b|[^\w\s]' que se divide en dos partes:


*   \b\w+\b: Refiere a una palabra completa (uno o más caracteres alfanuméricos) entre límites de palabra.

*   [^\w\s]+: Refiere a cualquier cadena de caracteres que no sean un carácter alfanumérico ni un espacio en blanco.

>entonces al unirlos mediante |, es un operador or, busca o palabras completas con caracteres alfanuméricos o simbolos no alfanuméricos como lo son los ¿, ?, :, etc

> Despeus de definir este patron de expresion regular, se le pide a la función findall de re que busque secuencias con estos patrones regulares solicitados en el texto de entrada, retornando una lista con los tokens del texto de entrada






Implementación con la libreria NLTK

In [None]:
from nltk.tokenize import wordpunct_tokenize
nltk_tokens = wordpunct_tokenize(texto)
nltk_tokens

['[',
 'Letra',
 'de',
 '"¡',
 'Oh',
 ',',
 'Algoritmo',
 '!"',
 'ft',
 '.',
 'Nora',
 'Erez',
 ']',
 '[',
 'Refrán',
 ':',
 'Jorge',
 'Drexler',
 ']',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '¿',
 'Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'que',
 'creo',
 'que',
 'quiero',
 '?',
 '[',
 'Estribillo',
 ':',
 'Jorge',
 'Drexler',
 ']',
 'Dime',
 'qué',
 'debo',
 'cantar',
 'Oh',
 ',',
 'algoritmo',
 'Sé',
 'que',
 'lo',
 'sabes',
 'mejor',
 'Incluso',
 'que',
 'yo',
 'mismo',
 '[',
 'Verso',
 '1',
 ':',
 'Nora',
 

In [None]:
nltk_tokens==tokens

True

### Pregunta 1.c (0.5 puntos)
¿Qué diferencias y similitudes encontrase al comparar la función de tokenización creada manualmente por ti contra la implementación de NLTK, al tokenizar la letra de la canción "Oh, algoritmo"?

> A simple vista las funciónes son bastante similares, tan así que comparando ambos vectores de tokens, dice que son iguales

## P2. Stemming y Stopwords

En esta sección debera implementar funciones de stemming y stopwords basado en lo visto en clase. En la siguiente celda tiene el corpus que usara en esta sección:

In [None]:
# Corpus en español
corpus_espanol = [
    "¿Quién quiere que yo quiera lo que creo que quiero?",
    "Dime qué debo cantar",
    "Sé que lo sabes mejor"
]

# Corpus en inglés
corpus_ingles = [
    "What's that sitting on your plate?",
    "Do you want what you've been fed?",
    "Are you the fish or bait?"
]

### Pregunta 2.a (0.5 puntos)
Implemente una función **`get_vocab()`** que extraiga los tokens de un corpus. Puede utilizar la función de la sección anterior.

In [None]:
def get_vocab(corpus):
  """Extrae los tokens únicos de un corpus.

  Parameters:
  -----------------------------
  corpus : list
      Lista de strings que representan el corpus.

  Returns:
  -----------------------------
  vocabulario_unico : list
      Lista que contiene tokens únicos del corpus.

  """
  # Concatena todas las frases en una sola cadena de texto
  texto_concatenado = ' '.join(corpus)

  # Obtiene todos los tokens utilizando la función get_tokens
  tokens = get_tokens(texto_concatenado)

  # Filtra los tokens para incluir solo palabras alfanuméricas
  vocab = [token for token in tokens if token.isalnum()]

  # Crea un conjunto de tokens únicos, eliminando duplicados
  vocab_unico = list(dict.fromkeys(vocab))

  return vocab_unico

In [None]:
vocab_espanol = get_vocab(corpus_espanol)
vocab_espanol

['Quién',
 'quiere',
 'que',
 'yo',
 'quiera',
 'lo',
 'creo',
 'quiero',
 'Dime',
 'qué',
 'debo',
 'cantar',
 'Sé',
 'sabes',
 'mejor']

Resultado esperado (el orden puede variar):
```
['yo', 'debo', 'creo', 'Dime', 'lo', 'cantar', 'mejor', 'Sé', 'que', 'quiere', 'quiero', 'sabes', 'Quién', 'quiera', 'qué']
```

In [None]:
vocab_ingles = get_vocab(corpus_ingles)
vocab_ingles

['What',
 's',
 'that',
 'sitting',
 'on',
 'your',
 'plate',
 'Do',
 'you',
 'want',
 'what',
 've',
 'been',
 'fed',
 'Are',
 'the',
 'fish',
 'or',
 'bait']

Resultado esperado:
```
['fed', 'been', 'or', 'want', 'plate', 'the', 've', 'your', 's', 'you', 'what', 'Are', 'bait', 'What', 'fish', 'that', 'sitting', 'Do', 'on']
```

### Pregunta 2.b (0.5 puntos)
Ahora diseñe reglas que usted estime convenientes tanto de **Stemming** como de **Stopwords**. Implemente una función que reciba una lista con los elementos del vocabulario, le aplique sus reglas y devuelva el vocabulario preprocesado. Explique las reglas de stemming y elección de stopwords:

    Explique sus reglas aquí:

**Corpus en español:**

Stopwords
- Se busca eliminar aquellas palabras que no aportan información al contenido del texto y que se transforman en ruido al momento de procesar el texto. Primero se consideraran aquellas que se repiten demasiado, para este caso, la palabra ``que`` y sus variaciones como ``qué``.
- También se considerarán los artículos y pronombres sin demasiada relevancia en el contexto de la frase, que en este caso corresponde al articulo neutro ``lo`` y el pronombre ``yo``.
- Dado que la palabra ``sé`` aparece solo una vez en el corpus y considerando su función como una forma verbal auxiliar que indica conocimiento o certeza en primera persona, podemos argumentar que no contribuye significativamente al contenido temático del texto en este contexto específico.

Stemming

- **debo -> deb**: Se reduce el verbo "debo" a su forma base "deb".
- **creo -> cre**: Se simplifica el verbo "creo" a su forma base "cre".
- **Dime -> Dim**: Se reduce el verbo "Dime" a su forma base "Dim".
- **cantar -> cant**: Se reduce el verbo "cantar" a su forma base "cant".
- **mejor -> mejor**: No se aplica stemming, ya que "mejor" ya está en su forma base.
- **quiere -> quier**: Se simplifica el verbo "quiere" a su forma base "quier".
- **quiero -> quier**: Se reduce el verbo "quiero" a su forma base "quier".
- **quiera -> quier**: Se reduce el verbo "quiera" a su forma base "quier".
- **sabes -> sabe**: Se reduce el verbo "sabes" a su forma base "sabe".
- **Quién -> Quién**: No se aplica stemming, ya que "Quién" ya está en su forma base.

**Corpus en inglés**

Stopwords

- Se considerarán las abreviaciones ``What's`` y ``you've`` como dos palabras, ``What`` + ``is`` y  ``you`` + ``have``, respectivamente.
- Se considerarán com stopwords las palabras con más repeticiones como ``what`` y ``you``.
- Por último, se considerarán como stopwords aquellas palabras que no aportan demasiada información al tema central del documento: ``is``, ``that``, ``on``, ``your``, ``Do``, ``have``, ``been``, ``Are``, ``the`` y ``or``.

Stemming

- **want -> want**: No se aplica stemming, ya que "want" ya está en su forma base.
- **fed -> fed**: No se aplica stemming, ya que "fed" ya está en su forma base.
- **plate -> plate**: No se aplica stemming, ya que "plate" ya está en su forma base.
- **sitting -> sitt**: Se reduce el verbo "sitting" a su forma base "sitt".
- **fish -> fish**: No se aplica stemming, ya que "fish" ya está en su forma base.
- **bait -> bait**:  No se aplica stemming, ya que "bait" ya está en su forma base.




In [None]:
def pre_processing(vocabulario, idioma):
    """Realiza preprocesamiento en el vocabulario según el idioma especificado.

    Parameters:
    -----------------------------
    vocabulario : list
        Lista de palabras (tokens) a procesar.

    idioma : str
        Idioma del vocabulario ('espanol' o 'ingles').

    Returns:
    -----------------------------
    stemmed_vocab : list
        Lista de palabras preprocesadas (sin stopwords y con stemming aplicado).

    """
    # Lista de stopwords y reglas de stemming para vocabulario en español
    esp_stopwords = ["que", "qué", "lo", "yo", "Sé"]

    esp_stemming_rules = {
        "debo": "deb",
        "creo": "cre",
        "Dime": "Dim",
        "cantar": "cant",
        "mejor": "mejor",
        "quiere": "quier",
        "quiero": "quier",
        "quiera": "quier",
        "sabes": "sabe",
        "Quién": "Quién"
    }

    # Lista de stopwords y reglas de stemming para vocabulario en inglés
    ing_stopwords = ["What", "what", "you", "s", "that", "on", "your", "Do", "ve", "been", "Are", "the", "or"]

    ing_stemming_rules = {
        "sitting": "sitt",
        "want": "want",
        "fed": "fed",
        "plate": "plate",
        "fish": "fish",
        "bait": "bait"
    }

    # Procesamiento según el idioma
    if idioma == "espanol":
      # Elimina stopwords
      clean_vocab = [palabra for palabra in vocabulario if palabra not in esp_stopwords]

      # Aplica reglas de stemming
      stemmed_vocab = [esp_stemming_rules[palabra] if palabra in esp_stemming_rules else palabra for palabra in clean_vocab]

      return stemmed_vocab

    elif idioma == "ingles":
      # Elimina stopwords
      clean_vocab = [palabra for palabra in vocabulario if palabra not in ing_stopwords]

      # Aplicar reglas de stemming
      stemmed_vocab = [ing_stemming_rules[palabra] if palabra in ing_stemming_rules else palabra for palabra in clean_vocab]

      return stemmed_vocab

In [None]:
# Aplicar preprocesamiento a los vocabularios de ejemplo con NLTK
vocab_procesado_espanol = pre_processing(vocab_espanol, 'espanol')
vocab_procesado_ingles = pre_processing(vocab_ingles, 'ingles')

# Mostrar resultados
print("Vocabulario procesado en español:", vocab_procesado_espanol, "\n")
print("Vocabulario procesado en inglés:", vocab_procesado_ingles, "\n")

Vocabulario procesado en español: ['Quién', 'quier', 'quier', 'cre', 'quier', 'Dim', 'deb', 'cant', 'sabe', 'mejor'] 

Vocabulario procesado en inglés: ['sitt', 'plate', 'want', 'fed', 'fish', 'bait'] 



## P3. Bag of Words (0.5 puntos)
Considere el siguiente corpus, donde cada elemento del arreglo representa un documento:


In [None]:
d0 = 'El pájaro come semillas'
d1 = 'El pájaro se despierta y canta'
d2 = 'El pájaro canta y come semillas'
d3 = 'El pez come y nada en el agua'
d4 = 'El pez empieza a nadar'
d5 = 'El pez come alimento'
corpus = [d0, d1, d2, d3, d4, d5]

El objetivo da las siguientes secciones es determinar cuáles de  los documentos entregados son los más similares entre sí. Para ello utilizaremos la técnica **TF-IDF**.

Como los algoritmos de Machine Learning no comprenden el texto en lenguaje natural, estos documentos deben ser convertidos a vectores numéricos. La representación más simple vista en clases es la de **Bag of Words**, método mediante el cual se cuentan las apariciones de cada palabra en cada uno de los documentos entregados.

Implemente la función **`bag_of_words()`**, que recibe como input un arreglo de documentos y devuelve un dataframe de pandas con la representación Bag of Words de los documentos entregados. En esta representación las columnas son el vocabulario y las filas representan las apariciones de cada una de las palabras en los documentos. En otras palabras, cada fila representa el BoW de un documento.

***Disclaimer: el orden de los resultados pueden variar.***


Por ejemplo para el siguiente corpus:

```
corpus = ['El perro ladra', 'El perro come']
```

Debiese entregarnos lo siguiente:


|   | el | perro | ladra | come |
|---|----|-------|------|-------|
| 0 | 1  | 1     | 1    | 0     |
| 1 | 1  | 1     | 0    | 1     |




In [None]:
import pandas as pd

Implementar función `bag_of_words()`

In [None]:
def bag_of_words(corpus):
    """Crea representación Bag of Words de un corpus.

    Parameters:
    -----------------------------
    corpus : list
        Lista de strings que representan el corpus.

    Returns:
    -----------------------------
    df_bow : pd.DataFrame
        DataFrame con la representación Bag of Words del corpus.

    """
    # Obtiene el vocabulario del corpus
    vocab = get_vocab(corpus)

    # Crea representación Bag of Words(BoW)
    bow_matrix = []
    for document in corpus:
        # Lista de tokens del documento
        doc_tokens = get_tokens(document)
        # Frencuencia de tokens de vocabulario en el documento
        frec = {token: doc_tokens.count(token) for token in vocab}
        bow_matrix.append(frec)

    # Crea dataframe con la representación BoW
    df_bow = pd.DataFrame(bow_matrix, index=[f'd{i}' for i in range(len(corpus))])

    return df_bow

In [None]:
dataset_bow = bag_of_words(corpus)
dataset_bow

Unnamed: 0,El,pájaro,come,semillas,se,despierta,y,canta,pez,nada,en,el,agua,empieza,a,nadar,alimento
d0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0
d1,1,1,0,0,1,1,1,1,0,0,0,0,0,0,0,0,0
d2,1,1,1,1,0,0,1,1,0,0,0,0,0,0,0,0,0
d3,1,0,1,0,0,0,1,0,1,1,1,1,1,0,0,0,0
d4,1,0,0,0,0,0,0,0,1,0,0,0,0,1,1,1,0
d5,1,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,1


Solución esperada:

|    |   El |   pájaro |   despierta |   el |   come |   a |   nadar |   se |   en |   y |   alimento |   semillas |   pez |   empieza |   canta |   agua |   nada |
|:---|-----:|---------:|------------:|-----:|-------:|----:|--------:|-----:|-----:|----:|-----------:|-----------:|------:|----------:|--------:|-------:|-------:|
| d0 |    1 |        1 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   0 |          0 |          1 |     0 |         0 |       0 |      0 |      0 |
| d1 |    1 |        1 |           1 |    0 |      0 |   0 |       0 |    1 |    0 |   1 |          0 |          0 |     0 |         0 |       1 |      0 |      0 |
| d2 |    1 |        1 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   1 |          0 |          1 |     0 |         0 |       1 |      0 |      0 |
| d3 |    1 |        0 |           0 |    1 |      1 |   0 |       0 |    0 |    1 |   1 |          0 |          0 |     1 |         0 |       0 |      1 |      1 |
| d4 |    1 |        0 |           0 |    0 |      0 |   1 |       1 |    0 |    0 |   0 |          0 |          0 |     1 |         1 |       0 |      0 |      0 |
| d5 |    1 |        0 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   0 |          1 |          0 |     1 |         0 |       0 |      0 |      0 |

## P4. TF-IDF

### 4.a TF (0.25 puntos)

Ahora debemos usar el dataframe del ejercicio anterior para calcular la matriz de TF normalizada por la máxima frecuencia $\max_i({\text{tf}_{i,j}})$, donde
$i$ corresponde al índice de las filas (BoW) y $j$ al de las columnas (palabras). Es decir, dividir cada BoW sobre la cantidad de veces de la palabra que aparezca más veces en ese vector.


$$\text{nft}_{i,j} = \frac{\text{tf}_{i,j}}{\max_i({\text{tf}_{i,j})}}$$

Implemente la función `calc_tf(dataset_bow)`, que entrega la matriz de TF normalizada del BoW del dataset.

In [None]:
def calc_tf(dataset_bow):
    """Retorna matriz de Term Frequency(TF) normalizada del BoW.

    Parameters:
    -----------------------------
    dataset_bow : pd.DataFrame
        DataFrame con la representación Bag of Words del corpus.

    Returns:
    -----------------------------
    n_tf : pd.DataFrame
        DataFrame con la frecuencia normalizada por término del Bow.

    """
    # Se obtiene la frecuencia tf_{i,j} normalizando por fila
    tf = dataset_bow.div(dataset_bow.sum(axis=1), axis=0)
    # Normaliza por el término con máxima frecuencia en el documento
    n_tf = tf.div(tf.max(axis=1), axis=0)

    return n_tf

In [None]:
tf = calc_tf(dataset_bow)
tf

Unnamed: 0,El,pájaro,come,semillas,se,despierta,y,canta,pez,nada,en,el,agua,empieza,a,nadar,alimento
d0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
d1,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
d2,1.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
d3,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0
d4,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0
d5,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


Solución esperada:

|    |   El |   pájaro |   despierta |   el |   come |   a |   nadar |   se |   en |   y |   alimento |   semillas |   pez |   empieza |   canta |   agua |   nada |
|:---|-----:|---------:|------------:|-----:|-------:|----:|--------:|-----:|-----:|----:|-----------:|-----------:|------:|----------:|--------:|-------:|-------:|
| d0 |    1 |        1 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   0 |          0 |          1 |     0 |         0 |       0 |      0 |      0 |
| d1 |    1 |        1 |           1 |    0 |      0 |   0 |       0 |    1 |    0 |   1 |          0 |          0 |     0 |         0 |       1 |      0 |      0 |
| d2 |    1 |        1 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   1 |          0 |          1 |     0 |         0 |       1 |      0 |      0 |
| d3 |    1 |        0 |           0 |    1 |      1 |   0 |       0 |    0 |    1 |   1 |          0 |          0 |     1 |         0 |       0 |      1 |      1 |
| d4 |    1 |        0 |           0 |    0 |      0 |   1 |       1 |    0 |    0 |   0 |          0 |          0 |     1 |         1 |       0 |      0 |      0 |
| d5 |    1 |        0 |           0 |    0 |      1 |   0 |       0 |    0 |    0 |   0 |          1 |          0 |     1 |         0 |       0 |      0 |      0 |

### 4.b IDF (0.5 puntos)

Implementar `calc_idf(dataset_bow)`. Ésta debe retornar un diccionario en donde las llaves sean las palabras y los valores sean el cálculo de cada idf por palabra.

Recordar que $\text{idf}_{t_i} = \log_{10}\frac{N}{n_i}$ con $N = $ número de documentos y $n_i = $ número de documentos que contienen la palabra $t_i$

In [None]:
import numpy as np

In [None]:
def calc_idf(dataset_bow):
    """Retorna diccionario que contiene los valores de idf para cada token presente en el vocabulario de dataset_bow.

    Parameters:
    -----------------------------
    dataset_bow : pd.DataFrame
        DataFrame con la representación Bag of Words del corpus.

    Returns:
    -----------------------------
    dict_idf : dict
        Diccionario con los valores de idf para cada token del vocabulario de dataset_bow.

    """
    # Cálculo del número de documentos que contienen cada palabra
    array_bow = dataset_bow.to_numpy() # Transforma el DataFrame del BoW en array
    ni = np.sum(np.where(array_bow > 0.0, 1.0, 0.0), axis=0) # Se suma cada documento donde la palabra aparece al menos una vez

    # Cálculo del Inverted Document Frequency(idf)
    N = array_bow.shape[0] # Número de documentos
    idf = np.log10(N/ ni)

    # Retornamos idf por vocabulario en un diccionario
    dic_idf = {dataset_bow.columns[idx]: val for idx, val in enumerate(idf)}

    return dic_idf

In [None]:
idf = calc_idf(dataset_bow)
idf

{'El': 0.0,
 'pájaro': 0.3010299956639812,
 'come': 0.17609125905568124,
 'semillas': 0.47712125471966244,
 'se': 0.7781512503836436,
 'despierta': 0.7781512503836436,
 'y': 0.3010299956639812,
 'canta': 0.47712125471966244,
 'pez': 0.3010299956639812,
 'nada': 0.7781512503836436,
 'en': 0.7781512503836436,
 'el': 0.7781512503836436,
 'agua': 0.7781512503836436,
 'empieza': 0.7781512503836436,
 'a': 0.7781512503836436,
 'nadar': 0.7781512503836436,
 'alimento': 0.7781512503836436}

Solución esperada:
```
{'El': 0.0,
 'pájaro': 0.3010299956639812,
 'despierta': 0.7781512503836436,
 'el': 0.7781512503836436,
 'come': 0.17609125905568124,
 'a': 0.7781512503836436,
 'nadar': 0.7781512503836436,
 'se': 0.7781512503836436,
 'en': 0.7781512503836436,
 'y': 0.3010299956639812,
 'alimento': 0.7781512503836436,
 'semillas': 0.47712125471966244,
 'pez': 0.3010299956639812,
 'empieza': 0.7781512503836436,
 'canta': 0.47712125471966244,
 'agua': 0.7781512503836436,
 'nada': 0.7781512503836436}
 ```

### 4.c TF-IDF (0.25 puntos)
Programe la función `calc_tf_idf(tf, idf)` que entrega el dataframe TF-IDF asociado al dataset que estamos analizando.

In [None]:
def calc_tf_idf(tf, idf):
    """Retorna matriz de scores tf-idf del corpus.

    Parameters:
    -----------------------------
    tf : pd.DataFrame
        DataFrame con matriz de Term Frequency(TF)
    idf : dict
        Diccionario con scores idf de cada token del vocabulario.

    Returns:
    -----------------------------
    tf_idf : pd.DataFrame
        DataFrame con matriz de scores tf-idf del corpus.

    """
    tf_idf = tf.mul(idf) # Columnas de tf coinciden con las llaves de idf

    return tf_idf

In [None]:
tf_idf = calc_tf_idf(tf, idf)
tf_idf

Unnamed: 0,El,pájaro,come,semillas,se,despierta,y,canta,pez,nada,en,el,agua,empieza,a,nadar,alimento
d0,0.0,0.30103,0.176091,0.477121,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
d1,0.0,0.30103,0.0,0.0,0.778151,0.778151,0.30103,0.477121,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
d2,0.0,0.30103,0.176091,0.477121,0.0,0.0,0.30103,0.477121,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
d3,0.0,0.0,0.176091,0.0,0.0,0.0,0.30103,0.0,0.30103,0.778151,0.778151,0.778151,0.778151,0.0,0.0,0.0,0.0
d4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.30103,0.0,0.0,0.0,0.0,0.778151,0.778151,0.778151,0.0
d5,0.0,0.0,0.176091,0.0,0.0,0.0,0.0,0.0,0.30103,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.778151


Solución esperada:

|    |   El |   pájaro |   despierta |       el |     come |        a |    nadar |       se |       en |       y |   alimento |   semillas |     pez |   empieza |    canta |     agua |     nada |
|:---|-----:|---------:|------------:|---------:|---------:|---------:|---------:|---------:|---------:|--------:|-----------:|-----------:|--------:|----------:|---------:|---------:|---------:|
| d0 |    0 |  0.30103 |    0        | 0        | 0.176091 | 0        | 0        | 0        | 0        | 0       |   0        |   0.477121 | 0       |  0        | 0        | 0        | 0        |
| d1 |    0 |  0.30103 |    0.778151 | 0        | 0        | 0        | 0        | 0.778151 | 0        | 0.30103 |   0        |   0        | 0       |  0        | 0.477121 | 0        | 0        |
| d2 |    0 |  0.30103 |    0        | 0        | 0.176091 | 0        | 0        | 0        | 0        | 0.30103 |   0        |   0.477121 | 0       |  0        | 0.477121 | 0        | 0        |
| d3 |    0 |  0       |    0        | 0.778151 | 0.176091 | 0        | 0        | 0        | 0.778151 | 0.30103 |   0        |   0        | 0.30103 |  0        | 0        | 0.778151 | 0.778151 |
| d4 |    0 |  0       |    0        | 0        | 0        | 0.778151 | 0.778151 | 0        | 0        | 0       |   0        |   0        | 0.30103 |  0.778151 | 0        | 0        | 0        |
| d5 |    0 |  0       |    0        | 0        | 0.176091 | 0        | 0        | 0        | 0        | 0       |   0.778151 |   0        | 0.30103 |  0        | 0        | 0        | 0        |

## P5. Cosine-similarity (0.25 puntos)
Ahora que tenemos el dataframe de TF-IDF, nos queda calcular la similitud coseno entre todos los vectores. Notar que la matriz resultante será una matriz simétrica.

Implemente la función *cosine_similarity(v1, v2)* que recibe dos vectores (v1 y v2) y calcula la similitud coseno entre ambos. Concluya cuáles son los dos documentos más similares.

In [None]:
def cosine_similarity(v1, v2):
    """Calcula la similitud coseno entre dos vectores v1 y v2.

    Parameters:
    -----------------------------
    v1 : np.ndarray
         Primer vector.

    v2 : np.ndarray
        Segundo vector.

    Returns:
    -----------------------------
    cos_sim : float
        Valor de la similitud coseno entre v1 y v2.

    """
    # Calcula el producto punto entre v1 y v2
    dot_product = np.dot(v1, v2)

    # Calcula las normas de v1 y v2
    norm_v1 = np.linalg.norm(v1)
    norm_v2 = np.linalg.norm(v2)

    # Calcula la similitud coseno
    cos_sim = dot_product / (norm_v1 * norm_v2)

    return cos_sim

In [None]:
similarity_matrix = np.zeros((6,6))
for i, v1 in enumerate(tf_idf.index.values):
  for j, v2 in enumerate(tf_idf.index.values):
      similarity = cosine_similarity(tf_idf.loc[v1].values, tf_idf.loc[v2].values)
      similarity_matrix[i][j] = similarity

for i in range(6):
  mask = [k != i for k in range(6)]
  j = np.argmax(similarity_matrix[i][mask])

  print(corpus[i])
  print("> Mas similar:", np.array(corpus)[mask][j])
  print("> Similitud:", similarity_matrix[i][mask][j], "\n")

El pájaro come semillas
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.7233435041520414 

El pájaro se despierta y canta
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.3932010182312894 

El pájaro canta y come semillas
> Mas similar: El pájaro come semillas
> Similitud: 0.7233435041520414 

El pez come y nada en el agua
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.09171890791406168 

El pez empieza a nadar
> Mas similar: El pez come alimento
> Similitud: 0.07695078406752713 

El pez come alimento
> Mas similar: El pez come y nada en el agua
> Similitud: 0.08787900372173231 



Solución esperada:
```
El pájaro come semillas
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.7233435041520414

El pájaro se despierta y canta
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.39320101823128945

El pájaro canta y come semillas
> Mas similar: El pájaro come semillas
> Similitud: 0.7233435041520414

El pez come y nada en el agua
> Mas similar: El pájaro canta y come semillas
> Similitud: 0.09171890791406168

El pez empieza a nadar
> Mas similar: El pez come alimento
> Similitud: 0.07695078406752713

El pez come alimento
> Mas similar: El pez come y nada en el agua
> Similitud: 0.0878790037217323
```

**Conclusión:**
A partir de los resultados, se puede observar que los documentos más similares son ``d0`` y ``d2``, lo cual es coherente dado que solo difieren en dos palabras: 'canta' e 'y', obteniendo un valor de similitud de 0.7233. En contraste, la segunda pareja de documentos más similar fueron ``d1`` y ``d2``, que muestran una similitud de 0.3932, debido a una mayor cantidad de palabras diferentes.

## P6 N-gramas (0.75 punto)

En esta sección debera determinar los n-gramas del la cancion "Oh algoritmo".

### 6.a Corpus de entrenamiento y test (0.25 puntos)

En esta subsección debera definir el conjunto de entrenamiento y test de un corpus. Eliga una particion del 80% y 20% del texto.

In [None]:
try:
    # Abre el archivo en modo lectura ("r")
    with open('/content/drive/MyDrive/Colab Notebooks/oh_algoritmo.txt', "r") as archivo:
        # Lee el contenido del archivo
        texto = archivo.read()
        # Imprime el contenido
        print(texto)
except FileNotFoundError:
    print("El archivo no se encuentra.")
except Exception as e:
    print("Ocurrió un error:", e)

[Letra de "¡Oh, Algoritmo!" ft. Nora Erez]

[Refrán: Jorge Drexler]
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?
¿Quién quiere que yo quiera lo que creo que quiero?

[Estribillo: Jorge Drexler]
Dime qué debo cantar
Oh, algoritmo
Sé que lo sabes mejor
Incluso que yo mismo

[Verso 1: Nora Erez]
Wait, what's that money that you spent?
What's that sitting on your plate?
Do you want what you've been fed?
Are you the fish or bait?
Mmm, I'm on the top of the roof and I feel like a jail
Rather not pay the bail
To dangerous people with blood on their faces
So I'm sharing a cell with the masses
The underground always strive for the main
Streaming like Grande's big-ass ring
Screaming: I'll write you out my will
Conscious is free, but not the will
Conscious is free, but not the will
You

Defina una funcion `get_sentences()` que entregue todas las oraciones del corpus que contengan al menos una palabra.

In [None]:
def get_sentences(texto):
    """Divide un texto en oraciones utilizando saltos de línea como delimitador.

    Parameters:
    -----------------------------
    texto : str
        Texto completo que contiene las oraciones separadas por saltos de línea.

    Returns:
    -----------------------------
    palabras_limpias : list
        Lista de strings donde cada elemento es una oración del texto.

    """
    # Divide el texto en oraciones usando saltos de línea como delimitador
    palabras_limpias = re.split(r'\n+', texto)

    return palabras_limpias


In [None]:
oraciones_limpias = get_sentences(texto)
oraciones_limpias

['[Letra de "¡Oh, Algoritmo!" ft. Nora Erez]',
 '[Refrán: Jorge Drexler]',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '¿Quién quiere que yo quiera lo que creo que quiero?',
 '[Estribillo: Jorge Drexler]',
 'Dime qué debo cantar',
 'Oh, algoritmo',
 'Sé que lo sabes mejor',
 'Incluso que yo mismo',
 '[Verso 1: Nora Erez]',
 "Wait, what's that money that you spent?",
 "What's that sitting on your plate?",
 "Do you want what you've been fed?",
 'Are you the fish or bait?',
 "Mmm, I'm on the top of the roof and I feel like a jail",
 'Rather not pay the bail',
 'To dangerous people with blood on their faces',
 "So I'm sharing a cell with the masses",
 'The underground always strive for the main',
 "Streaming like Grande's big-ass ring",
 "Screaming: I'll wr

Debería obtener en total 87 oraciones.

In [None]:
len(oraciones_limpias) == 87

True

Ahora definiremos el conjunto de entrenamiento y prueba para las oraciones:

In [None]:
split = int(len(oraciones_limpias) * 0.8)
train_corpus = oraciones_limpias[:split]
test_corpus = oraciones_limpias[split:]

len(train_corpus), len(test_corpus)

(69, 18)

### 6.b Estimación de N-gramas (0.5 puntos)

Defina una función que reciba una lista de oraciones de un corpus y un N que indique el tamaño de los N-gramas. La función debe retornar un diccionario de Python donde la llave es un token (o palabra) y el valor es la cantidad de veces que ocurre el token, es decir, la frecuencia. En el caso de N-gramas con N mayor a 1 (como bi-gramas o tri-gramas) debe añadir un token especial al inicio o final de cada oración según corresponda (ver clases del curso).

In [None]:
from nltk.tokenize import word_tokenize

In [None]:
def n_grams(corpus, n=3):
    """Genera n-gramas a partir de un corpus de texto.

    Parameters:
    -----------------------------
    corpus : list
         Lista de strings que representan el corpus.

    n : int, optional
        Longitud de los n-gramas a generar (Default: 3).

    Returns:
    -----------------------------
    frec : dict
        Diccionario que contiene la frecuencia de cada n-grama en el corpus.

    """
    if n > 1:
      n_corpus = []
      tokens = []
      for oracion in corpus:

        n_corpus.append((n-1)*'* ' + re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑ\d\s]', '', oracion).lower() + ' STOP')#Se decidio que para los n-gramas ibamos a eliminar caracteres especiales como [],¿?, entre otros
      for oracion in n_corpus:
        mono_tokens = re.findall(r'\b\w+\b|[^\w\s]+', oracion)
        for i in range(len(mono_tokens[:-(n-1)])):
          tokens.append(" ".join(mono_tokens[i:i+n]))

    else:
      tokens = []
      for oracion in corpus:
        tokens_o = re.findall(r'\b\w+\b|[^\w\s]+', re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑ\d\s]', '', oracion).lower())
        tokens.extend(tokens_o)

    vocab = [token for token in tokens]
    vocab_unico = list(dict.fromkeys(vocab))

    # Lista de tokens del documento
    # Frencuencia de tokens de vocabulario en el documento
    frec = {token: tokens.count(token) for token in vocab_unico}

    return frec


In [None]:
n_grams(train_corpus, n=1)

{'letra': 2,
 'de': 3,
 'oh': 3,
 'algoritmo': 4,
 'ft': 1,
 'nora': 3,
 'erez': 3,
 'refrán': 2,
 'jorge': 10,
 'drexler': 10,
 'quién': 12,
 'quiere': 11,
 'que': 38,
 'yo': 14,
 'quiera': 11,
 'lo': 13,
 'creo': 11,
 'quiero': 11,
 'estribillo': 2,
 'dime': 3,
 'qué': 4,
 'debo': 3,
 'cantar': 3,
 'sé': 2,
 'sabes': 2,
 'mejor': 2,
 'incluso': 2,
 'mismo': 2,
 'verso': 4,
 '1': 1,
 'wait': 1,
 'whats': 2,
 'that': 4,
 'money': 1,
 'you': 6,
 'spent': 1,
 'sitting': 1,
 'on': 3,
 'your': 1,
 'plate': 1,
 'do': 1,
 'want': 4,
 'what': 2,
 'youve': 1,
 'been': 1,
 'fed': 1,
 'are': 1,
 'the': 9,
 'fish': 1,
 'or': 1,
 'bait': 1,
 'mmm': 1,
 'im': 2,
 'top': 1,
 'of': 1,
 'roof': 1,
 'and': 1,
 'i': 4,
 'feel': 1,
 'like': 3,
 'a': 3,
 'jail': 1,
 'rather': 1,
 'not': 3,
 'pay': 1,
 'bail': 1,
 'to': 3,
 'dangerous': 1,
 'people': 1,
 'with': 2,
 'blood': 1,
 'their': 1,
 'faces': 1,
 'so': 2,
 'sharing': 1,
 'cell': 1,
 'masses': 1,
 'underground': 1,
 'always': 1,
 'strive': 1,
 'for'

In [None]:
n_grams(train_corpus, n=2)

{'* letra': 1,
 'letra de': 1,
 'de oh': 1,
 'oh algoritmo': 3,
 'algoritmo ft': 1,
 'ft nora': 1,
 'nora erez': 3,
 'erez STOP': 3,
 '* refrán': 2,
 'refrán jorge': 2,
 'jorge drexler': 10,
 'drexler STOP': 10,
 '* quién': 11,
 'quién quiere': 11,
 'quiere que': 11,
 'que yo': 13,
 'yo quiera': 11,
 'quiera lo': 11,
 'lo que': 11,
 'que creo': 11,
 'creo que': 11,
 'que quiero': 11,
 'quiero STOP': 11,
 '* estribillo': 2,
 'estribillo jorge': 2,
 '* dime': 3,
 'dime qué': 3,
 'qué debo': 3,
 'debo cantar': 3,
 'cantar STOP': 3,
 '* oh': 2,
 'algoritmo STOP': 2,
 '* sé': 2,
 'sé que': 2,
 'que lo': 2,
 'lo sabes': 2,
 'sabes mejor': 2,
 'mejor STOP': 2,
 '* incluso': 2,
 'incluso que': 2,
 'yo mismo': 2,
 'mismo STOP': 2,
 '* verso': 4,
 'verso 1': 1,
 '1 nora': 1,
 '* wait': 1,
 'wait whats': 1,
 'whats that': 2,
 'that money': 1,
 'money that': 1,
 'that you': 1,
 'you spent': 1,
 'spent STOP': 1,
 '* whats': 1,
 'that sitting': 1,
 'sitting on': 1,
 'on your': 1,
 'your plate': 1,
 

In [None]:
n_grams(train_corpus, n=3)

{'* * letra': 1,
 '* letra de': 1,
 'letra de oh': 1,
 'de oh algoritmo': 1,
 'oh algoritmo ft': 1,
 'algoritmo ft nora': 1,
 'ft nora erez': 1,
 'nora erez STOP': 3,
 '* * refrán': 2,
 '* refrán jorge': 2,
 'refrán jorge drexler': 2,
 'jorge drexler STOP': 10,
 '* * quién': 11,
 '* quién quiere': 11,
 'quién quiere que': 11,
 'quiere que yo': 11,
 'que yo quiera': 11,
 'yo quiera lo': 11,
 'quiera lo que': 11,
 'lo que creo': 11,
 'que creo que': 11,
 'creo que quiero': 11,
 'que quiero STOP': 11,
 '* * estribillo': 2,
 '* estribillo jorge': 2,
 'estribillo jorge drexler': 2,
 '* * dime': 3,
 '* dime qué': 3,
 'dime qué debo': 3,
 'qué debo cantar': 3,
 'debo cantar STOP': 3,
 '* * oh': 2,
 '* oh algoritmo': 2,
 'oh algoritmo STOP': 2,
 '* * sé': 2,
 '* sé que': 2,
 'sé que lo': 2,
 'que lo sabes': 2,
 'lo sabes mejor': 2,
 'sabes mejor STOP': 2,
 '* * incluso': 2,
 '* incluso que': 2,
 'incluso que yo': 2,
 'que yo mismo': 2,
 'yo mismo STOP': 2,
 '* * verso': 4,
 '* verso 1': 1,
 'v

Debe mostrar que su método funciona para $N = 1,2,3$.

In [None]:
len(n_grams(train_corpus, 1))

169

## P7. Perplexity (1 punto)

En esta sección evaluarán su modelo de n-gramas y determinarán la probabilidad de oraciones y la perplejidad con un conjunto de test. Recuerde que la perplejidad se define de la siguiente manera:

$$
\text{Perplexity} = 2^{-l} \quad \quad l = \frac{1}{M} \sum_{i=1}^{m} \log p(s_i)
$$

con $m$ el número de oraciones del corpus y $M$ el tamaño del vocabulario.

### 7.a Obtener probabilidades (0.5 puntos)

En esta sección implementará una función que determine la probabilidad de una oración.

Defina una función que reciba una oración, un diccionario con n-gramas y el valor de $n$. La función debe entregar la probabilidad de cualquier oración.

**Hint**: No olvide los posibles casos borde, como palabras fuera del vocabulario.

In [None]:
def prob_bi(bigram, monograms_frequency, bigrams_frequency, discount = 0.5):
    """Calcula la probabilidad de un bigrama.

    Parameters:
    -----------------------------
    bigram : str
        Bigrama en formato 'wim1 wi', donde 'wim1' es la palabra anterior y 'wi' es la palabra actual.

    monograms_frequency : dict
        Diccionario que contiene la frecuencia de cada palabra (unigrama) en el corpus.

    bigrams_frequency : dict
        Diccionario que contiene la frecuencia de cada bigrama en el corpus.

    discount : float, optional
        Valor de descuento utilizado en el modelo de interpolación (Default: 0.5).

    Returns:
    -----------------------------
    float
        Probabilidad del bigrama.

    """
    wim1, wi = bigram.split()
    if bigram in bigrams_frequency:
        return (bigrams_frequency[bigram]-discount)/monograms_frequency[wim1]
    else:
      bigrams_with_wim1 = []
      total_frequency = 0
      for bigrama in bigrams_frequency.keys():
        palabras = bigrama.split()
        if palabras[0] == wim1:
          bigrams_with_wim1.append(bigrama)
          total_frequency += bigrams_frequency[bigrama]
      alpha = discount*len(bigrams_with_wim1)/total_frequency
      frec = monograms_frequency[wi]/sum(monograms_frequency.values())
      return alpha*frec


In [None]:
def prob_tri(trigram, monograms_frequency, bigrams_frequency, trigrams_frequency, discount = 0.5):
    """Calcula la probabilidad de un trigrama.

    Parameters:
    -----------------------------
    trigram : str
        Trigrama en formato 'wim2 wim1 wi', donde 'wim2' es la palabra anterior a 'wim1' y 'wim1' es la palabra anterior a 'wi'.

    monograms_frequency : dict
        Diccionario que contiene la frecuencia de cada palabra (unigrama) en el corpus.

    bigrams_frequency : dict
        Diccionario que contiene la frecuencia de cada bigrama en el corpus.

    trigrams_frequency : dict
        Diccionario que contiene la frecuencia de cada trigrama en el corpus.

    discount : float, optional
        Valor de descuento utilizado en el modelo de interpolación (Default: 0.5).

    Returns:
    -----------------------------
    float
        Probabilidad del trigrama.

    """
    wim2, wim1, wi = trigram.split()
    if trigram in trigrams_frequency:
      return (trigrams_frequency[trigram]-discount)/bigrams_frequency[f'{wim2} {wim1}']
    else:
      trigrams_with_wim21 = []
      total_frequency = 0
      weB = monograms_frequency.keys()
      for trigrama in trigrams_frequency.keys():
        palabras = trigrama.split()
        if palabras[2] in weB:
          weB.remove(palabras[2])
        if palabras[0] == wim2 and palabras[1] == wim1:
          trigrams_with_wim21.append(trigrama)
          total_frequency += trigrams_frequency[trigrama]
      alpha = discount*len(trigrams_with_wim21)/total_frequency
      frec = prob_bi(f'{wim1} {wi}', monograms_frequency, bigrams_frequency, discount)/sum([prob_bi(f'{wim1} {i}', monograms_frequency, bigrams_frequency, discount) for i in weB])
      return alpha*frec

In [None]:
def get_probability(sentence, n_grams_frequency, n):
    """Calcula la probabilidad de una oración utilizando un modelo de n-gramas.

    Parameters:
    -----------------------------
    sentence : str
        Oración de la cual se calculará la probabilidad.

    n_grams_frequency : dict
        Diccionario que contiene las frecuencias de los n-gramas en el corpus.

    n : int
        Orden del modelo de n-gramas (1 para unigrama, 2 para bigrama, 3 para trigrama, etc.).

    Returns:
    -----------------------------
    prob : float
        Probabilidad de la oración según el modelo de n-gramas.

    """
    prob = 1
    def no_strings_iguales(lista1, lista2):
        """
        Verifica si no hay strings iguales en dos listas.

        """
        for string1 in lista1:
          for string2 in lista2:
              if string1 == string2:
                  return False
        return True

    def get_n_grams(sentence, n):
        """Genera los n-gramas de una oración.

        Parameters:
        -----------------------------
        sentence : str
            Oración de la cual se generarán los n-gramas.

        n : int
            Orden del modelo de n-gramas.

        Returns:
        -----------------------------
        list
            Lista de n-gramas generada a partir de la oración.

        """
        if n > 1:
          n_grams = []
          sentence = ((n-1)*'* ' + re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑ\d\s]', '', sentence).lower() + ' STOP')
          mono_tokens = re.findall(r'\b\w+\b|[^\w\s]+', sentence)
          for i in range(len(mono_tokens[:-(n-1)])):
            n_grams.append(" ".join(mono_tokens[i:i+n]))
          return n_grams
        else:
          return re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑ\d\s]', '', sentence).lower().split()

    def contar_ast(bigram_frec):
        """Cuenta la cantidad de bigramas que comienzan con '*' en el diccionario de frecuencias.

        Parameters:
        -----------------------------
        bigram_frec : dict
            Diccionario de frecuencias de bigramas.

        Returns:
        -----------------------------
        contador : int
            Número de bigramas que comienzan con '*'.

        """
        contador = 0
        for llave in bigram_frec.keys():
            if llave.startswith('*'):
                contador += 1
        return contador

    #------------caso n = 1-----------------
    if n == 1:
      monograms = get_n_grams(sentence, 1)

      if no_strings_iguales(monograms, list(n_grams_frequency[f'{n}'].keys())):
        return 0
      for monogram in monograms:
        if monogram in n_grams_frequency[f'{n}']:
          prob *= n_grams_frequency[f'{n}'][monogram]/sum(n_grams_frequency[f'{n}'].values())
      return prob
    #------------caso n > 1-----------------
    else:
      ngrams = get_n_grams(sentence, n)
      if no_strings_iguales(ngrams, list(n_grams_frequency[f'{n}'].keys())):
        return 0
      for ngram in ngrams:
       if ngram in n_grams_frequency[f'{n}']:
          nm1gramraw = ngram.split()[:-1]
          if n == 2:
            nm1gram = nm1gramraw[0]
          elif n == 3:
            nm1gram = " ".join(nm1gramraw)
          if nm1gram == '* *' or nm1gram == '*':
            prob *= n_grams_frequency[f'{n}'][ngram]/contar_ast(n_grams_frequency['2'])
          else:
            prob *= n_grams_frequency[f'{n}'][ngram]/n_grams_frequency[f'{n-1}'][nm1gram]
      return prob

Pruebe su función con oraciones frecuentes y comente sus resultados



In [None]:
n_grams_frec = {
    '1': n_grams(train_corpus, 1),
    '2': n_grams(train_corpus, 2),
    '3': n_grams(train_corpus, 3)
}

In [None]:
get_probability('un', n_grams_frec, 3)

0.022727272727272728

In [None]:
get_probability('un', n_grams_frec, 2)

0.022727272727272728

In [None]:
get_probability('un', n_grams_frec, 1)

0.00510204081632653

In [None]:
get_probability('quién quiere', n_grams_frec, 1)

0.0008590170762182423

In [None]:
get_probability('quién quiere', n_grams_frec, 2)

0.22916666666666666

In [None]:
get_probability('quién quiere', n_grams_frec, 3)

0.25

In [None]:
get_probability('quién quiere el mango de la sarten Drexler Triceratops', n_grams_frec, 1)

2.784150557651083e-14

In [None]:
get_probability('quién quiere el mango de la sarten Drexler Triceratops', n_grams_frec, 2)

0.07638888888888888

In [None]:
get_probability('quién quiere el mango de la sarten Drexler Triceratops', n_grams_frec, 3)

0.25

In [None]:
get_probability('Triceratops', n_grams_frec, 1)

0

In [None]:
get_probability('Triceratops', n_grams_frec, 2)

0

In [None]:
get_probability('Triceratops', n_grams_frec, 3)

0

se puede ver que para los casos en que ninguna palabra esta dentro del diccionario, entrega la probabilidad 0, lo que es esperable, mientras que para los casos en que hay al menos una palabra dentro del diccionario de n gramas ya entrega probabilidades, mientras mas grande el n del ngrama, más aumenta la probabilidad debido a como está definida la probabilidad respecto a frecuencia, ya que  hay menos trigramas de entrenamiento, por lo que una ocurrencia pesa mas dentro del diccionario y el hecho de que hayan palabras fuera del diccionario las salta.

Por otro lado el modelo de unigramas es el que menos probabilidades entrega porque va multiplicando muchos decimales seguidos, lo que achica la probabilidad final

### 7.b Perplexity en conjunto de test (0.5 puntos)

En esta sub-sección deberá calcular la perplejidad del corpus de test.

Defina una función que reciba un corpus de test y retorne la perplexity (ver clases del curso). Utilice la función de la sección anterior.

In [None]:
# Se redefinió la función get tokens para que se adapte al modelo sin caracteres especiales
def get_tokens_adapt(c):
    """Entrega lista de tokens sin caracteres especiales de un texto.

    Parameters:
    -----------------------------
    c : List[str]
        Texto a tokenizar.

    Returns:
    -----------------------------
    tokens : list
        Lista que contiene tokens del texto.

    """
    # Lista para almacenar los tokens resultantes
    tokens = []

    # Limpia cada oración enel texto, eliminando caracteres no deseados y convirtiendo a minúsculas
    c_limpio = [re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑ\d\s]', '', o).lower() for o in c]

    # Tokeniza cada oración limpia y agrega los tokens a la lista tokens
    for oracion in c_limpio:
      tokens.extend(re.findall(r'\b\w+\b|[^\w\s]+', oracion))

    return tokens

In [None]:
def get_perplexity(corpus, n):
    """Calcula la perplejidad de un modelo de n-gramas sobre un corpus dado.

    Parameters:
    -----------------------------
    corpus : list
        Lista de oraciones del corpus sobre el cual se calculará la perplejidad.

    n : int
        Orden del modelo de n-gramas utilizado para calcular la perplejidad (1 para unigrama, 2 para bigrama, 3 para trigrama, etc.).

    Returns:
    -----------------------------
    float
        Valor de perplejidad calculado para el modelo de n-gramas sobre el corpus.

    """
    # Calcula los n-gramas de orden 1, 2 y 3 para el corpus dado
    n_grams_frec = {
          '1': n_grams(corpus, 1),
          '2': n_grams(corpus, 2),
          '3': n_grams(corpus, 3)
      }

    # Calcula la cantidad total de tokens en el corpus
    M = sum([len(get_tokens_adapt(c)) for c in corpus])

    # Calcula la sumatoria de los logaritmos de las probabilidades de las oraciones en el corpus
    sumatoria = sum([np.log2(get_probability(oracion, n_grams_frec, n)) for oracion in corpus])

    # Calcula el promedio de la entropía por palabra
    l = (1/M)*sumatoria

    # Calcula y retorna el valor de perplejidad
    return 2**(-l)

In [None]:
print(f'El largo del Vocabulario del corpus de test es {len(n_grams(test_corpus, 1))+1}')

El largo del Vocabulario del corpus de test es 21


In [None]:
get_perplexity(test_corpus, 3)

1.020748936855906

Dé una interpretacion de la perplexity en el corpus de test:


>Nosotros interpretamos la perplexity en el corpus de test como el aprovechamiento de las propiedades probabilisticas que tiene el modelo sobre el conjunto de test, ya que si tomaramos una probabilidad uniforme a todas las palabras del vocabulario de test, el perplexity daria 21. Esto indica que el modelo es mejor que un modelo uniforme, esto es gracias a aprovechar las propiedades estadisticas del lenguaje


## P8. Interpolación Lineal (0.5 puntos)

Cree una función que obtenga la probabilidad de una oración interpolando linealmente modelos de unigrama, bigrama y trigrama ponderados por $\lambda_1, \lambda_2$ y $\lambda_3$ respectivamente. Para esto use las funciones que creó anteriormente.

In [None]:
def get_probability_lineal_interpol(sentence, corpus, l_1, l_2, l_3):
    """Calcula la probabilidad de una oración utilizando interpolación lineal de modelos de n-gramas.

    Parameters:
    -----------------------------
    sentence : str
        Oración de la cual se calculará la probabilidad.

    corpus : list
        Lista de oraciones del corpus sobre el cual se calcularán los modelos de n-gramas.

    l_1 : float
        Ponderador para el modelo de trigramas.

    l_2 : float
        Ponderador para el modelo de bigramas.

    l_3 : float
        Ponderador para el modelo de unigramas.

    Returns:
    -----------------------------
    float
        Probabilidad lineal interpolada de la oración.

    """
    # Verifica si la suma de los ponderadores es igual a 1
    if l_1+l_2+l_3 != 1:
      return 'Entregue una combinación de lambdas que sumen 1'
    else:
      # Calcula los n-gramas de orden 1, 2 y 3 para el corpus dado
      n_grams_frec = {
          '1': n_grams(corpus, 1),
          '2': n_grams(corpus, 2),
          '3': n_grams(corpus, 3)
      }

      # Calcula y retorna la probabilidad lineal interpolada de la oración
      return l_1*get_probability(sentence, n_grams_frec, 3) + l_2*get_probability(sentence, n_grams_frec, 2) + l_3*get_probability(sentence, n_grams_frec, 1)

Defina una función para calcular la perplejidad de un corpus con interpolación lineal.

In [None]:
def get_pp_interpol(corpus, l_1, l_2, l_3):
    """Calcula la perplejidad de un modelo de interpolación lineal de n-gramas sobre un corpus dado.

    Parameters:
    -----------------------------
    corpus : list
        Lista de oraciones del corpus sobre el cual se calculará la perplejidad.

    l_1 : float
        Ponderador para el modelo de trigramas.

    l_2 : float
        Ponderador para el modelo de bigramas.

    l_3 : float
        Ponderador para el modelo de unigramas.

    Returns:
    -----------------------------
    float
        Valor de perplejidad calculado para el modelo de interpolación lineal de n-gramas sobre el corpus.

    """
    # Calcula los n-gramas de orden 1, 2 y 3 para el corpus dado
    n_grams_frec = {
          '1': n_grams(corpus, 1),
          '2': n_grams(corpus, 2),
          '3': n_grams(corpus, 3)
      }
    # Calcula la cantidad total de tokens en el corpus
    M = sum([len(get_tokens_adapt(c)) for c in corpus])

    # Calcula la sumatoria de los logaritmos de las probabilidades interpoladas de las oraciones en el corpus
    sumatoria = sum([np.log2(l_1*get_probability(oracion, n_grams_frec, 3) + l_2*get_probability(oracion, n_grams_frec, 2) + l_3*get_probability(oracion, n_grams_frec, 1)) for oracion in corpus])

    # Calcula el promedio de la entropía por palabra
    l = (1/M)*sumatoria

    # Calcula y retorna el valor de perplejidad
    return 2**(-l)

Ahora haga pruebas con distintos valores de $\lambda_1, \lambda_2$ y $\lambda_3$, incluyendo valores extremos (por ejemplo $[1, 0, 0]$). Comente sus resultados.

In [None]:
get_probability_lineal_interpol('hay un que cuando', test_corpus, 0.4, 0.3, 0.3)

0.08031496062992126

In [None]:
get_probability_lineal_interpol('hay un que cuando', test_corpus, 1, 0, 0)

0.0

In [None]:
get_probability_lineal_interpol('hay un que cuando', test_corpus, 0, 1, 0)

0.0

In [None]:
get_probability_lineal_interpol('hay un que cuando', test_corpus, 0, 0, 1)

0.2677165354330709

In [None]:
get_pp_interpol(test_corpus, 0.4, 0.3, 0.3)

1.0482541013316515

In [None]:
get_pp_interpol(test_corpus, 1, 0, 0)

1.020748936855906

In [None]:
get_pp_interpol(test_corpus, 0, 1, 0)

1.1215870384298778

In [None]:
get_pp_interpol(test_corpus, 0, 0, 1)

1.8395093476913877

Se puede ver que perplexity sube cuando se pasa de un modelo de trigrama a bigrama a unigrama, esto se puede deber a que se aprovechan mas de las propiedades estadisticas considerando trigramas, ya que el conjunto de test es bastante corto y repetitivo por lo que en terminos de probabilidades, es mas posible encontrar el mismo patron, aprovechandose el modelo para captar las propiedades probabilisticas del corpus.