# **Tarea 1 - CC6205 Natural Language Processing 📚**

Bienvenid@s a la primera tarea en el curso de Natural Language Processing (NLP). Esta tarea tiene como objetivo evaluar los contenidos teóricos de las primeras semanas de clases, enfocado principalmente en ***Information Retrieval (IR)*** y ***Vector Space Models***. Si aún no han visto las clases, se recomienda visitar los links de las referencias.

La tarea consta de una parte teórica que busca evaluar conceptos vistos en clases. Seguido por una parte práctica con el fín de introducirlos a la programación en Python enfocada en NLP. 

## **1 - Preguntas teóricas 📕** ##

Las siguientes celdas contienen preguntas acerca del contenido visto en clases y en el material del curso.  Contestar cada pregunta en su celda correspondiente y **no extenderse más de 100 palabras** . 🙏

**Pregunta 1: ¿Por qué el análisis del lenguaje humano es una tarea compleja? Mencione dos razones según lo visto en clases.**

> Porque las reglas que conforman el lenguaje son difíciles de entender y describir, haciéndonos buenos usuarios pero malos entendedores del lenguaje. Entre las razones que lo hacen difícil se encuentra la propiedad **discreta**, o que no se puede inferir el significado de una palabra por medio de sus letras; y la propiedad **dispersa**, o la capacidad del lenguaje de combinar palabras para formar nuevos significados.

**Pregunta 2: ¿Cuáles son las diferencias entre usar Deep learning y Machine Learning clásico (empirismo) para un problema de NLP? Ejemplifique con alguna task.** Puede utilizar ChatGPT (debe indicarlo) para generar la respuesta y luego debe indicar si la respuesta entregada por ChatGPT es correcta o no. Mencione por qué según lo visto en clases.


> Machine Learning clásico necesita de una persona que detalla de antemano cuales son las características a utilizar. Por otra parte, el Deep Learning extrae características además de entrenar un modelo, sin dar a conocer cuales son estas características. Esto resulta en un modelo de caja negra, donde se pierde la interpretabilidad de lo que ocurre.
>
> Una task de ejemplo puede ser el análisis de sentimiento. Por medio de Deep Learning una red neuronal se encarga de encontrar las características y entrenar un modelo, mientras que con ML clásico (por ejemplo SVM) se deben introducir de forma manual las características.

 **Pregunta 3: Según las primeras clases, ¿Qué método clásico nos permite rankear las similitudes existentes entre documentos?, ¿Cómo son las representaciones que genera y problemas que podrían experimentar estas soluciones simples?** 

> Se puede rankear la similitud entre documentos usando el método de similiaridad coseno. Las representaciones que genera son vectoriales.
>
> Al estar basado en un modelo vectorial de frecuencia de palabras, no considera el contexto que pueda tener un documento. Esto puede generar problemas ya que dos documentos con palabras distintas pueden indicar algo similar y el modelo no lo identificaría correctamente.

**Pregunta 4: Usted se encuentra realizando un modelo de clasificación de sentimientos con texto, su jefe le señala que debe eliminar las palabras mas comunes para obtener una mejor clasificación. ¿Qué palabras le señala que elimine su jefe?, ¿es acaso esto una buena idea?.** Puede utilizar ChatGPT (debe indicarlo) para generar la respuesta y luego debe indicar si la respuesta entregada por ChatGPT es correcta o no. Mencione por qué según lo visto en clases.

> Se señala que elimine las Stopwords, las cuales son términos que ocurren con alta frecuencia y que no aportan a la semántica. Estas stopwords suelen ser artículos, pronombres, preposiciones y conjunciones.
>
> Se debe tomar en cuenta que el uso de stopwords no es recomendable en todas las tasks. Por ejemplo, para la traducción se requiere contar con todas esas palabras.

**Pregunta 5: Acorde al paper [A Vector Space Model for automatic indexing](https://dl.acm.org/doi/pdf/10.1145/361219.361220) un documento, $D_i$, puede ser definido formalmente como una tupla de términos, $(d_{i1}, d_{i2}, ..., d_{in})$, donde $d_{ij}$ representa el peso del j-esimo término. En clase vieron algunas formas medir los pesos de estos términos. Mencione cuales fueron y sus ventajas y desventajas.** 

> El peso de los términos en los documentos puede ser medido en base a frecuencia. Entre las formas de medir la frecuencia se encuentran:
>
> - TF: el peso de un término es su cantidad de apariciones, dividido por la cantidad del término con más apariciones. Como ventaja evita dar más peso a términos de documentos más largos, y su desventaja es que no toma en cuenta la importancia de términos poco frecuentes.
>
> - TF-IDF: considera la frecuencia de un término en un documento y su frecuencia inversa en todos los documentos. Al dar más peso a términos de poca frecuencia tiene la ventaja de capturar su información, aunque es computacionalmente más costoso.

## **2 - Preguntas prácticas 💻** ##

Esta segunda sección incluye ejercicios de programación 🤙. Leer atentamente las instrucciones entregadas a continuación para facilitar el proceso de revisión de sus trabajos.

**Instrucciones:**

- Escribe tu código entre las lineas de comentarios **### Aquí inicia tu código ###** y **### Aquí termina tu código ###**.
- Cuando el ejercicio incluya un bloque llamado ***Test***, comprueba que el resultado de la ejecución coincida con el resultado esperado.
- Recuerde siempre mantener buenas prácticas de código.
- Está permitido sólo utilizar las librerías importadas antes del Ejercicio 1.
- **Recordar** que: *Documento = Oración. Dataset = Corpus. Vocabulario = Tokens*.
- El **orden de los resultados** pueden variar dependiendo de su máquina, pero los valores de los resultados son los mismos.

**Ejemplo:** Implemente una función **`hello_world()`** que imprima en pantalla `"Hello World"`. 

In [1]:
def hello_world():
    ### Aquí inicia tu código ###
    print("Hello World")
    ### Aquí termina tu código ###

***Test:***

In [2]:
hello_world()

Hello World


***Resultado esperado***: 
<table>
    <tr> 
        <td> Hello World </td> 
    </tr>
</table>

Estas son las librerías permitidas. Si quieren utilizar alguna librería adicional, pueden realizar la consulta a través de Discord. 

In [24]:
import codecs
import re
import numpy as np
import pandas as pd

# Bibliotecas añadidas
from functools import reduce
from collections import Counter

**Ejercicio 1 - *Tokenización*** 

En el primer ejercicio veremos la dificultad 😨 de tokenizar textos no estructurados, destacando la importancia de tener librerías que realicen este trabajo. 

El archivo adjunto al enunciado de la tarea contiene la letra de una canción del marcianeke 👽. Utilice este texto para realizar su primera tokenización y ver qué tan bien funciona su función. 

Ejecute el código a continuación para cargar el ejemplo. Recuerde realizar la modificación al directorio en caso que el archivo no se encuentre en el mismo directorio del Jupyter Notebook.

In [4]:
text = codecs.open('../../data/marcianeke.txt', 'r', 'UTF-8').read()
print(text)

Brr
Marcianeke
Vamo' a estar con Pailita
Dimelo má
Ando en busca de una criminal (ah, ah)
Esa que el gatillo le gusta jalar (rata-ta)
Que le guste flotar y fumar (brr)
Tussi, keta quiere' mezclar
Dimelo má

Ando en busca de una criminal (ah, ah)
Esa que el gatillo le gusta jalar (rata-ta)
Que le guste flotar y fumar
Tussi, keta pura quiere' mezclar
Di-dimelo má
Di-dimelo má
Di-dimelo má
Di-dimelo má
Di-dimelo má
Di-dimelo má
Di-dimelo má

Esperame que ahora entro yo
Y lo que pide yo lo traje
No visto de traje
Puro corte calle, no de maquillaje
Pronto coronamos y nos vamo' de viaje
Tanto hit que hago que lo' culo bajen
Ella se va de shopping
Sale positivo si se hace el doping
Baila twerk con un poco de popping
Los fardos en el botín

Si quieren letra llamen pa' mi booking
Generando, sigo en la mía lowkey
Cooking en el estudio con tu woman
Tanto whisky, pisco que hasta lo' vecinos toman
Si se tiran pa' aca puede que la arena coman
Ja, en el chanteo titulado sin diploma
Di-dimelo má
Di-di

Implementen una función **`get_tokens()`** que reciba un texto y entregue una lista con sus tokens. Son libres de elegir la forma de tokenizar mientras no utilicen librerías con tokenizadores ya implementados. Pueden utilizar la librería **re** importada para trabajar símbolos.


Ejemplo de uso:

`get_tokens('Este es un ejemplo de prueba.')` 

Nos entregaría:

`['Este', 'es', 'un', 'ejemplo', 'de', 'prueba', '.']`

In [5]:
def get_tokens(text: str) -> list[str]:
    """Transforma el input en una lista de tokens

    Parameters
    ----------
    text : str
        Texto a tokenizar

    Returns
    -------
    list[str]
        Lista de tokens
    """
    ### Inicio del código ###


    pattern = r"\s+|([^\w\s])"
    tokens = list(filter(None, re.split(pattern, text))) # Filtra todos los 'None'
    return tokens

    ### Fin del código ###

In [6]:
tokens = get_tokens(text)
tokens

['Brr',
 'Marcianeke',
 'Vamo',
 "'",
 'a',
 'estar',
 'con',
 'Pailita',
 'Dimelo',
 'má',
 'Ando',
 'en',
 'busca',
 'de',
 'una',
 'criminal',
 '(',
 'ah',
 ',',
 'ah',
 ')',
 'Esa',
 'que',
 'el',
 'gatillo',
 'le',
 'gusta',
 'jalar',
 '(',
 'rata',
 '-',
 'ta',
 ')',
 'Que',
 'le',
 'guste',
 'flotar',
 'y',
 'fumar',
 '(',
 'brr',
 ')',
 'Tussi',
 ',',
 'keta',
 'quiere',
 "'",
 'mezclar',
 'Dimelo',
 'má',
 'Ando',
 'en',
 'busca',
 'de',
 'una',
 'criminal',
 '(',
 'ah',
 ',',
 'ah',
 ')',
 'Esa',
 'que',
 'el',
 'gatillo',
 'le',
 'gusta',
 'jalar',
 '(',
 'rata',
 '-',
 'ta',
 ')',
 'Que',
 'le',
 'guste',
 'flotar',
 'y',
 'fumar',
 'Tussi',
 ',',
 'keta',
 'pura',
 'quiere',
 "'",
 'mezclar',
 'Di',
 '-',
 'dimelo',
 'má',
 'Di',
 '-',
 'dimelo',
 'má',
 'Di',
 '-',
 'dimelo',
 'má',
 'Di',
 '-',
 'dimelo',
 'má',
 'Di',
 '-',
 'dimelo',
 'má',
 'Di',
 '-',
 'dimelo',
 'má',
 'Di',
 '-',
 'dimelo',
 'má',
 'Esperame',
 'que',
 'ahora',
 'entro',
 'yo',
 'Y',
 'lo',
 'que',

**Describa cuáles fueron sus supuestos para realizar la tokenización y compare sus tokens con los entregados por la librería nltk en el bloque de código de más abajo.**

Para obtener los tokens se hicieron 2 supuestos: un token es un conjunto de caracteres que se encuentran entre:

- El principio, final y/o algún espacio (salto de línea, espacio en blanco, etc.).

- Algún carácter que no sea ni un número, letra, guión bajo o algún tipo de espacio.

En el segundo caso, además de definir un token, dicho carácter se cuenta también como un token aparte.

In [7]:
from nltk.tokenize import wordpunct_tokenize 
nltk_tokens = wordpunct_tokenize(text)
print(f"¿El resultado es idéntico?: {tokens == nltk_tokens}")

¿El resultado es idéntico?: True


**Ejercicio 2 - *Stopwords y Stemming*** 

Considere el siguiente corpus:

In [8]:
dataset = ["I like human languages", "I like programming languages", "Spanish is my favorite language"]

Diseñe una función **`get_vocab()`** que extraiga los tokens de este corpus solamente tokenizando. Puede utilizar la función del Ejercicio 1.

In [9]:
def get_vocab(dataset: list[str]) -> list[str]:
  """Entrega una lista con el vocab contenido en dataset

  Parameters
  ----------
  dataset : list[str]
      Corpus del que se obtendrá el vocab

  Returns
  -------
  list[str]
      Vocab del corpus
  """
  ### Aquí inicia tu código ###
  
  vocab = [get_tokens(doc) for doc in dataset]
  vocab = reduce(lambda vocab1, vocab2: vocab1 + vocab2, vocab)
  return list(dict.fromkeys(vocab)) # Diccionarios preservan el orden. Es más fácil con un 'set'

  ### Aquí termina tu código ###

***Test:***

In [10]:
vocab = get_vocab(dataset)
vocab

['I',
 'like',
 'human',
 'languages',
 'programming',
 'Spanish',
 'is',
 'my',
 'favorite',
 'language']

***Resultado esperado***: 
<table>
    <tr> 
        <td>['favorite',
 'Spanish',
 'language',
 'I',
 'like',
 'programming',
 'languages',
 'my',
 'human',
 'is'] </td> 
    </tr>
</table> 

Ahora diseñe reglas que usted estime convenientes tanto de **Stemming** como de **Stopwords**. Implemente una función que reciba una lista con los elementos del vocabulario, le aplique sus reglas y devuelva el vocabulario actualizado. 

Para las stopwords se agregaron palabras comunes en inglés, que considera algunos artículos, pronombres, preposiciones y conjunciones.

En cuánto al stemming, por simplicidad se ha decidido implementar algunas reglas que alteran el final de una palabra sólamente por medio de la eliminación de caracteres. Las reglas implementadas corresponden a:

- Si una palabra termina en SSES, se elimina ES.
- Si una palabra termina en IES, se elimina ES.
- Si una palabra termina en ING, se eliminan estos 3 caracteres.
- Si una palabra termina en S, se elimina este carácter.

In [11]:
def pre_processing(vocab: list[str]) -> list[str]:
  """Pre-procesamiento de un vocab, que involucra stemming y stopwords

  Parameters
  ----------
  vocab : list[str]
      Vocab a ser pre-procesado

  Returns
  -------
  list[str]
      Vocab sin las stopwords y con stemming aplicado
  """
  ### Aquí inicia tu código ###
  
  stopwords = [
      "I",
      "you",
      "he",
      "she",
      "it",
      "they",
      "to",
      "into",
      "on",
      "at",
      "for",
      "by",
      "my",
      "a",
      "an",
      "the",
      "but",
      "yet",
      "and",
      "or",
      "so"
  ]

  preprocessed_vocab = filter(lambda string: string not in stopwords, vocab)

  stemming_pattern = r"(?<=ss)es|(?<=i)es|(?<=\w)ing$|(?<=\w)s$"
  preprocessed_vocab = list( map(lambda string: re.sub(stemming_pattern, "", string), preprocessed_vocab) )

  return preprocessed_vocab 

  ### Aquí termina tu código ###    

In [12]:
vocab = pre_processing(vocab)
vocab

['like',
 'human',
 'language',
 'programm',
 'Spanish',
 'i',
 'favorite',
 'language']

**Ejercicio 3 - *Bag of Words* 🐶🐈** 

Considere el siguiente corpus, donde cada elemento del arreglo representa un documento:

**disclaimer: El orden de los resultados pueden variar**

In [13]:
d0 = 'El perro se come la comida y después se duerme'
d1 = 'El perro se despierta y después empieza a ladrar'
d2 = 'El perro ladra y después se come la comida'
d3 = 'El gato se come la comida y después se duerme'
d4 = 'El gato se despierta y después empieza a maullar'
d5 = 'El gato maulla y después se come la comida'
dataset = [d0, d1, d2, d3, d4, d5]

El objetivo de este ejercicio es determinar cuáles de  los documentos entregados son los más similares entre sí. Para ello utilizaremos la técnica TF-IDF. 

Como los algoritmos de Machine Learning no comprenden el texto en lenguaje natural, estos documentos deben ser convertidos a vectores numéricos. La representación más simple vista en clases es el **Bag of Words**, método mediante el cuál se cuentan las apariciones de cada palabra en cada uno de los documentos entregados.

Implemente la función **`bag_of_words()`**, que reciba como input un arreglo de documentos y devuelva un pandas dataframe con la representación Bag of Words de los documentos entregados. En esta representación las columnas son el vocabulario y las filas representa las apariciones de cada una de las palabras en los documentos. En otras palabras, cada fila representa el bow de un determinado documento.


Por ejemplo para el siguiente dataset: 

```
dataset = ['El perro ladra', 'El perro come']
```

Debiese entregarnos lo siguiente:


|   | el | perro | ladra | come |
|---|----|-------|------|-------|
| 0 | 1  | 1     | 1    | 0     |
| 1 | 1  | 1     | 0    | 1     |



In [14]:
def bag_of_words(dataset: list[str]) -> pd.DataFrame:
  """Entrega bag of words a partir de una lista de documentos

  Parameters
  ----------
  dataset : list[str]
      Lista con documentos

  Returns
  -------
  pd.DataFrame
      Bag of Words de los documentos
  """
  ### Aquí inicia tu código ###
  
  cols = get_vocab(dataset)
  data = [Counter(d.split()) for d in dataset]
  df_bow = pd.DataFrame(data, columns=cols).fillna(0)
  return df_bow.astype(np.uint8)

  ### Aquí termina tu código ###

***Test:***

In [15]:
dataset_bow = bag_of_words(dataset)
dataset_bow

Unnamed: 0,El,perro,se,come,la,comida,y,después,duerme,despierta,empieza,a,ladrar,ladra,gato,maullar,maulla
0,1,1,2,1,1,1,1,1,1,0,0,0,0,0,0,0,0
1,1,1,1,0,0,0,1,1,0,1,1,1,1,0,0,0,0
2,1,1,1,1,1,1,1,1,0,0,0,0,0,1,0,0,0
3,1,0,2,1,1,1,1,1,1,0,0,0,0,0,1,0,0
4,1,0,1,0,0,0,1,1,0,1,1,1,0,0,1,1,0
5,1,0,1,1,1,1,1,1,0,0,0,0,0,0,1,0,1


***Resultado esperado***: 

|    | El | perro | se | come | la | comida | y | después | duerme | despierta | empieza | a | ladrar | ladra | gato | maullar | maulla |
|----|---:|------:|---:|-----:|---:|-------:|--:|--------:|-------:|----------:|--------:|--:|-------:|------:|-----:|--------:|-------:|
| d0 |  1 |     1 |  2 |    1 |  1 |      1 | 1 |       1 |      1 |         0 |       0 | 0 |      0 |     0 |    0 |       0 |      0 |
| d1 |  1 |     1 |  1 |    0 |  0 |      0 | 1 |       1 |      0 |         1 |       1 | 1 |      1 |     0 |    0 |       0 |      0 |
| d2 |  1 |     1 |  1 |    1 |  1 |      1 | 1 |       1 |      0 |         0 |       0 | 0 |      0 |     1 |    0 |       0 |      0 |
| d3 |  1 |     0 |  2 |    1 |  1 |      1 | 1 |       1 |      1 |         0 |       0 | 0 |      0 |     0 |    1 |       0 |      0 |
| d4 |  1 |     0 |  1 |    0 |  0 |      0 | 1 |       1 |      0 |         1 |       1 | 1 |      0 |     0 |    1 |       1 |      0 |
| d5 |  1 |     0 |  1 |    1 |  1 |      1 | 1 |       1 |      0 |         0 |       0 | 0 |      0 |     0 |    1 |       0 |      1 |


**Ejercicio 4 - *Calcular TF*:** Ahora debemos usar el dataframe del ejercicio anterior para calcular la matriz de TF normalizada por la máxima frecuencia ${max_i({\text{tf}_{i,j})}}$, donde
i corresponde al índice de las filas (bow) y j al de las columnas (palabras). Es decir, dividir cada bow en la cantidad de veces de la palabra que aparezca más veces en ese vector. 


$$\text{nft}_{i,j} = \frac{\text{tf}_{i,j}}{max_i({\text{tf}_{i,j})}}$$

In [16]:
def calc_tf(dataset_bow: pd.DataFrame) -> pd.DataFrame:
    """Obtiene la métrica Term Frequency a partir de bag of words

    Parameters
    ----------
    dataset_bow : pd.DataFrame
        Bag of words al que se le calcurará TF

    Returns
    -------
    pd.DataFrame
        Dataframe con la métrica TF
    """
    ### Aquí inicia tu código ###
    
    tf = dataset_bow.div(dataset_bow.max(axis="columns"), axis="index")
    return tf
    
    ### Aquí termina tu código ###

***Test:***

In [17]:
tf = calc_tf(dataset_bow)
tf

Unnamed: 0,El,perro,se,come,la,comida,y,después,duerme,despierta,empieza,a,ladrar,ladra,gato,maullar,maulla
0,0.5,0.5,1.0,0.5,0.5,0.5,0.5,0.5,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1.0,1.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0
2,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
3,0.5,0.0,1.0,0.5,0.5,0.5,0.5,0.5,0.5,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0
4,1.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,0.0
5,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0


***Resultado esperado***: 

|    |  El | perro |  se | come |  la | comida |   y | después | duerme | despierta | empieza |   a | ladrar | ladra | gato | maullar | maulla |
|----|----:|------:|----:|-----:|----:|-------:|----:|--------:|-------:|----------:|--------:|----:|-------:|------:|-----:|--------:|-------:|
| d0 | 0.5 |   0.5 | 1.0 |  0.5 | 0.5 |    0.5 | 0.5 |     0.5 |    0.5 |       0.0 |     0.0 | 0.0 |    0.0 |   0.0 |  0.0 |     0.0 |    0.0 |
| d1 | 1.0 |   1.0 | 1.0 |  0.0 | 0.0 |    0.0 | 1.0 |     1.0 |    0.0 |       1.0 |     1.0 | 1.0 |    1.0 |   0.0 |  0.0 |     0.0 |    0.0 |
| d2 | 1.0 |   1.0 | 1.0 |  1.0 | 1.0 |    1.0 | 1.0 |     1.0 |    0.0 |       0.0 |     0.0 | 0.0 |    0.0 |   1.0 |  0.0 |     0.0 |    0.0 |
| d3 | 0.5 |   0.0 | 1.0 |  0.5 | 0.5 |    0.5 | 0.5 |     0.5 |    0.5 |       0.0 |     0.0 | 0.0 |    0.0 |   0.0 |  0.5 |     0.0 |    0.0 |
| d4 | 1.0 |   0.0 | 1.0 |  0.0 | 0.0 |    0.0 | 1.0 |     1.0 |    0.0 |       1.0 |     1.0 | 1.0 |    0.0 |   0.0 |  1.0 |     1.0 |    0.0 |
| d5 | 1.0 |   0.0 | 1.0 |  1.0 | 1.0 |    1.0 | 1.0 |     1.0 |    0.0 |       0.0 |     0.0 | 0.0 |    0.0 |   0.0 |  1.0 |     0.0 |    1.0 |


**Ejercicio 5 - *Calcular IDF***


Implementar `calc_idf(dataset_bow)`. Este debe retornar un diccionario en donde las llaves sean las palabras y los valores sean el calculo de cada idf por palabra.

Recordar que $idf_{t_i} = log_{10}\frac{N}{n_i}$ con $N = $ número de documentos y $n_i = $ Número de documentos que contienen la palabra $t_i$ 

In [18]:
def calc_idf(dataset_bow: pd.DataFrame) -> dict[str, float]:
    """Calcula la métrica Inverse Document Frequency sobre un bag of words

    Parameters
    ----------
    dataset_bow : pd.DataFrame
        Bag of words al que se le calculará IDF

    Returns
    -------
    dict[str, float]
        Diccionario con la métrica IDF para cada token
    """
    ### Aquí inicia tu código ###

    count = dataset_bow.agg(np.count_nonzero)
    idf = np.log10(dataset_bow.shape[0]/count)
    return dict(idf)

    ### Aquí termina tu código ###

***Test:***

In [19]:
idf = calc_idf(dataset_bow)
idf

{'El': 0.0,
 'perro': 0.3010299956639812,
 'se': 0.0,
 'come': 0.17609125905568124,
 'la': 0.17609125905568124,
 'comida': 0.17609125905568124,
 'y': 0.0,
 'después': 0.0,
 'duerme': 0.47712125471966244,
 'despierta': 0.47712125471966244,
 'empieza': 0.47712125471966244,
 'a': 0.47712125471966244,
 'ladrar': 0.7781512503836436,
 'ladra': 0.7781512503836436,
 'gato': 0.3010299956639812,
 'maullar': 0.7781512503836436,
 'maulla': 0.7781512503836436}

***Resultado esperado***: 

```python
{'El': 0.0, 
 'a': 0.47712125471966244,
 'come': 0.17609125905568124,
 'comida': 0.17609125905568124,
 'despierta': 0.47712125471966244,
 'después': 0.0,
 'duerme': 0.47712125471966244,
 'empieza': 0.47712125471966244,
 'gato': 0.3010299956639812,
 'la': 0.17609125905568124,
 'ladra': 0.7781512503836436,
 'ladrar': 0.7781512503836436,
 'maulla': 0.7781512503836436,
 'maullar': 0.7781512503836436,
 'perro': 0.3010299956639812,
 'se': 0.0,
 'y': 0.0}
```

Puede notar el bajo puntaje otorgado a las palabras que más se repiten! 😮

**Ejercicio 6 - *Calcular TF-IDF & concluir similitud de documentos.***


Programe la función `calc_tf_idf(tf, idf)` que entrega el dataframe TF-IDF asociado al dataset que estamos analizando.

In [20]:
def calc_tf_idf(tf: pd.DataFrame, idf: dict[str, float]) -> pd.DataFrame:
    """Calcula la métrica TF-IDF

    Parameters
    ----------
    tf : pd.DataFrame
        Métrica TF de un BoW
    idf : dict[str, float]
        Métrica IDF del mismo BoW de TF

    Returns
    -------
    pd.DataFrame
        Métrica TF-IDF
    """
    ### Aquí inicia tu código ###

    tf_idf = tf.mul(idf)
    return tf_idf

    ### Aquí termina tu código ### 

***Test.***

In [21]:
tf_idf = calc_tf_idf(tf, idf)
tf_idf

Unnamed: 0,El,perro,se,come,la,comida,y,después,duerme,despierta,empieza,a,ladrar,ladra,gato,maullar,maulla
0,0.0,0.150515,0.0,0.088046,0.088046,0.088046,0.0,0.0,0.238561,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.30103,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.477121,0.477121,0.477121,0.778151,0.0,0.0,0.0,0.0
2,0.0,0.30103,0.0,0.176091,0.176091,0.176091,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.778151,0.0,0.0,0.0
3,0.0,0.0,0.0,0.088046,0.088046,0.088046,0.0,0.0,0.238561,0.0,0.0,0.0,0.0,0.0,0.150515,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.477121,0.477121,0.477121,0.0,0.0,0.30103,0.778151,0.0
5,0.0,0.0,0.0,0.176091,0.176091,0.176091,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.30103,0.0,0.778151


***Resultado esperado***: 

|    |  El |    perro |  se |     come |       la |   comida |   y | después |   duerme | despierta |  empieza |        a |   ladrar |    ladra |     gato |  maullar |   maulla |
|----|----:|---------:|----:|---------:|---------:|---------:|----:|--------:|---------:|----------:|---------:|---------:|---------:|---------:|---------:|---------:|---------:|
| d0 | 0.0 | 0.150515 | 0.0 | 0.088046 | 0.088046 | 0.088046 | 0.0 |     0.0 | 0.238561 |  0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 |
| d1 | 0.0 | 0.301030 | 0.0 | 0.000000 | 0.000000 | 0.000000 | 0.0 |     0.0 | 0.000000 |  0.477121 | 0.477121 | 0.477121 | 0.778151 | 0.000000 | 0.000000 | 0.000000 | 0.000000 |
| d2 | 0.0 | 0.301030 | 0.0 | 0.176091 | 0.176091 | 0.176091 | 0.0 |     0.0 | 0.000000 |  0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.778151 | 0.000000 | 0.000000 | 0.000000 |
| d3 | 0.0 | 0.000000 | 0.0 | 0.088046 | 0.088046 | 0.088046 | 0.0 |     0.0 | 0.238561 |  0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.150515 | 0.000000 | 0.000000 |
| d4 | 0.0 | 0.000000 | 0.0 | 0.000000 | 0.000000 | 0.000000 | 0.0 |     0.0 | 0.000000 |  0.477121 | 0.477121 | 0.477121 | 0.000000 | 0.000000 | 0.301030 | 0.778151 | 0.000000 |
| d5 | 0.0 | 0.000000 | 0.0 | 0.176091 | 0.176091 | 0.176091 | 0.0 |     0.0 | 0.000000 |  0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.301030 | 0.000000 | 0.778151 |


Ahora que tenemos el dataframe de TF-IDF, nos queda calcular la similitud coseno entre todos los vectores. Notar que la matriz resultante será una matriz simétrica. Implemente la función *cosine_similarity(v1, v2)* que recibe dos vectores (v1 y v2) y calcula la similitud coseno entre ambos vectores. Concluya cuáles son los dos documentos más similares.

In [22]:
def cosine_similarity(v1: pd.Series, v2: pd.Series) -> float:
  """Calcula la similitud coseno entre todos los documentos de un corpus

  Parameters
  ----------
  v1 : pd.Series
      Primer vector de características
  v2 : pd.Series
      Segundo vector de características

  Returns
  -------
  float
      Similitud coseno entre todos los documentos de un corpus
  """
  ### Aquí inicia tu código ###
  
  similarity = (v1 @ v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
  return similarity

  ### Aquí termina tu código ### 

similarity_matrix = np.zeros((6,6))
for i, v1 in enumerate(tf_idf.index.values):
  for j, v2 in enumerate(tf_idf.index.values):
      similarity = cosine_similarity(tf_idf.loc[v1].values, tf_idf.loc[v2].values)
      similarity_matrix[i][j] = similarity


In [23]:
pd.DataFrame(similarity_matrix)

Unnamed: 0,0,1,2,3,4,5
0,1.0,0.120324,0.322344,0.77967,0.0,0.163283
1,0.120324,1.0,0.086865,0.0,0.495213,0.0
2,0.322344,0.086865,1.0,0.163283,0.0,0.117877
3,0.77967,0.0,0.163283,1.0,0.120324,0.322344
4,0.0,0.495213,0.0,0.120324,1.0,0.086865
5,0.163283,0.0,0.117877,0.322344,0.086865,1.0


Los documentos más similiares en base a la similaridad de coseno son los documentos **d3** y **d0**, con una similaridad de 0.779.