# Minitarea 1


-----------------

Nombre: Joaquín Ignacio Pérez Araya

Fecha de Entrega: Lunes 6 de Abril


## Objetivos de la minitarea

Este ejericio cuenta con varios objetivos principales: 

- Evaluar los contenidos de las primeras semanas de clases. En particular Information Retrieval (IR) y Vector Space Models. 

- Introducirlos a la programación en python enfocada en NLP.

- Implementar un modelo básico de IR: *Term Frequency-Inverse Document Frequency (TF-IDF)*.


## Instrucciones

- El ejercicio consiste en:

    - Responder preguntas relativas a los contenidos vistos en los videos y slides de las clases. 
    
    - Implementar el modelo TF-IFD utilizando solo python, pandas y numpy. Está **PROHIBIDO** usar cualquier paquete que implemente dicho modelo (NLTK, spacy, scikit, etc...).

- La minitarea es INDIVIDUAL.

- Está demás decir que no se admiten copias, ni de código, ni de respuestas escritas. 

- La entrega debe ser por ucursos a mas tardar el día estipulado arriba. No se aceptan atrasos.

- En el horario de auxiliar se abriran horarios de consulta en donde podrán preguntar acerca del ejercicio y en general, de todo el curso. 

- Cada punto equivale a 0.5 décimas de la nota de la minitarea.

- Al revisar, tu código será ejecutado. Verifica que tu entrega no tenga errores.


## Referencias
 
Slides:
    
- [Introducción al curso](https://github.com/dccuchile/CC6205/blob/master/slides/NLP-introduction.pdf)
- [Vector Space Model / Information Retrieval](https://github.com/dccuchile/CC6205/blob/master/slides/NLP-IR.pdf)    

Videos: 

- [CC6205 - Procesamiento de Lenguaje Natural: Vector Space Model and Information Retrieval parte 1](https://youtu.be/FXIVClF370w)
- [CC6205 - Procesamiento de Lenguaje Natural: Vector Space Model and Information Retrieval parte 2](https://youtu.be/f8nG1EMmPZk)

---------

## Parte 1. 

La siguientes celdas contendrán preguntas acerca del contenido visto en clases y en el material del curso. La idea es contestar cada pregunta en su celda correspondiente. Las respuestas deben ser breves: máximo 3 lineas (salvo para la p3).

**P1) Son Natural Language Processing y Computational Linguistics lo mismo? (1 Punto)**

  No, ya que el primero resulve problemas computacionales relacionados con el lenguaje humano y el segundo se dedica a estudiar el lenguaje en sí utilizando la computación.

**P2) Por qué estudiar el lenguaje humano es difícil? (1 Punto)**

   Debido a que el lenguaje es altamente ambigüo y éste depende mucho del contexto para saber con exactitud cuál es el significado real de incluso la frase más mínima.
    



**P3) Para el siguiente corpus:**

    d1) I like human languages

    d2) I like programming languages

    d3) Spanish is my favorite language


**Extraiga el vocabulario:**




1. **Solamente usando tokenization (1.5 puntos)**

   Vocabulario: \[I\] \[like\]  \[human\]  \[languages\] \[programming\] \[Spanish\] \[is\] \[my\] \[favorite\] \[language\]


2. **Usando stemming (proponga sus propias reglas de stemming) y borrado de stopwords (indique cuales son sus stopwords) (1.5 puntos)**

Stopwords:  \[I\]  \[like\]  \[is\] \[my\] 
        
Reglas de Stemming: Algoritmo de Porter

| Transformaciones provocadas |
|---------------------------------|
|$programming \to program$|
|$languages/language \to languag$|
|$favorite \to favorit$|


Vocabulario: \[human\] \[program\] \[Spanish\] \[favorit\] \[languag\]


**P4) Conceptualmente cuál es la diferencia entre usar machine learning clásico (empirismo) y deep learning para un problema de NLP (Puede usar el análisis de sentimientos como ejemplo) (1 punto)**

Para machine learning clásico se necesita procesamiento adicional del corpus a trabajar antes de procesar, 
usando deep learning este proceso no existe.

--------------

## Parte 2

Impementar TF-IDF. 

Esta parte, cada celda representa una función distinta por implementar. Se usará pandas para representar las matrices y arreglos que vayamos calculando. Siguiente a cada celda con una función por implementar habrá un ejemplo de como debería ser el output que tienen que lograr.

In [1]:
import pandas as pd
import numpy as np

**Corpus**

En el dataset, cada string representa un documento. Observación: Corpus = Dataset.

In [2]:
dataset = [
    't4 t3 t1 t4', 't5 t4 t2 t3 t5', 't2 t1 t4 t4', 't2 t3 t3 t1 t4',
    't1 t4 t2 t2', 't2 t3 t2 t3 t2 t3'
]

**Obtener vocabulario (1 punto)** 

Implementar la función `get_vocab(dataset)` que recibe el dataset y retorna un arreglo con cada palabra que aparece en el dataset. (sin duplicar). Observación: vocabulario = types. 

In [3]:
def get_vocab(dataset):
    array = np.array([])
    for text in dataset:
        text = text.split(" ")
        for word in text:
            word = word.lower()
            if not word in array:
                array = np.append(array, word)
    return array

In [4]:
vocab = get_vocab(dataset)
vocab

  import sys


array(['t4', 't3', 't1', 't5', 't2'], dtype='<U32')

**Calcular Bag of Words (bow) (2 puntos)**

Implementar la función `calc_bow(dataset, vocab)` que toma el dataset y el vocabulario calculado en la parte anterior y retorna un pandas DataFrame en donde las columnas son el vocabulario y las filas representa las apariciones de cada una de las palabra los documento. En otras palabras, cada fila representa el bow de un determinado documento

el bow de cada documento.

Recordatorio - Bag of Words: Cuenta las apariciones de cada palabra en cada uno de los documentos. Por ejemplo:

Por ejemplo, para los documentos: 

```
d_0 = 'El perro ladra'
d_1 = 'El perro come'

```

Deberíamos retornar:

|   .  | el | perro | ladra | come  |
|-----|----|-------|-------|-------|
| d_0 | 1  | 1     | 1     | 0     |
| d_1 | 1  | 1     | 0     | 1     |





In [5]:
def calc_bow(dataset, vocab):
    bow = {}
    for word in vocab:
        bow[word] = np.zeros(len(dataset))
        
    for i in range(len(dataset)):
        tokens = dataset[i].split(" ") # Tokenizacion lvl-0
        for token in tokens:
            token = token.lower()    
            bow[token][i] += 1
            
    df = pd.DataFrame(data=bow)
    return df

dataset_bow = calc_bow(dataset, vocab)

In [6]:
dataset_bow

Unnamed: 0,t4,t3,t1,t5,t2
0,2.0,1.0,1.0,0.0,0.0
1,1.0,1.0,0.0,2.0,1.0
2,2.0,0.0,1.0,0.0,1.0
3,1.0,2.0,1.0,0.0,1.0
4,1.0,0.0,1.0,0.0,2.0
5,0.0,3.0,0.0,0.0,3.0


**Calcular TF (1 punto)**

En esta sección debemos usar el dataframe calcular la matriz de TF normalizada por el máximo $\text{ntf}_{i,j}$. Es decir, dividir cada bow en la cantidad de veces de la palabra que aparezca mas veces ese vector. 

$$\text{nft}_{i,j} = \frac{\text{tf}_{i,j}}{max_i({\text{tf}_{i,j})}}$$

In [7]:

def calc_tf(dataset_bow):
    return dataset_bow.apply(lambda row: row / np.max(row), axis=1)

tf = calc_tf(dataset_bow)

In [8]:
tf

Unnamed: 0,t4,t3,t1,t5,t2
0,1.0,0.5,0.5,0.0,0.0
1,0.5,0.5,0.0,1.0,0.5
2,1.0,0.0,0.5,0.0,0.5
3,0.5,1.0,0.5,0.0,0.5
4,0.5,0.0,0.5,0.0,1.0
5,0.0,1.0,0.0,0.0,1.0


**Calcular IDF (1 punto)**


Implementar `calc_idf(dataset_bow)`. Este debe retornar un diccionario en donde las llaves sean las palabras y los valores sean el calculo de cada idf por palabra.

Recordar que $idf_{t_i} = log_{10}\frac{N}{n_i}$ con $N = $ número de documentos y $n_i = $ Número de documentos que contienen la palabra $t_i$ 


In [9]:
def calc_idf(dataset_bow):
    # es necesario que sea un dict?
    dataset_len = len(dataset_bow.index)
    count = dataset_bow.apply(lambda col: np.count_nonzero(col))
    count = count.apply(lambda col: dataset_len / col)
    count = count.apply(lambda col: np.log10(col))
    
    return count


idf = calc_idf(dataset_bow)

In [10]:
idf

t4    0.079181
t3    0.176091
t1    0.176091
t5    0.778151
t2    0.079181
dtype: float64

**Calcular TF-IDF (1 punto)**

Por último, implementar `calc_tf_idf(tf, idf)`. Esta debe cumplir que 

$$tf{-}idf = tf_{i,j} * idf_{i}$$

In [11]:
def calc_tf_idf(tf, idf):
    return tf * idf

tf_idf = calc_tf_idf(tf, idf)

In [12]:
tf_idf

Unnamed: 0,t4,t3,t1,t5,t2
0,0.079181,0.088046,0.088046,0.0,0.0
1,0.039591,0.088046,0.0,0.778151,0.039591
2,0.079181,0.0,0.088046,0.0,0.039591
3,0.039591,0.176091,0.088046,0.0,0.039591
4,0.039591,0.0,0.088046,0.0,0.079181
5,0.0,0.176091,0.0,0.0,0.079181


**Bonus: Hacer una función para realizar una Query (2 puntos extra)**

`calc_query(query, dataset)` función debe retornar un ranking con los documentos mas relevantes para la palabra consultada. 

Sugerencias:

- Primero, recalcular la matriz TF-IDF usando el dataset mas la query. Usen las funciones anteriores para calcular la matriz.
- Luego, usar similitud coseno para comparar los documentos ya precalculados y la consulta. (deben implementar dicha función usando las herramientas básicas de numpy).
- A partir de eso, retornar un ranking con los documentos mas similares.

Deben reportar por lo menos 2 ejemplos.


In [13]:
def calc_query(query, dataset):
    new_dataset = np.append(dataset,query)
    vocab = get_vocab(new_dataset)
    bow = calc_bow(new_dataset, vocab)
    tf = calc_tf(bow)
    idf = calc_idf(bow)
    tf_idf = calc_tf_idf(tf, idf)
    
    query_tf_idf = tf_idf.tail(1).to_numpy()
    tf_idf.drop([tf_idf.shape[0] - 1], axis=0)
    cos_sim = lambda x, y: np.inner(x, y)/(np.linalg.norm(x)*np.linalg.norm(y))
    sim_matrix = tf_idf.apply(cos_sim, args = query_tf_idf)
    
    return sim_matrix

calc_query("t4", dataset)

  import sys


ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

**Usar dato reales (Opcional, sin puntaje)**

Adicionalmente, existe la alternativa de probar tu implementación de tf-idf con un dataset de noticias:

El modelo que creaste anteriormente no debería dejar de funcionar si cargas este dataset.

In [None]:
import pandas as pd
import numpy as np
import re

BASE_URL = 'https://github.com/dccuchile/CC6205/releases/download/Data/{}.json'

dataset = pd.concat([
    pd.read_json(BASE_URL.format('biobio_nacional')),
    pd.read_json(BASE_URL.format('biobio_opinion')),
    pd.read_json(BASE_URL.format('biobio_internacional')),
    pd.read_json(BASE_URL.format('biobio_sociedad')),
    pd.read_json(BASE_URL.format('biobio_economia'))
])


def clean_doc(doc):
    return ' '.join(
        list(
            filter(
                lambda x: x != '',
                re.sub("\?|\¿|\:|\!|\¡|\(|\)|\t|\n|“|”|\"|\'|\s\s+|\.|\,|\;",
                       " ", doc.lower()).split(' '))))


dataset = list(
    map(lambda x: clean_doc(x[0] + '.' + x[1]), dataset[['title',
                                                         'content']].values))