# PEC 2. Introducción a los sistemas de recuperación de información.

En esta PEC vamos a desarrollar un sistema de recuperación de información básico. Partiendo de una lista de documentos de texto tendrás que usar las técnicas de recuperación de información vistas en la asignatura para obtener, procesar y analizar datos útiles a partir del contenido.




```
#TODO: nombre y apellidos
```







---

# **Parte 1**. Tareas básicas



Además de las ya clásicas `pandas` y `numpy`, vamos a utilizar la librería [NTLK](https://es.wikipedia.org/wiki/NLTK) (Natural Language Toolkit), una librería Python utilizada para analizar texto y aprendizaje automático.

In [2]:

pip install pandas


Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'C:\Users\aland\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip' command.


In [3]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'C:\Users\aland\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip' command.


In [42]:
import numpy as np
# import pandas as pd
# import matplotlib.pyplot as plt
# %matplotlib inline

import nltk
nltk.download('stopwords')
nltk.download('punkt')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\aland\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\aland\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## 1.1 Separando las palabras (Tokenization)

El significado de cada sentencia se obtiene de las palabra que contiene. Así que analizando las palabras presentes en un texto se puede interpretar el significado. Así que lo primero que hay que hacer para poder tratar el texto es separar las palabras que lo componen, es decir, hacer una lista  de palabras. El modelo que vamos a utilizar aquí se denomina [**bolsa-de-palabras**](https://es.wikipedia.org/wiki/Modelo_bolsa_de_palabras) (bag-of-words) ya que nos interesan las palabras sin importar su posición o importancia en el documento.


La separación de las palabres o tokenization consiste en separar el texto en palabras, también denominados tokens. Generalmente el `espacio`se utiliza para separar palabras y elementos como los puntos, comas, dos puntos, etc. se utilizan para separar sentencias.




Hay multiples formas de realizar la separación de palabras para un texto dado. 

### 1.1.1 Funciones de Python

Se puede usar la función `split()` para separar una cadena de texto en una lista de palabras. Por defecto `split()` utiliza el espacio en blanco, aunque se puede usar cualquier caracter.


In [43]:
text01 = "Children shouldn't drink a sugary drink before bed."
text01.split(' ')

['Children', "shouldn't", 'drink', 'a', 'sugary', 'drink', 'before', 'bed.']

El método `split()` de Python no considera los signos de puntuación como elementos separados.



### 1.1.2 Expresiones regulares

El módulo `re` ofrece un conjunto de funciones para buscar coincidencias en una cadena de texto. Una *expresión regular* es una secuencia de caracteres que definen un patrón de búsqueda.

In [44]:
import re

text02 = """There are multiple ways we can perform tokenization on given text data. We can choose any method based on language, library and purpose of modeling."""
tokens = re.split(r"\s", text02)  # TODO: usar una expresión regular para separar las palabras
print(tokens)


['There', 'are', 'multiple', 'ways', 'we', 'can', 'perform', 'tokenization', 'on', 'given', 'text', 'data.', 'We', 'can', 'choose', 'any', 'method', 'based', 'on', 'language,', 'library', 'and', 'purpose', 'of', 'modeling.']


### 1.1.3 Con NLTK

Natural Language Toolkit (NLTK) tiene la función `word_tokenize()` para separación de palabras y `sent_tokenize()` para separación de sentencias.



In [45]:
from nltk.tokenize import sent_tokenize, word_tokenize

text03 = "<p>This is the first sentence. A gallon-of-milk in the U.S. costs $2.99. Is this the third sentence? Yes, it is!</p>"

for sent in sent_tokenize(text03): # TODO: separar las sentencias 
  print (word_tokenize(sent)) # TODO: separar las palabras  

['<', 'p', '>', 'This', 'is', 'the', 'first', 'sentence', '.']
['A', 'gallon-of-milk', 'in', 'the', 'U.S.', 'costs', '$', '2.99', '.']
['Is', 'this', 'the', 'third', 'sentence', '?']
['Yes', ',', 'it', 'is', '!', '<', '/p', '>']


## 1.2. Eliminación de números y símbolos. Conversión a minúsculas.

Como se puede comprobar, `word_tokenizer()` mantiene los signos de puntuación así como los los números y otros símbolos.

Una estrategia para reducir el número de palabras/tokens es convertirlas a minúsculas, pues algunos signos de puntuación modifican la letra inicial de las palabras. Así se consigue reducir el número de variantes de una misma palabra.




In [46]:
import string

def remove_tags (s):
 
  p = re.compile('<.*?>')  # TODO: eliminar tags html
  return re.sub(p,'', s)  # TODO

# TODO : eliminar tags, tokenizar, convertir a minúsculas y eliminar símbolos no alfabéticos y números 
def tokenize_and_remove_punctuations(s):
    remove_tag = remove_tags(s)
    simbol_to_remove = re.compile('[,.!?$0-9]')
    
    removed_text = re.sub(simbol_to_remove, '', remove_tag)
    
    return word_tokenize((removed_text.lower()).replace("-", " "))


print (tokenize_and_remove_punctuations (text03))



['this', 'is', 'the', 'first', 'sentence', 'a', 'gallon', 'of', 'milk', 'in', 'the', 'us', 'costs', 'is', 'this', 'the', 'third', 'sentence', 'yes', 'it', 'is']


## 1.3. Palabras vacías

Las *palabras vacías* (stopwords) son palabras más comunes en cualquier lenguaje, tienen sentido gramatical pero con poco significado para el análisis de un texto. Estas palabras vacías se incluyen artículos, preposiciones, conjunciones, pronombres, etc. así que su eliminación reduce considerablemente el número de palabras.

NLTK tiene listas de palabras vacías en 16 idiomas. En este caso, se ha cargado la lista en inglés.



In [47]:
# TODO : dada una lista de tokens, suprimir aquellos que sean palabras vacías o que su longitud es menor o igual 2


def remove_stop_words(tokens):
    stopwords = nltk.corpus.stopwords.words('english')
    filtered_words = [x for x in tokens if x.lower() not in stopwords and len(x) > 2]  # TODO
    return filtered_words


len (remove_stop_words ( tokenize_and_remove_punctuations (text03)  ) ) == 8


True

## 1.4. Normalización

Muchos idiomas contienen palabras derivadas de otras y esto se denomina [flexión](https://es.wikipedia.org/wiki/Flexi%C3%B3n_(ling%C3%BC%C3%ADstica)). La flexión es la modificación de una para expresar diferentes categorías gramaticales como persona, número, género, etc.

Tratar esta flexión para llevar las palabras a una forma base se denomina **normalización de palabras**. La normalización permite que si se busca por una palabra se haga al mismo tiempo por todas sus flexiones.

La **lematización** es el proceso de reducir la inflexión de las palabras para llevarla a su forma origen o raíz. El lema es la parte de la palabra a la que se añade la flexión.

En NLTK hay disponibles diferentes lematizadores aunque aquí vamos a utilizar el más conocido: [algoritmo de Porter](https://es.wikipedia.org/wiki/Algoritmo_de_Porter). 


Podéis ver algo más de estos procesos en 
https://www.datacamp.com/community/tutorials/stemming-lemmatization-python

In [48]:

from nltk.stem import PorterStemmer

def stem_words(tokens):
    stemmer = PorterStemmer()
    # TODO : obtener la versión básica de todos los tokens
    stemmed_words = [stemmer.stem(x) for x in tokens]
    return stemmed_words


stem_words ( remove_stop_words(tokenize_and_remove_punctuations (text03)) )


['first', 'sentenc', 'gallon', 'milk', 'cost', 'third', 'sentenc', 'ye']

Una vez que ya están realizadas las operaciones básicas sobre el texto, es momento de ponerlo todo junto en la función `preprocess_data ()` que recibe un array de pares `(documentId, text)` y aplica las transformaciones anteriormente descritas.

In [49]:
def preprocess_text ( text , stem=True):
    tokens = tokenize_and_remove_punctuations (text)        # TODO : tokenizar y eliminar puntuación
    filtered_tokens = remove_stop_words(tokens)     # TODO : eliminar palabras vacías
    if stem :
      stemmed_tokens = stem_words(filtered_tokens)    # TODO : normalizar
    else:
       filtered_tokens # TODO
    return stemmed_tokens

def preprocess_data(contents, stem=True):
    dataDict = {}
    for content in contents:
        dataDict[content[0]] = preprocess_text(content[1], stem)
    return dataDict


In [50]:
document_1 = "I love watching movies when it's cold outside ;-)"
document_2 = "Toy Story is the best animation movie ever, I love it!"
document_3 = "Watching horror movies alone at night is really scary"
document_4 = "He loves to watch films filled with suspense and unexpected plot twists"
document_5 = "My mom loves to watch movies. My dad hates movie theaters. My brothers like any kind of movie. And I haven't watched a single movie since I got into college"
documents = [document_1, document_2, document_3, document_4, document_5]

docIds = ['doc01','doc02','doc03','doc04','doc05']

documents_list = list(zip(docIds,documents))# TODO : generar una lista de la forma  [('doc01': 'I love..'), ... ]


data_docs = preprocess_data(documents_list)  # TODO : preprocesar la lista de documentos de ejemplo
data_docs


{'doc01': ['love', 'watch', 'movi', 'cold', 'outsid'],
 'doc02': ['toy', 'stori', 'best', 'anim', 'movi', 'ever', 'love'],
 'doc03': ['watch', 'horror', 'movi', 'alon', 'night', 'realli', 'scari'],
 'doc04': ['love',
  'watch',
  'film',
  'fill',
  'suspens',
  'unexpect',
  'plot',
  'twist'],
 'doc05': ['mom',
  'love',
  'watch',
  'movi',
  'dad',
  'hate',
  'movi',
  'theater',
  'brother',
  'like',
  'kind',
  'movi',
  "n't",
  'watch',
  'singl',
  'movi',
  'sinc',
  'got',
  'colleg']}

## 1.5. Frecuencia de las palabras


Ahora vamos a ver cómo de importante es una palabra/token en los documentos. 

Lo primero que hay que hacer es obtener un vocabulario que no es más que la lista de todos los tokens únicos que aparecen en todos los documentos.



In [89]:
def get_vocabulary(data):
    tokens = []
    for token_list in data.values():
        tokens = tokens + token_list # TODO

    fdist={}
    for word in set(tokens):    
        fdist[word] = tokens.count(word)
    return list(fdist.keys())
    # return fdist

get_vocabulary (data_docs)


['twist',
 'anim',
 'watch',
 'sinc',
 'toy',
 'kind',
 'film',
 'suspens',
 'singl',
 'night',
 'mom',
 'fill',
 'cold',
 'stori',
 'got',
 'ever',
 'outsid',
 'plot',
 'horror',
 'dad',
 'like',
 'unexpect',
 "n't",
 'love',
 'realli',
 'hate',
 'brother',
 'movi',
 'scari',
 'colleg',
 'alon',
 'best',
 'theater']

Para ello podemos calcular la frecuencia de cada término contando el número de veces que aparece en cada documento, que será una medida de su peso o importancia.

$TF (t,d) = f_{t,d}$  (#número de repeticiones del término $t$ en el documento $d$)

In [67]:
a=FreqDist(data_docs['doc05'])
a['mom']


1

In [86]:
from nltk.probability import FreqDist

def calculate_tf(tokens):
    tf_score = {}
    for token in tokens:
        tf_score[token] = FreqDist(tokens)[token] # TODO: calcular tf
    
    return tf_score

fdist = calculate_tf ( data_docs['doc05'])

fdist

{'mom': 1,
 'love': 1,
 'watch': 2,
 'movi': 4,
 'dad': 1,
 'hate': 1,
 'theater': 1,
 'brother': 1,
 'like': 1,
 'kind': 1,
 "n't": 1,
 'singl': 1,
 'sinc': 1,
 'got': 1,
 'colleg': 1}

La **frecuencia inversa de documentos** para un término $t$ es el logaritmo (en este caso en base 2) del cociente entre el número de documentos y el número de documentos en los que aparece el término $t$.


$ IDF (t) = log_{2} \frac{N}{\{d \in D : t \in d \}} $

A mayor puntuación de TF*IDF el término es más específico y a menor puntuación, más genérico.

In [100]:
import math 

def calculate_idf(data):
    idf_score = {}
    N = len(data)        # TODO: número de documentos
    all_words = get_vocabulary(data)# TODO: obtener el vocabulario
    for word in all_words:
        word_count = 0
        for token_list in data.values():
            if word in token_list:
                word_count = word_count +1 
            
        
        idf_score[word] = math.log(N/word_count)# TODO: calcular idf
    return idf_score

idf_score = calculate_idf ( data_docs)
idf_score


{'twist': 1.6094379124341003,
 'anim': 1.6094379124341003,
 'watch': 0.22314355131420976,
 'sinc': 1.6094379124341003,
 'toy': 1.6094379124341003,
 'kind': 1.6094379124341003,
 'film': 1.6094379124341003,
 'suspens': 1.6094379124341003,
 'singl': 1.6094379124341003,
 'night': 1.6094379124341003,
 'mom': 1.6094379124341003,
 'fill': 1.6094379124341003,
 'cold': 1.6094379124341003,
 'stori': 1.6094379124341003,
 'got': 1.6094379124341003,
 'ever': 1.6094379124341003,
 'outsid': 1.6094379124341003,
 'plot': 1.6094379124341003,
 'horror': 1.6094379124341003,
 'dad': 1.6094379124341003,
 'like': 1.6094379124341003,
 'unexpect': 1.6094379124341003,
 "n't": 1.6094379124341003,
 'love': 0.22314355131420976,
 'realli': 1.6094379124341003,
 'hate': 1.6094379124341003,
 'brother': 1.6094379124341003,
 'movi': 0.22314355131420976,
 'scari': 1.6094379124341003,
 'colleg': 1.6094379124341003,
 'alon': 1.6094379124341003,
 'best': 1.6094379124341003,
 'theater': 1.6094379124341003}

In [None]:
def calculate_tfidf(data, idf_score):
    scores = {}
    for key,value in data.items():
        scores[key] =         # TODO: calcular tf
    for doc,tf_scores :       # TODO
        for token, score   :  # TODO
            # TODO
            # TODO
            # TODO: calcular tf*idf
    return scores

tfidf_score = calculate_tfidf ( data_docs, idf_score)

## 1.6. Generar el espacio vectorial

Usando las funciones anteriores vamos a construir la matriz de documentos (en filas) y términos (en columnas). Para facilitar la tarea usaremos una estructura de datos ya conocida, el **dataframe**.


In [None]:
import pandas as pd

def generate_dataframe ( data ):
  all_words =  # TODO : obtener el vocabulario
  idf_score =  # TODO : calcular idf
  tf_idf_score =  # TODO : calcular if*idf

  table = []
  for doc in :  # TODO : recorrer todas las frecuecias de los documentos
      d = {} # TODO
             # TODO 
             # TODO
      table  # TODO

  df = pd.DataFrame ( table , index = tf_idf_score.keys())
  return df

df_data = generate_dataframe (data_docs)
df_data.head(5)

## 1.7. Generar el índice invertido

De manera similar, vamos a generar un índice invertido que almacenaremos en una estructura de datos Python: el **diccionario**.




In [None]:
def generate_inverted_index(data):

    all_words =    # TODO : obtener el vocabulario
    idf_score =    # TODO : calcular idf
    tf_idf_score = # TODO : calcular if*idf

    index = {}
    for word in all_words:
        for doc, tokens # TODO 
            # TODO
            # TODO 
            # TODO
            # TODO
            # TODO 
    return index

inverted_index = generate_inverted_index (data_docs)

inverted_index

## 1.8. Resolución de consultas



Vamos a resolver consultas (obtener los documentos más relevantes) considerando la consulta como un vector y comparándolo con el conjunto de documentos mediante la **similitud del coseno**. 

Para ello vamos a utilizar la librería [sklearn](https://scikit-learn.org/stable/), aunque sólo la funcionalidad para calcular la similitud del coseno. 

In [None]:
# generar un dataframe para la consulta

q = "I watched alone a horror movie"

def generate_query_dataframe ( vocabulary , q ):

  q_dict =  # TODO : preprocesar las palabras de la consulta

  d =  {}   # TODO : generar un dataframe con la misma estructura 
  table = []  
            # TODO : si el token está en la consulta se pone 1 en otro caso 0
  table.append (d)

  df = pd.DataFrame ( table  , index ={'q1'} )
  return df 

df_query =  generate_query_dataframe ( get_vocabulary(data_docs)  , q )
df_query.head()

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

%time q_cossim =  #TODO : calcular la similitud del coseno e indicar qué documento es el más próximo a la consulta

print (q_cossim.flatten())
ind = np.unravel_index ( np.argmax(q_cossim, axis=None), q_cossim.shape)
print ('Documento más similar : %s (%s) ' %  (documents[ind[0]],docIds[ind[0]]) )

# Parte 2. Stack Overflow

Stack Overflow es un sitio de preguntas y respuestas para programadores profesionales y aficionados. Contiene preguntas y respuestas sobre una amplia gama de temas de programación.

En este ejercicio vamos a usar en subconjunto del dataset original que contiene 500 posts. El dataset se obtiene del volcado de Stack Overflow en Big Query de Google.

Lo primero que hay que hacer es leer línea por línea el archivo JSON `stackoverflow-test.json` y meterlo en lun DataFrame de pandas. (Nota: `lines=True` indica que se trate cada línea como una cadena json) 

In [None]:
from google.colab import files # subir archivo
uploaded = files.upload()

In [None]:
stackoverflow_df =  # TODO

In [None]:
stackoverflow_df.head(5)

Examinar el dataset para ver qué dimensiones y qué tipos de datos contiene.

In [None]:
 # TODO

In [None]:
 # TODO

Observad que el dataset tiene 19 campos que incluyen título `title`, cuerpo `body`, `tags`, fechas y otros metadatos que no necesitaremos en esta ocasión. 


El interés se centra en el cuerpo y en el título que forman la fuente de texto.Para ello vamos a crear un campo `text` que combina `title` y `body` en uno solo.

In [None]:
stackoverflow_df['text'] =  # TODO
stackoverflow_df['text'][3] 

Como se puede observar el texto contiene bastante "ruido" y es necesario procesarlo para que pueda ser útil. Hay que conseguir una cadena de texto en el que se eliminen palabras vacías, tags de html, carácteres extraños, etc. No resulta recomendable lematizar las palabras en esta ocasión.

In [None]:
stackoverflow_df['mtext'] = # TODO

In [None]:
stackoverflow_df.head(5)
  

## 2.1 Count Vectorizer

A continuación se necesita obtener un vocabulario de palabras usadas y comenzar el proceso de contabilización.

La **vectorización** es el proceso por el que se convierte una colección de textos en un vector de características numérico. El modelo que seguimos es el de bolsa de palabras o Bag-of-Words, donde los documentos se describen por las palabras que aparecen en el texto, ignorando su posición relativa o su importancia en el texto.

**CountVectorizer** convierte una colección de documentos en una matriz de contadores que son las apariciones de cada token en cada documento.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer (max_df=0.85) # max_df : eliminar si la palabra está en el 85% de los documentos

word_count_vector = vectorizer.  # TODO : transformar el texto limpio


Una vez contabilizado el texto se pueden ver algunas palabras del vocabulario:

In [None]:
list(vectorizer.vocabulary_.keys())[:10]

Las columnas de la matriz son las características o tokens detectados en el texto y se pueden ver con la función `get_feature_names()`.

In [None]:
print (vectorizer.get_feature_names()[-10:] )

vocabulary = vectorizer.get_feature_names()

El resultado es una matriz `sparse matrix` que representa las cuentas de las palabras. Cada columna representa una palabra en el vocabulario y cada fila representa un documento (un post) en el datataset y cada celda el números de apariciones de la palabra en el documento.

**¿Cuál es el tamaño del vocabulario?**


In [None]:
# TODO

Por comodidad, podemos convertir la matriz en un DataFrame en el que las filas sean los documentos y las columnas el vocabulario:

In [None]:
wc_df = pd.DataFrame () # TODO

Con del DataFrame es más fácil hacer consultas. 

**¿En qué post de stackoverflow aparece más veces la palabra `eclipse`?**



In [None]:
eclipse_idx =  # TODO

stackoverflow_df [stackoverflow_df.index == eclipse_idx]

## 2.2 TF*IDF TfidfTransformer


Ya hemos visto en qué consiste el método $TF*IDF$. Con el objeto **TfidfTransformer** se pueden calcular las puntuaciones TF-IDF.

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer

transformer = TfidfTransformer (smooth_idf=True, use_idf=True)
tf_idf_matrix = transformer.  #TODO : transformar word_count_vector en tf*idf

SyntaxError: invalid syntax (<ipython-input-29-60dc030094af>, line 4)

Este código ha generado una matriz de puntuaciones tf-idf. ¿Las dimensiones de esta matriz coinciden con la obtenida de `CountVectorize`?

In [None]:
 #TODO

De la misma forma, vamos a convertir la matriz en un DataFrame:

In [None]:
tf_idf_df = pd.DataFrame () # TODO

tf_idf_df[tf_idf_df['python']>0.1]['python']

Es posible ordenar valores tf-idf en orden descendente:

In [None]:
tf_idf_df['python'].nlargest(n=5)

El objetivo a continuación es extraer las $n$ palabras clave (`keywords`) que mejor representen cada una de las cuestiones planteadas en los datos de stackoverflow, según las puntuaciones tf-idf.





In [None]:
def extract_topn_keywords (row, vocabulary, topn=5):
  # TODO 
  # TODO
  
  result = {}
  # TODO
   
  return result
  
for row in tf_idf_df[0:2].iterrows():
  print (extract_topn_keywords(row[1] , vocabulary))

In [None]:
stackoverflow_df['keywords'] =  #TODO : para cada documento generar una columna con el diccionario obtenido


In [None]:
stackoverflow_df.tail(5)

Ahora hay que buscar los dos posts que sean más similares entre sí. Para ello vamos a calcular la **similitud del coseno** entre las matrices tf- idf:

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

tf_idf_cossim =  # TODO
np.fill_diagonal(tf_idf_cossim, 0.0) # anular la diagonal principal
ind =  # TODO: localizar el máximo


In [None]:
# TODO : visualizar ambos posts

In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pylab as plt

f, ax = plt.subplots(figsize=(15, 15))

A = tf_idf_cossim.flatten().reshape (500,500)

mask = np.zeros_like(A, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

ax = sns.heatmap(A, mask=mask, square=True,  fmt='.2f', cbar_kws={"shrink": .5},
                 vmax=1.0, vmin=.3, cmap="hot")

ax.set_title("Heatmap of cosine similarity scores").set_fontsize(15)


ax.set_xlabel("")
ax.set_ylabel("")
plt.show()

En esta última sección,  vamos a presentar el algoritmo de clustering [K-Means](https://en.wikipedia.org/wiki/K-means_clustering), un algoritmo de clustering no supervisado que nos va a agrupar las diferentes cuestiones planteadas en Stack Overflow en diferentes grupos.


El objetivo de K-Means es sencillo: agrupar datos similares y descubrir patrones subyacentes. Para lograr esto, K-Means busca un número fijo $k$ de centroides en el dataset. Un centroide es el centro de un cluster y un cluster es una collección de datos reunidos que tienen ciertas similitudes entre ellos. El ‘means’ se refiere al promediado de los datos encontrando el centroide. El algoritmo es no supervisado pues no tiene conocimiento de los grupos en el dataset, es decir, encontrará los grupos subyacentes en el dataset.

Vamos a ver cómo funciona K-Means para los datos de tf-idf:

In [None]:
from sklearn.cluster import KMeans

k = 5 
kmeans = KMeans(n_clusters=k).fit(tf_idf_df)

El algoritmo ha agrupado cada uno de los documentos en uno de los 5 cluster definidos:

In [None]:
kmeans.labels_ 

Una cuestión importante es que el parámetro que indica el número de cluster $k$ hay que proporcionárselo y no sabemos, a priori, cuántos clúster podría haber subyacentes.

Para ello vamos a realizar el proceso con varios valores de $k$ para ver cuál es más adecuado:

In [None]:
def run_KMeans(max_k, data):
    max_k += 1
    kmeans_results = dict()
    for k in range(2 , max_k):
        kmeans = KMeans(n_clusters =  # TODO
                        , init = 'k-means++'
                        , n_init = 10
                        , tol = 0.0001
                        , n_jobs = -1
                        , random_state = 1
                        , algorithm = 'full')

        kmeans_results [] =  # TODO : poner en un diccionario
    return kmeans_results

kmeans_results = kmeans_results = run_KMeans (12, tf_idf_df)

Para determinar cómo de cohesionado está un cluster en relación con los otros clusters existe una medida denominada silueta (silhouette) que nos indica precisamente esto:

In [None]:
from sklearn.metrics import silhouette_score

def silhouette(kmeans_dict, df, plot=False):
    sil = dict()
    for k, kmeans in kmeans_dict.items():      
        kmeans_labels = kmeans.predict(df)
        silhouette_avg = silhouette_score(df, kmeans_labels) 
        sil[] = # TODO: añadir a diccionario

    return sil

sil_results = silhouette ( kmeans_results, tf_idf_df )
print (sil_results)

# TODO: Qué valor de k obtiene el mejor valor de silueta 
best_k = 
print (best_k)

Una vez obtenido el valor de cluster que mejor podría describir la agrupación de los datos, vamos a hacer una predicción sobre los datos con la función `fit_predict` con el objeto kmeans que corresponde a `best_k`:

In [None]:
prediction =  # TODO

In [None]:
stackoverflow_df['cluster'] =  # TODO: añadir las predicciones a stackoverflow_df

stackoverflow_df.head(5)

Una vez definidos los clusters, vamos a ver cuáles son las palabras clave que definen cada uno de los clusters:

In [None]:
# Definir un par de funciones auxiliares

def get_top_features_cluster(tf_idf_array, prediction, n_feats):
    labels = np.unique(prediction)
    dfs = []
    for label in labels:
        id_temp = np.where(prediction==label) # 
        x_means = np.mean(tf_idf_array[id_temp], axis = 0) # 
        sorted_means = np.argsort(x_means)[::-1][:n_feats] # 
        features = vectorizer.get_feature_names()
        best_features = [(features[i], x_means[i]) for i in sorted_means]
        df = pd.DataFrame(best_features, columns = ['words', 'score'])
        dfs.append(df)
    return dfs


def plotWords(dfs, n_feats):
    plt.figure(figsize=(8, 4))
    for i in range(0, len(dfs)):
        plt.title(("Most Common Words in Cluster {}".format(i)), fontsize=10, fontweight='bold')
        sns.barplot(x = 'score' , y = 'words', orient = 'h' , data = dfs[i][:n_feats])
        plt.show()

n_feats = 5 # Num. palabras a representar
dfs = get_top_features_cluster(tf_idf_df.to_numpy(), prediction, n_feats)
plotWords(dfs, n_feats)  # 

**¿En qué cluster se encuentran las preguntas relativas a Android?** 

**¿De qué tratan los post/preguntas/documentos que se encuentran en el cluster 7?**

---


# Parte 3. Declaración Universal de los Derechos Humanos

La [Declaración Universal de los Derechos Humanos](https://en.wikipedia.org/wiki/Universal_Declaration_of_Human_Rights) es un documento adoptado por la Asamblea General de las Naciones Unidas en su Resolución 217 A (III), el 10 de diciembre de 1948 en París, ​ que recoge en sus 30 artículos los derechos humanos considerados básicos.

In [None]:
nltk.download('udhr')
  
from nltk.corpus import udhr

Una vez importado el contenido, para ver los idiomas en los que se encuentran disponible:


In [None]:
udhr.fileids()[:10]


Vamos a seleccionar 5 idiomas para recopilar estadísticas: 4 vienen prefijados y 1 será de tu elección

In [None]:
langs = ['English-Latin1', 'Spanish_Espanol-Latin1', 'French_Francais-Latin1',
         'Catalan_Catala-Latin1', ''] #TODO

Crear un Dataframe con los siguientes datos de cada idioma:

- Número de palabras en la Declaración Universal de Derecho Humanos (UDHR, en inglés)

- Número de palabras únicas

- Longitud media de las palabras

- Número de sentencias incluidas

- Número medio de palabras por sentencia


In [None]:
def generate_udhr_stats():
  np_udhr=[]
  columns=['Language', 'WordCount','WordCountUnique',
           'NumberSentences','MeanWordLength','MeanWordsPerSentence']
          

    for lang in langs:
    text = udhr.raw (lang)
    # TODO
    # TODO
    # TODO
    # TODO
    # TODO
    # TODO
    
    np_udhr.       # TODO
  return pd.DataFrame() # TODO

udhr_df = generate_udhr_stats()

In [None]:
udhr_df.head(5)

¿Cuál es la ***diversidad léxica*** (relación del número de palabras distintas entre el número total de palabras) en cada idioma? 

In [None]:
def lexical_diversity (row):
  return  # TODO

udhr_df['LD'] =  # TODO

In [None]:
udhr_df

---


La **ley Zipf** debe su nombre al lingüista norteamericano George Kingsley Zipf y dictamina que un pequeño número de palabras se utilizan todo el tiempo mientras que una gran mayoría de ellas apenas se utiliza. No es muy sorprendente que palabras muy frecuentes en textos en inglés sean `the`, `of` y similares, y que palabras como `intrauterine` apenas se utilicen. [https://en.wikipedia.org/wiki/Zipf%27s_law]

La ley Zipf puede escribirse de la siguiente forma: la $r$-ésima palabra más frecuente $f(r)$ escala según la fórmula: $f(r) \propto \frac{1}{r^{\alpha}}$ con $\alpha \approx 1$.


In [None]:
import operator
from nltk.probability import FreqDist

text = udhr.raw( ) # TODO : elegir un idioma 

token_dict =  # TODO : obtener la frecuencia de todas las palabras 
sorted_token_dict =  # TODO : ordenar y quedarse con las 50 más frecuentes


sorted_token_list


In [None]:
def createZipfTable(freqs):
  zipf_table = []
  top_frequency =   # TODO : la palabra más frecuente

  for index, item in enumerate(freqs , start=1):
    relative_frequency = "1/{}".format(index)
    zipf_frequency = top_frequency * (1 / index)
    zipf_table.append({"word": item[0], "actual_frequency": item[1], 
                       "relative_frequency": relative_frequency , 
                       "zipf_frequency": zipf_frequency })

  return zipf_table


zipf_table = createZipfTable (sorted_token_list)


print("|Rank|    Word    |       Freq | Zipf Frac  | Zipf Freq  |")
format_string = "|{:4}|{:12}|{:12.0f}|{:>12}|{:12.2f}|"
for index, item in enumerate(zipf_table,start=1):
        print(format_string.format(index,item["word"],item["actual_frequency"],
                                   item["relative_frequency"],item["zipf_frequency"]))

In [None]:
import numpy as np
import matplotlib.pyplot as plt

ranks = list (range ( 1, 1+len (zipf_table) ))
frequencies = [ rec['actual_frequency']  for rec in zipf_table ]
zipf_frequencies = [ rec['zipf_frequency'] for rec in zipf_table ] 

plt.figure(figsize=(8,6))

plt.title("Word Frequencies in UDHR:")
plt.ylabel("Total Number of Occurrences")
plt.xlabel("Rank of words")

plt.plot(
    ranks,
    frequencies, color='blue', label='Actual freq.',
    alpha=0.5
  )


plt.plot(
    ranks,
    zipf_frequencies, color="orange", label='Expected Zipf.',linestyle='--',
    alpha=0.5
  )

plt.legend()

**Comparar si los diferentes idiomas elegidos siguen la ley Zipf o divergen de ella.**