# Importación de librerías

In [1]:
import numpy as np

import pandas as pd

import nltk
from nltk.tokenize import regexp_tokenize
from nltk.corpus import stopwords
from nltk.corpus import wordnet as wn
from nltk.stem import WordNetLemmatizer

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

spanish_sw = set(stopwords.words("spanish"))

---
# Ejercicio 1
- La recuperación de información es el proceso de búsqueda, extracción y recomendación de documentos relevantes dentro de un amplio conjunto de datos en función de una consulta específica. Este procedimiento es de vital importancia en aplicaciones como los motores de búsqueda, los sistemas de recomendación y el análisis de texto en general.

- Dado que los documentos suelen estar compuestos por datos no estructurados y, en particular, por texto en lenguaje natural, es necesario en primer lugar transformarlos en una representación computable. Con dicho fin, se pueden utilizar las técnicas de vectorización tradicionales basadas en bolsas de palabras vistas en ejercicios anteriores, las cuales convierten los textos en vectores dispersos dentro de un espacio numérico. A partir de estas representaciones vectoriales de documentos, es posible comparar documentos mediante el empleo de métricas y similitudes como la del coseno, facilitando la identificación de los documentos más relevantes en función de una consulta concreta.

- Seguir los siguientes pasos:
    - Descargar el fichero `train.xlsx` del conjunto de datos "The Spanish Fake News Corpus". Puedes obtener el fichero a través del siguiente link: https://github.com/jpposadas/FakeNewsCorpusSpanish/tree/master
    - Vectoriza la columna “Headline” con diferentes preprocesamientos (lematización, filtrado por nombres, adjetivos y verbos, etc), así como vectorizaciones basadas en bolsas de palabras (como matriz TF-IDF).
    - Calcula la matriz de similitud coseno de los documentos anteriores. Para el segundo documento (índice 1), obtén sus 4 documentos más similares en función de dicha similitud (5 en total si consideramos al propio documento de consulta). Analiza los resultados. ¿Qué documentos son más similares? ¿Qué grado de similitud tienen los distintos documentos? ¿A qué se debe?

In [4]:
# Cargar train.xlsx en un DataFrame
train = pd.read_excel("data/train.xlsx")
train.head()

Unnamed: 0,Id,Category,Topic,Source,Headline,Text,Link
0,1,Fake,Education,El Ruinaversal,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...","RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...",http://www.elruinaversal.com/2017/06/10/rae-in...
1,2,Fake,Education,Hay noticia,"La palabra ""haiga"", aceptada por la RAE","La palabra ""haiga"", aceptada por la RAE La Rea...",https://haynoticia.es/la-palabra-haiga-aceptad...
2,3,Fake,Education,El Ruinaversal,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,http://www.elruinaversal.com/2018/05/06/yordi-...
3,4,True,Education,EL UNIVERSAL,UNAM capacitará a maestros para aprobar prueba...,UNAM capacitará a maestros para aprobar prueba...,http://www.eluniversal.com.mx/articulo/nacion/...
4,5,Fake,Education,Lamula,pretenden aprobar libros escolares con conteni...,Alerta: pretenden aprobar libros escolares con...,https://redaccion.lamula.pe/2018/06/19/memoria...


In [None]:
# Preprocesar la columna "Headline"
def preprocess_text(text):
    word_tokenized = regexp_tokenize(text, r"\w+")
    tagged = nltk.pos_tag(word_tokenized, lang="es")
    lemmatized = []
