<a href="https://colab.research.google.com/github/Borja-Hoyos/Text_Minning/blob/main/TextRepresentation_master_alumnos_referencia_hacer_copia_antes_de_usar.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Representación numérica de documentos

En este notebook veremos como representar documentos siguiendo la metodología Bag of Words (BoW). 

La metodología Bag of Words (BoW) representa vectorialmente documentos ignorando el orden de las palabras. Para implementar este método hay que disponer de tres elementos:

 1. Un corpus con varios documentos
 2. Un vocabulario de las palabras de nuestro corpus
 3. Una métrica para medir la presencia o no de palabras en los documentos.


En esta ocasión utilizaremos las funcionalidades que nos brinda Scikit-Learn para calcular la representación de nuestros textos.

## Obtención de un corpus

Para este ejercicio vamos a trabajar con un corpus pequeño, que nos permita ver y entender fácilmente los parámetros de las funciones.

In [None]:
corpus = ["Yo quiero agua",
          "Yo quiero cocacola",
          "Yo quiero agua y un agua",
          "Yo no quiero vino",
          "Yo quiero un entrecot"]

## Vocabulario de palabras

En scikit-learn podemos utilizar distintas funciones para obtener el vocabulario de un corpus de documentos. Ambas están presentes dentro del módulo feature_extraction.text y son [`CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) y  [`TfidfVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer). 
Vamos a crear un objeto con cada una de esas clases para introducir nuestro corpus y extraer el vocabulario.


**tTanto las funciones CountVectorizer como TfidfVectorizer cuentan con muchos parámetros personalizables. Algunos de los más relevantes son:**


*   *strip_accents*: Elimina los acentos en codificación ascii o unicode. Por defecto es None. Es preferible hacer una gestión de acentos previas.
*   *lowercase*: Transforma todos los caracteres a minúsculas antes de hacer la tokenización.
*   *tokenizer*: Utiliza un tokenizador específico. Se puede utilizar una de NLTK o de Spacy(computacionalmente menos eficiente).
*   *stop_words*: Si se pone el valor "english" eliminara la lista de stop_words definida en scikit-learn. Se puede utilizar la lista de stopwords de otras librerías o definir unas propias.
*   *ngram_range*: Cálculo de n-gramas en el proceso. Mediante la tubla (min_n, max_n) se pueden incorporar n-gramas al cálculo de la matriz tfidf.
*   *max_df*: Valor por defecto 1.  Ignora los tokens (o n-gramas) que aparecen en más del X % de documentos cuando es menor de 1. Si max_df es mayor que uno se ignorarán los términos que aparecen en más de X documentos.
*   *min_df*: Valor por defecto 1. Ignora los tokens que aparecen  en menos del X % de los documentos. Siendo X el valor de X. (0.01 = 1%, por ejemplo)
*   *max_features*: Máximas características que devuelve la función TfidfVectorizer. Valor mayor que 1. Representa las caracaterísticas más importantes (las más repetidas o comunes) Esto es muy interesante para no sobreentrenar el sistema.
*   *norm*: Valores "l1" y "l2", por defecto "l2". Normaliza los valores entre 0 y 1.
*   *use_idf*: Habilita el uso del inverse-document frequency en la función. Por defecto es True.
*   *smooth_idf*: Suaviza los pesos de IDF sumando una unidad a cada frecuencia. Es muy importante para evitar divisiones por cero.



In [None]:
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.feature_extraction import text

# Creamos los objetos
count_vectorizer = CountVectorizer(___________________)
tfidf_vectorizer = TfidfVectorizer(___________________) # Re-escribimos los valores por defecto para tener el tf-idf básico

# Hacemos Fit con nuestro corpus
count_data = ________________________
tfidf_data = _________________________



In [None]:
count_vectorizer

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=7, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [None]:
# Obtenemos los vocabularios de dos formas:
print("COUNT VECTORIZER")
print("Obtenemos un dictionario que mapea las palabras con su posición en el vector del vocabulario")
print(count_data.vocabulary_)
print("Obtenemos el vocabulario en si mismo como una lista")
print(count_data.get_feature_names())
print("Numero de características:")
print(len(count_data.get_feature_names()))

In [None]:
# Obviamente, dado que hemos utilizado el mismo corpus, obtenemos el mismo resultado con el tfidf_vectorizer.
print("\n\n TF-IDF VECTORIZER")
print("Obtenemos un dictionario que mapea las palabras con su posición en el vector del vocabulario")
print(tfidf_vectorizer._______________________)
print("Obtenemos el vocabulario en si mismo como una lista")
print(tfidf_vectorizer._________________________)
print("Numero de características:")
print(len(tfidf_vectorizer.______________________))

Si imprimimos el objeto tfidf_data podemos ver la configuración de los parámetros de TfidfVectorizer:

In [None]:
tfidf_data

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm=None, preprocessor=None,
                smooth_idf=False, stop_words=None, strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, use_idf=True, vocabulary=None)

## Resultados con distintas métricas
En esta ocasión vamos a mostrar los resultados con dos métricas distintas. El `CountVectorizer` mostrará el conteo de veces que una palabra del vocabulario está presente dentro del documento, el `TfidfVectorizer` mostrará el resultado con la métrica TF-IDF mostrada en los apuntes.

In [None]:
# Resultado del CountVectorizer
count_data_result = count_data.transform(corpus).toarray()
print(count_data_result)

[[1 0 0 0 1 0 1]
 [0 1 0 0 1 0 1]
 [2 0 0 0 1 1 1]
 [0 0 0 1 1 0 1]
 [0 0 1 0 1 1 1]]


In [None]:
# Resultado del TfidfVectorizer
tfidf_data_result = tfidf_data.________________________.toarray()
print(tfidf_data_result)

Vamos a mostrar los resultados con seaborn para que se vean mejor. Importante mencionar que esto se puede hacer cuando el vocabulario es muy reducido, si no podría ocasionar problemas en la memoria.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(16, 6))
# Figura CountVectorizer
sns.heatmap(count_data_result, annot=True,cbar=False,
            xticklabels=_____________________________,
            yticklabels = ["Frase 1", "Frase 2", "Frase 3","Frase 4", "Frase 5"])



In [None]:
plt.figure(figsize=(16, 6))
sns.heatmap(tfidf_data_result, annot=True,cbar=False,
            xticklabels=_______________________________________,
            yticklabels = ["Frase 1", "Frase 2", "Frase 3","Frase 4", "Frase 5"])

# ¿Cómo se utilizaría otro tokenizer u otra lista de palabras vacías?



En primer lugar, dado que vamos a utilizar spacy, instalaremos la librería y el modelo:

In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm

Importamos las librerías y creamos el objeto "nlp" para procesar los textos




In [None]:
import spacy
import es_core_news_sm
nlp = es_core_news_sm.load()


Guardamos las stop words de Spacy en una variable llamada "stop_words". También cogemos los tokens considerados símbolos de punctuación en la variable "punctuations":

In [None]:
import string
spacy_stopwords = spacy.lang.es.stop_words.STOP_WORDS
stop_words = spacy_stopwords
punctuations=string.punctuation

Generamos una función "spacy_tokenizer" que:

In [None]:
def spacy_tokenizer(sentence):
    # Pasamos la frase por el objeto nlp para procesarla
    mytokens = nlp(sentence)

    # Lematizamos los tokens y los convertimos  a minusculas
    mytokens = [ word.lemma_.lower().strip() if word.lemma_ != "--PRON" else word.lower_ for word in mytokens ]

    # Quitamos las stopwords y los signos de puntuacion
    mytokens = [ word for word in mytokens if word not in stop_words and word not in punctuations ]

    # devolver una lsita de tokens
    return mytokens

Utilizamos esa función como tokenizador en TfidfVectorizer:


In [None]:
tfidf_vectorizer = TfidfVectorizer(norm=None, smooth_idf=False, tokenizer = ________________________) # Re-escribimos los valores por defecto para tener el tf-idf básico
tfidf_data = tfidf_vectorizer.fit(corpus)

In [None]:
print("\n\n TF-IDF VECTORIZER")
print("Obtenemos un dictionario que mapea las palabras con su posición en el vector del vocabulario")
print(tfidf_vectorizer._________________)
print("Obtenemos el vocabulario en si mismo como una lista")
print(tfidf_vectorizer.________________)
print("Numero de características:")
print(len(tfidf_vectorizer.__________________))

**Ejercicio**: 

Queremos transformar nuestro dataset de noticias con las siguientes especificaciones:
 - Transformar los primeros 3000 documentos 
 - Se utilice idf y el valor de norm por defecto.
 - Se utilice la función de preprocesado de spacy utilizada anteriormente
 - Se consideren unigramas, bigramas, trigramas
 - Se consideren un máximo de 250 características (max_features)
 - El vectorizador no debe considerar los elementos que aparezcan en menos del 5% de documentos. (min_df)

In [None]:
# Dataset de noticias
!wget "https://github.com/luisgasco/ntic_master_datos/raw/main/datasets/news_summary.csv"

In [None]:
import pandas as pd
news_summary = pd.read_csv('../content/news_summary.csv', encoding='latin-1')

In [None]:
subset = news_summary["text"].to_list()[0:3000]

In [None]:
tfidf_vect = TfidfVectorizer(_____________________________________________)
tfidf_data = tfidf_vect.fit(______________________________________)


In [None]:
tfidf_data.get_feature_names()