# 06 - Ejercicio: Normalización de textos y Bolsa de Palabras

* En el siguiente ejercicio vamos a trabajar con una serie de artículo obtenido de la web "https://www.elmundotoday.com/".


* Estos artículos se encuentran en un fichero csv dentro de la carpeta "data" del proyecto (***./data/corpus_mundo_today.csv***).


* Este CSV esta formado por 3 campos que son:
    - Tema
    - Título
    - Texto
    
    
* El ejercicio consiste en Normalizar este ***Corpus*** tomando el *título* y *texto* como contenido de cada documento y crear 3 ***Bolsa de Palabras*** de la tres formas vistas en el notebbok **"05_Bag_of_Words_BoW"**.


## 1.- Ejercicios de Nomalización:

* Dada una lista en la que cada elemento de la misma tiene el contenido (título + texto) de cada documento del corpus se pide:
<span></span><br><br>
    1. **Crear una función que devuelva los documentos *Tokenizados* (una lista de listas) y con los tokens (palabras) en minúsculas.**
        * **input**: lista de documentos (lista de Strings).
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>
    2. **Crear una función que elimine los tokens que sean signos de puntuación y *Stop-Words*.**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>
    3. **Crear una función que transforme cada token a su lema (*Lematización*)**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>
    4. **Crear una función que elimine todos los tokens que no sean *Nombres* (NOUN, PROPN), *Verbos*, *Advervios* o *Adjetivos*.**
<span></span><br><br>        * **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>        
    5. **Función que dada una lista de documentos, devuelva los documentos normalizados. Este ejercicio ya esta hecho y simplemente tiene que funcionar llamando a las 4 funciones anteriores.**
        * **input**: lista de documentos (lista de Strings).
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.


## 2.- Ejercicios de BoW:

* Aprovechando la normalización realizada anteriormente se pide:
<span></span><br><br>
    6. **Crear una función que dada una lista de documentos (*corpus*) tokenizados, elimine del corpus aquellos tokens que aparecen menos de 'N' veces (N=10) en el corpus**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.
        * **input**: 'N' -> Parámetro que nos indica el número mínimo de apariciones de la palabra en el corpus.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.
<span></span><br><br>       
    7. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras en ONE-HOT-ENCODE con Gensim**
<span></span><br><br>   
    8. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras aplicando el TF-IDF con Scikit**
    
<hr>

In [1]:
import warnings
warnings.filterwarnings(action='ignore')

## 1.- Ejercicios de Nomalización:

* Leemos el corpus y pasamos los documentos (Título + Texto) a una lista

In [2]:
docs_file = '../data/corpus_mundo_today.csv'
docs_list = list()
file_txt = open(docs_file, encoding="utf8").read()
for line in file_txt.split('\n'):
    line = line.split('||')
    docs_list.append(line[1] + ' ' + line[2])
docs_list = docs_list[1:] # Elimino la cabecera del fichero

#### 1. **Crear una función que devuelva los documentos *Tokenizados* (una lista de listas) y con los tokens (palabras) en minúsculas.**

* **input**: lista de documentos (lista de Strings).
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [3]:
import spacy
nlp = spacy.load('es_core_news_sm')

def tokenization(docs_list):
    for index, doc in enumerate(docs_list):
        docs_list[index] = [word.text.strip().lower() for word in nlp(doc) if word.text.strip() != ""]
    return docs_list

#### 2. **Crear una función que elimine los tokens que sean signos de puntuación y *Stop-Words*.**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [4]:
def remove_words(docs):
    for index, doc in enumerate(docs):
        d = nlp(" ".join(doc))
        docs[index] = [word.text for word in d if not word.is_punct and not word.is_stop]
    return docs

#### 3. **Crear una función que transforme cada token a su lema (*Lematización*)**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [5]:
def lematization(docs):
    for index, doc in enumerate(docs):
        d = nlp(" ".join(doc))
        docs[index] = [word.lemma_ for word in d]
    return docs

#### 4. **Crear una función que elimine todos los tokens que no sean *Nombres* (NOUN, PROPN), *Verbos*, *Advervios* o *Adjetivos*.**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [6]:
def filter_words(docs):
    for index, doc in enumerate(docs):
        d = nlp(" ".join(doc))
        docs[index] = [word.text for word in d if word.pos_ in ['NOUN', 'PROPN', 'VERB', 'ADV', 'ADJ']]
    return docs

#### 5. **Función que dada una lista de documentos, devuelva los documentos normalizados. Este ejercicio ya esta hecho y simplemente tiene que funcionar llamando a las 4 funciones anteriores.**

* **input**: lista de documentos (lista de Strings).
* **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.

In [7]:
def normalization(docs_list):
    corpus = tokenization(docs_list)
    corpus = remove_words(corpus)
    corpus = lematization(corpus)
    corpus = filter_words(corpus)
    return corpus

corpus = normalization(docs_list)
print(corpus[0])

['gobierno', 'español', 'sumar', 'junquera', 'condena', 'cumplir', 'puigdemont', 'revés', 'recibido', 'gobierno', 'españo', 'puesto', 'libertad', 'carl', 'puigdemont', 'justicia', 'alemán', 'juez', 'pablo', 'llarén', 'decidido', 'semana', 'instancia', 'ejecutivo', 'sumar', 'oriol', 'junquera', 'condena', 'cumplir', 'líder', 'pdecat', 'exvicepresidente', 'cataluña', 'permanecer', 'prisión', 'madrileño', 'estremero', 'noviembre', 'asumir', 'delito', 'atribuido', 'carl', 'puigdemont', 'tribunal', 'supremo', 'asegurar', 'acto', 'expresidente', 'catalán', 'legislatura', 'quedar', 'impún', 'junquera', 'pagar', 'maniobra', 'ideado', 'burlar', 'justicia', 'alemán', 'líder', 'esquerro', 'republicano', 'enfrentar', 'año', 'prisión', 'seguir', 'junquera', 'caer', 'año', 'parar', 'carl', 'puigdemont', 'alemania', 'junquera', 'sacrificar', 'asumir', 'resignación', 'determinación', 'prometido', 'seguim', 'tuitear', 'trascender', 'decisión', 'llarén', 'fuente', 'anónimo', 'judicial', 'barajar', 'posi

<hr>


## 2.- Ejercicios de BoW:

#### 6. **Crear una función que dada una lista de documentos (*corpus*) tokenizados, elimine del corpus aquellos tokens que aparecen menos de 'N' veces (N=10) en el corpus**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.
* **input**: 'N' -> Parámetro que nos indica el número mínimo de apariciones de la palabra en el corpus.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.

In [8]:
def bow_freq (corpus):
    """Función que cuenta el número de veces que aparece una palabra 
        en el corpus y lo almacena en un diccionario
    """
    bow = dict()
    for doc in corpus:
        for word in doc:
            if word in bow:
                bow[word] += 1
            else:
                bow[word] = 1
    return bow

def drop_less_frecuency_words(corpus, n):
    bow = bow_freq(corpus)
    for index, doc in enumerate(corpus):
        corpus[index] = [word for word in doc if bow[word] >= n]
    return corpus

corpus = drop_less_frecuency_words(corpus, 10)
print(corpus[0])

['gobierno', 'español', 'puigdemont', 'gobierno', 'españo', 'puesto', 'puigdemont', 'semana', 'líder', 'cataluña', 'puigdemont', 'asegurar', 'catalán', 'quedar', 'líder', 'año', 'seguir', 'año', 'puigdemont', 'semana']


#### 7. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras en ONE-HOT-ENCODE con Gensim**

In [9]:
import nltk
import gensim

dictionary = gensim.corpora.Dictionary(corpus)
vectors = [[(token[0], 1) for token in dictionary.doc2bow(doc)] for doc in corpus]

# Resultados
print('Diccionario de palabras -> palabra: id\n')
print(dictionary.token2id)
print('\nApariciones de las palabras en los documentos (id, 1):')
vectors[0]

Diccionario de palabras -> palabra: id

{'asegurar': 0, 'año': 1, 'cataluña': 2, 'catalán': 3, 'españo': 4, 'español': 5, 'gobierno': 6, 'líder': 7, 'puesto': 8, 'puigdemont': 9, 'quedar': 10, 'seguir': 11, 'semana': 12, 'cifuent': 13, 'ciudadano': 14, 'demostrar': 15, 'elección': 16, 'hacer': 17, 'madrid': 18, 'partido': 19, 'pasar': 20, 'presidenta': 21, 'venir': 22, 'decir': 23, 'equipo': 24, 'importante': 25, 'jugar': 26, 'liga': 27, 'ligo': 28, 'mariano': 29, 'mañana': 30, 'nombre': 31, 'país': 32, 'presidencia': 33, 'público': 34, 'rajoy': 35, 'recordar': 36, 'empezar': 37, 'españa': 38, 'hora': 39, 'pedir': 40, 'psoe': 41, 'tipo': 42, 'millón': 43, 'ministro': 44, 'presupuesto': 45, 'salir': 46, 'casa': 47, 'marcar': 48, 'presidente': 49, 'real': 50, 'volver': 51, 'arrimada': 52, 'llevar': 53, 'minuto': 54, 'central': 55, 'diario': 56, 'gracias': 57, 'punto': 58, 'resultado': 59, 'dejar': 60, 'ganar': 61, 'pedro': 62, 'sánchez': 63, 'díaz': 64, 'llegar': 65, 'barcelón': 66, 'cab

[(0, 1),
 (1, 1),
 (2, 1),
 (3, 1),
 (4, 1),
 (5, 1),
 (6, 1),
 (7, 1),
 (8, 1),
 (9, 1),
 (10, 1),
 (11, 1),
 (12, 1)]

#### 8. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras aplicando el TF-IDF con Scikit**

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Transformamos los documentos tokenizados a documentos sin tokenizar
for index, doc in enumerate(corpus):
    corpus[index] = " ".join(doc)
    
tfidf = TfidfVectorizer()
corpus_tfidf = tfidf.fit_transform(corpus)

# Resultados
print(tfidf.get_feature_names())
print(corpus_tfidf.toarray())

['aficionado', 'alavés', 'arrimada', 'asegurar', 'athletic', 'atlético', 'año', 'banco', 'barcelón', 'barça', 'bce', 'betis', 'cabeza', 'campo', 'casa', 'cataluña', 'catalán', 'celta', 'central', 'champions', 'cifuent', 'ciudadano', 'conseguir', 'crisis', 'decir', 'dejar', 'demostrar', 'deportivo', 'diario', 'draghi', 'díaz', 'economía', 'eibar', 'elección', 'empezar', 'equipo', 'espanyol', 'españa', 'españo', 'español', 'estadio', 'europa', 'europeo', 'fmi', 'futbol', 'gallego', 'ganar', 'getafir', 'girón', 'gobierno', 'gol', 'gracias', 'gráfico', 'guindo', 'hablar', 'hacer', 'hora', 'iglesia', 'importante', 'jornada', 'jugador', 'jugar', 'leganés', 'levante', 'liga', 'ligo', 'llegar', 'llevar', 'local', 'líder', 'madrid', 'marcar', 'mariano', 'mañana', 'millón', 'ministro', 'minuto', 'nombre', 'palma', 'partido', 'pasar', 'país', 'pedir', 'pedro', 'pitar', 'presidencia', 'presidenta', 'presidente', 'presupuesto', 'psoe', 'puesto', 'puigdemont', 'punto', 'público', 'quedar', 'rajoy', 