# 06 - Ejercicio: Normalización de textos y Bolsa de Palabras

* En el siguiente ejercicio vamos a trabajar con una serie de artículo obtenido de la web "https://www.elmundotoday.com/".


* Estos artículos se encuentran en un fichero csv dentro de la carpeta "data" del proyecto (***./data/corpus_mundo_today.csv***).


* Este CSV esta formado por 3 campos que son:
    - Tema
    - Título
    - Texto
    
    
* El ejercicio consiste en Normalizar este ***Corpus*** tomando el *título* y *texto* como contenido de cada documento y crear 3 ***Bolsa de Palabras*** de la tres formas vistas en el notebbok **"05_Bag_of_Words_BoW"**.


## 1.- Ejercicios de Nomalización:

* Dada una lista en la que cada elemento de la misma tiene el contenido (título + texto) de cada documento del corpus se pide:
<span></span><br><br>
    1. **Crear una función que devuelva los documentos *Tokenizados* (una lista de listas) y con los tokens (palabras) en minúsculas.**
        * **input**: lista de documentos (lista de Strings).
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>
    2. **Crear una función que elimine los tokens que sean signos de puntuación y *Stop-Words*.**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>
    3. **Crear una función que transforme cada token a su lema (*Lematización*)**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>
    4. **Crear una función que elimine todos los tokens que no sean *Nombres* (NOUN, PROPN), *Verbos*, *Advervios* o *Adjetivos*.**
<span></span><br><br>        * **input**: lista de listas, en la que cada lista contiene los tokens del documento.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento.
<span></span><br><br>        
    5. **Función que dada una lista de documentos, devuelva los documentos normalizados. Este ejercicio ya esta hecho y simplemente tiene que funcionar llamando a las 4 funciones anteriores.**
        * **input**: lista de documentos (lista de Strings).
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.


## 2.- Ejercicios de BoW:

* Aprovechando la normalización realizada anteriormente se pide:
<span></span><br><br>
    6. **Crear una función que dada una lista de documentos (*corpus*) tokenizados, elimine del corpus aquellos tokens que aparecen menos de 'N' veces (N=10) en el corpus**
        * **input**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.
        * **input**: 'N' -> Parámetro que nos indica el número mínimo de apariciones de la palabra en el corpus.
        * **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.
<span></span><br><br>    
    7. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras por frecuencia de aparición con NLTK**
<span></span><br><br>    
    8. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras en ONE-HOT-ENCODE con Gensim**
<span></span><br><br>   
    9. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras aplicando el TF-IDF con Scikit**
    
<hr>

## 1.- Ejercicios de Nomalización:

* Leemos el corpus y pasamos los documentos (Título + Texto) a una lista

In [1]:
docs_file = '../data/corpus_mundo_today.csv'
docs_list = list()
file_txt = open(docs_file, encoding="utf8").read()
for line in file_txt.split('\n'):
    line = line.split('||')
    docs_list.append(line[1] + ' ' + line[2])
docs_list = docs_list[1:] # Elimino la cabecera del fichero

#### 1. **Crear una función que devuelva los documentos *Tokenizados* (una lista de listas) y con los tokens (palabras) en minúsculas.**

* **input**: lista de documentos (lista de Strings).
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [2]:
import spacy
nlp = spacy.load('es_core_news_sm')

def tokenization(docs_list):
    for index, doc in enumerate(docs_list):
        docs_list[index] = [word.text.strip().lower() for word in nlp(doc) if word.text.strip() != ""]
    return docs_list

#### 2. **Crear una función que elimine los tokens que sean signos de puntuación y *Stop-Words*.**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [3]:
def remove_words(docs):
    for index, doc in enumerate(docs):
        d = spacy.tokens.doc.Doc(nlp.vocab, words=doc)
        docs[index] = [word.text for word in d if not word.is_punct and not word.is_stop]
    return docs

#### 3. **Crear una función que transforme cada token a su lema (*Lematización*)**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [4]:
def lematization(docs):
    for index, doc in enumerate(docs):
        d = spacy.tokens.doc.Doc(nlp.vocab, words=doc)
        docs[index] = [word.lemma_ for word in d]
    return docs

#### 4. **Crear una función que elimine todos los tokens que no sean *Nombres* (NOUN, PROPN), *Verbos*, *Advervios* o *Adjetivos*.**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento.

In [5]:
def filter_words(docs):
    for index, doc in enumerate(docs):
        d = nlp(" ".join(doc))
        docs[index] = [word.text for word in d if word.pos_ in ['NOUN', 'PROPN', 'VERB', 'ADV', 'ADJ']]
    return docs

#### 5. **Función que dada una lista de documentos, devuelva los documentos normalizados. Este ejercicio ya esta hecho y simplemente tiene que funcionar llamando a las 4 funciones anteriores.**

* **input**: lista de documentos (lista de Strings).
* **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.

In [6]:
def normalization(docs_list):
    corpus = tokenization(docs_list)
    corpus = remove_words(corpus)
    corpus = lematization(corpus)
    corpus = filter_words(corpus)
    return corpus

corpus = normalization(docs_list)
print(corpus[0])

['gobernar', 'español', 'sumar', 'junquera', 'cumplir', 'puigdemont', 'rever', 'recibir', 'gobernar', 'españa', 'poner', 'libertar', 'carles', 'puigdemont', 'justicia', 'alemán', 'juez', 'pablar', 'llarena', 'decidir', 'semana', 'instancia', 'ejecutivo', 'sumar', 'oriol', 'cumplir', 'líder', 'pdecat', 'exvicepresidente', 'cataluña', 'permanecer', 'prisión', 'madrileño', 'estremera', 'noviembre', 'asumir', 'delito', 'atribuir', 'carles', 'puigdemont', 'tribunal', 'supremo', 'asegurar', 'acto', 'expresidente', 'catalán', 'legislatura', 'quedar', 'impune', 'pagar', 'maniobrar', 'idear', 'burlar', 'justicia', 'alemán', 'líder', 'esquerra', 'republicano', 'enfrentar', 'año', 'prisión', 'seguir', 'junquera', 'caer', 'año', 'parar', 'carles', 'puigdemont', 'alemania', 'hacer', 'junquera', 'sacrificar', 'asumir', 'resignación', 'determinación', 'prometer', 'seguim', 'tuiteaba', 'trascender', 'decisión', 'llarena', 'fuente', 'anónimo', 'judicial', 'barajar', 'posibilidad', 'penar', 'oriol', 'co

<hr>


## 2.- Ejercicios de BoW:

#### 6. **Crear una función que dada una lista de documentos (*corpus*) tokenizados, elimine del corpus aquellos tokens que aparecen menos de 'N' veces (N=10) en el corpus**

* **input**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.
* **input**: 'N' -> Parámetro que nos indica el número mínimo de apariciones de la palabra en el corpus.
* **output**: lista de listas, en la que cada lista contiene los tokens del documento normalizados.

In [7]:
def bow_freq (corpus):
    """Función que cuenta el número de veces que aparece una palabra 
        en el corpus y lo almacena en un diccionario
    """
    bow = dict()
    for doc in corpus:
        for word in doc:
            if word in bow:
                bow[word] += 1
            else:
                bow[word] = 1
    return bow

def drop_less_frecuency_words(corpus, n):
    bow = bow_freq(corpus)
    for index, doc in enumerate(corpus):
        corpus[index] = [word for word in doc if bow[word] >= n]
    return corpus

corpus = drop_less_frecuency_words(corpus, 10)
print(corpus[0])

['gobernar', 'puigdemont', 'gobernar', 'españa', 'poner', 'puigdemont', 'semana', 'líder', 'cataluña', 'puigdemont', 'asegurar', 'catalán', 'líder', 'año', 'año', 'puigdemont', 'semana']


#### 7. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras por frecuencia de aparición con NLTK**  

In [8]:
import nltk
from collections import defaultdict

def vectorize(corpus):
    features = defaultdict(int)
    for token in corpus:
        features[token] += 1
    return features

vectors = map(vectorize, corpus)

# Resultados
for v in vectors:
    print(v)

defaultdict(<class 'int'>, {'gobernar': 2, 'puigdemont': 4, 'españa': 1, 'poner': 1, 'semana': 2, 'líder': 2, 'cataluña': 1, 'asegurar': 1, 'catalán': 1, 'año': 2})
defaultdict(<class 'int'>, {'ciudadano': 4, 'cifuentes': 5, 'año': 3, 'falto': 3, 'elección': 3, 'mostrar': 2, 'gobernar': 2, 'partir': 2, 'semana': 1, 'cristino': 2, 'presidente': 2, 'madrid': 3, 'líder': 1, 'demostrar': 1, 'votar': 1, 'poner': 2, 'declarar': 1, 'prensar': 1})
defaultdict(<class 'int'>, {'mariano': 3, 'rajoy': 5, 'presidencia': 5, 'españa': 2, 'líder': 1, 'partir': 1, 'cristino': 1, 'cifuentes': 1, 'casar': 1, 'año': 2, 'insistir': 1, 'país': 1, 'equipar': 1, 'mirar': 1, 'importante': 1, 'jugar': 1, 'ligar': 3, 'mañana': 1, 'demostrar': 1, 'gobernar': 1, 'público': 1, 'asegurar': 1, 'poner': 1, 'ciudadano': 1})
defaultdict(<class 'int'>, {'cristino': 3, 'cifuentes': 6, 'presidente': 1, 'madrid': 1, 'mañana': 1, 'hora': 1, 'presidencia': 1, 'gobernar': 1, 'demostrar': 1, 'líder': 1, 'españa': 1})
defaultdic

#### 8. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras en ONE-HOT-ENCODE con Gensim**

In [9]:
import nltk
import gensim

dictionary = gensim.corpora.Dictionary(corpus)
vectors = [[(token[0], 1) for token in dictionary.doc2bow(doc)] for doc in corpus]

# Resultados
print('Diccionario de palabras -> palabra: id\n')
print(dictionary.token2id)
print('\nApariciones de las palabras en los documentos (id, 1):')
vectors[0]

Diccionario de palabras -> palabra: id

{'asegurar': 0, 'año': 1, 'cataluña': 2, 'catalán': 3, 'españa': 4, 'gobernar': 5, 'líder': 6, 'poner': 7, 'puigdemont': 8, 'semana': 9, 'cifuentes': 10, 'ciudadano': 11, 'cristino': 12, 'declarar': 13, 'demostrar': 14, 'elección': 15, 'falto': 16, 'madrid': 17, 'mostrar': 18, 'partir': 19, 'prensar': 20, 'presidente': 21, 'votar': 22, 'casar': 23, 'equipar': 24, 'importante': 25, 'insistir': 26, 'jugar': 27, 'ligar': 28, 'mariano': 29, 'mañana': 30, 'mirar': 31, 'país': 32, 'presidencia': 33, 'público': 34, 'rajoy': 35, 'hora': 36, 'españolar': 37, 'pedir': 38, 'presentar': 39, 'psoe': 40, 'tipo': 41, 'millón': 42, 'ministro': 43, 'presupuesto': 44, 'salir': 45, 'informar': 46, 'real': 47, 'vestir': 48, 'volver': 49, 'llevar': 50, 'minuto': 51, 'central': 52, 'diario': 53, 'ganar': 54, 'gracia': 55, 'punto': 56, 'resultar': 57, 'vivir': 58, 'pedro': 59, 'sánchez': 60, 'díaz': 61, 'llegar': 62, 'barcelona': 63, 'cabeza': 64, 'hablar': 65, 'palmar

[(0, 1),
 (1, 1),
 (2, 1),
 (3, 1),
 (4, 1),
 (5, 1),
 (6, 1),
 (7, 1),
 (8, 1),
 (9, 1)]

#### 9. **Dado el corpus, normalizado y con tokens que aparecen 10 veces o más en el corpus, se pide crear una bolsa de palabras aplicando el TF-IDF con Scikit**

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Transformamos los documentos tokenizados a documentos sin tokenizar
for index, doc in enumerate(corpus):
    corpus[index] = " ".join(doc)
    
tfidf = TfidfVectorizer()
corpus_tfidf = tfidf.fit_transform(corpus)

# Resultados
print(tfidf.get_feature_names())
print(corpus_tfidf.toarray(0))

['aficionar', 'alavés', 'asegurar', 'athletic', 'atlético', 'año', 'banco', 'barcelona', 'barça', 'bce', 'betis', 'cabeza', 'casar', 'cataluña', 'catalán', 'celta', 'central', 'champions', 'cifuentes', 'ciudadano', 'crisis', 'cristino', 'curvo', 'declarar', 'demostrar', 'deportivo', 'diario', 'draghi', 'díaz', 'economía', 'eibar', 'elección', 'equipar', 'equipo', 'espanyol', 'españa', 'españolar', 'estadio', 'europa', 'europeo', 'falto', 'fmi', 'futbol', 'gallego', 'ganar', 'getafe', 'girona', 'gobernar', 'gol', 'gracia', 'gráfico', 'guindo', 'hablar', 'historia', 'hora', 'iglesia', 'importante', 'informar', 'insistir', 'jornada', 'jugador', 'jugar', 'leganés', 'levantar', 'ligar', 'llegar', 'llevar', 'local', 'líder', 'madrid', 'marcar', 'mariano', 'mañana', 'millón', 'ministro', 'minuto', 'mirar', 'mostrar', 'málaga', 'palmar', 'partir', 'pasar', 'país', 'pedir', 'pedro', 'pitar', 'poner', 'prensar', 'presentar', 'presidencia', 'presidente', 'presupuesto', 'psg', 'psoe', 'puigdemont'