# Procesamiento del lenguaje natural
## Word counts con bag of words

Bag-of-words:
* Método básico para encontrar 'topics' en un texto
* Se necesita primero crear tokens utilizando tokenización
* Habrá una una palabra frecuente, que podría ser la más importante sin contar las palabras usuales como preposiciones etc...
* Puede ser una buena manera de determinar las palabras significativas en un texto


Ejemplo:

    `The cat is in the box. The cat likes the box. The box is over the cat`
    
Bag of words:

* 'The','box','cat','the' : 3
* 'is' : 2
* 'in','likes','over':1

In [3]:
from nltk.tokenize import word_tokenize
from collections import Counter

sentence = 'The cat is in the box. The box is over the cat. The box is over the cat'

# Puesto que nos da igual que las frases estén tokenizadas, ya que buscamos palabras, nos saltamos el 
# paso de tokenizar las frases

# Tokenizamos la sentence
word_token = word_tokenize(sentence)
print(word_token)

print('====================')
print('Contador de palabras')
counter = Counter(word_token)
print(counter)

print('====================')
# las más frecuentes
print('Las palabras más frecuentes')
print(counter.most_common(4))

['The', 'cat', 'is', 'in', 'the', 'box', '.', 'The', 'box', 'is', 'over', 'the', 'cat', '.', 'The', 'box', 'is', 'over', 'the', 'cat']
Contador de palabras
Counter({'The': 3, 'cat': 3, 'is': 3, 'the': 3, 'box': 3, '.': 2, 'over': 2, 'in': 1})
Las palabras más frecuentes
[('The', 3), ('cat', 3), ('is', 3), ('the', 3)]


## Preprocesamiento de texto

¿Por qué preprocesar el texto?
* Ayuda a un mejor input data
        - Por ejemplo, cuando hacemos machine learning or statistical methods
* Lemmatizacion/Stemming
    - Llevar las palabras a su raíz
* Eliminar las llamadas 'stop words', signos de puntuación o tokens no deseados.

**notas**: 
1. Paso importante, todas las palabras las transformaremos en minúsculas para evitar confusiones.
2. Cada idioma tiene sus propias stop words (están en las librerías de Python)


In [14]:
### Ejemplo de eliminación de 'stop words'
from nltk.corpus import stopwords

text = """The cat is in the box. The cat liked the box. The box is over the cat"""

# Paso 1: Transformamos las letras en minúsculas 
# Paso 2: Tokenizamos la frase como un todo (saltándonos el paso previo de tokenizar frases)
tokens = [w for w in word_tokenize(text.lower()) if w.isalpha()]
print('TOKENS en bruto')
print(tokens)

print('==========================================================')

# Paso 3: Introducimos en una lista aquellas palabras que no sean consideradas stop words
no_stops = [t for t in tokens if t not in stopwords.words('english')]
print('PALABRAS NO STOP WORDS')
print(no_stops)
print('==========================================================')

# Paso 4: contar las palabras más frecuentes del texto
print('Palabras más frecuentes en el texto')
print(Counter(no_stops).most_common(2))

TOKENS en bruto
['the', 'cat', 'is', 'in', 'the', 'box', 'the', 'cat', 'liked', 'the', 'box', 'the', 'box', 'is', 'over', 'the', 'cat']
PALABRAS NO STOP WORDS
['cat', 'box', 'cat', 'liked', 'box', 'box', 'cat']
Palabras más frecuentes en el texto
[('cat', 3), ('box', 3)]


In [15]:
# Ejemplos de Lematización
from nltk.stem import WordNetLemmatizer

# Utilizando el mismo ejemplo anterior, ya tenemos nuestras palabras en minúsculas y además hemos filtrado las stopwords

# Paso 5: Iniciamos el lematizador
lemmatizer = WordNetLemmatizer()

# Paso 6: Lematizamos e introducimos en una lista
lemmatized = [lemmatizer.lemmatize(t) for t in no_stops]

# Paso 7: Creamos una lista de bag-of-words (palabra: veces que aparece)
bag = Counter(lemmatized)

# Paso 8: Las 10 más comunes
print(bag.most_common(10))

[('cat', 3), ('box', 3), ('liked', 1)]


### Gensim

* Open-source de la librería de NLP
* Utilizado para construir 'vectores' de documentos o de palabras (espacio vectorial)
* Comparar y identificar topics en un documento

In [7]:
from gensim.corpora.dictionary import Dictionary
from nltk.tokenize import word_tokenize



In [13]:
# Ejemplo

my_documents = ['The movie was about a spaceship and aliens.',
'I really liked the movie!',
'Awesome action scenes, but boring characters.',
'The movie was awful! I hate alien films.',
'Space is cool! I liked the movie.',
'More space films, please!']

# Paso 1: Transformamos las letras en minúsculas
doc_lower = []
for i in my_documents:
    x = i.lower()
    doc_lower.append(x)

# Paso 2: Tokenizamos cada frase con word_tokenize
tokenized_words = []
for i in doc_lower:
    x = word_tokenize(i)
    tokenized_words.append(x)
    
# Paso 3: Creamos un diccionario de palabras (asociando palabra:n veces)
dictionary = Dictionary(tokenized_words)
dictionary.token2id
print(dictionary.token2id)

# Paso 4: Transformamos cada palabra en un número y le asociamos la frecuencia
corpus = []
for i in tokenized_words:
    x = dictionary.doc2bow(i)
    corpus.append(x)
print(corpus)



{'.': 0, 'a': 1, 'about': 2, 'aliens': 3, 'and': 4, 'movie': 5, 'spaceship': 6, 'the': 7, 'was': 8, '!': 9, 'i': 10, 'liked': 11, 'really': 12, ',': 13, 'action': 14, 'awesome': 15, 'boring': 16, 'but': 17, 'characters': 18, 'scenes': 19, 'alien': 20, 'awful': 21, 'films': 22, 'hate': 23, 'cool': 24, 'is': 25, 'space': 26, 'more': 27, 'please': 28}
[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1)], [(5, 1), (7, 1), (9, 1), (10, 1), (11, 1), (12, 1)], [(0, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1), (19, 1)], [(0, 1), (5, 1), (7, 1), (8, 1), (9, 1), (10, 1), (20, 1), (21, 1), (22, 1), (23, 1)], [(0, 1), (5, 1), (7, 1), (9, 1), (10, 1), (11, 1), (24, 1), (25, 1), (26, 1)], [(9, 1), (13, 1), (22, 1), (26, 1), (27, 1), (28, 1)]]


* El corpus que hemos creado es una lista de listas. Cada lista representa un documento.
* Los espacios vectoriales que se asocian con la frecuencia y repetición de palabras son muy útiles para procesos de deep learning. Nos permiten observar también relaciones entre palabras dentro del corpus.

In [18]:
# ejemplo ya tokenizado
articles = [['uses',
  'file',
  'operating',
  'system',
  'placement',
  'software',
  'diagram', 'showing',
  'user','computing','user','interacts','application', 'software','typical','desktop','computer','the',
  'application','software',  'layer','interfaces','operating',
  'system','turn','communicates','personal','computer','hardware','arrows',
  'indicate','information','flow']]

dictionary = Dictionary(articles)

# id asociado de la palabra 'computer'
computer_id = dictionary.token2id.get('computer')
print('id de la palabra computer')
print(computer_id)

print('===============================================')
# a partir del id, sacar la palabra
print(dictionary.get(computer_id))

print('===============================================')
corpus = []
for article in articles:
    x = dictionary.doc2bow(article)
    corpus.append(x)
print(corpus)

print('=====================================================')
print(corpus[0][:10])

id de la palabra computer
3
computer
[[(0, 2), (1, 1), (2, 1), (3, 2), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 2), (16, 1), (17, 1), (18, 1), (19, 3), (20, 2), (21, 1), (22, 1), (23, 1), (24, 2), (25, 1)]]
[(0, 2), (1, 1), (2, 1), (3, 2), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1)]


In [20]:
# Guardar un documento
doc = corpus[0]

# palabra- frecuencia (invertimos el orden)
bow_doc = sorted(doc, key=lambda w: w[1], reverse = True)

# Las 5 primeras palabras que más relevancia tienen (mayor frecuencia)
for word_id,word_count in bow_doc[:5]:
    print(dictionary.get(word_id),word_count)

software 3
application 2
computer 2
operating 2
system 2


#### Tf - idf gensim

* Permite determinar las palabras más importantes en un documento.
* Idea: las palabras más comunes en un documento son como las stopwords y deben eliminarse o al menos bajarle el grado de importancia.
* Ejemplo: Si yo soy un astrónomo, la palabra 'sky' deberá usarse de manera frecuente pero no es importante por lo que le bajo el grado de importancia.
* Asegura que las palabras más comúnes no aparezcan como 'key words' del texto.
* A cada palabra se le asocia un peso (grado de importancia).

* formula $w_{i,j} = tf_{i,j}\log\frac{N}{df_{i}}$
* $w_{i,j} = $ tf-idf weight for token i in document j
* $tf_{i} = $ number of occurences of token i in document j
* $df_{i} = $ number of documents that contain token i 
* $N$ = total number of documents

nota: cuanto menos aparezca, mas grande será el logaritmo y por tanto, mayor será el peso.

Para utilizar esta librería ya hemos transformado todo el texto a un ejemplo anterior del corpus.

In [21]:
# ejemplo
from gensim.models.tfidfmodel import TfidfModel
corpus = [[(0, 2),
  (1, 1),
  (2, 4),
  (3, 1),
  (4, 2),
  (5, 2),
  (6, 1),
  (7, 1)],
  [(8, 5),
  (9, 2),
  (10, 2),
  (11, 1),
  (12, 1),
  (13, 1),
  (14, 2),
  (15, 1),
  (16, 1),
  (17, 2),
  (18, 1),
  (19, 3),
  (20, 1),
  (21, 4),
  (22, 1),
  (23, 3),
  (24, 2),
  (25, 1),
  (26, 1),
  (27, 4)]]


In [25]:
# Creamos a new TfidfModel uando el corpus
tfidf = TfidfModel(corpus)

# Calculamos the tfidf weights del doc:
tfidf_weights = tfidf[doc]
print(tfidf_weights)

[(0, 0.2857142857142857), (1, 0.14285714285714285), (2, 0.14285714285714285), (3, 0.2857142857142857), (4, 0.14285714285714285), (5, 0.14285714285714285), (6, 0.14285714285714285), (7, 0.14285714285714285), (8, 0.14285714285714285), (9, 0.14285714285714285), (10, 0.14285714285714285), (11, 0.14285714285714285), (12, 0.14285714285714285), (13, 0.14285714285714285), (14, 0.14285714285714285), (15, 0.2857142857142857), (16, 0.14285714285714285), (17, 0.14285714285714285), (18, 0.14285714285714285), (19, 0.42857142857142855), (20, 0.2857142857142857), (21, 0.14285714285714285), (22, 0.14285714285714285), (23, 0.14285714285714285), (24, 0.2857142857142857), (25, 0.14285714285714285)]


In [23]:
# ordenamos los pesos , haciendo también un cambio de posición
sorted_tfidf_weights = sorted(tfidf_weights, key=lambda w: w[1], reverse=True)

# Mostramos las palabras con más relevancia:
for term_id, weight in sorted_tfidf_weights[:5]:
    print(dictionary.get(term_id), weight)

software 0.42857142857142855
application 0.2857142857142857
computer 0.2857142857142857
operating 0.2857142857142857
system 0.2857142857142857
