In [None]:
import sys
sys.path.append('../..')

from utils import load_cinema_reviews

# Lectura de datos

In [None]:
# Path al directorio donde tenemos los datasets con las reviews
# ¡Descomprimir antes!
datasets_path = '../../datasets'
corpus_cine_folder = 'corpusCine'

In [None]:
reviews_dict = load_cinema_reviews(datasets_path, corpus_cine_folder)

In [None]:
print(len(reviews_dict))

In [None]:
reviews_dict.get(10)

# Clase String

Clase nativa de Python que íncorpora utilidades para procesado de texto.

Enlace a los distintos métodos: [link](https://www.w3schools.com/python/python_ref_string.asp). 

# Tokenización

In [None]:
review = reviews_dict.get(10).get('review_text')
print(review[:1000])

## Frases

In [None]:
sentences = review.split('.')
print(sentences[:5])

## Tokens

In [None]:
sentence = sentences[2]
print(sentence)

In [None]:
for idx, word in enumerate(sentence.split(' ')):
    print('Palabra {0:5}{1:5}'.format(str(idx), word))

# Normalización

In [None]:
print(sentence)

## Convertir a minúsculas

In [None]:
sentence.lower()

## Convertir a mayúsculas

In [None]:
sentence.upper()

## Eliminar espacios al inicio y al final

In [None]:
sentence.strip()

## Filtrado

In [None]:
# Solo minúsculas y números
import re
re.sub(r'[^a-z0-9]+', ' ', sentence)

In [None]:
# Solo números
# Quedarse solo con números
import re
re.sub('[^0-9]+', ' ', sentence)

## Eliminar puntuación

In [None]:
import string
table = str.maketrans('', '', string.punctuation)
' '.join([word.translate(table) for word in sentence.split()])

## Eliminar acentos

In [None]:
import unicodedata

In [None]:
text_with_accents = 'Téxtô Ácěntuado ñ'
unicodedata.normalize('NFKD', text_with_accents).encode('ascii', 'ignore').decode('utf-8', 'ignore')

## Convertir números a texto

In [None]:
from num2words import num2words

In [None]:
num2words(2)

In [None]:
num2words(2, lang='es', ordinal=False)

In [None]:
num2words(2, lang='es', ordinal=True)

In [None]:
[word if not word.isdigit() else num2words(word, lang='es', ordinal=False) for word in 'Hoy es 29 de junio de 2020'.split(' ')]

## Stopwords

Palabras con - a priori - ningún significado o que aportan muy poca información. Suelen ser palabras muy comunes como, por ejemplo, preposiciones.

En NLP se suele trabajar con vocabularios enormes (en _Don Quijote de la Mancha_ aparecen en torno a **23.000 palabras distintas**) por lo que interesa filtras aquellas que menos información aporten.

Debate: ¿qué significa que _aporten información_?

In [None]:
from stop_words import get_stop_words

In [None]:
sw_list = get_stop_words('es')

In [None]:
print(sw_list)

In [None]:
sentence_no_sw = ' '.join([word for word in sentence.split() if word not in sw_list])

print('Frase completa:\n{}\n'.format(sentence))
print('Frase sin stopwords:\n{}'.format(sentence_no_sw))

## Lemmatization

Técnica de normalización de textos que busca reducir las palabras a su raíz (lemma).

Muy utilizado para reducir la cardinalidad del vocabulario asociando para diferentes formas flexionadas un único token ('entreno', 'entrenarás', 'entrenaría' -> 'entrenar').

Aunque muy utilizados en motores de búsqueda 

In [None]:
import os

In [None]:
data_path = '../../data'
lemmas_dict_file = 'lemmatization-es.txt'

In [None]:
def get_lemmas_dict():
    lemmas_dict = {}
    with open(os.path.join(data_path, lemmas_dict_file), 'r') as f:
        for line in f:
            (key, val) = line.split()
            lemmas_dict[str(val)] = key
    return lemmas_dict

In [None]:
lemmas_dict = get_lemmas_dict()

In [None]:
lemmas_dict

In [None]:
lemmas_dict.get('comieron')

In [None]:
lemmas_dict.get('mama')

In [None]:
lemmas_dict.get('cinco')

In [None]:
sentence_lemmatized = ' '.join([lemmas_dict.get(word, word) for word in sentence.split()])

print('{0:15}{1:10}'.format('Token' ,'Lemma'))
for word in sentence.split():
    print('{0:15}{1:10}'.format(word, lemmas_dict.get(word, word)))

# Palabras más frecuentes

In [None]:
from collections import Counter

freq_text = 'Palabras con - a priori - ningún significado o que aportan muy poca' + \
            'información. Suelen ser palabras muy comunes como, por ejemplo,' + \
            ' preposiciones. En NLP se suele trabajar con vocabularios enormes' + \
            '(en Don Quijote de la Mancha aparecen en torno a 23.000 palabras distintas)' + \
            'por lo que interesa filtras aquellas que menos información aporten.' + \
            'Debate: ¿qué significa que aporten información?'

word_freqs = Counter(freq_text.lower().split())
word_freqs.most_common(5)

# Pipeline

In [None]:
# TODO