# Text Representation

Antes de empezar, me encataría que os paréis a ver esta imagen. Seguro que a la mayoría ya os queda muy lejos esta parte del colegio, pero en el lenguaje, no todo son palabras. Hay estructuras por encima, y por debajo de las palabras. Así pues, con que features nos quedamos?

<div align="center">
![](https://i.imgur.com/UT56jB8.png)
</div>

Antes de hacer algo que parece muy trivial. Si queremos solucionar un problema clasificación de texto, como representaríais el texto? Con palabras? Ok, vale. Pero si quereis montar un sistema que identifique un idioma por ejemplo? Como creais un clasificador  de texto? Con palabras? seguro? No sé. Podríamos intentarlo. Y que pasará cada vez que vea una palabra que no hemos visto en la vida? Hmmm. Algo más complicado. Queremos crear un juego de star wars, y crear un generador de nombres. Como creamos tal generador? A partir de palabras generamos nuevas palabras?

Pues resulta que en algunos casos, usar carácteres como forma de representación del texto es muy útil. Además usar palabras tiene un problema enorme, que vocabulario usamos? Todas las palabras del diccionario? Todas las palabras de internet? Eso son muchas palabras para memorizar eh. Así que representar el texto con carácteres también tiene sus ventajas.


Hay otras formas de representar el texto que quedan fuera del curso, pero que actualmente son usadas en algunos sistemas de traducción. Una de las más conocidas es el BytePair Encoding ([BPE](https://en.wikipedia.org/wiki/Byte_pair_encoding)). [Aquí](https://github.com/google/sentencepiece) tenéis una librería para usarlo.




In [0]:
import re 


In [0]:
string = 'estoy dando clase en keepcoding. Es tarde, pero aqui estamos'

In [2]:
print('palabras: ', string.split(' '))

NameError: ignored

In [5]:
%pprint
print('caracteres: ', [c for c in string])

Pretty printing has been turned OFF
('caracteres: ', ['e', 's', 't', 'o', 'y', ' ', 'd', 'a', 'n', 'd', 'o', ' ', 'c', 'l', 'a', 's', 'e', ' ', 'e', 'n', ' ', 'k', 'e', 'e', 'p', 'c', 'o', 'd', 'i', 'n', 'g', '.', ' ', 'E', 's', ' ', 't', 'a', 'r', 'd', 'e', ',', ' ', 'p', 'e', 'r', 'o', ' ', 'a', 'q', 'u', 'i', ' ', 'e', 's', 't', 'a', 'm', 'o', 's'])


### Byte Pair Encoding (BPE)

Recientemente, salio un tipo de representación textual basada en Information theory, del cual solo mostraremos una breve implementación, y un breve comentario al respecto.

El objetivo de BPE, es codificar o representar las secuencias más repetidas en un texto, es un entremedio de representación por carácteres y por palabras, que tiene un poco lo mejor de ambos mundos. Fue recientemente introducido en un paper de Neural Machine Translation, y la motivación al aplicarlo fue poder generar palabras que no eran vistas en el split de entreno. El problema es que es un algoritmo iterativo, que requiere del procesado de todo el texto, e ir iterando sobre él varias veces (o sobre el diccionario generado), con lo cuál no es tan directo como los anteriores. Implementaremos la primera iteración, que en ella ya se pueden vislumbrar un poco su funcionamiento, pero no entraremos demasiado en ello.

BPE, es muy usado en terminos de Machine Translation. 

Dejo aquí una implementación más seria [BPE](https://github.com/rsennrich/subword-nmt).

In [0]:
#byte pair encoding -> compresion algorithm
from collections import Counter
def get_pairs(string):
    """
    :param string: a string
    :returns byte pair dictionary
    """
    bpe = Counter()
    for i in range(len(string)-1):
        bp = string[i]+string[i+1]
        bp = bp.rstrip()
        bpe[bp]+=1
    return bpe

In [7]:
bpe = get_pairs(string)
bpe.most_common(4)

[('es', 2), (' e', 2), ('ta', 2), ('o', 2)]

># Regular expressions

Usaremos expresiones regulares cuando querramos limpiar el texto o buscar formatos dentro del texto. Sin entrar demasiado, las expresiones regulares son una forma de finite state automaton.

![](http://www.cs.cornell.edu/courses/cs312/2006fa/recitations/images/dfa-examples.gif)

Son grafos que siguen una secuencia que nosotros definimos. Por ejemplo, el grafo de la izquierda, solo podría generar expresiones como ab, abb, abbb y así hasta el infinito. El de la derecha, podría generar expresiones como abcb, o abbb, abbbbbb, por poner ejemplos.

De tal forma, nosotros podemos definir estos grafos en formato algo menos aparatoso (si alguna vez habéis implementado regex, sabréis que esto últmimo es mentira) usando la librería de python re, que es todo un módulo del paquete base de python dedicado a las expresiones regulares.

Tambien es verdad, que no siempre nos hará falta, que muchas veces con un simple *string.replace()* tendremos suficiente, no obstante, es bueno ver un poco como funcionan.

Ahora veremos algunos ejemplos de como funciona, y cuales son las funciones más básicas de este modulo.

Normalmente las expresiones regulares se usan para buscar emails por ejemplo, urls, numeros de telefono o cosas por el estilo, de las cuáles quizas a veces hacen más ruido que otra cosa, y lo queremos cambiar por un simple token EMAIL o URL.

[Regex Online](https://regexr.com/) es uno de los mejores recursos online para visualizar que hacen los regex

Veamos algunos ejemplos.

In [0]:
from termcolor import colored

def test_pass(ok, text):
    color = 'green' if ok else 'red'
    return colored(text, color) 

In [9]:
RE_tatooine = re.compile(r'Tatooine')
string = 'Tatooine era un planeta desértico circunvolucional escasamente habitado ubicado en los Territorios del Borde Exterior de la galaxia.'
print (RE_tatooine.match(string))
string = 'tatooine era un planeta desértico circunvolucional ...'
print (RE_tatooine.match(string))

<_sre.SRE_Match object at 0x7f5ccaacf370>
None


In [10]:
RE_tatooine = re.compile(r'[Tt]atooine')
string = 'tatooine era un planeta desértico circunvolucional ...'
print (RE_tatooine.match(string))
string = 'tatooineera un planeta desértico circunvolucional ...'
print (RE_tatooine.match(string))

<_sre.SRE_Match object at 0x7f5ccaacf370>
<_sre.SRE_Match object at 0x7f5ccaacf370>


In [11]:
RE_tatooine = re.compile(r"\b[Tt]atooine\b", re.UNICODE)
string = 'tatooine era un planeta desértico circunvolucional ...'
print (RE_tatooine.match(string))
string = 'tatooineera un planeta desértico circunvolucional ...'
print (RE_tatooine.match(string))

<_sre.SRE_Match object at 0x7f5ccaacf370>
None


### Obtener un correo electrónico

In [0]:
"""
^ -> start of string
+ -> match 1 or more preceding regex
[^@]+
@[^@]+
\. -> '.'
"""

RE_EMAIL = re.compile('[^@]+@[^@]+\.[^@]+')

In [13]:
X = ['@invalid@adress.com','correo_valido@gmail.com', 'notan@valido@gmail.com', 'si.valido.david@gmail.com', 'paginaweb.com', 'paginaweb.com@paginaweb.com']
for x in X:
    if RE_EMAIL.match(x):
        print(test_pass(True, x))
    else:
        print(test_pass(False, x))

[31m@invalid@adress.com[0m
[32mcorreo_valido@gmail.com[0m
[31mnotan@valido@gmail.com[0m
[32msi.valido.david@gmail.com[0m
[31mpaginaweb.com[0m
[32mpaginaweb.com@paginaweb.com[0m


#### Obtener precios

In [0]:
from random import shuffle
import unicodedata

CURRENCIES = ''.join(chr(i) for i in range(0xffff) if unicodedata.category(chr(i)) == 'Sc')
RE_MONEY_GENERAL= re.compile('((\s|^)([\d]*)(\.)?([\d])*([%s]|e|USD|USD\$|U\$D)(\s|$))'
                          '|((\s|^)([%s]|e|USD|USD\$|U\$D)([\d])*(\.)?([\d])*(\s|$))'%(CURRENCIES, CURRENCIES), re.IGNORECASE)
RE_MONEY_EU= re.compile('((\s|^)([\d]{0,3}([\.][\d]{3})(,[\d]*))([%s]|e|(USD|USD\$|U\$D))(\s|$))'
                     '|((\s|^)([%s]|e|(USD|USD\$|U\$D))([\d]{0,3}([\.][\d]{3})(,[\d]*))(\s|$))'%(CURRENCIES, CURRENCIES), re.IGNORECASE)
RE_MONEY_EU_INVERSE= re.compile('((\s|^)([\d]{0,3}([,][\d]{3})(\.[\d]*))([%s]|e|(USD|USD\$|U\$D))(\s|$))'
                             '|((\s|^)([%s]|e|(USD|USD\$|U\$D))([\d]{0,3}([,][\d]{3})(\.[\d]*))(\s|$))'%(CURRENCIES, CURRENCIES), re.IGNORECASE)


In [0]:
currency_expressions = ['$20.2', '$.2', '$0.2', '$3433.2', '.2$', '2.0$', '2.$', '2.0€', '2¥', '20USD',
                        '20e', '20 €', '20 usd', '€200.123,2', '2.134,56$', '23232₽', '334,222.20€', '20U$D', '$200']


currency_ugly = ['asdfsd', '$asdasd', '23333,444.20€','€34523sdfas', '€213.sd', '$3vg554.25', 'expensive', 'cheap', '2342,222.90€']

currencies = currency_expressions + currency_ugly
shuffle(currencies)
for currency in currencies:
    if RE_MONEY_GENERAL.match(currency) or RE_MONEY_EU.match(currency) or RE_MONEY_EU_INVERSE.match(currency):
        print(test_pass(True, currency))
    else:
        print(test_pass(False, currency))

[31m23333,444.20€[0m
[31m€213.sd[0m
[32m€200.123,2[0m
[32m2.$[0m
[31m2342,222.90€[0m
[32m$20.2[0m
[32m$200[0m
[31mcheap[0m
[31m$asdasd[0m
[31m$3vg554.25[0m
[31m20 usd[0m
[32m2.0$[0m
[32m2¥[0m
[32m$.2[0m
[31m20 €[0m
[31masdfsd[0m
[32m20USD[0m
[32m$3433.2[0m
[32m23232₽[0m
[32m334,222.20€[0m
[32m20e[0m
[31m€34523sdfas[0m
[32m$0.2[0m
[32m2.134,56$[0m
[32m20U$D[0m
[32m.2$[0m
[31mexpensive[0m
[32m2.0€[0m


# Distancia de edición

La distancia de edición es otro concepto muy interesante, y a mi modo de ver, muy infravalorado en NLP.

Basicamente se trata de ver que palabras hay cercanas a una original. Por ejemplo, cat --> sat, mat, cap, cut, etc...
Esto se realiza mediante programación dinámica. No se si algunos de vosotros ha escuchado el término programación dinámica, imagino que la mayoría si. En cualquier caso, recordar que normalmente la programación dinámica se usa para no repetir cálculos innecesarios repetidas veces, y que lo que se suele hacer es guardar los resultados en una tabla, para su uso posterior. 

Aquí un ejemplo de este tipo de tablas buscando la diferencia entre relevant y elephant.

![](https://olimex.files.wordpress.com/2014/11/74bc0fa858652701ff47bfd125c83eeb.png =400x)

![](http://www.occasionalenthusiast.com/wp-content/uploads/2016/04/levenshtein-formula.png =600x)

Como rellenamos estas tablas? Con las siguientes actiones. En nuestro caso, la distancia de edición se llama Levenshtein distance, y los movimientos permitidios son los siguientes.

![](https://i.ytimg.com/vi/GFQytXDVK4Y/maxresdefault.jpg =600x)

Tenemos la tabla y las actiones, nos falta darle un valor/penalización por cada acción, siguiente el esquema anterior, podemos hacer que todas las acciones valgan 1, es decir, cada vez que tengamos que hacer alguna edición, el coste sera +1.

Como no tenemos tanto tiempo como para implementarlo todo desde 0, aprovecharemos otra vez el conjunto de librerías abiertas que tiene el ecosistema python, en este caso una librería que solo implementa este algoritmo, y de forma muy eficiente, e incluso con alguna que otra opción.




In [1]:
!pip install pyxdameraulevenshtein
from pyxdameraulevenshtein import damerau_levenshtein_distance_ndarray as dldn
import numpy as np

Collecting pyxdameraulevenshtein
[?25l  Downloading https://files.pythonhosted.org/packages/09/d8/77d02800d687ff8e12c8ec7b4ed917249fca27a1bccc6d24f0ac507a794c/pyxDamerauLevenshtein-1.5.tar.gz (54kB)
[K    100% |████████████████████████████████| 61kB 2.3MB/s 
[?25hBuilding wheels for collected packages: pyxdameraulevenshtein
  Running setup.py bdist_wheel for pyxdameraulevenshtein ... [?25l- \ | done
[?25h  Stored in directory: /content/.cache/pip/wheels/fc/9d/35/1552693f1003d749cd7ea3d5d7ee3de6db98fb7094ce691e9c
Successfully built pyxdameraulevenshtein
Installing collected packages: pyxdameraulevenshtein
Successfully installed pyxdameraulevenshtein-1.5


In [0]:
vocab = ['tatooine', 'alderaan', 'coruscant', 'endor', 'malachor', 'korriban']
np_vocab = np.array(vocab)

In [5]:
result = dldn('dantooine', np_vocab)
Z = [(x,d) for d,x in sorted(zip(result,vocab))]
print(Z)

[('tatooine', 2), ('endor', 7), ('alderaan', 8), ('coruscant', 8), ('korriban', 8), ('malachor', 8)]


In [7]:
result = dldn('Tatooine', np_vocab)
Z = [(x,d) for d,x in sorted(zip(result,vocab))]
print(Z)

[('tatooine', 1), ('endor', 7), ('malachor', 7), ('alderaan', 8), ('coruscant', 8), ('korriban', 8)]


In [0]:
result = dldn('malachendor', np_vocab)
Z = [(x,d) for d,x in sorted(zip(result,vocab))]
print(Z)

[('malachor', 3), ('endor', 6), ('alderaan', 8), ('tatooine', 9), ('coruscant', 10), ('korriban', 10)]


In [0]:
vocab += ['planeta', 'circunvolucional']
np_vocab = np.array(vocab)

In [0]:
def edit_sentence(sentence, np_vocab):
    out_string = []
    for token in sentence.split(' '):
        r = dldn(token, np_vocab)
        Z = [(x,d) for d,x in sorted(zip(r,vocab))]
        possible_token = [x for x,d in Z if d<2]
        if possible_token:
            out_string.append(possible_token[0])
        else:
            out_string.append(token)
    return " ".join(out_string)

In [0]:
string = 'tatooine era un planeta desértico circunvolucional ...'
edit_sentence(string, np_vocab)

'tatooine era un planeta desértico circunvolucional ...'

In [0]:
string = 'datooine era un planeto desértico corcunvolucional ...'
edit_sentence(string, np_vocab)

'tatooine era un planeta desértico circunvolucional ...'