In [101]:
import re
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.tokenize import regexp_tokenize
from nltk.tokenize import TweetTokenizer

# Practicing regular expressions: re.split() and re.findall()

A continuación vamos a proceder a hacer uso de expresiones regulares para machear dígitos, palabras y caracteres de tipo no alfanuméricos. A la hora de hacer uso de expresiones regulares es muy importante hacer uso del prefijo **r** para asegurarnos que nuestros patrones son interpretados de la forma deseada. De lo contrario es posible que nos encontremos problemas con las secuencas de escape en strings. Por ejemplo, **"\n"** en Python es usado para indicar una nueva línea, pero si hacemos uso del prefijo **r** se interpretará como la cadena **\n**, es decir el carácter **"\"** seguido del carácter **"n"** y no como una nueva línea.

In [50]:
my_string = "Let's write RegEx!  Won't that be fun?  I sure think so.  Can you find 4 sentences?  Or perhaps, all 19 words?"

#Creamos una expresión regular que nos permita separar la cadena my_string en oraciones. Puesto que cada oración 
#termina en !,? o ., necesitamos separar por estos carácteres.
sentence_endings = r"[?.!]"
print(re.split(sentence_endings, my_string))

#Creamos una expresión que nos permite encontrar aquellas palabras que tiene mayúsculas
capitalize_words = r"[A-Z]\w+"
print(re.findall(capitalize_words, my_string))

#Creamos una expresión que nos permita separar por uno o más espacios en blanco
spaces = r"\s+"
print(re.split(spaces, my_string))

#Creamos una expresión regular que nos permite encontrar todos los dígitos en nuestro texto
digits = r"\d+"
print(re.findall(digits, my_string))

["Let's write RegEx", "  Won't that be fun", '  I sure think so', '  Can you find 4 sentences', '  Or perhaps, all 19 words', '']
['Let', 'RegEx', 'Won', 'Can', 'Or']
["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?']
['4', '19']


# Word tokenization with NLTK

La tokenización consiste en las transformacion de un string o documento en tokens (que son trozos más pequeños). La librería **nltk** de python dispone de diversas funciones que nos permiten tokenizar de forma adecuada. Entre las que se encuentran:

* **sent_tokenize : ** tokeniza un documento en oraciones.

* **regexp_tokenize : ** nos permite tokenizar un string o documento a partir de una expresión regular, esto nos permite tener un control más personal sobre la tokenización.

* **TweetTokenizer : ** se trata una clase especial para la tokenización de tweets, nos permite separar hastags, menciones etc.

In [51]:
#Cargamos los datos 
file = open("grail.txt", mode = "r")
info = file.read()
file.close()
#print(file.read())

#Tokenizamos nuestro objeto tipo file
sentences = sent_tokenize(info)

#Hacemos uso de word_tokenize para tokenizar la cuarta frase
tokenized_sent = word_tokenize(sentences[3])

#Encontramos los tokens unicos asociados al texto completo 
unique_toquens = set(word_tokenize(info))

# More regex with re.search()

A continuación vamos a proceder a hacer uso de **re.search()** y **re.match()** para encontrar tokens específicos en un string o documento. La diferencia entre estas dos funciones es que **re.search()** nos permite encontrar un patrón determinado en un string/documento mediante una expresión regular, sin embargo, **re.match()** lo que nos permite es ver si un determinado patrón determinado por una expresión regular coincide con un string/documento.

In [52]:
#Hacemos uso de re.search() para encontrar la palabra coconuts
match = re.search('coconuts', info)

#Vemos en los índices de nuestro texto en los que hemos encontrado la palabra
print(match.start(), match.end())

580 588


In [53]:
#Nos creamos una expresión regular que nos permite encontrar cualquier cosa que es encuentre entre corchetes
pattern1 = r'\[.*\]'

#Hacemos uso de re.search para encontrar la primera coincidencia
print(re.search(pattern1, info))

<_sre.SRE_Match object; span=(9, 32), match='[wind] [clop clop clop]'>


In [82]:
#NOs creamos un patrón que sea capaz de detectar cosas como NOMBRE : 
pattern = r'[\w\s]+:'

#Hacemos uso del match para encontrar la primera coincidencia en nuestro string
print(re.match(pattern, sentences[3]))

<_sre.SRE_Match object; span=(0, 7), match='ARTHUR:'>


# Choosing a tokenizer

Supongamos que tenemos un string tal como el siguiente: "SOLDIER #1: Found them? In Mercea? The coconut's tropical!". Queremos tokenizar este string, manteniendo los signos de puntuación, además queremos que #1 sea un token.

In [95]:
#Nos definimos el string
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

#Nos creamos nuestra expresión regular
print(regexp_tokenize(my_string, r'\w+|#\d|\?|!'))

['SOLDIER', '#1', 'Found', 'them', '?', 'In', 'Mercea', '?', 'The', 'coconut', 's', 'tropical', '!']


# Regex with NLTK tokenization

Twitter se trata de una de las fuentes más comunes a la hora de tratar datos para el procesado de lenguaje natural. La clase **nltk.tokenize.TweetTokenizer** nos aporta una serie de métodos y atributos extra a la hora de parsear tweets.

In [96]:
#Nos creamos nuestra lista de tweets
tweets = ['This is the best #nlp exercise ive found online! #python',
 '#NLP is super fun! <3 #learning',
 'Thanks @datacamp :) #nlp #python']

#Nos creamos una expresión regular que nos permita detectar hastags
pattern = r'#\w+'
print(regexp_tokenize(tweets[0], pattern))

['#nlp', '#python']


In [97]:
#Nos creamos una expresión regular que nos permita encontrar menciones
pattern = r'([@]\w+)'
print(regexp_tokenize(tweets[-1], pattern))

['@datacamp']


In [100]:
#Ahora hacemos uso de TweetTokenizer, para ello en primer lugar nos creamos una instancia de dicho tipo 
tknzr = TweetTokenizer()

#AHora hacemos uso de del método tokenize() para tokenizar cada uno de nuestro tweets 
print([tknzr.tokenize(t) for t in tweets])

[['This', 'is', 'the', 'best', '#nlp', 'exercise', 'ive', 'found', 'online', '!', '#python'], ['#NLP', 'is', 'super', 'fun', '!', '<3', '#learning'], ['Thanks', '@datacamp', ':)', '#nlp', '#python']]


# Non-ascii tokenization

A continuación vamos a proceder a hacer uso de tekenizaciones avanzadas que nos van a permitir tokenizar strings/documentos que no esten en format ASCII, por ejemplo, texto en alemán.

In [102]:
#Nos creamos nuestro string
my_string = 'Wann gehen wir Pizza essen? 🍕 Und fährst du mit Über? 🚕'

#Hacemos uso de word_tokenize para tokenizar nuestra string
print(word_tokenize(my_string))

['Wann', 'gehen', 'wir', 'Pizza', 'essen', '?', '🍕', 'Und', 'fährst', 'du', 'mit', 'Über', '?', '🚕']


In [103]:
#Ahora hacemos uso de una expresión que nos permita extraer aquellas palabras que empiezan por mayúsculas
print(regexp_tokenize(my_string, r'[A-ZÜ]\w+'))

['Wann', 'Pizza', 'Und', 'Über']


In [104]:
#Ahora procedemos a extraer los emojis, para ello necesitamos el rango unicode de los emojis
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(regexp_tokenize(my_string, emoji))

['🍕', '🚕']
