#**Trabajando con Expresiones Regulares**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
ls

In [None]:
# Puedes cambiar tu directorio de trabajo:
%cd "/content/drive/My Drive/data/books/"   

In [None]:
ls

In [None]:
import nltk  
nltk.download('punkt') 

In [None]:
f = open("kafka_metamorphosis.txt", "r")
story = f.read()
story          # string que contiene todo el documento (cuento) de Kafka.

In [None]:
len(story)  # Total de caracteres

###Tokenizemos el documento por oraciones y estas a su vez por palabras:

In [None]:
sents = nltk.sent_tokenize(text=story, language='english') 
sents[0:7]     # observa que en estos ejemplos identifica el final de una frase por el "." o "?"

### Podemos también generar el documento como una lista de palabras usando el método append. 

### En este mismo paso podemos aprovechar para transformar todos los caracteres a minúsculas:

In [None]:
doc = []
for sent in sents:
  x = str(sent).split()   # separando por palabras cada frase.
  for w in x:
    doc.append(w.lower())    # agregamos cada palabra en minúsculas al documento.
  


#Trabajemos con algunos casos de expresiones regulares (RE).

### Recuerda que las RE te ayudarán a buscar cadenas de caracteres específicas, lo cual a su vez te ayudará a preparar el texto de una mejor manera antes de utilizarlo para anlálisis de texto o entrenamiento de algún modelo de aprendizaje.

https://docs.python.org/3/howto/regex.html


In [None]:
import re

### Puedes utilizar solamente palabras que estén dentro de un diccionario, eliminando nombres propios de personas, lugares, etc.

### En particular, a partir de NLTK se puede utilizar su corpus de documentos en inglés para generar un diccionario de plabras:

In [None]:
nltk.download('words')

In [None]:
wordlist = [w for w in nltk.corpus.words.words('en') if w.islower()]

In [None]:
len(wordlist)

In [None]:
wordlist[5000:5030]

In [None]:
tmp = [w for w in doc if w in wordlist]   # nos quedamos con las palabras de la novela de Kafka que estén también en nuestro diccionario particular.

In [None]:
len(tmp)

### Observa que uno de los problemas del diccionario es que puede estar incompleto o no contener todas las conjugaciones de una palabra, como se observa a continuación:

In [None]:
print(doc[0:20])
print(tmp[0:20])

### Busquemos por ejemplo todas las palabras que terminen en "ed" en la novela de Kafka:

re.search(p,s) : busca todos los patrones "p" que coincidan dentro del string "s".  

ed$ : palabras (cadenas string) que terminen en "ed".

In [None]:
eds = [w for w in doc if re.search('ed$', w)] 

# Otros casos...

In [None]:
[w for w in doc if re.search('^.t..$', w)]    # string de 4 caracteres cuyo segundo caracter es "t"

### **Conjunto (set)**

A partir del documento podemos generar un conjunto que contenga solamente strings de manera única, es decir, que no incluya repetición de palabras:

In [None]:
conj = set(doc)
print(len(doc))
print(len(conj))

In [None]:
[w for w in conj if re.search('^g.[eslva][defg]', w)] # inician con "g"; 2° caracter el que sea; 
                                                      # el 3° y 4° los que se indican entre corcheas y del 5° en adelante es opcional.

### Veamos otras variantes:

In [None]:
texto = ['hola, Hola, HOOOOooola, hoolaaaa  ,¡hollla!, holaxx, hola!!!, gato, perro, hospital', 'lol, loool, lllooooll']

In [None]:
txt = []             
for linea in texto:
  x = str(linea).split(',')   # para este ejemplo supongamos que separamos las palabras por las comas.
  txt.append(x)

print(txt)

Observa que la salida anterior generó espacios en blanco al inicio de algunas palabras. Borremos dichos espacios:

In [None]:
d1 = []
for w in txt[0]:
    x = re.sub("\s+","", w)  # cualquier cantidad de espacios en blanco al inicio se sustituyen por vacío, es decir, se eliminan.
    d1.append(x.lower())

d1

In [None]:
[w for w in d1 if re.search('h+o+l+a+', w)]     # podemos eliminar letras repetidas que sabemos no son parte de la palabra.

In [None]:
[re.sub('¡*h+o+l+a+\w*!*', 'hola', w) for w in d1]    # Recuerda que el caracter "*" de cerradura de Kleene indica 0 o más apariciones.
                                                      # El "+" indica 1 o más apariciones.

### Veamos algunos casos con números:

In [None]:
numeros = ['1978', '2020', '1990', '2001', '2021', '17530', '10-08-2020', '17-may-2010', 'spider-man', '3.14', '1.3', '45.25', '$10.90', '$7.14']

In [None]:
[w for w in numeros if re.search('^[0-9]{4}$', w)]

In [None]:
[w for w in numeros if re.search('^[0-9]+-[a-z]{3}-[0-9]+$', w)]

In [None]:
[w for w in numeros if re.search('^[0-9]+\.[0-9]+$', w)]

In [None]:
[w for w in numeros if re.search('^\$', w)]

### Existen documentos precargados en NLTK. En particular veamos las novelas que están en la opción gutenmberg.

In [None]:
import nltk  
nltk.download() 

In [None]:
nltk.corpus.gutenberg.fileids()

In [None]:
md = nltk.corpus.gutenberg.words('melville-moby_dick.txt')

In [None]:
len(md)

260819

In [None]:
xx = list(md) # Podemos ponerlos en un tipo de dato más estándar.

In [None]:
len(xx)

260819