In [1]:
import pandas as pd
import nltk
import re

from collections import defaultdict
from nltk.corpus import stopwords

In [3]:
# Correr una sola vez, para que la libería descargue las stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/nestornav/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

# Procesamiento de Texto

## Probemos algunas RegEx

In [2]:
# Definimos algunos corpus sintécticos para hacer diferentes pruebas.

txt_1 = """
Todos sabemos que el túnel que pasa bajo las vías en la estación Flores es una de las entradas del infierno.
Cierta noche de otoño, el ruso Salzman, uno de los tahúres más prometedores del barrio,
estaba haciendo un solitario en uno de los bares mugrientos que existen ahí.
-Buenas noches, señor, soy el Diablo.
Salzman saludó tímidamente. Estaba seguro de haber visto al Diablo otras veces, pero le pareció inadecuado mencionarlo.
El hombre se acomodó en la silla y sonrió con dientes verdosos.
"""

txt_2 = """
esta Es una Prueba, enviada desde @lala.com para buscar el email: nestornav@gmail.com. La cuAL hemos TOMADO varios datos aleatorios de usuarios.
Como documentos de identidad tales como 30210111 o sino también 32001200 y 32492005. Todo muy interesante. Gracias a nuestro mail mágico get_data@thief.com.
Si desea desuscribirse de nuestro servicio marina.rodriguez2@gmail.com escriba a unsuscribe@lala.com.
"""

La idea es aplicar algunas funciones para analizar distintos comportamientos/resultados usando la librería de Python.

A la hora de escribir Regex no existe una única forma para un mismo objetivo. Podemos llegar al mismo resultado muchas veces realizando distintas combinaciones.

Brevemente dejo un explicación de algunos caracteres especiales más populares:
* [ ]: filtra cualquier coincidencia.
* [-]: filtra por medio de un rango.
* [^a-z]: ^ es una negación, en este caso tenemos un ejemplo compuesto de lo anterior.
* |: es un pipe o tubería, y al igual que unix nos sirve para concatenar la salida del paso previo y aplicar un nuevo tratamiento.
* \* : busca 0 o mas coincidencias previas a un caracter.
* \+ : busca 1 o mas coincidencias previas a un caracter.
* $ : busca filtrar al final de una línea

---

Funciones de *re* a probar son:
* sub
* findall
* split
* search

Para mas información la documentación de esta librería está [acá](https://docs.python.org/3/library/re.html).

In [6]:
#Busquemos solo palabras
re.search(r'\w*,', txt_1)

<re.Match object; span=(126, 132), match='otoño,'>

In [12]:
# Nos gustaría encontrar todos los mails en el documento que nos compartieron (txt_2)
# Evaluemos como podemos generar expresiones equivalentes, y lleguemos a lo que queremos.
re.findall(r'[\w.-]+@[\w.-]+',txt_2)

['nestornav@gmail.com.',
 'get_data@thief.com.',
 'marina.rodriguez2@gmail.com',
 'unsuscribe@lala.com.']

In [13]:
#Encontremos ocurrencias dentro de los strings
print(re.search( r'[\w.-]+@[\w.-]+', txt_2))

<re.Match object; span=(67, 87), match='nestornav@gmail.com.'>


In [22]:
# Como parte del proceso de normalización o adecuación, algunas veces nos resulta interesante reemplazar algunos tokens.
re.sub(r'[a-zA-Z]','', txt_2)

'\n   ,   @.    : @..         .\n      30210111   é 32001200  32492005.   .     á _@..\n      .2@.   @..\n'

In [6]:
#Busquemos partir el texto en algo que nos resulte interesante para procesar.
tokens = re.split(r' ',txt_2)

## Normalización del corpus

In [10]:
sentense = []
with open('../works/data/don_quijote.txt', 'r') as f:
    for line in f:
        sentense.append(line)

In [18]:
sentense[300]

'la A hasta la Z, como vos decís. Pues ese mismo abecedario pondréis vos en\n'

In [19]:
stop_words_sp = stopwords.words('spanish')
stop_words_en = stopwords.words('english')

In [23]:
stop_words_sp

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

In [24]:
# otras opciones para realizar esto mismo es usando diccionarios, o counter
count = defaultdict(int)
for sent in sentense:
    for word in re.split(r' ',sent):
        count[word] += 1

In [26]:
print('TOP 10 tokens:', sorted(count.items(), key=lambda x: -x[1])[:20])
print('Tipos (V):', len(count))
print('Tokens (N)):', sum(count.values()))

TOP 10 tokens: [('que', 18240), ('de', 16636), ('y', 14708), ('la', 9245), ('a', 8906), ('en', 7400), ('el', 7309), ('\n', 5931), ('no', 5258), ('se', 4309), ('los', 4194), ('con', 3769), ('', 3574), ('por', 3475), ('lo', 3167), ('las', 3097), ('le', 3053), ('su', 2975), ('don', 2345), ('del', 2251)]
Tipos (V): 45703
Tokens (N)): 393765


### Limpiemos un poco el texto

In [34]:
tokens = [w for w in sentense[200].split() if not w in stop_words_sp]

In [35]:
count1 = defaultdict(int)
for sent in tokens:
    for word in re.split(r' ',sent):
        count1[word] += 1

In [36]:
print('Tipos (V):', len(count1))
print('Tokens (N)):', sum(count1.values()))

Tipos (V): 5
Tokens (N)): 5


In [38]:
print(sentense[200])
print('TOP 10 tokens:', sorted(count1.items(), key=lambda x: -x[1])[:20])

sé que me los darían, y tales, que no les igualasen los de aquellos que

TOP 10 tokens: [('sé', 1), ('darían,', 1), ('tales,', 1), ('igualasen', 1), ('aquellos', 1)]


In [41]:
'sé' in stop_words_sp

False

---
# Tarea
Les propongo, definir una función llamada `clean_text`, la cual reciba un texto y como salida obtengamos un equivalente al mismo pero procesado.

Según lo visto en clases, algo que no debería faltar es:
- pasar a minúscula
- remover stopwords
- limpiar caracteres sueltos o de poco interés.

Como pista, no hace falta usar regex complejas, pueden valerse de las bondades que ofrece el lenguaje. Como futuros datascience, investigar y encontrar otras soluciones es una parte clave y del diario de sus tareas.

Muchas suerte

In [None]:
def clean_text(corpus):
    pass