In [0]:
import nltk

In [2]:
nltk.download('cess_esp') # Descargar corpus en español

[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


True

## Expresiones regulares
---

### Cargar datos

In [0]:
import re

In [4]:
corpus = nltk.corpus.cess_esp.sents()
print(corpus) # Lista de titulares tokenizados
print(len(corpus))

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]
6030


In [6]:
flatten = [w for l in corpus for w in l]
print(len(flatten))
print(flatten[-20:])

['de', 'la', 'azotea', ',', 'iluminando', 'para', 'él', 'los', 'aterradores', 'tramos', 'que', '*0*', 'jamás', 'habría', 'sido', 'capaz', 'de', 'coronar', 'solo', '.']


### Filtrar lista de palabras
re.search(patron, string) devuelve booleano según si el string coincide con el patrón.

In [0]:
arr = [w for w in flatten if re.search(r'es', w)]

In [12]:
arr[:5]

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']

In [15]:
arr = [w for w in flatten if re.search(r'es$', w)]
arr[:5]

['jueves', 'centrales', 'millones', 'millones', 'dólares']

In [16]:
arr = [w for w in flatten if re.search(r'^es', w)]
arr[:5]

['estatal', 'es', 'esta', 'esta', 'eso']

In [21]:
arr = [w for w in flatten if re.search(r'^[ghi]', w)]
arr[:5]

['grupo', 'hoy', 'gas', 'gas', 'intervendrá']

In [27]:
arr = [w for w in flatten if re.search(r'^(no)+', w)]
arr[:5]

['norte', 'no', 'no', 'noche', 'no']

## Tokenizar a mano
---

In [0]:
texto = """ Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ..."""

In [29]:
# 1.- Tokenizar por espacios vacíos
print(re.split(r' ', texto)) 
# re.split(pattern, string) hace split del string en donde hace math el pattern

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [30]:
# 2.- Tokenización por espacios vacíos
print(re.split(r'[ \t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [37]:
# 3.- Tokenización por expresiones regulares
print(re.split(r'[ \W\t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'él', 'en', 'su', 'cabeza', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '']


## Tokenizador de NLTK
---

In [38]:
# No funciona nuestro tokenizador
texto = 'En los E.U. esa postal vale $15.50 ...'
print(re.split(r'[ \W\t\n]+', texto))

['En', 'los', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', '']


In [43]:
pattern = r'''(?x)                 # set flag to allow verbose regexps
              (?:[A-Z]\.)+         # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*       # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
              | \.\.\.             # ellipsis
              | [][.,;"'?():-_`]   # these are separate tokens; includes ], [
'''
# Posible patrón para tokenizar
nltk.regexp_tokenize(texto, pattern)

['En', 'los', 'E.U.', 'esa', 'postal', 'vale', '$15.50', '...']