## **Librerías**

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.options.display.max_columns = False

In [4]:
import nltk
nltk.download('cess_esp')

[nltk_data] Downloading package cess_esp to
[nltk_data]     C:\Users\jmart\AppData\Roaming\nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


True

In [5]:
import re

## **Datos**

In [6]:
corpus = nltk.corpus.cess_esp.sents()

In [13]:
corpus

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]

In [14]:
print(len(corpus))

6030


In [17]:
# Combinamos todas los tokens de cada titular
flatten = [word for titular in corpus for word in titular]

In [19]:
len(flatten)

192686

### **Uso de expresiones regulares**

In [26]:
# Buscar caracteres dentro de cada token
arr = [w for w in flatten if re.search('es', w)]
arr[:5]

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']

In [28]:
# Buscando por la manera en la que terminan las palabras
arr = [w for w in flatten if re.search('es$', w)]
arr[:5]

['jueves', 'centrales', 'millones', 'millones', 'dólares']

In [32]:
# Buscando por la manera en la que inician las palabras
arr = [w for w in flatten if re.search('^es', w)]
arr[:5]

['estatal', 'es', 'esta', 'esta', 'eso']

In [39]:
# Buscando por el rango en el que inician las palabras
arr = [w for w in flatten if re.search('^[ghi]', w)]
arr[:5]

['grupo', 'hoy', 'gas', 'gas', 'intervendrá']

In [43]:
# Aplicando Clausuras
## * Repetir 0 o más veces
arr = [w for w in flatten if re.search('^(no)*', w)]
arr[:5]

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-']

In [44]:
# Aplicando Clausuras
## *+ Repetir 1 o más veces
arr = [w for w in flatten if re.search('^(no)+', w)]
arr[:5]

['norte', 'no', 'no', 'noche', 'no']

### **Normalización del texto**

In [81]:
texto_1 = """ Cuando sea el rey del mundo (imaginaba él en su cabeza) no tendré que  preocuparme por estas cosas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera 
            visualizar en su cabeza ...""" 

#### **Tokenización**

In [82]:
# Caso 1: Por espacios vacíos
tokens = re.split(r' ', texto_1)
tokens[:10]

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en']

In [83]:
# Caso 2: Usando expresiones regulares
tokens = re.split(r'[ \W\t\n]+', texto_1)
tokens[:10]

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'él', 'en']

In [101]:
texto_2 = 'En los E.U. esta postal vale $15.50...'

In [105]:
tokens = re.split(r'[ \W\t\n]+', texto_2)
tokens

['En', 'los', 'E', 'U', 'esta', 'postal', 'vale', '15', '50', '']

In [106]:
# Caso 3: Usando nltk
pattern = r'''
    (?x)                    # Flag para iniciar el modo verbose
    (?:[A-Z]\.)+            # Hace match con abreviaciones como U.S.A.
    | \w+(?:-\w+)*          # Hace match con palabras que pueden tener un guión interno
    | \$?\d+(?:\.\d+)?%?    # Hace match con dinero o porcentajes como $15.5 o 100%
    | \.\.\.                # Hace match con puntos suspensivos
    | [][.,;"'?():-_`]      # Hace match con signos de puntuación
'''

tokens = nltk.regexp_tokenize(texto_2, pattern)
tokens

['En', 'los', 'E.U.', 'esta', 'postal', 'vale', '$15.50', '...']