### Uso de NLTK

In [None]:
import nltk
#descargar el corpus en español
nltk.download("cess_esp")

### Expresiones regulares

In [4]:
import re

corpus = nltk.corpus.cess_esp.sents()

print(corpus)
print(len(corpus))

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]
6030


In [5]:
# Aplanar una lista compuesta de sublistas
flatten = [w for l in corpus for w in l]


In [6]:
len(flatten)

192686

In [7]:
print(flatten[:20])

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana']


Aplicacion de expresiones regulares sobre la variable **flatten**:

re.search(p,s)

p = patron de busqueda
s = cadena donde buscar

In [8]:
# Meta-caracteres basicos

arr = [w for w in flatten if re.search("es", w)]

arr[:5]

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']

In [7]:
arr = [w for w in flatten if re.search("es$", w)]

arr[:5]

['jueves', 'centrales', 'millones', 'millones', 'dólares']

In [8]:
arr = [w for w in flatten if re.search("^..j..t..$", w)]

arr[:5]

['tajantes']

In [9]:
# Aplicacion de rangos
# [a-z], [A-Z], [0-9]
arr = [w for w in flatten if re.search("^[ghi][mno][jlk][def]$", w)]

arr[:5]

['golf', 'golf']

## Normalizacion del Texto

(1) Tokenizacion

In [10]:
texto = """Cuando sea presidente del mundo (imaginaba en mi cabeza) no tendre que preocuparme por tantas tonteras.
Era solo un niño de 10 años, pero pensaba que podria ser cualquier cosa en su imaginacion..."""

print(texto)

Cuando sea presidente del mundo (imaginaba en mi cabeza) no tendre que preocuparme por tantas tonteras.
Era solo un niño de 10 años, pero pensaba que podria ser cualquier cosa en su imaginacion...


In [11]:
#Caso 1
print(re.split(r' ', texto))

['Cuando', 'sea', 'presidente', 'del', 'mundo', '(imaginaba', 'en', 'mi', 'cabeza)', 'no', 'tendre', 'que', 'preocuparme', 'por', 'tantas', 'tonteras.\nEra', 'solo', 'un', 'niño', 'de', '10', 'años,', 'pero', 'pensaba', 'que', 'podria', 'ser', 'cualquier', 'cosa', 'en', 'su', 'imaginacion...']


In [12]:
#Caso 2:
print(re.split(r'[ \t\n]+', texto))

['Cuando', 'sea', 'presidente', 'del', 'mundo', '(imaginaba', 'en', 'mi', 'cabeza)', 'no', 'tendre', 'que', 'preocuparme', 'por', 'tantas', 'tonteras.', 'Era', 'solo', 'un', 'niño', 'de', '10', 'años,', 'pero', 'pensaba', 'que', 'podria', 'ser', 'cualquier', 'cosa', 'en', 'su', 'imaginacion...']


In [13]:
#Caso 3:
# \W omite todos los caracteres que nos sean letras, digitos o guiones
print(re.split(r'[ \W\t\n]+', texto))

['Cuando', 'sea', 'presidente', 'del', 'mundo', 'imaginaba', 'en', 'mi', 'cabeza', 'no', 'tendre', 'que', 'preocuparme', 'por', 'tantas', 'tonteras', 'Era', 'solo', 'un', 'niño', 'de', '10', 'años', 'pero', 'pensaba', 'que', 'podria', 'ser', 'cualquier', 'cosa', 'en', 'su', 'imaginacion', '']


In [14]:
texto = "En los E.U. esa hamburguesa cuesta $15.50"
print(re.split(r'[ \W\t\n]+',texto))

['En', 'los', 'E', 'U', 'esa', 'hamburguesa', 'cuesta', '15', '50']


In [15]:
pattern = r'''(?x)                 # set flag to allow verbose regexps
              (?:[A-Z]\.)+         # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*       # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
              | \.\.\.             # ellipsis
              | [][.,;"'?():-_`]   # these are separate tokens; includes ], [
'''

In [16]:
nltk.regexp_tokenize(texto, pattern)

['En', 'los', 'E.U.', 'esa', 'hamburguesa', 'cuesta', '$15.50']

(2) Lematizacion (encontrar la raiz linguistica de una palabra)

Stemming = lematizacion simple

In [17]:
from nltk import word_tokenize
from nltk.stem.snowball import SnowballStemmer

SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [18]:
stem = SnowballStemmer('spanish')

In [19]:
stem.stem("trabajaremos")

'trabaj'

In [20]:
#Lematizacion

from nltk.stem import WordNetLemmatizer

lemm= WordNetLemmatizer()

In [None]:
nltk.download("wordnet")

In [22]:
lemm.lemmatize('trabajó')

'trabajó'

## Uso de Spacy en NLP

**spacy** es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con otras librerías de NLP y de deep learning.

Tiene modelos entrenados en varios idiomas y permite realizar las típicas tareas de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.

Una vez instalados los modelos, podemos importarlos fácilmente:

In [None]:
%pip install -U spacy

In [None]:
#Descargamos el modelo de Spacy en español
!python -m spacy download es

In [23]:
import spacy

In [24]:
nlp = spacy.load('es_core_news_sm')

In [25]:
text = "Soy un texto.  Normalmente soy más largo y más grande.  Que no te engañe mi tamaño mayor a 10 palabras"

In [26]:
doc = nlp(text)

In [27]:
#Creamos una lista con los tokens del texto
tokens = [t.orth_ for t in doc]
tokens

['Soy',
 'un',
 'texto',
 '.',
 ' ',
 'Normalmente',
 'soy',
 'más',
 'largo',
 'y',
 'más',
 'grande',
 '.',
 ' ',
 'Que',
 'no',
 'te',
 'engañe',
 'mi',
 'tamaño',
 'mayor',
 'a',
 '10',
 'palabras']

**Limpiando el texto en Spacy**

Omitir:

- Palabras comunes (y, o, ni, que)
- Preposiciones (a, en, para, por, entre, otras)
- Verbos (ser)
- Las puntuaciones

Todas aquellas palabras que no aportan un significado importante en el texto las denominaremos stopwords

In [28]:
tokens_validos = [t.orth_ for t in doc if (not t.is_punct | t.is_stop) and t.orth_ != ' ']
tokens_validos

['texto', 'Normalmente', 'engañe', 'tamaño', '10', 'palabras']

**Normalizar texto en Spacy**

In [29]:
words = [t.lower() for t in tokens_validos if len(t)>3 and t.isalpha()]
words

['texto', 'normalmente', 'engañe', 'tamaño', 'palabras']

## **Similitud semántica entre palabras, frases y documentos**

spaCy permite calcular la similitud semántica entre cualquier par de objetos de tipo Doc, Span o Token.

Ojo, La similitud semántica es un concepto algo subjetivo, pero en este caso se puede entender como la probabilidad de que dos palabras aparezcan en los mismos contextos.

In [30]:
from spacy import displacy

In [33]:
nlp_en = spacy.load("en_core_web_sm")

In [34]:
# analizamos algunas colocaciones en inglés
token1, _, token2 = nlp_en("cats and dogs")
token3, _, token4 = nlp_en("research and development")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

cats vs dogs 0.34804314374923706
research vs development 0.1919044852256775
cats vs development 0.14609646797180176


  print(token1, "vs", token2, token1.similarity(token2))
  print(token3, "vs", token4, token3.similarity(token4))
  print(token1, "vs", token4, token1.similarity(token4))


In [43]:
# ¿qué tal funciona en español?
token1, _, token2 = nlp("perros y gatos")
token3, _, token4 = nlp("investigación y desarrollo")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

perros vs gatos 0.6648734211921692
investigación vs desarrollo 0.182033509016037
perros vs desarrollo -0.03289707377552986


  print(token1, "vs", token2, token1.similarity(token2))
  print(token3, "vs", token4, token3.similarity(token4))
  print(token1, "vs", token4, token1.similarity(token4))
