### Uso de NLTK

In [36]:
import nltk
#descargar el corpus en español
nltk.download("cess_esp")

[nltk_data] Downloading package cess_esp to
[nltk_data]     C:\Users\jayka\AppData\Roaming\nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


True

### Expresiones regulares

In [37]:
import re

corpus = nltk.corpus.cess_esp.sents()

print(corpus)
print(len(corpus))

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]
6030


In [38]:
# Aplanar una lista compuesta de sublistas

flatten = [w for l in corpus for w in l]


In [39]:
len(flatten)

192686

In [40]:
print(flatten[:20])

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana']


Aplicacion de expresiones regulares sobre la variable **flatten**:

re.search(p,s)

p = patron de busqueda
s = cadena donde buscar

In [41]:
# Meta-caracteres basicos

arr = [w for w in flatten if re.search("es", w)]

arr[:5]

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']

In [42]:
arr = [w for w in flatten if re.search("es$", w)]

arr[:5]

['jueves', 'centrales', 'millones', 'millones', 'dólares']

In [43]:
arr = [w for w in flatten if re.search("^..j..t..$", w)]

arr[:5]

['tajantes']

In [44]:
# Aplicacion de rangos
# [a-z], [A-Z], [0-9]
arr = [w for w in flatten if re.search("^[ghi][mno][jlk][def]$", w)]

arr[:5]

['golf', 'golf']

## Normalizacion del Texto

(1) Tokenizacion

In [45]:
texto = """Cuando sea presidente del mundo (imaginaba en mi cabeza) no tendre que preocuparme por tantas tonteras.
Era solo un niño de 10 años, pero pensaba que podria ser cualquier cosa en su imaginacion..."""

print(texto)

Cuando sea presidente del mundo (imaginaba en mi cabeza) no tendre que preocuparme por tantas tonteras.
Era solo un niño de 10 años, pero pensaba que podria ser cualquier cosa en su imaginacion...


In [46]:
#Caso 1
print(re.split(r' ', texto))

['Cuando', 'sea', 'presidente', 'del', 'mundo', '(imaginaba', 'en', 'mi', 'cabeza)', 'no', 'tendre', 'que', 'preocuparme', 'por', 'tantas', 'tonteras.\nEra', 'solo', 'un', 'niño', 'de', '10', 'años,', 'pero', 'pensaba', 'que', 'podria', 'ser', 'cualquier', 'cosa', 'en', 'su', 'imaginacion...']


In [47]:
#Caso 2:
print(re.split(r'[ \t\n]+', texto))

['Cuando', 'sea', 'presidente', 'del', 'mundo', '(imaginaba', 'en', 'mi', 'cabeza)', 'no', 'tendre', 'que', 'preocuparme', 'por', 'tantas', 'tonteras.', 'Era', 'solo', 'un', 'niño', 'de', '10', 'años,', 'pero', 'pensaba', 'que', 'podria', 'ser', 'cualquier', 'cosa', 'en', 'su', 'imaginacion...']


In [48]:
#Caso 3:
# \W omite todos los caracteres que nos sean letras, digitos o guiones
print(re.split(r'[ \W\t\n]+', texto))

['Cuando', 'sea', 'presidente', 'del', 'mundo', 'imaginaba', 'en', 'mi', 'cabeza', 'no', 'tendre', 'que', 'preocuparme', 'por', 'tantas', 'tonteras', 'Era', 'solo', 'un', 'niño', 'de', '10', 'años', 'pero', 'pensaba', 'que', 'podria', 'ser', 'cualquier', 'cosa', 'en', 'su', 'imaginacion', '']


In [49]:
texto = "En los E.U. esa hamburguesa cuesta $15.50"
print(re.split(r'[ \W\t\n]+',texto))

['En', 'los', 'E', 'U', 'esa', 'hamburguesa', 'cuesta', '15', '50']


In [50]:
pattern = r'''(?x)                 # set flag to allow verbose regexps
              (?:[A-Z]\.)+         # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*       # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
              | \.\.\.             # ellipsis
              | [][.,;"'?():-_`]   # these are separate tokens; includes ], [
'''

In [51]:
nltk.regexp_tokenize(texto, pattern)

['En', 'los', 'E.U.', 'esa', 'hamburguesa', 'cuesta', '$15.50']

(2) Lematizacion (encontrar la raiz linguistica de una palabra)

Stemming = lematizacion simple

In [52]:
from nltk import word_tokenize
from nltk.stem.snowball import SnowballStemmer

SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [53]:
stem = SnowballStemmer('spanish')

In [54]:
stem.stem("trabajaremos")

'trabaj'

In [55]:
#Lematizacion

from nltk.stem import WordNetLemmatizer

lemm= WordNetLemmatizer()

In [56]:
nltk.download("wordnet")

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\jayka\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [57]:
lemm.lemmatize('trabajó')

'trabajó'

## Uso de Spacy en NLP

**spacy** es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con otras librerías de NLP y de deep learning.

Tiene modelos entrenados en varios idiomas y permite realizar las típicas tareas de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.

Una vez instalados los modelos, podemos importarlos fácilmente:

In [58]:
! pip install -U spacy




[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [59]:
#Descargamos el modelo de Spacy en español
! python -m spacy download es

[38;5;3m⚠ As of spaCy v3.0, shortcuts like 'es' are deprecated. Please use the
full pipeline package name 'es_core_news_sm' instead.[0m
Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
     ---------------------------------------- 0.0/12.9 MB ? eta -:--:--
     --------------------------------------- 12.9/12.9 MB 64.9 MB/s eta 0:00:00
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')



[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [60]:
import spacy

In [61]:
nlp = spacy.load('es_core_news_sm')

In [62]:
text = "Soy un texto.  Normalmente soy más largo y más grande.  Que no te engañe mi tamaño mayor a 10 palabras"

In [63]:
doc = nlp(text)

In [64]:
#Creamos una lista con los tokens del texto
tokens = [t.orth_ for t in doc]
tokens

['Soy',
 'un',
 'texto',
 '.',
 ' ',
 'Normalmente',
 'soy',
 'más',
 'largo',
 'y',
 'más',
 'grande',
 '.',
 ' ',
 'Que',
 'no',
 'te',
 'engañe',
 'mi',
 'tamaño',
 'mayor',
 'a',
 '10',
 'palabras']

**Limpiando el texto en Spacy**

Omitir:

- Palabras comunes (y, o, ni, que)
- Preposiciones (a, en, para, por, entre, otras)
- Verbos (ser)
- Las puntuaciones

Todas aquellas palabras que no aportan un significado importante en el texto las denominaremos stopwords

In [65]:
tokens_validos = [t.orth_ for t in doc if (not t.is_punct | t.is_stop) and t.orth_ != ' ']
tokens_validos

['texto', 'Normalmente', 'engañe', 'tamaño', '10', 'palabras']

**Normalizar texto en Spacy**

In [66]:
words = [t.lower() for t in tokens_validos if len(t)>3 and t.isalpha()]
words

['texto', 'normalmente', 'engañe', 'tamaño', 'palabras']

## **Similitud semántica entre palabras, frases y documentos**

spaCy permite calcular la similitud semántica entre cualquier par de objetos de tipo Doc, Span o Token.

Ojo, La similitud semántica es un concepto algo subjetivo, pero en este caso se puede entender como la probabilidad de que dos palabras aparezcan en los mismos contextos.

In [67]:
from spacy import displacy

In [69]:
! python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
     ---------------------------------------- 0.0/12.8 MB ? eta -:--:--
     --------------------------------- ----- 11.0/12.8 MB 53.4 MB/s eta 0:00:01
     --------------------------------------- 12.8/12.8 MB 50.1 MB/s eta 0:00:00
Installing collected packages: en-core-web-sm
Successfully installed en-core-web-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')



[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [70]:
nlp_en = spacy.load("en_core_web_sm")

In [71]:
# analizamos algunas colocaciones en inglés
token1, _, token2 = nlp_en("cats and dogs")
token3, _, token4 = nlp_en("research and development")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

cats vs dogs 0.3506028354167938
research vs development 0.25495645403862
cats vs development 0.050141848623752594


  print(token1, "vs", token2, token1.similarity(token2))
  print(token3, "vs", token4, token3.similarity(token4))
  print(token1, "vs", token4, token1.similarity(token4))


In [72]:
# ¿qué tal funciona en español?
token1, _, token2 = nlp("perros y gatos")
token3, _, token4 = nlp("investigación y desarrollo")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

perros vs gatos 0.6791152358055115
investigación vs desarrollo 0.2735188603401184
perros vs desarrollo 0.14307770133018494


  print(token1, "vs", token2, token1.similarity(token2))
  print(token3, "vs", token4, token3.similarity(token4))
  print(token1, "vs", token4, token1.similarity(token4))
