# Tokenización

In [None]:
import nltk
from nltk.tokenize import word_tokenize,wordpunct_tokenize,sent_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
## Define el texto a utilizar
textos = '''
¿Reformar la Ley Federal del Trabajo? es una ocurrencia, que no deja de ser una declaración local.
Comentó el presidente, ante la propuesta de la fracción del PRI para que el COVID19 sea considerado riesgo de trabajo.
Muchas personas viajaron fuera de Colombia para ponerse la vacuna contra Covid19 #uam y el certificado digital de vacunación el 17-02-2023 no los cubre.
'''
sentencias=sent_tokenize(textos)
print(sentencias)
print(wordpunct_tokenize(textos))

## Imprime sentencias y palabras(tokens)
for sentencia in sentencias:
    print(sentencia)
    print(wordpunct_tokenize(sentencia))

['\n¿Reformar la Ley Federal del Trabajo?', 'es una ocurrencia, que no deja de ser una declaración local.', 'Comentó el presidente, ante la propuesta de la fracción del PRI para que el COVID19 sea considerado riesgo de trabajo.', 'Muchas personas viajaron fuera de Colombia para ponerse la vacuna contra Covid19 #uam y el certificado digital de vacunación el 17-02-2023 no los cubre.']
['¿', 'Reformar', 'la', 'Ley', 'Federal', 'del', 'Trabajo', '?', 'es', 'una', 'ocurrencia', ',', 'que', 'no', 'deja', 'de', 'ser', 'una', 'declaración', 'local', '.', 'Comentó', 'el', 'presidente', ',', 'ante', 'la', 'propuesta', 'de', 'la', 'fracción', 'del', 'PRI', 'para', 'que', 'el', 'COVID19', 'sea', 'considerado', 'riesgo', 'de', 'trabajo', '.', 'Muchas', 'personas', 'viajaron', 'fuera', 'de', 'Colombia', 'para', 'ponerse', 'la', 'vacuna', 'contra', 'Covid19', '#', 'uam', 'y', 'el', 'certificado', 'digital', 'de', 'vacunación', 'el', '17', '-', '02', '-', '2023', 'no', 'los', 'cubre', '.']

¿Reformar 

In [None]:
from nltk.tokenize import MWETokenizer

In [None]:
#Tokenizar multipalabra

tk=MWETokenizer([('vacuna','contra','Covid19')])
tk.add_mwe(('Ley','Federal',"del",'Trabajo!'))

for texto in sentencias:
  res=tk.tokenize(texto.split())
  print(res)

['Reformar', 'la', 'Ley_Federal_del_Trabajo!']
['es', 'una', 'ocurrencia,', 'que', 'no', 'deja', 'de', 'ser', 'una', 'declaración', 'local.']
['Comentó', 'el', 'presidente,', 'ante', 'la', 'propuesta', 'de', 'la', 'fracción', 'del', 'PRI', 'para', 'que', 'el', 'COVID19', 'sea', 'considerado', 'riesgo', 'de', 'trabajo.']
['Muchas', 'personas', 'viajaron', 'fuera', 'de', 'Colombia', 'para', 'ponerse', 'la', 'vacuna_contra_Covid19', '#uam', 'y', 'el', 'certificado', 'digital', 'de', 'vacunación', 'el', '17-02-2023', 'no', 'los', 'cubre.']


# Limpieza de textos

In [None]:
#Elimina ruido (caracteres especiales)

texto="Muchas personas viajaron a Colombia para ponerse la vacuna contra #COVID19 y el certificado de vacunación ( digital ) "
lista_ruido=["(",")","¿","?","/",","]

palabras_sin_ruido=[palabra for palabra in texto.split(' ') if palabra not in lista_ruido]

texto_sin_ruido=" ".join(palabras_sin_ruido)

print(texto_sin_ruido)

Muchas personas viajaron a Colombia para ponerse la vacuna contra #COVID19 y el certificado de vacunación digital 


In [None]:
import re

In [None]:
#Eliminar ruido (elementos no relevantes)

texto="Muchas personas viajaron a #Colombia para ponerse la vacuna contra #a1a1a1a y el certificado de $1 vacunación (digital)"

texto=re.sub('#[a-zA-Z0-9]+',"",texto)

print(texto)

Muchas personas viajaron a  para ponerse la vacuna contra  y el certificado de $1 vacunación (digital)


In [None]:
#Ifdentificar entidades

# * -> 0 o más
# + -> 1 o más
# ? -> 0 o 1
# metacaracteres . ^ $ * + ? { } [ ] \ | ( )
# \w  -> Coincide con cualquier carácter alfanumérico
# https://docs.python.org/es/3/howto/regex.html#more-metacharacters

texto="Muchas #personas #UAM viajaron a #Colombia para ponerse la vacuna contra #COVID19 y el certificado de vacunación (digital)"

patron=re.compile('#\S+')

for palabra in texto.split(' '):
  if patron.match(palabra)!=None:
      print("Palabra encontrada: "+palabra)

Palabra encontrada: #personas
Palabra encontrada: #UAM
Palabra encontrada: #Colombia
Palabra encontrada: #COVID19


In [None]:
#Eliminar ruido (elementos no relevantes) usando expresiones regulares

texto="Muchas personas viajaron a Colombia para ponerse la vacuna contra #COVID19 \hola y el certificado de $1 (vacunación) [digital]!"

#texto=re.sub("[$#¡!¿&@]","",texto)
texto=re.sub("[$#\*¿\?¡!\+\-\[\]\)\(\\\]","",texto)

print(texto)

Muchas personas viajaron a Colombia para ponerse la vacuna contra COVID19 hola y el certificado de 1 vacunación digital


In [None]:
#Limpiar texto quitando URL (direcciones de internet)

texto = "Reformar la Ley Federal del Trabajo #LFT es una ocurrencia @presidenciaMEX, deja de ser una declaración local https.//buff.ly/7rYzT5s. Muchas http://ow.ly/J17l30lKhEG personas viajaron fuera de Colombia"


textoSinURL= re.sub("(www\.\S+)|(http(S)?:\S+)", "", texto)

print(textoSinURL)

Reformar la Ley Federal del Trabajo #LFT es una ocurrencia @presidenciaMEX, deja de ser una declaración local https.//buff.ly/7rYzT5s. Muchas  personas viajaron fuera de Colombia


In [None]:
#Palabras vacías
# https://www.ranks.nl/stopwords/spanish

from nltk.corpus import stopwords

nltk.download("stopwords")
palabras_vacias=set(stopwords.words("spanish"))

texto="Muchas personas viajaron a Colombia para ponerse la vacuna contra #COVID19 y el certificado de vacunación (digital)"

print("Palabras vacías: ")
print(palabras_vacias)
print(len(palabras_vacias))

texto_sin_palabras_vacias=" ".join([palabra for palabra in texto.split(' ') if palabra not in palabras_vacias])

print("Texto original:\n"+texto)
print(len(texto.split(' ')))
print("Texto sin palabras vacias:\n"+texto_sin_palabras_vacias)
print(len(texto_sin_palabras_vacias.split(' ')))

Palabras vacías: 
{'tendrá', 'tenías', 'entre', 'hube', 'e', 'nuestro', 'estuviéramos', 'habrá', 'serás', 'estábamos', 'tendrás', 'al', 'había', 'habiendo', 'fueses', 'tuyo', 'hubisteis', 'tendréis', 'teníais', 'por', 'los', 'serías', 'fuésemos', 'fuesen', 'las', 'habida', 'estabais', 'hubiésemos', 'fuimos', 'sentido', 'ni', 'estuve', 'estás', 'hayáis', 'donde', 'otros', 'les', 'seamos', 'tuvisteis', 'tened', 'estarán', 'para', 'cual', 'seáis', 'sus', 'hubo', 'qué', 'tendremos', 'habías', 'sentid', 'esa', 'habrán', 'estuviésemos', 'vuestras', 'tuya', 'tenidas', 'uno', 'habríamos', 'os', 'hubimos', 'sean', 'ti', 'muy', 'estoy', 'estuvieses', 'habréis', 'de', 'estuvieran', 'serían', 'tenía', 'está', 'somos', 'estabas', 'esas', 'mí', 'suyas', 'hubiste', 'estuvierais', 'hubieran', 'estaría', 'habrías', 'fueras', 'ante', 'estuviera', 'quien', 'estuvo', 'se', 'estuvieseis', 'habíamos', 'eso', 'sin', 'estaremos', 'fueron', 'erais', 'durante', 'estéis', 'estada', 'hayamos', 'nuestra', 'teníamo

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


# Estandarización

In [None]:
texto="OMG.... que crees!!!... vi en fb un video donde saliste con tu disfraz, LOL.. me hiciste el día!!... TQM amiga"
print("Texto original:\n"+texto)

#Eliminar ruido
lista_ruido=["!","\.",","]
for ruido in lista_ruido:
  texto=re.sub(ruido,"",texto)

print("Texto sin ruido:\n"+texto)

#Convertir minúsculas
texto=texto.lower()
print("Texto en minúsculas:\n"+texto)

#Estandarizar términos
term_estandar={'fb':'facebook','tqm':'te quiero mucho','lol':'reirse a carcajadas','omg':'oh dios mio'}
palabras=texto.split(' ')
texto_aux=[]

for palabra in palabras:
  if palabra in term_estandar:
    palabra=term_estandar[palabra]
  texto_aux.append(palabra)

texto_nuevo=" ".join(texto_aux)

print("Texto final:\n"+texto_nuevo)

Texto original:
OMG.... que crees!!!... vi en fb un video donde saliste con tu disfraz, LOL.. me hiciste el día!!... TQM amiga
Texto sin ruido:
OMG que crees vi en fb un video donde saliste con tu disfraz LOL me hiciste el día TQM amiga
Texto en minúsculas:
omg que crees vi en fb un video donde saliste con tu disfraz lol me hiciste el día tqm amiga
Texto final:
oh dios mio que crees vi en facebook un video donde saliste con tu disfraz reirse a carcajadas me hiciste el día te quiero mucho amiga


# Lematización

In [None]:
!python -m spacy download es_core_news_sm
import es_core_news_sm
import spacy
pln = es_core_news_sm.load()

#Modelos disponibles -> https://spacy.io/models/es

2023-03-03 18:19:34.955754: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2023-03-03 18:19:37.437921: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-03-03 18:19:37.438125: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer_plugin.so.7'; dlerror: libnvinfer_plugin.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-03-03 18:19:44.635321: E tensorfl



In [None]:
!python -m spacy validate

2023-03-03 18:21:03.594801: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-03-03 18:21:03.594945: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer_plugin.so.7'; dlerror: libnvinfer_plugin.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-03-03 18:21:05.475603: E tensorflow/compiler/xla/stream_executor/cuda/cuda_driver.cc:267] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
[2K[38;5;2m✔ Loaded compatibility table[0m
[1m
[38;5;4mℹ spaCy installation: /usr/local/lib/python3.8/dist-packages/spacy[0m

NAME              SPACY            VERSION                            
es

In [None]:
texto = pln("Unos radares multan a Mariano Rajoy por ir caminando demasiados rápidas")

for palabra in texto:
    lema= palabra.lemma_
    palabra_orignal=palabra.text
    print( palabra_orignal+ ' --> ' + lema)

Unos --> uno
radares --> radar
multan --> multar
a --> a
Mariano --> Mariano
Rajoy --> Rajoy
por --> por
ir --> ir
caminando --> caminar
demasiados --> demasiado
rápidas --> rápida


In [None]:
#oracion="I was very happy"
oracion="I ate an apple"
nlp = spacy.load('en_core_web_sm')
doc=nlp(oracion)
for palabra in doc:
  print(palabra.lemma_)

I
eat
an
apple


# Stemming (Derivación de textos)

In [None]:
import nltk
from nltk.tokenize import word_tokenize,wordpunct_tokenize,sent_tokenize
nltk.download('punkt')
from nltk import SnowballStemmer

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
oracion1 = "Se siente frio."
#oracion1 = "Muchas personas viajaron fuera de Colombia para ponerse la vacuna contra Covid19 y el certificado digital de vacunación no los cubre."
oracion2 = "Unos radares multan a Mariano Rajoy ya que dió una mordida"

s=word_tokenize(oracion1)

esp=SnowballStemmer('spanish')

text_r=[esp.stem(token) for token in s]

print("Texto original:\n"+oracion1)
print(text_r)

Texto original:
Se siente frio.
['se', 'sient', 'fri', '.']


# Etiquetado POS

In [None]:
!python -m spacy download es_core_news_sm
import es_core_news_sm
import spacy
pln = es_core_news_sm.load()

Collecting es-core-news-sm==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.5.0/es_core_news_sm-3.5.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m56.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.5.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [None]:
#texto = pln("Juan compró un regalo a María.")
texto = pln("Nidia Karen Serafin Rojas come manzanas rojas")

for palabra in texto:
    lema= palabra.lemma_
    palabra_orignal=palabra.text
    pos=palabra.pos_
    print( palabra_orignal+ '\t' + lema + '\t'+ pos )

Nidia	Nidia	PROPN
Karen	Karen	PROPN
Serafin	Serafin	PROPN
Rojas	Rojas	PROPN
come	comar	VERB
manzanas	manzana	NOUN
rojas	rojo	ADJ


In [None]:
import nltk
from nltk import pos_tag
from nltk.tokenize import word_tokenize
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

texto = "The red apple is on the table."

pos_tags=pos_tag(word_tokenize(texto))

print(pos_tags)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...


[('The', 'DT'), ('red', 'JJ'), ('apple', 'NN'), ('is', 'VBZ'), ('on', 'IN'), ('the', 'DT'), ('table', 'NN'), ('.', '.')]


[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


# Árbol de dependencias por palabras y por sintagmas

In [None]:
import spacy
#texto = pln("El niño comió manzanas jugosas y rojas en el parque.")
#texto = pln("Nidia Karen Serafin Rojas come manzanas rojas")
texto = pln("Karen fue a la tienda y Pedro salio de la escuela")

for sintagma in texto.noun_chunks:
    print(sintagma.text)

Karen
Pedro
la escuela


In [None]:
#Display del arbol de dependencias: #https://demos.explosion.ai/displacy

#Etiquetas de relaciones de dependencia: #https://universaldependencies.org/u/dep/

#texto = pln("María vio a Pedro con el telescopio.")
texto = pln("Karen fue a la tienda")

for palabra in texto:
    palabra_orignal=palabra.text
    relacion_dep=palabra.dep_
    print( palabra_orignal+ '\t' + relacion_dep)

Karen	nsubj
fue	ROOT
a	advmod
la	fixed
tienda	punct


# Reconocimiento de Entidades Nombradas (NER)

In [None]:
#https://demos.explosion.ai/displacy-ent

texto = pln("Juan vive en México y trabaja en la UAM Azcapotzalco")

for palabra in texto:
    palabra_orignal=palabra.text
    ner=palabra.ent_type_
    pos=palabra.pos_
    print( palabra_orignal+ '\t' + pos + '\t' + ner)