### **1. PREPROCESAMIENTO DE TEXTO** <br>
**EJEMPLOS**



In [1]:
import re

texto = "    Esto es un texto de prueba </p>"
salida = re.sub("r \s{4}", "", texto)
print(salida)

    Esto es un texto de prueba </p>


In [2]:
import re

texto = "<p> Esto es un texto de prueba </p>"
salida = re.sub("r<.?p>", "", texto)
print(salida)

<p> Esto es un texto de prueba </p>


In [3]:
cadena = 'eStO eS unA cAdeNA dE cAracTeREs'

print(cadena.upper())
# 'ESTO ES UNA CADENA DE CARACTERES'

print(cadena.lower()) 
# 'esto es una cadena de caracteres'

ESTO ES UNA CADENA DE CARACTERES
esto es una cadena de caracteres


In [4]:
# Instalamos uno de los modelos SpaCy
# !pip install es_core_news_sm

import nltk
# Además, instalamos la librería NLTK para apoyar ciertas tareas de los ejemplos que siguen
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jsanchez\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [5]:
# TOKENIZACIÓN POR PALABRA
import spacy


# Cargar el modelo de idioma en español
nlp = spacy.load('es_core_news_sm')

# Texto que quieres tokenizar
texto = "Spacy es una excelente herramienta para procesamiento de lenguaje natural en español."

# Aplicar el modelo para obtener los tokens
doc = nlp(texto)

# Imprimir los tokens
for token in doc:
    print(token.text)



Spacy
es
una
excelente
herramienta
para
procesamiento
de
lenguaje
natural
en
español
.


In [6]:
# TOKENIZACIÓN POR FRASE
import spacy

# Texto que quieres tokenizar
texto = "Spacy es una excelente herramienta para procesamiento de lenguaje natural en español. Puede tokenizar a nivel de oración también."

# Aplicar el modelo para obtener el documento
doc = nlp(texto)

# Imprimir las oraciones
for oracion in doc.sents:
    print(oracion.text)


Spacy es una excelente herramienta para procesamiento de lenguaje natural en español.
Puede tokenizar a nivel de oración también.


In [7]:
# LIMPIEZA DE TEXTO
import spacy

# Texto que quieres procesar
texto = "Spacy es una excelente herramienta para procesamiento de lenguaje natural en español."

# Aplicar el modelo para obtener el documento
doc = nlp(texto)

# Filtrar las stopwords y imprimir las palabras restantes
palabras_filtradas = [token.text for token in doc if not token.is_stop]
print("Palabras sin stopwords:", palabras_filtradas)






Palabras sin stopwords: ['Spacy', 'excelente', 'herramienta', 'procesamiento', 'lenguaje', 'natural', 'español', '.']


In [8]:
# DERIVACIÓN
import spacy
import nltk
from nltk.stem import PorterStemmer

# Descargar los recursos necesarios para NLTK
nltk.download('punkt')

# Cargar el modelo de idioma en español de Spacy
nlp = spacy.load('es_core_news_sm')

# Crear un objeto PorterStemmer de NLTK
stemmer = PorterStemmer()

# Texto que quieres procesar
texto = "Spacy es una excelente herramienta para procesamiento de lenguaje natural en español."

# Aplicar el modelo de Spacy para obtener el documento
doc = nlp(texto)

# Obtener las palabras lematizadas con Spacy y realizar "stemming" con NLTK
palabras_stemming = [stemmer.stem(token.lemma_) for token in doc]

print("Palabras lematizadas y stemmizadas:", palabras_stemming)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jsanchez\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Palabras lematizadas y stemmizadas: ['spaci', 'ser', 'uno', 'excelent', 'herramienta', 'para', 'procesamiento', 'de', 'lenguaj', 'natur', 'en', 'español', '.']


In [9]:
# LEMATIZACIÓN
import spacy

# Texto que quieres procesar
texto = "Spacy es una excelente herramienta para procesamiento de lenguaje natural en español."

# Aplicar el modelo para obtener el documento
doc = nlp(texto)

# Imprimir las palabras lematizadas
for token in doc:
    print("Palabra: ", "{:15}".format(token.text), "Lema: ", "{:15}".format(token.lemma_))



Palabra:  Spacy           Lema:  Spacy          
Palabra:  es              Lema:  ser            
Palabra:  una             Lema:  uno            
Palabra:  excelente       Lema:  excelente      
Palabra:  herramienta     Lema:  herramienta    
Palabra:  para            Lema:  para           
Palabra:  procesamiento   Lema:  procesamiento  
Palabra:  de              Lema:  de             
Palabra:  lenguaje        Lema:  lenguaje       
Palabra:  natural         Lema:  natural        
Palabra:  en              Lema:  en             
Palabra:  español         Lema:  español        
Palabra:  .               Lema:  .              


In [10]:
# ETIQUETADO DEL DISCURSO

# Texto que quieres procesar
texto = "Spacy es una excelente herramienta para procesamiento de lenguaje natural en español."

# Aplicar el modelo para obtener el documento
my_doc = nlp(texto)

# Imprimir el etiquetado morfológico de cada palabra
for token in my_doc:
    print("Palabra: ", "{:15}".format(token.text), "Etiqueta POS: ", "{:15}".format(token.pos_))


Palabra:  Spacy           Etiqueta POS:  PROPN          
Palabra:  es              Etiqueta POS:  AUX            
Palabra:  una             Etiqueta POS:  DET            
Palabra:  excelente       Etiqueta POS:  ADJ            
Palabra:  herramienta     Etiqueta POS:  NOUN           
Palabra:  para            Etiqueta POS:  ADP            
Palabra:  procesamiento   Etiqueta POS:  NOUN           
Palabra:  de              Etiqueta POS:  ADP            
Palabra:  lenguaje        Etiqueta POS:  NOUN           
Palabra:  natural         Etiqueta POS:  ADJ            
Palabra:  en              Etiqueta POS:  ADP            
Palabra:  español         Etiqueta POS:  NOUN           
Palabra:  .               Etiqueta POS:  PUNCT          


In [11]:
# LEMATIZACIÓN EN ESPAÑOL
# Ejemplo con la librería STANZA
!pip install stanza

import stanza as stz

stz.download("es")
nlp = stz.Pipeline(lang='es', processors='tokenize,mwt,pos,lemma')

sentence = "Esta es la primera prueba que realizo eliminando palabras irrelevantes de una oración"
doc = nlp(sentence)
words_lemmatized = [[word.text, word.lemma] for sent in doc.sentences for word in sent.words]
for words in words_lemmatized:
    print("Palabra: ", "{:15}".format(words[0]).lower(), "Lema: ", "{:15}".format(words[1]).lower())




Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

2023-11-21 19:53:05 INFO: Downloading default packages for language: es (Spanish) ...
2023-11-21 19:53:05 INFO: File exists: C:\Users\jsanchez\stanza_resources\es\default.zip
2023-11-21 19:53:08 INFO: Finished downloading models and saved to C:\Users\jsanchez\stanza_resources.
2023-11-21 19:53:08 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

2023-11-21 19:53:09 INFO: Loading these models for language: es (Spanish):
| Processor | Package         |
-------------------------------
| tokenize  | ancora          |
| mwt       | ancora          |
| pos       | ancora_charlm   |
| lemma     | ancora_nocharlm |

2023-11-21 19:53:09 INFO: Using device: cpu
2023-11-21 19:53:09 INFO: Loading: tokenize
2023-11-21 19:53:09 INFO: Loading: mwt
2023-11-21 19:53:09 INFO: Loading: pos
2023-11-21 19:53:09 INFO: Loading: lemma
2023-11-21 19:53:09 INFO: Done loading processors!


Palabra:  esta            Lema:  este           
Palabra:  es              Lema:  ser            
Palabra:  la              Lema:  el             
Palabra:  primera         Lema:  primero        
Palabra:  prueba          Lema:  prueba         
Palabra:  que             Lema:  que            
Palabra:  realizo         Lema:  realizar       
Palabra:  eliminando      Lema:  eliminar       
Palabra:  palabras        Lema:  palabra        
Palabra:  irrelevantes    Lema:  irrelevante    
Palabra:  de              Lema:  de             
Palabra:  una             Lema:  uno            
Palabra:  oración         Lema:  oración        
