# **Demostración de Técnicas de Preprocesamiento de Texto en PNL**

## **Objetivo del Script:**
Este script muestra diversas técnicas comunes de preprocesamiento de texto utilizadas en el Procesamiento del Lenguaje Natural (PNL). Cada técnica se ilustra con texto de ejemplo, aplicando la transformación y mostrando los resultados. Este script fue adaptado de  "Complete Guide to Text Preprocessing in NLP" (https://medium.com/@devangchavan0204/complete-guide-to-text-preprocessing-in-nlp-b4092c104d3e).

## **Estructura del Script:**
1.  Carga de las librerías necesarias y descarga de recursos NLTK (si es necesario).
2.  Definición de texto de ejemplo.
3.  Aplicación y visualización de técnicas de preprocesamiento:
    * Minúsculas (Lowercasing)
    * Eliminar Etiquetas HTML (Remove HTML Tags)
    * Eliminar URLs (Remove URLs)
    * Eliminar Puntuación (Remove Punctuations)
    * Tratamiento de Palabras de Chat (Chat Word Treatment)
    * Corrección Ortográfica (Spelling Correction)
    * Eliminación de Palabras Vacías (Removing Stop Words)
    * Manejo de Emojis (Handling Emojis)
    * Tokenización (Tokenization)
    * Derivación (Stemming)
    * Lematización (Lemmatization)

## **Nota sobre NLTK:**
Algunas funciones de NLTK requieren la descarga de recursos específicos (corpus, modelos). Si es la primera vez que usas NLTK para estas tareas, es posible que necesites ejecutar comandos de descarga. Se incluye una celda para esto.

In [1]:
# ------------------------------------------------------------------------------
# 1. Carga de Librerías y Descarga de Recursos NLTK
# ------------------------------------------------------------------------------
import re
import string
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.stem.porter import PorterStemmer
from nltk.stem import WordNetLemmatizer
from textblob import TextBlob
import pandas as pd # Opcional, para mostrar cómo se aplicaría a un DataFrame

# Descomenta y ejecuta las siguientes líneas si no tienes los recursos de NLTK
# Necesitarás hacerlo una vez por instalación de Python/entorno.
nltk.download('punkt') # Para tokenización
nltk.download('stopwords') # Para palabras vacías
nltk.download('wordnet') # Para lematización
nltk.download('omw-1.4') # Necesario para wordnet en algunos casos
nltk.download('punkt_tab') # Para tokenización de tablas

print("Librerías cargadas.")
try:
    # Intenta cargar recursos para verificar si están disponibles
    stopwords.words('english')
    word_tokenize("test")
    PorterStemmer().stem("testing")
    WordNetLemmatizer().lemmatize("testing")
    print("Recursos NLTK necesarios parecen estar disponibles.")
except LookupError as e:
    print(f"Error de NLTK: {e}. Por favor, descomenta y ejecuta las líneas nltk.download(...) en el script.")
except Exception as e:
    print(f"Otro error relacionado con NLTK: {e}")

[nltk_data] Downloading package punkt to /home/santiago/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/santiago/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/santiago/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/santiago/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/santiago/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Librerías cargadas.
Recursos NLTK necesarios parecen estar disponibles.


## **2. Texto de Ejemplo**

Definiremos algunas cadenas de texto para aplicar las técnicas de preprocesamiento.
Estas muestras incluyen características que cada paso de preprocesamiento abordará.

In [2]:
sample_texts = [
    "Hello WORLD! This is an <B>example</B> text for NLP preprocessing.",
    "Check out my new blog post at https://example.com/my-post or www.another-example.com.",
    "OMG! This is GR8! BTW, what's up? CUL8R.",
    "Thiss is a sentance with some missspellings and errrors. :D 😂",
    "The quick brown fox jumps over the lazy dog. He was running and eating.",
    "I love programming, programmers, and programs. Walking, walked, walks."
]

# También podemos crear un DataFrame de Pandas para simular la aplicación a un conjunto de datos,
# como se menciona en el artículo de referencia con el dataset IMDB.
df_sample = pd.DataFrame(sample_texts, columns=['text'])

print("Texto de ejemplo original:")
for i, text in enumerate(sample_texts):
    print(f"{i+1}: {text}")

Texto de ejemplo original:
1: Hello WORLD! This is an <B>example</B> text for NLP preprocessing.
2: Check out my new blog post at https://example.com/my-post or www.another-example.com.
3: OMG! This is GR8! BTW, what's up? CUL8R.
4: Thiss is a sentance with some missspellings and errrors. :D 😂
5: The quick brown fox jumps over the lazy dog. He was running and eating.
6: I love programming, programmers, and programs. Walking, walked, walks.


## **3. Técnicas de Preprocesamiento de Texto**

A continuación, aplicaremos cada técnica de preprocesamiento.
No siempre es necesario aplicar todos los pasos; la elección depende de los requisitos del proyecto.

### **3.1 Minúsculas (Lowercasing)**
Convierte todo el texto a minúsculas para asegurar uniformidad.
Por ejemplo, "Word" y "word" se tratan como la misma entidad.

In [3]:
def lowercase_text(text):
    return text.lower() # String = representacion del texto en el lenguaje de programación

print("3.1 Minúsculas")
for i, text in enumerate(sample_texts):
    processed_text = lowercase_text(text)
    if text != processed_text: # Mostrar solo si hay cambios
        print(f"Original {i+1}: {text}")
        print(f"Procesado {i+1}: {processed_text}\n")

# Aplicado al DataFrame de ejemplo:
# df_sample['text_lowercased'] = df_sample['text'].apply(lowercase_text)
# print(df_sample[['text', 'text_lowercased']].head())

3.1 Minúsculas
Original 1: Hello WORLD! This is an <B>example</B> text for NLP preprocessing.
Procesado 1: hello world! this is an <b>example</b> text for nlp preprocessing.

Original 2: Check out my new blog post at https://example.com/my-post or www.another-example.com.
Procesado 2: check out my new blog post at https://example.com/my-post or www.another-example.com.

Original 3: OMG! This is GR8! BTW, what's up? CUL8R.
Procesado 3: omg! this is gr8! btw, what's up? cul8r.

Original 4: Thiss is a sentance with some missspellings and errrors. :D 😂
Procesado 4: thiss is a sentance with some missspellings and errrors. :d 😂

Original 5: The quick brown fox jumps over the lazy dog. He was running and eating.
Procesado 5: the quick brown fox jumps over the lazy dog. he was running and eating.

Original 6: I love programming, programmers, and programs. Walking, walked, walks.
Procesado 6: i love programming, programmers, and programs. walking, walked, walks.



### **3.2 Eliminar Etiquetas HTML (Remove HTML Tags)**
Las etiquetas HTML, a menudo presentes en datos extraídos de la web (scraped data), son irrelevantes para los modelos de ML.
Eliminarlas asegura que el modelo se enfoque en el contenido textual.

In [4]:
def remove_html_tags(text):
    pattern = re.compile('<.*?>') # Expresión regular para encontrar etiquetas HTML
    return pattern.sub(r'', text) # Reemplaza las etiquetas con una cadena vacía

print("3.2 Eliminar Etiquetas HTML")
for i, text in enumerate(sample_texts):
    processed_text = remove_html_tags(text)
    if text != processed_text:
        print(f"Original {i+1}: {text}")
        print(f"Procesado {i+1}: {processed_text}\n")

3.2 Eliminar Etiquetas HTML
Original 1: Hello WORLD! This is an <B>example</B> text for NLP preprocessing.
Procesado 1: Hello WORLD! This is an example text for NLP preprocessing.



### **3.3 Eliminar URLs (Remove URLs)**
Las URLs pueden no aportar información valiosa y pueden confundir al modelo.
Eliminarlas simplifica los datos.

In [5]:
def remove_urls(text):
    # Patrón mejorado para cubrir http, https y www
    pattern = re.compile(r'https?://\S+|www\.\S+')
    return pattern.sub(r'[URL]', text)

print("3.3 Eliminar URLs")
text_with_url = 'For notebook click https://www.kaggle.com/campusx/notebook8223fclabb or visit www.mysite.com' 
print(f"Original URL: {text_with_url}")
print(f"Procesado URL: {remove_urls(text_with_url)}\n")

for i, text in enumerate(sample_texts):
    processed_text = remove_urls(text)
    if text != processed_text:
        print(f"Original {i+1}: {text}")
        print(f"Procesado {i+1}: {processed_text}\n")

3.3 Eliminar URLs
Original URL: For notebook click https://www.kaggle.com/campusx/notebook8223fclabb or visit www.mysite.com
Procesado URL: For notebook click [URL] or visit [URL]

Original 2: Check out my new blog post at https://example.com/my-post or www.another-example.com.
Procesado 2: Check out my new blog post at [URL] or [URL]



### **3.4 Eliminar Puntuación (Remove Punctuations)**
Elimina caracteres como comas y puntos, enfocándose en las palabras.
Puede ser beneficioso para tareas como el análisis de sentimientos.

In [None]:
def remove_punctuation(text):
    # string.punctuation contiene !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ (Bag of word, tf-idf, word2vec)
    translator = str.maketrans('', '', string.punctuation)
    return text.translate(translator)

print("3.4 Eliminar Puntuación")
for i, text in enumerate(sample_texts):
    processed_text = remove_punctuation(text)
    if text != processed_text:
        print(f"Original {i+1}: {text}")
        print(f"Procesado {i+1}: {processed_text}\n")

3.4 Eliminar Puntuación
Original 1: Hello WORLD! This is an <B>example</B> text for NLP preprocessing.
Procesado 1: Hello WORLD This is an BexampleB text for NLP preprocessing

Original 2: Check out my new blog post at https://example.com/my-post or www.another-example.com.
Procesado 2: Check out my new blog post at httpsexamplecommypost or wwwanotherexamplecom

Original 3: OMG! This is GR8! BTW, what's up? CUL8R.
Procesado 3: OMG This is GR8 BTW whats up CUL8R

Original 4: Thiss is a sentance with some missspellings and errrors. :D 😂
Procesado 4: Thiss is a sentance with some missspellings and errrors D 😂

Original 5: The quick brown fox jumps over the lazy dog. He was running and eating.
Procesado 5: The quick brown fox jumps over the lazy dog He was running and eating

Original 6: I love programming, programmers, and programs. Walking, walked, walks.
Procesado 6: I love programming programmers and programs Walking walked walks



### **3.5 Tratamiento de Palabras de Chat (Chat Word Treatment)**
Convierte palabras de chat o jerga (ej. "FYI", "LOL") a sus formas completas para mejorar la comprensión del modelo.
Se utiliza un diccionario para las conversiones.

In [7]:
# Diccionario de ejemplo
chat_word_dict = {
    'AFAIK': 'As Far As I Know', 'ASAP': 'As Soon As Possible',
    'BTW': 'By The Way', 'B4': 'Before', 'CUL8R': 'See You Later',
    'CYA': 'See You', 'FAQ': 'Frequently Asked Questions', 'FYI': 'For Your Information',
    'GG': 'Good Game', 'GR8': 'Great!', 'IMHO': 'In My Honest Opinion',
    'LOL': 'Laughing Out Loud', 'OMG': 'Oh My God', 'TTYL': 'Talk To You Later',
    'U': 'You', 'R': 'Are'
}

def chat_conversion(text):
    words = text.split()
    new_words = []
    for word in words:
        # Considerar la puntuación pegada a la palabra
        word_upper = word.upper()
        # Eliminar puntuación común al final para buscar en el dict
        cleaned_word_upper = re.sub(r'[^\w\s]$', '', word_upper)

        if cleaned_word_upper in chat_word_dict:
            # Conservar la capitalización original (aproximado)
            replacement = chat_word_dict[cleaned_word_upper]
            if word.islower():
                new_words.append(replacement.lower())
            elif word.isupper():
                new_words.append(replacement.upper())
            elif word[0].isupper():
                new_words.append(replacement.capitalize())
            else:
                new_words.append(replacement)
        else:
            new_words.append(word)
    return " ".join(new_words)


print("3.5 Tratamiento de Palabras de Chat")
text_slang_example = "FYI U R GR8! CUL8R."
print(f"Original Slang: {text_slang_example}")
print(f"Procesado Slang: {chat_conversion(text_slang_example)}\n")

for i, text in enumerate(sample_texts):
    processed_text = chat_conversion(text)
    if text != processed_text:
        print(f"Original {i+1}: {text}")
        print(f"Procesado {i+1}: {processed_text}\n")

3.5 Tratamiento de Palabras de Chat
Original Slang: FYI U R GR8! CUL8R.
Procesado Slang: FOR YOUR INFORMATION YOU ARE GREAT! SEE YOU LATER

Original 3: OMG! This is GR8! BTW, what's up? CUL8R.
Procesado 3: OH MY GOD This is GREAT! BY THE WAY what's up? SEE YOU LATER



### **3.6 Corrección Ortográfica (Spelling Correction)**
Corrige errores tipográficos e inexactitudes, mejorando la calidad de los datos.
Se puede usar la librería `TextBlob`.

In [8]:
def correct_spelling(text):
    # TextBlob es útil pero puede ser lento en grandes datasets
    # y no siempre es perfecto.
    text_blob = TextBlob(text)
    return str(text_blob.correct())

print("3.6 Corrección Ortográfica")
incorrect_text_example = 'Thiss is a sentance with some missspellings and errrors.'
# Nota: La corrección de TextBlob puede no ser perfecta o puede cambiar palabras correctamente escritas.
# Para este ejemplo, mostramos su funcionamiento básico.
# En la práctica, se debe usar con precaución y evaluar su impacto.
print(f"Original Incorrecto: {incorrect_text_example}")
print(f"Corregido (TextBlob): {correct_spelling(incorrect_text_example)}\n")

# Aplicar a uno de los textos de muestra que tiene errores
for i, text in enumerate(sample_texts):
    if "missspellings" in text or "Thiss" in text: # Aplicar solo a textos con errores conocidos
        processed_text = correct_spelling(text)
        print(f"Original {i+1}: {text}")
        print(f"Corregido {i+1}: {processed_text}\n")
        break # Solo un ejemplo para no tardar mucho

3.6 Corrección Ortográfica
Original Incorrecto: Thiss is a sentance with some missspellings and errrors.
Corregido (TextBlob): Hiss is a sentence with some missspellings and errors.

Original 4: Thiss is a sentance with some missspellings and errrors. :D 😂
Corregido 4: Hiss is a sentence with some missspellings and errors. :D 😂



### **3.7 Eliminación de Palabras Vacías (Removing Stop Words)**
Las palabras vacías (stop words) son palabras comunes que ayudan a formar oraciones pero aportan poco significado (ej. "the", "is", "and").
NLTK proporciona una lista de estas palabras.
Este paso no siempre es deseable, por ejemplo, en el etiquetado de Partes de la Oración (POS tagging).

In [9]:
# Asegurarse de que stopwords esté cargado
try:
    stop_words_list = stopwords.words('english')
except LookupError:
    print("Descargando 'stopwords' de NLTK...")
    nltk.download('stopwords', quiet=True)
    stop_words_list = stopwords.words('english')


def remove_stop_words(text):
    words = word_tokenize(text) # Tokenizar primero
    filtered_words = [word for word in words if word.lower() not in stop_words_list]
    return " ".join(filtered_words)

print("3.7 Eliminación de Palabras Vacías")
stop_words_example = "This is a really great time for the field of AI. It is advancing exponentially."
print(f"Original con Stop Words: {stop_words_example}")
print(f"Sin Stop Words: {remove_stop_words(stop_words_example)}\n")

for i, text in enumerate(sample_texts):
    # Para aplicar stop words, usualmente se hace después de quitar puntuación y pasar a minúsculas.
    temp_text = lowercase_text(text)
    temp_text = remove_punctuation(temp_text) # Quitar puntuación antes de tokenizar para stop words
    processed_text = remove_stop_words(temp_text)

    # Reconstruir un "original" comparable para la impresión
    original_for_print = lowercase_text(text)
    original_for_print = remove_punctuation(original_for_print)
    original_for_print_tokenized = " ".join(word_tokenize(original_for_print))


    if original_for_print_tokenized != processed_text:
        print(f"Original {i+1} (limpio, tokenizado): {original_for_print_tokenized}")
        print(f"Sin Stop Words {i+1}: {processed_text}\n")

3.7 Eliminación de Palabras Vacías
Original con Stop Words: This is a really great time for the field of AI. It is advancing exponentially.
Sin Stop Words: really great time field AI . advancing exponentially .

Original 1 (limpio, tokenizado): hello world this is an bexampleb text for nlp preprocessing
Sin Stop Words 1: hello world bexampleb text nlp preprocessing

Original 2 (limpio, tokenizado): check out my new blog post at httpsexamplecommypost or wwwanotherexamplecom
Sin Stop Words 2: check new blog post httpsexamplecommypost wwwanotherexamplecom

Original 3 (limpio, tokenizado): omg this is gr8 btw whats up cul8r
Sin Stop Words 3: omg gr8 btw whats cul8r

Original 4 (limpio, tokenizado): thiss is a sentance with some missspellings and errrors d 😂
Sin Stop Words 4: thiss sentance missspellings errrors 😂

Original 5 (limpio, tokenizado): the quick brown fox jumps over the lazy dog he was running and eating
Sin Stop Words 5: quick brown fox jumps lazy dog running eating

Original 6

### **3.8 Manejo de Emojis (Handling Emojis)**
Los emojis aportan contenido expresivo pero pueden ser un desafío para los modelos.
Las opciones incluyen eliminarlos o reemplazarlos por su significado textual. Aquí los eliminaremos.

In [10]:
def remove_emojis(text):
    # Patrón de regex amplio para emojis comunes
    emoji_pattern = re.compile(
        "["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
        u"\U00002702-\U000027B0"  # Dingbats
        u"\U000024C2-\U0001F251" 
        "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', text)

print("3.8 Manejo de Emojis (Eliminación)")
emoji_example = "You are very funny 😂😃👍"
print(f"Original con Emojis: {emoji_example}")
print(f"Sin Emojis: {remove_emojis(emoji_example)}\n")

for i, text in enumerate(sample_texts):
    processed_text = remove_emojis(text)
    if text != processed_text:
        print(f"Original {i+1}: {text}")
        print(f"Sin Emojis {i+1}: {processed_text}\n")

3.8 Manejo de Emojis (Eliminación)
Original con Emojis: You are very funny 😂😃👍
Sin Emojis: You are very funny 

Original 4: Thiss is a sentance with some missspellings and errrors. :D 😂
Sin Emojis 4: Thiss is a sentance with some missspellings and errrors. :D 



### **3.9 Tokenización (Tokenization)**
Divide el texto en unidades más pequeñas, como palabras (word tokenization) o frases (sentence tokenization).
Prepara los datos para el análisis.

In [11]:
# NLTK requiere 'punkt' para tokenizar. Asegurémonos de que está disponible.
try:
    word_tokenize("test")
except LookupError:
    print("Descargando 'punkt' de NLTK...")
    nltk.download('punkt', quiet=True)

print("3.9 Tokenización")
tokenization_example = "Hello world. I am going to Mumbai. This is great!"
print(f"Texto Original: {tokenization_example}")

# Tokenización de palabras
word_tokens = word_tokenize(tokenization_example)
print(f"Tokens de Palabras: {word_tokens}")

# Tokenización de frases
sentence_tokens = sent_tokenize(tokenization_example)
print(f"Tokens de Frases: {sentence_tokens}\n")

# Aplicar a una muestra
sample_for_tokenization = sample_texts[0] # "Hello WORLD! This is an <B>example</B> text for NLP preprocessing."
print(f"Texto Original para tokenizar: {sample_for_tokenization}")
print(f"Tokens de Palabras: {word_tokenize(sample_for_tokenization)}")
print(f"Tokens de Frases: {sent_tokenize(sample_for_tokenization)}")

3.9 Tokenización
Texto Original: Hello world. I am going to Mumbai. This is great!
Tokens de Palabras: ['Hello', 'world', '.', 'I', 'am', 'going', 'to', 'Mumbai', '.', 'This', 'is', 'great', '!']
Tokens de Frases: ['Hello world.', 'I am going to Mumbai.', 'This is great!']

Texto Original para tokenizar: Hello WORLD! This is an <B>example</B> text for NLP preprocessing.
Tokens de Palabras: ['Hello', 'WORLD', '!', 'This', 'is', 'an', '<', 'B', '>', 'example', '<', '/B', '>', 'text', 'for', 'NLP', 'preprocessing', '.']
Tokens de Frases: ['Hello WORLD!', 'This is an <B>example</B> text for NLP preprocessing.']


### **3.10 Derivación (Stemming)**
Reduce las palabras a su forma raíz o "stem".
Por ejemplo, "running", "runs", "ran" podrían reducirse a "run".
El "stem" resultante no siempre es una palabra real del idioma. NLTK ofrece varios stemmers, como PorterStemmer.

In [12]:
stemmer = PorterStemmer()

def stem_words_text(text):
    words = word_tokenize(text)
    stemmed_words = [stemmer.stem(word) for word in words]
    return " ".join(stemmed_words)

print("3.10 Derivación (Stemming)")
stemming_example = "walk walks walking walked runner running easily"
print(f"Original para Stemming: {stemming_example}")
print(f"Stemmed: {stem_words_text(stemming_example)}\n")

stemming_example_2 = sample_texts[5] # "I love programming, programmers, and programs. Walking, walked, walks."
# Para un mejor stemming, aplicar después de minúsculas y quitar puntuación
temp_text = lowercase_text(stemming_example_2)
temp_text = remove_punctuation(temp_text)
processed_text = stem_words_text(temp_text)

print(f"Original para Stemming (limpio): {temp_text}")
print(f"Stemmed: {processed_text}\n")

3.10 Derivación (Stemming)
Original para Stemming: walk walks walking walked runner running easily
Stemmed: walk walk walk walk runner run easili

Original para Stemming (limpio): i love programming programmers and programs walking walked walks
Stemmed: i love program programm and program walk walk walk



### **3.11 Lematización (Lemmatization)**
Similar al stemming, pero reduce las palabras a su forma base significativa (lemma), que es una palabra real del diccionario.
Suele ser más lento que el stemming pero puede ser más preciso.
WordNetLemmatizer de NLTK es comúnmente usado. Puede tomar un argumento `pos` (Part Of Speech) para mejorar la precisión.

In [13]:
# NLTK requiere 'wordnet' y 'omw-1.4' para lematizar.
try:
    WordNetLemmatizer().lemmatize("test")
except LookupError:
    print("Descargando 'wordnet' y 'omw-1.4' de NLTK...")
    nltk.download('wordnet', quiet=True)
    nltk.download('omw-1.4', quiet=True) # Open Multilingual Wordnet, a veces necesario

lemmatizer = WordNetLemmatizer()

def lemmatize_words_text(text, pos_tag='v'): 
    words = word_tokenize(text)
    # Para una lematización más precisa, se necesitaría un etiquetado POS adecuado para cada palabra.
    # Aquí usamos un 'pos_tag' general o ninguno (que por defecto es 'n' - noun).
    if pos_tag:
        lemmatized_words = [lemmatizer.lemmatize(word, pos=pos_tag) for word in words]
    else:
        lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
    return " ".join(lemmatized_words)

print("3.11 Lematización (Lemmatization)")
lemmatization_example = "He was running and eating at the same time. He has a bad habit of swimming after meals."
print(f"Original para Lematización: {lemmatization_example}")
# Limpiar puntuación y pasar a minúsculas para mejor resultado
temp_text_lemma = lowercase_text(lemmatization_example)
temp_text_lemma = remove_punctuation(temp_text_lemma)

print(f"Lematizado (con pos='v'): {lemmatize_words_text(temp_text_lemma, pos_tag='v')}")
print(f"Lematizado (con pos='n' por defecto): {lemmatize_words_text(temp_text_lemma, pos_tag=None)}\n") # Noun es el default

# Otro ejemplo
lemmatization_example_2 = sample_texts[5] # "I love programming, programmers, and programs. Walking, walked, walks."
temp_text_2 = lowercase_text(lemmatization_example_2)
temp_text_2 = remove_punctuation(temp_text_2)
processed_text_v = lemmatize_words_text(temp_text_2, pos_tag='v') # Tratar como verbos
processed_text_n = lemmatize_words_text(temp_text_2, pos_tag='n') # Tratar como sustantivos (o default)

print(f"Original para Lematización (limpio): {temp_text_2}")
print(f"Lematizado (pos='v'): {processed_text_v}")
print(f"Lematizado (pos='n'): {processed_text_n}\n")

3.11 Lematización (Lemmatization)
Original para Lematización: He was running and eating at the same time. He has a bad habit of swimming after meals.
Lematizado (con pos='v'): he be run and eat at the same time he have a bad habit of swim after meals
Lematizado (con pos='n' por defecto): he wa running and eating at the same time he ha a bad habit of swimming after meal

Original para Lematización (limpio): i love programming programmers and programs walking walked walks
Lematizado (pos='v'): i love program programmers and program walk walk walk
Lematizado (pos='n'): i love programming programmer and program walking walked walk



## **4. Conclusiones**

Este script ha demostrado las técnicas fundamentales de preprocesamiento de texto en PNL. Cada paso juega un rol en refinar el texto crudo, preparándolo para modelos de aprendizaje automático. La elección y el orden de estas técnicas deben adaptarse a los requisitos específicos de cada proyecto.

In [14]:
print("Fin del script de demostración de preprocesamiento de texto.")

Fin del script de demostración de preprocesamiento de texto.
