<a href="https://colab.research.google.com/github/patrixam/chatbot/blob/main/probando/Preprocesamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Limpieza Texto

In [None]:
import re

def limpiar_texto(texto):
    texto = re.sub(r"http\S+|www\S+", "", texto)  # Eliminar URLs
    texto = re.sub(r"[^a-zA-Z\s]", "", texto)  # Eliminar caracteres especiales
    return texto.lower()  # Convertir a minúsculas

print(limpiar_texto("¡Hola! Visita https://example.com 🎉"))

hola visita  


#Tokenizacion

##spacy

In [None]:
!pip install spacy

In [None]:
#descargar es_core_news_sm
!spacy download es_core_news_sm

In [None]:
import spacy

nlp = spacy.load("es_core_news_sm")
texto = "Hola, ¿cómo estás?"
doc = nlp(texto)

tokens = [token.text for token in doc]
print(tokens)


['Hola', ',', '¿', 'cómo', 'estás', '?']


##nltk

In [None]:
!pip install nltk



In [None]:
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt_tab')  # Descargar datos necesarios para tokenización

texto = "Hola, ¿cómo estás?"
tokens = word_tokenize(texto)
print(tokens)

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['Hola', ',', '¿cómo', 'estás', '?']


#Stopwords

##spacy

In [None]:
#Elimina stopwords
import spacy

nlp = spacy.load("es_core_news_sm")
texto = "¡Hola a todos! ¿Cuál es la dirección del sitio web www.example.com? Gracias."
doc = nlp(texto)

tokens = [token.text for token in doc if not token.is_stop]
print(tokens)

['¡', 'Hola', '!', '¿', 'dirección', 'sitio', 'web', 'www.example.com', '?', 'Gracias', '.']


##nltk

In [None]:
#Elimina stopswords
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

# Descargar datos necesarios para tokenización
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

texto = "¡Hola a todos! ¿Cuál es la dirección del sitio web www.example.com? Gracias."
tokens = word_tokenize(texto)
stop_words = set(stopwords.words("spanish"))
tokens_filtrados = [palabra for palabra in tokens if palabra not in stop_words]
print(tokens_filtrados)

['¡Hola', '!', '¿Cuál', 'dirección', 'sitio', 'web', 'www.example.com', '?', 'Gracias', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


#Normalización

##Stemming

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt')  # Descargar datos necesarios para tokenización
nltk.download('punkt_tab')

# Inicializar el stemmer
stemmer = PorterStemmer()

# Texto de ejemplo
texto = "Corriendo, corrí rápidamente y los corredores corrían."

# Tokenizar el texto
tokens = word_tokenize(texto)

# Aplicar stemming
stems = [stemmer.stem(token) for token in tokens]
print("Palabras originales:", tokens)
print("Raíces (stems):", stems)

Palabras originales: ['Corriendo', ',', 'corrí', 'rápidamente', 'y', 'los', 'corredores', 'corrían', '.']
Raíces (stems): ['corriendo', ',', 'corrí', 'rápidament', 'y', 'lo', 'corredor', 'corrían', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


##Lematizacion

In [None]:
import spacy

nlp = spacy.load("es_core_news_sm")

# Texto de ejemplo
texto = "Corriendo, corrí rápidamente y los corredores corrían."
doc = nlp(texto)

# Aplicar lematizacion
lemas = [token.lemma_ for token in doc]

print("Palabras originales:", tokens)
print("Lemas:", lemas)

Palabras originales: ['¡Hola', 'a', 'todos', '!', '¿Cuál', 'es', 'la', 'dirección', 'del', 'sitio', 'web', 'www.example.com', '?', 'Gracias', '.']
Lemas: ['correr', ',', 'corrí', 'rápidamente', 'y', 'el', 'corredor', 'correr', '.']


#Ejemplo Completo

In [None]:
stemmer = PorterStemmer()
nlp = spacy.load("es_core_news_sm")

# Corpus de ejemplo
corpus = [
    "¡Hola! ¿Cómo estás? Visita https://example.com para más información.",
    "Me encanta este curso de PLN.",
    "¿Dónde están las oficinas?",
    "En el 2024, implementaremos más IA."
]

# Pipeline completo
def preprocesar(texto):
    # Limpieza
    texto = re.sub(r"http\S+|www\S+", "", texto)  # Eliminar URLs
    texto = re.sub(r"\d+", "", texto)  # Eliminar números
    texto = re.sub(r"[^a-zA-ZáéíóúñÑ\s]", "", texto)  # Eliminar caracteres especiales
    texto = texto.lower()  # Minúsculas

    # Tokenización
    tokens = word_tokenize(texto)

    # Stemming
    stop_words = set(stopwords.words("spanish"))
    stems = [stemmer.stem(token) for token in tokens if token not in stop_words]

    # Lematización
    doc = nlp(texto)
    lemas = [token.lemma_ for token in doc if not token.is_stop]

    return {"original": texto, "tokens": tokens, "stems": stems, "lemas": lemas}

# Aplicar pipeline al corpus
resultados = [preprocesar(texto) for texto in corpus]
for i, res in enumerate(resultados):
    print(f"Texto {i+1}:")
    print("Original:", res["original"])
    print("Tokens:", res["tokens"])
    print("Stems:", res["stems"])
    print("Lemas:", res["lemas"])
    print("-" * 50)

Texto 1:
Original: hola cómo estás visita  para más información
Tokens: ['hola', 'cómo', 'estás', 'visita', 'para', 'más', 'información']
Stems: ['hola', 'cómo', 'visita', 'información']
Lemas: ['holar', 'estar', 'visita', ' ', 'información']
--------------------------------------------------
Texto 2:
Original: me encanta este curso de pln
Tokens: ['me', 'encanta', 'este', 'curso', 'de', 'pln']
Stems: ['encanta', 'curso', 'pln']
Lemas: ['encantar', 'curso', 'pln']
--------------------------------------------------
Texto 3:
Original: dónde están las oficinas
Tokens: ['dónde', 'están', 'las', 'oficinas']
Stems: ['dónde', 'oficina']
Lemas: ['oficina']
--------------------------------------------------
Texto 4:
Original: en el  implementaremos más ia
Tokens: ['en', 'el', 'implementaremos', 'más', 'ia']
Stems: ['implementaremo', 'ia']
Lemas: [' ', 'implementaremo', 'ia']
--------------------------------------------------


#Corregir Ortografía

##TextBlob

In [None]:
from textblob import TextBlob

texto = "Corrienddo, corí rapdamente y los corredoress corian."
blob = TextBlob(texto)

# Corrección ortográfica
texto_corregido = str(blob.correct())
print("Texto corregido:", texto_corregido)

Texto corregido: Corrienddo, cord rapdamente y los corredoress corn.


##SymSpell

In [None]:
!pip install symspellpy

In [None]:
from symspellpy import SymSpell, Verbosity

# Inicializar SymSpell
sym_spell = SymSpell(max_dictionary_edit_distance=2)
sym_spell.load_dictionary("frequency_dictionary_es.txt", term_index=0, count_index=1)

# Corregir texto
texto = "corrienddo rapdamente los corredoress corian"
correcciones = [sym_spell.lookup(word, Verbosity.CLOSEST, max_edit_distance=2)[0].term
                if sym_spell.lookup(word, Verbosity.CLOSEST, max_edit_distance=2) else word
                for word in texto.split()]
print("Texto corregido:", " ".join(correcciones))


Texto corregido: ['corrienddo', 'rapdamente', 'los', 'corredoress', 'corian']


##Hunspell

In [None]:
#instalar hunspell
!sudo apt-get update
!sudo apt-get install libhunspell-dev hunspell
!pip install hunspell


In [None]:
#instalar diccionario
!sudo apt-get install hunspell-es


In [None]:
import hunspell

# Inicializa Hunspell con el diccionario español
hspell = hunspell.HunSpell('/usr/share/hunspell/es_ES.dic', '/usr/share/hunspell/es_ES.aff')

# Texto original
texto = "corrienddo rapidamente los corredoress corian"

# Dividir el texto en palabras
palabras = texto.split()

# Corregir cada palabra
correcciones = [
    hspell.suggest(palabra)[0] if not hspell.spell(palabra) and hspell.suggest(palabra) else palabra
    for palabra in palabras
]

# Texto corregido
texto_corregido = " ".join(correcciones)
print("Texto corregido:", texto_corregido)


Texto corregido: corriendo rápidamente los corredores coran


##Pyspellchecker

In [None]:
pip install pyspellchecker


Collecting pyspellchecker
  Downloading pyspellchecker-0.8.2-py3-none-any.whl.metadata (9.4 kB)
Downloading pyspellchecker-0.8.2-py3-none-any.whl (7.1 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/7.1 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.2/7.1 MB[0m [31m6.0 MB/s[0m eta [36m0:00:02[0m[2K   [91m━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.2/7.1 MB[0m [31m31.0 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━[0m [32m6.0/7.1 MB[0m [31m56.3 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m7.1/7.1 MB[0m [31m60.3 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.1/7.1 MB[0m [31m45.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyspellchecker
Successfully installed pyspellcheck

In [None]:
from spellchecker import SpellChecker

# Inicializar para español
spell = SpellChecker(language='es')

# Palabras a corregir
texto = "corrienddo rapidamente los corredoress corian"
tokens = texto.split()

# Corrección ortográfica
correcciones = [spell.correction(token) for token in tokens]
print("Texto corregido:", correcciones)

Texto corregido: ['correinado', 'rápidamente', 'los', None, 'coria']


In [None]:
# Obtener sugerencias para una palabra incorrecta
palabra = "corrienndo"
sugerencias = spell.candidates(palabra)
print(f"Sugerencias para '{palabra}':", sugerencias)
print(f"Sugerencias para 'corredoress':", spell.candidates('corredoress'))
print(f"Sugerencias para 'corian':", spell.candidates('corian'))

Sugerencias para 'corrienndo': {'corrigendo', 'correinado'}
Sugerencias para 'corredoress': None
Sugerencias para 'corian': {'coriana', 'coriano', 'coria', 'corion'}


In [None]:
# Agregar palabras personalizadas al diccionario
spell.word_frequency.load_words(['corriendo', 'corrían', 'corredores'])
texto = "corrienddo rapidamente los corredoress corian"
correcciones = [spell.correction(token) for token in texto.split()]
print("Texto corregido:", " ".join(correcciones))

Texto corregido: corriendo rápidamente los corredores coria


##Uso de diccionarios (difflib)

In [None]:
import difflib

diccionario = ["corriendo", "corrí", "rápidamente", "corredores", "corrían"]
texto = "Corrienddo corí rapdamente los corredoress corian."
tokens = texto.lower().split()

# Buscar la palabra más cercana en el diccionario
corregido = [difflib.get_close_matches(token, diccionario, n=1, cutoff=0.8)[0]
             if difflib.get_close_matches(token, diccionario, n=1, cutoff=0.8) else token
             for token in tokens]

print("Texto corregido:", " ".join(corregido))


Texto corregido: corriendo corrí rápidamente los corredores corian.


#Emojis
Convertir Emojis a Texto:
En análisis de sentimientos o redes sociales, los emojis pueden expresar emociones.


In [None]:
!pip install emoji

Collecting emoji
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Downloading emoji-2.14.1-py3-none-any.whl (590 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/590.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/590.6 kB[0m [31m6.9 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m590.6/590.6 kB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: emoji
Successfully installed emoji-2.14.1


In [None]:
import emoji

texto = "¡Este producto es increíble! 😍👍"
texto_convertido = emoji.demojize(texto)
print("Texto con emojis convertidos:", texto_convertido)

Texto con emojis convertidos: ¡Este producto es increíble! :smiling_face_with_heart-eyes::thumbs_up:
