<a href="https://colab.research.google.com/github/patrixam/Sentiment-Analyzer-Tool/blob/master/notebooks/proyecto_apoyo/01_Preprocesamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Limpieza Texto

In [1]:
import re

def limpiar_texto(texto):
    texto = re.sub(r"http\S+|www\S+", "", texto)  # Eliminar URLs
    texto = re.sub(r"[^a-zA-Z\s]", "", texto)  # Eliminar caracteres especiales
    return texto.lower()  # Convertir a min√∫sculas

print(limpiar_texto("¬°Hola! Visita https://example.com üéâ"))

hola visita  


#Tokenizacion

##spacy

In [2]:
!pip install spacy

In [None]:
#descargar es_core_news_sm
!spacy download es_core_news_sm

In [4]:
import spacy

nlp = spacy.load("es_core_news_sm")
texto = "Hola, ¬øc√≥mo est√°s?"
doc = nlp(texto)

tokens = [token.text for token in doc]
print(tokens)


['Hola', ',', '¬ø', 'c√≥mo', 'est√°s', '?']


##nltk

In [None]:
!pip install nltk

In [6]:
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt_tab')  # Descargar datos necesarios para tokenizaci√≥n

texto = "Hola, ¬øc√≥mo est√°s?"
tokens = word_tokenize(texto)
print(tokens)

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['Hola', ',', '¬øc√≥mo', 'est√°s', '?']


#Stopwords

##spacy

In [7]:
#Elimina stopwords
import spacy

nlp = spacy.load("es_core_news_sm")
texto = "¬°Hola a todos! ¬øCu√°l es la direcci√≥n del sitio web www.example.com? Gracias."
doc = nlp(texto)

tokens = [token.text for token in doc if not token.is_stop]
print(tokens)

['¬°', 'Hola', '!', '¬ø', 'direcci√≥n', 'sitio', 'web', 'www.example.com', '?', 'Gracias', '.']


##nltk

In [8]:
#Elimina stopswords
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

# Descargar datos necesarios para tokenizaci√≥n
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

texto = "¬°Hola a todos! ¬øCu√°l es la direcci√≥n del sitio web www.example.com? Gracias."
tokens = word_tokenize(texto)
stop_words = set(stopwords.words("spanish"))
tokens_filtrados = [palabra for palabra in tokens if palabra not in stop_words]
print(tokens_filtrados)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['¬°Hola', '!', '¬øCu√°l', 'direcci√≥n', 'sitio', 'web', 'www.example.com', '?', 'Gracias', '.']


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


#Normalizaci√≥n

##Stemming

In [9]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt')  # Descargar datos necesarios para tokenizaci√≥n
nltk.download('punkt_tab')

# Inicializar el stemmer
stemmer = PorterStemmer()

# Texto de ejemplo
texto = "Corriendo, corr√≠ r√°pidamente y los corredores corr√≠an."

# Tokenizar el texto
tokens = word_tokenize(texto)

# Aplicar stemming
stems = [stemmer.stem(token) for token in tokens]
print("Palabras originales:", tokens)
print("Ra√≠ces (stems):", stems)

Palabras originales: ['Corriendo', ',', 'corr√≠', 'r√°pidamente', 'y', 'los', 'corredores', 'corr√≠an', '.']
Ra√≠ces (stems): ['corriendo', ',', 'corr√≠', 'r√°pidament', 'y', 'lo', 'corredor', 'corr√≠an', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


##Lematizacion

In [10]:
import spacy

nlp = spacy.load("es_core_news_sm")

# Texto de ejemplo
texto = "Corriendo, corr√≠ r√°pidamente y los corredores corr√≠an."
doc = nlp(texto)

# Aplicar lematizacion
lemas = [token.lemma_ for token in doc]

print("Palabras originales:", tokens)
print("Lemas:", lemas)

Palabras originales: ['Corriendo', ',', 'corr√≠', 'r√°pidamente', 'y', 'los', 'corredores', 'corr√≠an', '.']
Lemas: ['Corriendo', ',', 'corr√≠', 'r√°pidamente', 'y', 'el', 'corredor', 'corer', '.']


#Ejemplo Completo

In [11]:
stemmer = PorterStemmer()
nlp = spacy.load("es_core_news_sm")

# Corpus de ejemplo
corpus = [
    "¬°Hola! ¬øC√≥mo est√°s? Visita https://example.com para m√°s informaci√≥n.",
    "Me encanta este curso de PLN.",
    "¬øD√≥nde est√°n las oficinas?",
    "En el 2024, implementaremos m√°s IA."
]

# Pipeline completo
def preprocesar(texto):
    # Limpieza
    texto = re.sub(r"http\S+|www\S+", "", texto)  # Eliminar URLs
    texto = re.sub(r"\d+", "", texto)  # Eliminar n√∫meros
    texto = re.sub(r"[^a-zA-Z√°√©√≠√≥√∫√±√ë\s]", "", texto)  # Eliminar caracteres especiales
    texto = texto.lower()  # Min√∫sculas

    # Tokenizaci√≥n
    tokens = word_tokenize(texto)

    # Stemming
    stop_words = set(stopwords.words("spanish"))
    stems = [stemmer.stem(token) for token in tokens if token not in stop_words]

    # Lematizaci√≥n
    doc = nlp(texto)
    lemas = [token.lemma_ for token in doc if not token.is_stop]

    return {"original": texto, "tokens": tokens, "stems": stems, "lemas": lemas}

# Aplicar pipeline al corpus
resultados = [preprocesar(texto) for texto in corpus]
for i, res in enumerate(resultados):
    print(f"Texto {i+1}:")
    print("Original:", res["original"])
    print("Tokens:", res["tokens"])
    print("Stems:", res["stems"])
    print("Lemas:", res["lemas"])
    print("-" * 50)

Texto 1:
Original: hola c√≥mo est√°s visita  para m√°s informaci√≥n
Tokens: ['hola', 'c√≥mo', 'est√°s', 'visita', 'para', 'm√°s', 'informaci√≥n']
Stems: ['hola', 'c√≥mo', 'visita', 'informaci√≥n']
Lemas: ['hola', 'estar', 'visita', ' ', 'informaci√≥n']
--------------------------------------------------
Texto 2:
Original: me encanta este curso de pln
Tokens: ['me', 'encanta', 'este', 'curso', 'de', 'pln']
Stems: ['encanta', 'curso', 'pln']
Lemas: ['encantar', 'curso', 'pln']
--------------------------------------------------
Texto 3:
Original: d√≥nde est√°n las oficinas
Tokens: ['d√≥nde', 'est√°n', 'las', 'oficinas']
Stems: ['d√≥nde', 'oficina']
Lemas: ['oficina']
--------------------------------------------------
Texto 4:
Original: en el  implementaremos m√°s ia
Tokens: ['en', 'el', 'implementaremos', 'm√°s', 'ia']
Stems: ['implementaremo', 'ia']
Lemas: [' ', 'implementaremo', 'ia']
--------------------------------------------------


#Corregir Ortograf√≠a

##Hunspell

In [None]:
#instalar hunspell
!sudo apt-get update
!sudo apt-get install libhunspell-dev hunspell
!pip install hunspell


In [None]:
#instalar diccionario
!sudo apt-get install hunspell-es


In [14]:
import hunspell

# Inicializa Hunspell con el diccionario espa√±ol
hspell = hunspell.HunSpell('/usr/share/hunspell/es_ES.dic', '/usr/share/hunspell/es_ES.aff')

# Texto original
texto = "corrienddo rapidamente los corredoress corian"

# Dividir el texto en palabras
palabras = texto.split()

# Corregir cada palabra
correcciones = [
    hspell.suggest(palabra)[0] if not hspell.spell(palabra) and hspell.suggest(palabra) else palabra
    for palabra in palabras
]

# Texto corregido
texto_corregido = " ".join(correcciones)
print("Texto corregido:", texto_corregido)


Texto corregido: corriendo r√°pidamente los corredores coran


##SymSpell

In [None]:
!pip install symspellpy

In [27]:
from symspellpy import SymSpell, Verbosity
import requests as request

#descargo un archivo de frecuencias de Wikipedia en espa√±ol
response = request.get("https://raw.githubusercontent.com/hermitdave/FrequencyWords/master/content/2018/es/es_50k.txt")
with open("frequency_dictionary_es.txt", "w") as f:
    f.write(response.text)
    f.close()
# Inicializar SymSpell
sym_spell = SymSpell(max_dictionary_edit_distance=2)
sym_spell.load_dictionary("frequency_dictionary_es.txt", term_index=0, count_index=1)

# Corregir texto
texto = "corrienddo rapdamente los corredoress corian"
correcciones = [sym_spell.lookup(word, Verbosity.CLOSEST, max_edit_distance=2)[0].term
                if sym_spell.lookup(word, Verbosity.CLOSEST, max_edit_distance=2) else word
                for word in texto.split()]
print("Texto corregido:", " ".join(correcciones))


Texto corregido: corriendo rapidamente los corredores corran


##Pyspellchecker

In [28]:
pip install pyspellchecker


Collecting pyspellchecker
  Downloading pyspellchecker-0.8.3-py3-none-any.whl.metadata (9.5 kB)
Downloading pyspellchecker-0.8.3-py3-none-any.whl (7.2 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m7.2/7.2 MB[0m [31m34.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyspellchecker
Successfully installed pyspellchecker-0.8.3


In [29]:
from spellchecker import SpellChecker

# Inicializar para espa√±ol
spell = SpellChecker(language='es')

# Palabras a corregir
texto = "corrienddo rapidamente los corredoress corian"
tokens = texto.split()

# Correcci√≥n ortogr√°fica
correcciones = [spell.correction(token) for token in tokens]
print("Texto corregido:", correcciones)

Texto corregido: ['correinado', 'r√°pidamente', 'los', None, 'coria']


In [30]:
# Obtener sugerencias para una palabra incorrecta
palabra = "corrienndo"
sugerencias = spell.candidates(palabra)
print(f"Sugerencias para '{palabra}':", sugerencias)
print(f"Sugerencias para 'corredoress':", spell.candidates('corredoress'))
print(f"Sugerencias para 'corian':", spell.candidates('corian'))

Sugerencias para 'corrienndo': {'corrigendo', 'correinado'}
Sugerencias para 'corredoress': None
Sugerencias para 'corian': {'coria', 'coriano', 'coriana', 'corion'}


In [31]:
# Agregar palabras personalizadas al diccionario
spell.word_frequency.load_words(['corriendo', 'corr√≠an', 'corredores'])
texto = "corrienddo rapidamente los corredoress corian"
correcciones = [spell.correction(token) for token in texto.split()]
print("Texto corregido:", " ".join(correcciones))

Texto corregido: corriendo r√°pidamente los corredores coria


##TextBlob

In [32]:
from textblob import TextBlob

texto = "Corrienddo, cor√≠ rapdamente y los corredoress corian."
blob = TextBlob(texto)

# Correcci√≥n ortogr√°fica
texto_corregido = str(blob.correct())
print("Texto corregido:", texto_corregido)

Texto corregido: Corrienddo, cord rapdamente y los corredoress corn.


##Uso de diccionarios (difflib)

In [33]:
import difflib

diccionario = ["corriendo", "corr√≠", "r√°pidamente", "corredores", "corr√≠an"]
texto = "Corrienddo rapdamente los corredoress corian."
tokens = texto.lower().split()

# Buscar la palabra m√°s cercana en el diccionario
corregido = [difflib.get_close_matches(token, diccionario, n=1, cutoff=0.8)[0]
             if difflib.get_close_matches(token, diccionario, n=1, cutoff=0.8) else token
             for token in tokens]

print("Texto corregido:", " ".join(corregido))


Texto corregido: corriendo r√°pidamente los corredores corian.


#Emojis
Convertir Emojis a Texto:
En an√°lisis de sentimientos o redes sociales, los emojis pueden expresar emociones.


In [34]:
!pip install emoji

Collecting emoji
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Downloading emoji-2.14.1-py3-none-any.whl (590 kB)
[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/590.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m[90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m143.4/590.6 kB[0m [31m4.8 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m590.6/590.6 kB[0m [31m9.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: emoji
Successfully installed emoji-2.14.1


In [35]:
import emoji

texto = "¬°Este producto es incre√≠ble! üòçüëç"
texto_convertido = emoji.demojize(texto)
print("Texto con emojis convertidos:", texto_convertido)

Texto con emojis convertidos: ¬°Este producto es incre√≠ble! :smiling_face_with_heart-eyes::thumbs_up:
