# üßº Sesi√≥n 2: Preprocesamiento de Texto

## Introducci√≥n

El preprocesamiento de texto es el primer paso para trabajar con datos textuales en proyectos de Procesamiento de Lenguaje Natural (NLP). Antes de aplicar modelos o algoritmos, es necesario transformar los textos en un formato m√°s estructurado y limpio que permita analizarlos con mayor facilidad. Este proceso ayuda a reducir el ruido en los datos y resaltar lo que es realmente √∫til para las tareas posteriores.

En este cuaderno vamos a explorar t√©cnicas b√°sicas y avanzadas de preprocesamiento aplicadas a un texto literario, utilizando un fragmento de "Cien A√±os de Soledad". El objetivo es aprender a preparar los datos para tareas como clasificaci√≥n, an√°lisis de sentimiento o generaci√≥n de texto.

### üéØ ¬øQu√© veremos?

1. **Normalizaci√≥n del texto**: Min√∫sculas, eliminaci√≥n de caracteres innecesarios y formatos consistentes.
2. **Tokenizaci√≥n**: Separar el texto en palabras o frases.
3. **Eliminaci√≥n de palabras comunes (stopwords)**: Filtrar palabras que no aportan informaci√≥n √∫til.
4. **Stemming y lematizaci√≥n**: Simplificar palabras a su ra√≠z o forma base.
5. **Representaci√≥n num√©rica**: Convertir el texto en vectores para an√°lisis cuantitativo.


In [1]:
import re ## Exprexiones regulares
import nltk ## Procesamiento de lenguaje natural
from nltk.corpus import stopwords ## Palabras vacias
from nltk.stem import SnowballStemmer ## Stemming
from nltk.tokenize import word_tokenize ## Tokenizacion
from nltk.tokenize import RegexpTokenizer ## Tokenizacion
from sklearn.feature_extraction.text import CountVectorizer ## Vectorizador
import spacy ## Procesamiento de lenguaje natural

############## Descarga de recursos de nltk ################
nltk.download('punkt') ## Tokenizador
nltk.download('stopwords') ## Palabras vacias
nltk.download('snowball_data') ## Stemming
nltk.download('wordnet') ## Lematizacion

############## Es necesario descargar estos recursos para poder ejecutar el script ################

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package snowball_data to /root/nltk_data...
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

## 2. Cargar el texto

Para este ejercicio inicial usaremos un texto sencillo, el cual se cargar√° en una variable.

In [2]:
texto = """Hace varios a√±os, en el pelot√≥n de fusilamiento, el coronel Aureliano Buend√≠a hab√≠a de recordar aquella tarde remota en que su padre lo llev√≥ a conocer el hielo. """
texto

'Hace varios a√±os, en el pelot√≥n de fusilamiento, el coronel Aureliano Buend√≠a hab√≠a de recordar aquella tarde remota en que su padre lo llev√≥ a conocer el hielo. '

In [3]:
## En el caso de un corpus se puede hacer a tra ves de un csv
import pandas as pd

Corpus_DF = pd.read_csv('https://raw.githubusercontent.com/Izainea/nlp_ean/refs/heads/main/Datos/Datos%20Crudos/corpus_chismofilias.csv')
Corpus_DF

Unnamed: 0,Comentario,Sentimiento
0,"Me encanta usar las chismofilias, ahora estoy ...",Positivo
1,"Es incre√≠ble, escucho cosas que nunca imagin√©....",Positivo
2,"La calidad del audio es sorprendente, puedo es...",Positivo
3,"La bater√≠a dura mucho tiempo, lo uso todo el d...",Positivo
4,"No puedo creer que exista algo as√≠, es como te...",Positivo
5,"El dise√±o es muy discreto, nadie sospecha que ...",Positivo
6,"El alcance es limitado, no puedo escuchar lo q...",Negativo
7,"Es muy caro para lo que ofrece, esperaba m√°s f...",Negativo
8,A veces se desconecta y pierdo lo que estaban ...,Negativo
9,"No cumple con las expectativas, el sonido es m...",Negativo


## üìè 3. Normalizaci√≥n

La **normalizaci√≥n de texto** se refiere al proceso de transformar un texto para que tenga un formato uniforme y consistente. Esto puede incluir convertir a min√∫sculas, eliminar caracteres especiales, n√∫meros o espacios adicionales. Su principal objetivo es reducir la complejidad y estandarizar el texto antes de aplicar t√©cnicas de an√°lisis.

### ¬øCu√°ndo usar la normalizaci√≥n?

La normalizaci√≥n es √∫til en varios contextos, pero no siempre es necesaria. Aqu√≠ te dejo una gu√≠a sobre cu√°ndo es apropiado aplicarla:

#### **1. Modelos tradicionales de NLP**
- **Modelos como Bag of Words (BoW), TF-IDF o Word2Vec**:
  - Estos enfoques se benefician de textos m√°s limpios y homog√©neos, ya que cualquier variaci√≥n (como diferencias en el uso de may√∫sculas) puede aumentar innecesariamente la dimensionalidad.
  - Ejemplo: `Casa` y `casa` ser√°n consideradas distintas si no se normaliza el texto.

#### **2. An√°lisis de frecuencia o clustering**
- En tareas como la identificaci√≥n de palabras m√°s comunes, b√∫squeda de temas o clustering de textos, la normalizaci√≥n es esencial para evitar que caracteres especiales o inconsistencias afecten los resultados.

#### **3. Modelos avanzados como LLMs (e.g., GPT, BERT)**
- Los modelos de lenguaje de gran tama√±o ya incluyen mecanismos integrados para manejar textos sin normalizar. **No es necesario preprocesar demasiado**:
  - Estos modelos tienen vocabularios entrenados que incluyen variaciones comunes como may√∫sculas o caracteres especiales.
  - Sin embargo, en algunos casos, eliminar informaci√≥n irrelevante (como emojis o HTML) puede ser beneficioso dependiendo del dominio de los datos.

### **¬øQu√© pasos incluye la normalizaci√≥n?**

#### 1. **Conversi√≥n a min√∫sculas**
   - Utilidad: Evita que `Casa` y `casa` se traten como diferentes.
   - Ejemplo: `"Hola Mundo"` ‚Üí `"hola mundo"`

#### 2. **Eliminaci√≥n de caracteres especiales**
   - Utilidad: Simplifica el an√°lisis al eliminar puntuaci√≥n, emojis o s√≠mbolos irrelevantes.
   - Ejemplo: `"¬°Hola! ¬øC√≥mo est√°s?"` ‚Üí `"Hola Como estas"`

#### 3. **Eliminaci√≥n de n√∫meros (opcional)**
   - Utilidad: En textos narrativos o sentimentales, los n√∫meros suelen no ser informativos.
   - Ejemplo: `"En el a√±o 2023"` ‚Üí `"En el a√±o"`

#### 4. **Eliminaci√≥n de espacios adicionales**
   - Utilidad: Limpia la estructura del texto.
   - Ejemplo: `"Hola     Mundo"` ‚Üí `"Hola Mundo"`

### **¬øCu√°ndo evitar la normalizaci√≥n?**

- **Textos donde las may√∫sculas son significativas**: En an√°lisis de sentimiento, una frase como `"¬°GRACIAS!"` puede tener un impacto emocional diferente a `"gracias"`.
- **Datos con emojis o s√≠mbolos relevantes**: En algunos dominios, eliminar emojis podr√≠a perder informaci√≥n clave.
- **Entradas para LLMs**: Estos modelos ya gestionan caracteres especiales y capitalizaci√≥n, por lo que normalizar excesivamente podr√≠a eliminar informaci√≥n √∫til.

<img src="https://www.mermaidchart.com/raw/9218311f-e863-4e37-824a-b23305925151?theme=light&version=v0.1&format=svg" alt="Diagrama de flujo para la normalizaci√≥n" style="width:100%; max-width:800px;">

In [4]:
texto

'Hace varios a√±os, en el pelot√≥n de fusilamiento, el coronel Aureliano Buend√≠a hab√≠a de recordar aquella tarde remota en que su padre lo llev√≥ a conocer el hielo. '

In [5]:
############## Normalizaci√≥n ################

## Convertir a minusculas

texto = texto.lower()
texto

'hace varios a√±os, en el pelot√≥n de fusilamiento, el coronel aureliano buend√≠a hab√≠a de recordar aquella tarde remota en que su padre lo llev√≥ a conocer el hielo. '

In [6]:
## Eliminar caracteres especiales

texto = re.sub(r"[\W_]+", " ", texto) ## Elimina caracteres especiales y numeros la expresion regular \W es para caracteres especiales y \d para numeros, todo lo que no sea una letra se reemplaza por un espacio.
texto


'hace varios a√±os en el pelot√≥n de fusilamiento el coronel aureliano buend√≠a hab√≠a de recordar aquella tarde remota en que su padre lo llev√≥ a conocer el hielo '

In [7]:
# prompt: Crea una historia donde nombres a muchas personas de habla hispana
historia = """
  En el coraz√≥n de la vibrante ciudad de Medell√≠n, viv√≠a una joven llamada Camila.
  Ella so√±aba con ser escritora y pasaba horas leyendo libros de Gabriel Garc√≠a M√°rquez.
  Su mejor amigo, Santiago, era un talentoso m√∫sico que compon√≠a melod√≠as conmovedoras.
  Juntos, compart√≠an tardes de caf√© con su vecina, una abuela llamada Elena, quien contaba historias de su juventud en la isla de Cuba.
  Un d√≠a, un misterioso hombre llamado Javier lleg√≥ al barrio. Era un artista enigm√°tico que pintaba retratos conmovedores.
  Su llegada coincidi√≥ con la visita de una familia de M√©xico, integrada por Ricardo, su esposa Sofia y sus hijos, Isabella y Miguel.
  Camila y Santiago se hicieron amigos de ellos y organizaron una fiesta en la que todos pudieron compartir sus culturas y tradiciones.
  Se reunieron alrededor de una mesa llena de sabrosos platillos como tamales, arepas y empanadas.
  Isabella, con su gran talento para el baile, aprendi√≥ pasos de salsa de manos de un alegre joven llamado Alejandro.
  Miguel, un entusiasta de la naturaleza, pasaba horas explorando los jardines junto a Natalia, una bi√≥loga que viv√≠a en la ciudad.
  Mientras tanto, Elena segu√≠a contando historias sobre sus viajes a Puerto Rico y Venezuela, fascinando a todos con sus relatos.
  En esa √©poca de encuentros y nuevas amistades, Javier encontr√≥ la inspiraci√≥n para su pr√≥xima obra,
  un retrato colectivo que reflejaba la diversidad y la calidez de la comunidad.
  Todos, Camila, Santiago, Elena, Javier, Ricardo, Sofia, Isabella, Miguel, Alejandro, y Natalia,
  se convirtieron en una familia extendida, unidos por la m√∫sica, la literatura, y el arte. asMadasdr
  """

re.findall(r'M[a-z√°√©√≠√≥√∫][a-z√°√©√≠√≥√∫]+', historia)

['Medell√≠n',
 'M√°rquez',
 'M√©xico',
 'Miguel',
 'Miguel',
 'Mientras',
 'Miguel',
 'Madasdr']

In [8]:
re.findall(r'\bM[a-z√°√©√≠√≥√∫][a-z√°√©√≠√≥√∫]+l\b', historia)

['Miguel', 'Miguel', 'Miguel']

In [9]:
# prompt: Has una historia donde nombro muchos correos electr√≥nicos y telefonos

historia = """
  En el coraz√≥n de la vibrante ciudad de Medell√≠n, viv√≠a una joven llamada Camila.
  Ella so√±aba con ser escritora y pasaba horas leyendo libros de Gabriel Garc√≠a M√°rquez.
  Su mejor amigo, Santiago, era un talentoso m√∫sico que compon√≠a melod√≠as conmovedoras.
  Juntos, compart√≠an tardes de caf√© con su vecina, una abuela llamada Elena, quien contaba historias de su juventud en la isla de Cuba.
  Un d√≠a, un misterioso hombre llamado Javier lleg√≥ al barrio. Era un artista enigm√°tico que pintaba retratos conmovedores.
  Su llegada coincidi√≥ con la visita de una familia de M√©xico, integrada por Ricardo, su esposa Sofia y sus hijos, Isabella y Miguel.
  Camila y Santiago se hicieron amigos de ellos y organizaron una fiesta en la que todos pudieron compartir sus culturas y tradiciones.
  Se reunieron alrededor de una mesa llena de sabrosos platillos como tamales, arepas y empanadas.
  Isabella, con su gran talento para el baile, aprendi√≥ pasos de salsa de manos de un alegre joven llamado Alejandro.
  Miguel, un entusiasta de la naturaleza, pasaba horas explorando los jardines junto a Natalia, una bi√≥loga que viv√≠a en la ciudad.
  Mientras tanto, Elena segu√≠a contando historias sobre sus viajes a Puerto Rico y Venezuela, fascinando a todos con sus relatos.
  En esa √©poca de encuentros y nuevas amistades, Javier encontr√≥ la inspiraci√≥n para su pr√≥xima obra,
  un retrato colectivo que reflejaba la diversidad y la calidez de la comunidad.
  Todos, Camila, Santiago, Elena, Javier, Ricardo, Sofia, Isabella, Miguel, Alejandro, y Natalia,
  se convirtieron en una familia extendida, unidos por la m√∫sica, la literatura, y el arte.
  Camila: camila.lopez@gmail.com, +57 300 123 4567
  Santiago: santiago.gomez@hotmail.com, +57 310 9876543
  Elena: elena.rodriguez@outlook.com, +57 315 111 2222
  Javier: javier.perez@yahoo.com, +57 318 333 4444
  Ricardo: ricardo.martinez@gmail.com, +52 55 11112222
  Sofia: sofia.hernandez@hotmail.com, +52 55 3333 4444
  Isabella: isabella.garcia@outlook.com, +52 55 5555 6666
  Miguel: miguel.lopez@yahoo.com, +52 55 7777 8888
  Alejandro: alejandro.sanchez@gmail.com, +57 320 999 0000
  Natalia: natalia.gomez@x.a.lgo.lo.q.sea.com, +57 311888 7777
"""

# Expresiones regulares para encontrar correos electr√≥nicos y tel√©fonos
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]', historia)
telefonos = re.findall(r'\+*[0-9]+', historia)
print(telefonos)

telefonos=''.join(telefonos)
print(telefonos)

telefonos=telefonos.split('+')
print(telefonos)

print("Correos electr√≥nicos encontrados:")
for email in emails:
  print(email)

print("\nN√∫meros de tel√©fono encontrados:")
for telefono in telefonos:
  print(telefono)

['+57', '300', '123', '4567', '+57', '310', '9876543', '+57', '315', '111', '2222', '+57', '318', '333', '4444', '+52', '55', '11112222', '+52', '55', '3333', '4444', '+52', '55', '5555', '6666', '+52', '55', '7777', '8888', '+57', '320', '999', '0000', '+57', '311888', '7777']
+573001234567+573109876543+573151112222+573183334444+525511112222+525533334444+525555556666+525577778888+573209990000+573118887777
['', '573001234567', '573109876543', '573151112222', '573183334444', '525511112222', '525533334444', '525555556666', '525577778888', '573209990000', '573118887777']
Correos electr√≥nicos encontrados:
camila.lopez@gmail.c
santiago.gomez@hotmail.c
elena.rodriguez@outlook.c
javier.perez@yahoo.c
ricardo.martinez@gmail.c
sofia.hernandez@hotmail.c
isabella.garcia@outlook.c
miguel.lopez@yahoo.c
alejandro.sanchez@gmail.c
natalia.gomez@x.a.lgo.lo.q.sea.c

N√∫meros de tel√©fono encontrados:

573001234567
573109876543
573151112222
573183334444
525511112222
525533334444
525555556666
525577778888

In [10]:
Corpus_DF

Unnamed: 0,Comentario,Sentimiento
0,"Me encanta usar las chismofilias, ahora estoy ...",Positivo
1,"Es incre√≠ble, escucho cosas que nunca imagin√©....",Positivo
2,"La calidad del audio es sorprendente, puedo es...",Positivo
3,"La bater√≠a dura mucho tiempo, lo uso todo el d...",Positivo
4,"No puedo creer que exista algo as√≠, es como te...",Positivo
5,"El dise√±o es muy discreto, nadie sospecha que ...",Positivo
6,"El alcance es limitado, no puedo escuchar lo q...",Negativo
7,"Es muy caro para lo que ofrece, esperaba m√°s f...",Negativo
8,A veces se desconecta y pierdo lo que estaban ...,Negativo
9,"No cumple con las expectativas, el sonido es m...",Negativo


In [11]:
Corpus_DF['Comentario'].str.lower()

Unnamed: 0,Comentario
0,"me encanta usar las chismofilias, ahora estoy ..."
1,"es incre√≠ble, escucho cosas que nunca imagin√©...."
2,"la calidad del audio es sorprendente, puedo es..."
3,"la bater√≠a dura mucho tiempo, lo uso todo el d..."
4,"no puedo creer que exista algo as√≠, es como te..."
5,"el dise√±o es muy discreto, nadie sospecha que ..."
6,"el alcance es limitado, no puedo escuchar lo q..."
7,"es muy caro para lo que ofrece, esperaba m√°s f..."
8,a veces se desconecta y pierdo lo que estaban ...
9,"no cumple con las expectativas, el sonido es m..."


In [12]:
### Ahora hagamos ese proceso de normalizaci√≥n para todo el corpus

## Convertir

Corpus_DF['Comentario Limpio'] = Corpus_DF['Comentario'].str.lower()
Corpus_DF



Unnamed: 0,Comentario,Sentimiento,Comentario Limpio
0,"Me encanta usar las chismofilias, ahora estoy ...",Positivo,"me encanta usar las chismofilias, ahora estoy ..."
1,"Es incre√≠ble, escucho cosas que nunca imagin√©....",Positivo,"es incre√≠ble, escucho cosas que nunca imagin√©...."
2,"La calidad del audio es sorprendente, puedo es...",Positivo,"la calidad del audio es sorprendente, puedo es..."
3,"La bater√≠a dura mucho tiempo, lo uso todo el d...",Positivo,"la bater√≠a dura mucho tiempo, lo uso todo el d..."
4,"No puedo creer que exista algo as√≠, es como te...",Positivo,"no puedo creer que exista algo as√≠, es como te..."
5,"El dise√±o es muy discreto, nadie sospecha que ...",Positivo,"el dise√±o es muy discreto, nadie sospecha que ..."
6,"El alcance es limitado, no puedo escuchar lo q...",Negativo,"el alcance es limitado, no puedo escuchar lo q..."
7,"Es muy caro para lo que ofrece, esperaba m√°s f...",Negativo,"es muy caro para lo que ofrece, esperaba m√°s f..."
8,A veces se desconecta y pierdo lo que estaban ...,Negativo,a veces se desconecta y pierdo lo que estaban ...
9,"No cumple con las expectativas, el sonido es m...",Negativo,"no cumple con las expectativas, el sonido es m..."


In [13]:
Corpus_DF['Comentario Limpio'].apply(lambda x: re.sub(r"[\W_]+", " ", x))

Unnamed: 0,Comentario Limpio
0,me encanta usar las chismofilias ahora estoy a...
1,es incre√≠ble escucho cosas que nunca imagin√© m...
2,la calidad del audio es sorprendente puedo esc...
3,la bater√≠a dura mucho tiempo lo uso todo el d√≠...
4,no puedo creer que exista algo as√≠ es como ten...
5,el dise√±o es muy discreto nadie sospecha que e...
6,el alcance es limitado no puedo escuchar lo qu...
7,es muy caro para lo que ofrece esperaba m√°s fu...
8,a veces se desconecta y pierdo lo que estaban ...
9,no cumple con las expectativas el sonido es ma...


In [14]:
## Eliminar caracteres especiales

Corpus_DF['Comentario Limpio'] = Corpus_DF['Comentario Limpio'].apply(lambda x: re.sub(r"[\W_]+", " ", x))
Corpus_DF


Unnamed: 0,Comentario,Sentimiento,Comentario Limpio
0,"Me encanta usar las chismofilias, ahora estoy ...",Positivo,me encanta usar las chismofilias ahora estoy a...
1,"Es incre√≠ble, escucho cosas que nunca imagin√©....",Positivo,es incre√≠ble escucho cosas que nunca imagin√© m...
2,"La calidad del audio es sorprendente, puedo es...",Positivo,la calidad del audio es sorprendente puedo esc...
3,"La bater√≠a dura mucho tiempo, lo uso todo el d...",Positivo,la bater√≠a dura mucho tiempo lo uso todo el d√≠...
4,"No puedo creer que exista algo as√≠, es como te...",Positivo,no puedo creer que exista algo as√≠ es como ten...
5,"El dise√±o es muy discreto, nadie sospecha que ...",Positivo,el dise√±o es muy discreto nadie sospecha que e...
6,"El alcance es limitado, no puedo escuchar lo q...",Negativo,el alcance es limitado no puedo escuchar lo qu...
7,"Es muy caro para lo que ofrece, esperaba m√°s f...",Negativo,es muy caro para lo que ofrece esperaba m√°s fu...
8,A veces se desconecta y pierdo lo que estaban ...,Negativo,a veces se desconecta y pierdo lo que estaban ...
9,"No cumple con las expectativas, el sonido es m...",Negativo,no cumple con las expectativas el sonido es ma...


In [15]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [16]:
import pandas as pd

In [17]:
#!pip install openpyxl

In [18]:
DF = pd.read_excel("/content/drive/MyDrive/2025-2/NLP/reviews hotel total.xlsx")

In [19]:
DF = DF.head(100)
DF

Unnamed: 0,Link hotel,Pa√≠s,Acomodaci√≥n,Noches,Fecha hospedaje,Grupo viaje,Fecha rese√±a,Titulo,Calificaci√≥n,Cosas Positivas,Cosas Negativas,rese√±a
0,https://www.booking.com/hotel/co/apto-en-el-ce...,Venezuela,,2 noches,julio de 2023,En pareja,31 de julio de 2023,Excepcional,10,Fue la Mejor Opci√≥n que pudimos haber tomado e...,,S√≠
1,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,4 noches,octubre de 2024,Persona que viaja sola,23 de octubre de 2024,Fant√°stica,10,"Ubicaci√≥n, comodidades y limpieza",,S√≠
2,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,1 noche,octubre de 2024,Persona que viaja sola,15 de octubre de 2024,Excepcional,10,"El lugar esta muy bien ubicado, el apartamento...",,S√≠
3,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,1 noche,agosto de 2024,En pareja,20 de agosto de 2024,Gran apartamento en una gran ubicaci√≥n.,10,Todo estuvo perfecto. La ubicaci√≥n y la relaci...,,S√≠
4,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,3 noches,marzo de 2024,En pareja,27 de marzo de 2024,Excepcional,10,"Es muy c√≥modo y acogedor, la atenci√≥n es excel...",,S√≠
...,...,...,...,...,...,...,...,...,...,...,...,...
95,https://www.booking.com/hotel/co/acogedor-host...,Colombia,,1 noche,julio de 2023,Persona que viaja sola,5 de julio de 2023,Fant√°stico,90,The location is safe and the facilities are go...,,S√≠
96,https://www.booking.com/hotel/co/acogedor-host...,Canad√°,,3 noches,octubre de 2022,Persona que viaja sola,22 de octubre de 2022,Excepcional,10,Extremely friendly staff.\nNice and quite plac...,,S√≠
97,https://www.booking.com/hotel/co/acogedor-host...,Colombia,,1 noche,febrero de 2024,Persona que viaja sola,26 de febrero de 2024,Excepcional,10,"It was comfortable, the staff was very kind, a...",,S√≠
98,https://www.booking.com/hotel/co/acogedor-host...,Colombia,,1 noche,diciembre de 2022,Persona que viaja sola,7 de diciembre de 2022,Ziemlich gut,70,Bequem und es gibt auch sehr nette Leute. Es i...,"Es ist ein bisschen kalt und klein, aber es re...",S√≠


In [20]:
DF['Cosas Positivas Limpio'] = DF['Cosas Positivas'].str.lower()
DF['Cosas Positivas Limpio'] = DF['Cosas Positivas Limpio'].apply(lambda x: re.sub(r"[\W_]+", " ", str(x)))
DF['Cosas Positivas Limpio']

Unnamed: 0,Cosas Positivas Limpio
0,fue la mejor opci√≥n que pudimos haber tomado e...
1,ubicaci√≥n comodidades y limpieza
2,el lugar esta muy bien ubicado el apartamento ...
3,todo estuvo perfecto la ubicaci√≥n y la relaci√≥...
4,es muy c√≥modo y acogedor la atenci√≥n es excele...
...,...
95,the location is safe and the facilities are go...
96,extremely friendly staff nice and quite place ...
97,it was comfortable the staff was very kind and...
98,bequem und es gibt auch sehr nette leute es is...


### ‚úÇÔ∏è Tokenizaci√≥n

La **tokenizaci√≥n** es el proceso de dividir un texto en unidades m√°s peque√±as llamadas **tokens**. Estos pueden ser palabras, frases o incluso caracteres individuales, dependiendo del enfoque. Este paso es fundamental en Procesamiento de Lenguaje Natural (NLP) porque transforma el texto en fragmentos manejables que los algoritmos pueden analizar y procesar.

---

### ¬øPor qu√© es importante la tokenizaci√≥n?

1. **Transformaci√≥n estructurada**:
   - Convierte el texto no estructurado en datos que pueden procesarse de manera computacional.
   - Ejemplo:
     ```python
     texto = "El gato est√° sobre la mesa."
     tokens = ["El", "gato", "est√°", "sobre", "la", "mesa"]
     ```

2. **Preparaci√≥n para an√°lisis posterior**:
   - Muchos algoritmos de NLP, como Bag of Words (BoW) o TF-IDF, requieren que el texto est√© tokenizado para calcular frecuencias o relaciones entre palabras.

3. **Reducci√≥n de complejidad**:
   - Ayuda a simplificar problemas complejos al dividirlos en componentes m√°s peque√±os y manejables.

4. **Facilita el preprocesamiento**:
   - La tokenizaci√≥n es un paso previo a tareas como la eliminaci√≥n de palabras vac√≠as (stopwords), stemming, lematizaci√≥n o creaci√≥n de embeddings.

---

### ¬øC√≥mo se realiza la tokenizaci√≥n?

Existen diversas t√©cnicas de tokenizaci√≥n, desde las m√°s simples hasta las m√°s avanzadas:

1. **Basada en espacios**:
   - Divide las palabras donde hay espacios.
   - Ejemplo: `"Hola, mundo"` ‚Üí `["Hola,", "mundo"]`
   - Problema: Incluye signos de puntuaci√≥n como parte de los tokens.

2. **Basada en expresiones regulares**:
   - Usa patrones para identificar palabras, n√∫meros o caracteres espec√≠ficos.
   - Ejemplo: Eliminando puntuaci√≥n:
     ```python
     import re
     texto = "Hola, mundo."
     tokens = re.findall(r'\w+', texto)  # ["Hola", "mundo"]
     ```

3. **Tokenizaci√≥n de subpalabras**:
   - Divide las palabras en fragmentos m√°s peque√±os (subword units), como en BERT o WordPiece.
   - Ejemplo:
     - Palabra: `"corriendo"`
     - Tokens: `["corr", "iendo"]`
   - Ventaja: Maneja vocabularios m√°s peque√±os y es m√°s robusto frente a palabras desconocidas.

4. **Tokenizaci√≥n basada en caracteres**:
   - Divide el texto en caracteres individuales.
   - √ötil en tareas que analizan patrones a nivel de car√°cter.

---

### Tokenizaci√≥n en modelos avanzados como BERT

Modelos avanzados como **BERT, GPT o RoBERTa** tienen sus propias estrategias de tokenizaci√≥n dise√±adas para maximizar la eficiencia y la cobertura del vocabulario:

1. **Vocabulario fijo**:
   - Utilizan un vocabulario limitado, generado previamente, que incluye palabras comunes y fragmentos de palabras.
   - Ejemplo: `"imposible"` ‚Üí `["im", "pos", "ible"]`

2. **Manejo de palabras desconocidas**:
   - Si una palabra no est√° en el vocabulario, el modelo la divide en subpalabras para asegurar su representaci√≥n.

3. **Codificaci√≥n espec√≠fica (WordPiece, Byte-Pair Encoding)**:
   - Estas t√©cnicas dividen las palabras en subword units basadas en frecuencias observadas durante el entrenamiento.
   - Ejemplo: `"autonom√≠a"` podr√≠a ser dividida en `["auto", "nom√≠a"]`.

4. **Preservaci√≥n de contexto**:
   - La tokenizaci√≥n espec√≠fica permite que estos modelos capturen relaciones entre palabras y subpalabras, mejorando el an√°lisis sem√°ntico.

---

### ¬øCu√°ndo usar tokenizaci√≥n personalizada?

1. **Modelos preentrenados (e.g., BERT, GPT)**:
   - **No necesitas tokenizaci√≥n manual**. Estos modelos ya incluyen su propio tokenizador, optimizado para su arquitectura y vocabulario.
   - Ejemplo con el tokenizador de BERT:
     ```python
     from transformers import BertTokenizer
     tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
     tokens = tokenizer.tokenize("El gato est√° sobre la mesa.")
     print(tokens)  # ['el', 'gato', 'est√°', 'sobre', 'la', 'mesa', '.']
     ```

2. **Modelos tradicionales (TF-IDF, BoW)**:
   - Aqu√≠ se recomienda una tokenizaci√≥n b√°sica o basada en expresiones regulares.

3. **Textos en lenguajes complejos (e.g., Chino, Japon√©s)**:
   - La tokenizaci√≥n puede requerir herramientas espec√≠ficas como **Jieba** o **MeCab** para manejar caracteres que no est√°n separados por espacios.

---


La tokenizaci√≥n es ¬°important√≠sima! en NLP porque permite estructurar el texto para tareas posteriores. Sin embargo, **la forma de tokenizar depende del modelo y el problema**:

- **Modelos tradicionales** requieren una tokenizaci√≥n expl√≠cita.
- **Modelos avanzados como BERT** incluyen su propio tokenizador optimizado, lo que simplifica el preprocesamiento.


<img src="https://www.mermaidchart.com/raw/c333babf-e00a-4830-9c01-ec02d8e4b8aa?theme=light&version=v0.1&format=svg" alt="Diagrama de flujo para la normalizaci√≥n" style="width:100%; max-width:1200px;">

In [21]:
historia

'\n  En el coraz√≥n de la vibrante ciudad de Medell√≠n, viv√≠a una joven llamada Camila.\n  Ella so√±aba con ser escritora y pasaba horas leyendo libros de Gabriel Garc√≠a M√°rquez.\n  Su mejor amigo, Santiago, era un talentoso m√∫sico que compon√≠a melod√≠as conmovedoras.\n  Juntos, compart√≠an tardes de caf√© con su vecina, una abuela llamada Elena, quien contaba historias de su juventud en la isla de Cuba.\n  Un d√≠a, un misterioso hombre llamado Javier lleg√≥ al barrio. Era un artista enigm√°tico que pintaba retratos conmovedores.\n  Su llegada coincidi√≥ con la visita de una familia de M√©xico, integrada por Ricardo, su esposa Sofia y sus hijos, Isabella y Miguel.\n  Camila y Santiago se hicieron amigos de ellos y organizaron una fiesta en la que todos pudieron compartir sus culturas y tradiciones.\n  Se reunieron alrededor de una mesa llena de sabrosos platillos como tamales, arepas y empanadas.\n  Isabella, con su gran talento para el baile, aprendi√≥ pasos de salsa de manos de 

In [22]:
############## Tokenizacion ################

## Tokenizador por palabras
nltk.download('punkt_tab')

texto_tokenizado = word_tokenize(historia)

### La funcion word_tokenize de nltk permite tokenizar un texto en palabras, por detr√°s esta utilizando expresiones regulares para separar las palabras.

texto_tokenizado

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['En',
 'el',
 'coraz√≥n',
 'de',
 'la',
 'vibrante',
 'ciudad',
 'de',
 'Medell√≠n',
 ',',
 'viv√≠a',
 'una',
 'joven',
 'llamada',
 'Camila',
 '.',
 'Ella',
 'so√±aba',
 'con',
 'ser',
 'escritora',
 'y',
 'pasaba',
 'horas',
 'leyendo',
 'libros',
 'de',
 'Gabriel',
 'Garc√≠a',
 'M√°rquez',
 '.',
 'Su',
 'mejor',
 'amigo',
 ',',
 'Santiago',
 ',',
 'era',
 'un',
 'talentoso',
 'm√∫sico',
 'que',
 'compon√≠a',
 'melod√≠as',
 'conmovedoras',
 '.',
 'Juntos',
 ',',
 'compart√≠an',
 'tardes',
 'de',
 'caf√©',
 'con',
 'su',
 'vecina',
 ',',
 'una',
 'abuela',
 'llamada',
 'Elena',
 ',',
 'quien',
 'contaba',
 'historias',
 'de',
 'su',
 'juventud',
 'en',
 'la',
 'isla',
 'de',
 'Cuba',
 '.',
 'Un',
 'd√≠a',
 ',',
 'un',
 'misterioso',
 'hombre',
 'llamado',
 'Javier',
 'lleg√≥',
 'al',
 'barrio',
 '.',
 'Era',
 'un',
 'artista',
 'enigm√°tico',
 'que',
 'pintaba',
 'retratos',
 'conmovedores',
 '.',
 'Su',
 'llegada',
 'coincidi√≥',
 'con',
 'la',
 'visita',
 'de',
 'una',
 'familia',


In [23]:
texto

'hace varios a√±os en el pelot√≥n de fusilamiento el coronel aureliano buend√≠a hab√≠a de recordar aquella tarde remota en que su padre lo llev√≥ a conocer el hielo '

In [24]:
## Tokenizador por expresiones regulares

tokenizer = RegexpTokenizer(r'\w+')
texto_tokenizado = tokenizer.tokenize(texto)

### La clase RegexpTokenizer de nltk permite tokenizar un texto utilizando expresiones regulares, en este caso se tokeniza por palabras.

texto_tokenizado

['hace',
 'varios',
 'a√±os',
 'en',
 'el',
 'pelot√≥n',
 'de',
 'fusilamiento',
 'el',
 'coronel',
 'aureliano',
 'buend√≠a',
 'hab√≠a',
 'de',
 'recordar',
 'aquella',
 'tarde',
 'remota',
 'en',
 'que',
 'su',
 'padre',
 'lo',
 'llev√≥',
 'a',
 'conocer',
 'el',
 'hielo']

In [25]:
texto_2 = "hola, buenas noches"

tokenizer_comas = RegexpTokenizer(r'[^,]+')
tokens_comas = tokenizer_comas.tokenize(texto_2)
print("Por comas:", tokens_comas)

Por comas: ['hola', ' buenas noches']


In [26]:
tokenizer_tildes = RegexpTokenizer(r'[√°√©√≠√≥√∫√Å√â√ç√ì√ö]+')
tokens_tildes = tokenizer_tildes.tokenize(texto)
print("Tildes:", tokens_tildes)

Tildes: ['√≥', '√≠', '√≠', '√≥']


In [27]:
# el token incluye todo lo que va antes de la tilde + la vocal acentuada.
tokenizer_tildes = RegexpTokenizer(r'[^√°√©√≠√≥√∫√Å√â√ç√ì√ö]*[√°√©√≠√≥√∫√Å√â√ç√ì√ö]')
tokens_tildes = tokenizer_tildes.tokenize(texto)
print(tokens_tildes)

['hace varios a√±os en el pelot√≥', 'n de fusilamiento el coronel aureliano buend√≠', 'a hab√≠', 'a de recordar aquella tarde remota en que su padre lo llev√≥']


In [28]:
texto_3 = "hola. buenas noches"

tokenizer_puntos = RegexpTokenizer(r'[^.]+')
tokens_puntos = tokenizer_puntos.tokenize(texto_3)
print("Por puntos:", tokens_puntos)

Por puntos: ['hola', ' buenas noches']


## üßπ 5. Eliminaci√≥n de stopwords


Las **stop words** son palabras que tienen poco o ning√∫n valor sem√°ntico en un an√°lisis de texto. Estas palabras suelen ser art√≠culos, preposiciones, conjunciones o pronombres que, aunque son esenciales para construir frases en un lenguaje natural, no aportan informaci√≥n relevante para el an√°lisis de contenido en tareas espec√≠ficas.

---

### ¬øPor qu√© eliminar las stop words?

1. **Reducci√≥n del ruido en los datos**:
   - Elimina palabras comunes que no diferencian un texto de otro, como "el", "de", "y", "pero".
   - Ejemplo:
     ```python
     texto = "El gato est√° en la casa y duerme."
     sin_stopwords = "gato casa duerme"
     ```

2. **Optimizaci√≥n de los modelos**:
   - Reduce la dimensionalidad del vocabulario, mejorando la eficiencia computacional.
   - Ayuda a concentrar el an√°lisis en palabras clave m√°s relevantes.

3. **Relevancia en tareas espec√≠ficas**:
   - En tareas como clasificaci√≥n de texto o clustering, las stop words pueden diluir patrones importantes.

---

### ¬øCu√°ndo evitar eliminarlas?

Aunque generalmente es √∫til, no siempre es adecuado eliminar stop words. Aqu√≠ hay casos en los que podr√≠an ser importantes:

1. **An√°lisis de estilo o escritura**:
   - En an√°lisis literarios o de autor√≠a, las stop words pueden reflejar patrones estil√≠sticos.
   - Ejemplo: En textos de Gabriel Garc√≠a M√°rquez, el uso de "y" es caracter√≠stico de sus frases largas y descriptivas.

2. **Modelos avanzados (e.g., BERT, GPT)**:
   - Los modelos de lenguaje de gran tama√±o ya manejan las stop words en su contexto sem√°ntico.
   - Eliminarlas podr√≠a romper relaciones √∫tiles en tareas como an√°lisis de sentimiento o traducci√≥n.

3. **An√°lisis sint√°ctico**:
   - Si el objetivo es analizar estructuras gramaticales, las stop words son esenciales.

---

### ¬øC√≥mo identificar y eliminar stop words?

1. **Usando listas predefinidas**:
   - Librer√≠as como `nltk` o `spaCy` incluyen listas de stop words comunes.
   - Ejemplo con `nltk`:
     ```python
     from nltk.corpus import stopwords
     from nltk.tokenize import word_tokenize
     
     nltk.download('stopwords')
     nltk.download('punkt')

     texto = "El gato est√° en la casa y duerme."
     palabras = word_tokenize(texto.lower())
     stop_words = set(stopwords.words('spanish'))

     sin_stopwords = [palabra for palabra in palabras if palabra not in stop_words]
     print(sin_stopwords)  # ['gato', 'casa', 'duerme']
     ```

2. **Personalizando las listas**:
   - Puedes agregar o quitar palabras seg√∫n el dominio del texto.
   - Ejemplo: En textos legales, palabras como "ley", "art√≠culo", "reglamento" no deben eliminarse.

3. **Usando expresiones regulares**:
   - Filtrar palabras que cumplen ciertos patrones.
   - Ejemplo: Eliminaci√≥n de palabras de 1-2 caracteres:
     ```python
     import re
     texto = "El gato est√° en la casa y duerme."
     palabras = re.findall(r'\b\w{3,}\b', texto.lower())
     print(palabras)  # ['gato', 'est√°', 'casa', 'duerme']
     ```

---

### Alternativas a eliminar stop words

En algunos casos, en lugar de eliminarlas, puedes:
1. **Ponderarlas**:
   - Usar m√©todos como TF-IDF que reducen autom√°ticamente el peso de palabras muy frecuentes.

2. **Mantenerlas para tareas contextuales**:
   - En an√°lisis de sentimiento o detecci√≥n de sarcasmo, las stop words pueden ser significativas.

---

La eliminaci√≥n de stop words es un paso clave en la mayor√≠a de las tareas de NLP, pero debe aplicarse con criterio:

- **√ötil** en modelos tradicionales como TF-IDF o Word2Vec.
- **No siempre necesario** en modelos avanzados como BERT o GPT.
- **Personalizable** seg√∫n el dominio y los objetivos del an√°lisis.

<img src="https://www.mermaidchart.com/raw/6c157501-141d-40ae-9295-f991bc567f6e?theme=light&version=v0.1&format=svg" alt="Stop Words" style="width:100%; max-width:1200px;">

In [29]:
############## Eliminaci√≥n de palabras vacias ################

## Palabras vacias en espa√±ol

stopwords_esp = stopwords.words('spanish')
### La lista stopwords.words('spanish') contiene las palabras vacias en espa√±ol, se filtran las palabras vacias del texto tokenizado.

stopwords_esp=stopwords_esp+['que','CO']
stopwords_esp

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'm√°s',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 's√≠',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'tambi√©n',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'm√≠',
 'antes',
 'algunos',
 'qu√©',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 '√©l',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 't√∫',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'm√≠o',
 'm√≠a',
 'm√≠os',
 'm√≠as',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',

In [30]:
texto_tokenizado

['hace',
 'varios',
 'a√±os',
 'en',
 'el',
 'pelot√≥n',
 'de',
 'fusilamiento',
 'el',
 'coronel',
 'aureliano',
 'buend√≠a',
 'hab√≠a',
 'de',
 'recordar',
 'aquella',
 'tarde',
 'remota',
 'en',
 'que',
 'su',
 'padre',
 'lo',
 'llev√≥',
 'a',
 'conocer',
 'el',
 'hielo']

In [31]:
## Eliminar palabras vacias

texto_filtrado = [palabra for palabra in texto_tokenizado if palabra not in stopwords_esp]
texto_filtrado

['hace',
 'varios',
 'a√±os',
 'pelot√≥n',
 'fusilamiento',
 'coronel',
 'aureliano',
 'buend√≠a',
 'recordar',
 'aquella',
 'tarde',
 'remota',
 'padre',
 'llev√≥',
 'conocer',
 'hielo']

In [32]:
DF

Unnamed: 0,Link hotel,Pa√≠s,Acomodaci√≥n,Noches,Fecha hospedaje,Grupo viaje,Fecha rese√±a,Titulo,Calificaci√≥n,Cosas Positivas,Cosas Negativas,rese√±a,Cosas Positivas Limpio
0,https://www.booking.com/hotel/co/apto-en-el-ce...,Venezuela,,2 noches,julio de 2023,En pareja,31 de julio de 2023,Excepcional,10,Fue la Mejor Opci√≥n que pudimos haber tomado e...,,S√≠,fue la mejor opci√≥n que pudimos haber tomado e...
1,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,4 noches,octubre de 2024,Persona que viaja sola,23 de octubre de 2024,Fant√°stica,10,"Ubicaci√≥n, comodidades y limpieza",,S√≠,ubicaci√≥n comodidades y limpieza
2,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,1 noche,octubre de 2024,Persona que viaja sola,15 de octubre de 2024,Excepcional,10,"El lugar esta muy bien ubicado, el apartamento...",,S√≠,el lugar esta muy bien ubicado el apartamento ...
3,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,1 noche,agosto de 2024,En pareja,20 de agosto de 2024,Gran apartamento en una gran ubicaci√≥n.,10,Todo estuvo perfecto. La ubicaci√≥n y la relaci...,,S√≠,todo estuvo perfecto la ubicaci√≥n y la relaci√≥...
4,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,3 noches,marzo de 2024,En pareja,27 de marzo de 2024,Excepcional,10,"Es muy c√≥modo y acogedor, la atenci√≥n es excel...",,S√≠,es muy c√≥modo y acogedor la atenci√≥n es excele...
...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,https://www.booking.com/hotel/co/acogedor-host...,Colombia,,1 noche,julio de 2023,Persona que viaja sola,5 de julio de 2023,Fant√°stico,90,The location is safe and the facilities are go...,,S√≠,the location is safe and the facilities are go...
96,https://www.booking.com/hotel/co/acogedor-host...,Canad√°,,3 noches,octubre de 2022,Persona que viaja sola,22 de octubre de 2022,Excepcional,10,Extremely friendly staff.\nNice and quite plac...,,S√≠,extremely friendly staff nice and quite place ...
97,https://www.booking.com/hotel/co/acogedor-host...,Colombia,,1 noche,febrero de 2024,Persona que viaja sola,26 de febrero de 2024,Excepcional,10,"It was comfortable, the staff was very kind, a...",,S√≠,it was comfortable the staff was very kind and...
98,https://www.booking.com/hotel/co/acogedor-host...,Colombia,,1 noche,diciembre de 2022,Persona que viaja sola,7 de diciembre de 2022,Ziemlich gut,70,Bequem und es gibt auch sehr nette Leute. Es i...,"Es ist ein bisschen kalt und klein, aber es re...",S√≠,bequem und es gibt auch sehr nette leute es is...


In [33]:
## Tokenizaci√≥n por palabras
tokenizer = RegexpTokenizer(r'\w+')
DF['Cosas Positivas Tokenizado'] = DF['Cosas Positivas Limpio'].apply(lambda x: tokenizer.tokenize(x))

## Eliminaci√≥n de palabras vacias
stopwords_esp = stopwords.words('spanish')
DF['Cosas Positivas Sin Stopwords'] = DF['Cosas Positivas Tokenizado'].apply(lambda x: [palabra for palabra in x if palabra not in stopwords_esp])

display(DF[['Cosas Positivas Limpio', 'Cosas Positivas Tokenizado', 'Cosas Positivas Sin Stopwords']].head())

Unnamed: 0,Cosas Positivas Limpio,Cosas Positivas Tokenizado,Cosas Positivas Sin Stopwords
0,fue la mejor opci√≥n que pudimos haber tomado e...,"[fue, la, mejor, opci√≥n, que, pudimos, haber, ...","[mejor, opci√≥n, pudimos, haber, tomado, bogot√°..."
1,ubicaci√≥n comodidades y limpieza,"[ubicaci√≥n, comodidades, y, limpieza]","[ubicaci√≥n, comodidades, limpieza]"
2,el lugar esta muy bien ubicado el apartamento ...,"[el, lugar, esta, muy, bien, ubicado, el, apar...","[lugar, bien, ubicado, apartamento, bonito, li..."
3,todo estuvo perfecto la ubicaci√≥n y la relaci√≥...,"[todo, estuvo, perfecto, la, ubicaci√≥n, y, la,...","[perfecto, ubicaci√≥n, relaci√≥n, calidad, preci..."
4,es muy c√≥modo y acogedor la atenci√≥n es excele...,"[es, muy, c√≥modo, y, acogedor, la, atenci√≥n, e...","[c√≥modo, acogedor, atenci√≥n, excelente, espaci..."


## üìè 6. Lematizaci√≥n o stemming

Tanto la **lemmatizaci√≥n** como el **stemming** son t√©cnicas utilizadas en el preprocesamiento de texto para reducir las palabras a su forma base. Sin embargo, ambas tienen diferencias importantes en su prop√≥sito y en c√≥mo se implementan.

---

### Stemming

El **stemming** consiste en reducir una palabra a su ra√≠z o **stem**, eliminando afijos como sufijos y prefijos. Este proceso no garantiza que la ra√≠z sea una palabra v√°lida en el lenguaje, ya que se basa en reglas ling√º√≠sticas simples.

#### Ejemplo:
- Palabras: "corriendo", "corri√≥", "correr"
- Resultado del stemming: "corr"

#### Ventajas:
1. **R√°pido**: Se basa en reglas simples y no requiere conocimiento gramatical.
2. **Menor consumo de recursos**: Es computacionalmente eficiente.

#### Desventajas:
1. **Impreciso**: Puede producir ra√≠ces que no son palabras reales.
   - Ejemplo: "mejor" ‚Üí "mej"
2. **Desinformativo**: Pierde matices gramaticales, como tiempo verbal o pluralidad.

#### Implementaci√≥n en Python:
```python
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("spanish")
palabras = ["corriendo", "corri√≥", "corre"]
stems = [stemmer.stem(palabra) for palabra in palabras]
print(stems)  # ['corr', 'corr', 'corr']
```

---

### Lemmatizaci√≥n

La **lemmatizaci√≥n** reduce las palabras a su forma base o **lema**, considerando su significado y contexto gramatical. Para lograrlo, utiliza un diccionario que identifica el lema correcto de cada palabra.

#### Ejemplo:
- Palabras: "corriendo", "corri√≥", "correr"
- Resultado de la lematizaci√≥n: "correr"

#### Ventajas:
1. **Precisa**: Retorna palabras v√°lidas en el idioma.
2. **Contextualizada**: Considera el significado y la funci√≥n gramatical.

#### Desventajas:
1. **M√°s lenta**: Requiere an√°lisis morfol√≥gico y acceso a diccionarios l√©xicos.
2. **Mayor consumo de recursos**: Es computacionalmente m√°s costosa.

#### Implementaci√≥n en Python:
Usando `spaCy`:
```python
import spacy

nlp = spacy.load("es_core_news_sm")
texto = "Los ni√±os est√°n corriendo r√°pidamente hacia el parque."
doc = nlp(texto)
lemmatized = [token.lemma_ for token in doc]
print(lemmatized)  # ['el', 'ni√±o', 'estar', 'correr', 'r√°pidamente', 'hacia', 'el', 'parque']
```

---

### Diferencias clave

| Caracter√≠stica      | Stemming                     | Lemmatizaci√≥n                  |
|---------------------|------------------------------|--------------------------------|
| **Base**            | Reglas ling√º√≠sticas simples  | Diccionarios l√©xicos          |
| **Forma resultante**| No siempre es una palabra v√°lida | Siempre retorna una palabra v√°lida |
| **Velocidad**       | M√°s r√°pido                  | M√°s lento                     |
| **Precisi√≥n**       | Menor                       | Mayor                         |
| **Uso**             | An√°lisis r√°pido y superficial | Tareas que requieren contexto |

---

### ¬øCu√°ndo usar cada uno?

#### **Usa Stemming si...**
1. Necesitas procesamiento r√°pido.
2. El contexto no es relevante.
3. Est√°s trabajando con tareas como clustering, donde solo importa la similitud de las ra√≠ces.

#### **Usa Lemmatizaci√≥n si...**
1. La precisi√≥n es clave.
2. El contexto y la gram√°tica son importantes.
3. Est√°s trabajando con modelos avanzados o tareas como an√°lisis sem√°ntico o traducci√≥n.

---

### Ejemplo combinado de Stemming y Lemmatizaci√≥n

```python
from nltk.stem import SnowballStemmer
import spacy

# Inicializar herramientas
stemmer = SnowballStemmer("spanish")
nlp = spacy.load("es_core_news_sm")

# Texto de ejemplo
texto = "Las aves estaban volando por el cielo."

# Aplicar stemming
tokens = texto.split()
stems = [stemmer.stem(token) for token in tokens]
print("Stemming:", stems)

# Aplicar lematizaci√≥n
doc = nlp(texto)
lemmas = [token.lemma_ for token in doc]
print("Lemmatizaci√≥n:", lemmas)
```

Salida:
```
Stemming: ['las', 'aves', 'est', 'vol', 'por', 'el', 'ciel']
Lemmatizaci√≥n: ['el', 'ave', 'estar', 'volar', 'por', 'el', 'cielo']
```

---


In [34]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m12.9/12.9 MB[0m [31m90.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m‚ö† Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [35]:
# Inicializar herramientas
stemmer = SnowballStemmer("spanish")
nlp = spacy.load("es_core_news_sm")

# Texto de ejemplo
texto = "Las aves estaban volando por el cielo."

# Aplicar stemming
tokens = texto.split()
stems = [stemmer.stem(token) for token in tokens]
print("Stemming:", stems)



Stemming: ['las', 'aves', 'estab', 'vol', 'por', 'el', 'cielo.']


In [36]:
print(texto_filtrado)

['hace', 'varios', 'a√±os', 'pelot√≥n', 'fusilamiento', 'coronel', 'aureliano', 'buend√≠a', 'recordar', 'aquella', 'tarde', 'remota', 'padre', 'llev√≥', 'conocer', 'hielo']


In [37]:
############## Stemming ################
from nltk.stem import SnowballStemmer
## Stemmer en espa√±ol
stemmer = SnowballStemmer('spanish')
## Stemming
texto_stemming = [stemmer.stem(palabra) for palabra in texto_filtrado]
### La clase SnowballStemmer de nltk permite realizar stemming en espa√±ol, se aplica stemming a las palabras filtradas.

print(texto_stemming)

['hac', 'vari', 'a√±os', 'peloton', 'fusil', 'coronel', 'aurelian', 'buend', 'record', 'aquell', 'tard', 'remot', 'padr', 'llev', 'conoc', 'hiel']


Importante descargar el modelo en espa√±ol de `spaCy` antes de ejecutar el c√≥digo:

```bash
!python -m spacy download es_core_news_sm
```

In [38]:
' '.join(texto_filtrado)

'hace varios a√±os pelot√≥n fusilamiento coronel aureliano buend√≠a recordar aquella tarde remota padre llev√≥ conocer hielo'

In [39]:
############## Lematizaci√≥n ################
import spacy
nlp = spacy.load("es_core_news_sm")
## Lematizador en espa√±ol

# Aplicar lematizaci√≥n
doc = nlp(' '.join(texto_filtrado))
lemmas = [token.lemma_ for token in doc]
print("Lemmatizaci√≥n:", lemmas)

Lemmatizaci√≥n: ['hacer', 'varios', 'a√±o', 'pelot√≥n', 'fusilamiento', 'coronel', 'aureliano', 'buend√≠a', 'recordar', 'aquel', 'tarde', 'remoto', 'padre', 'llevar', 'conocer', 'hielo']


##  üß™ 7. Bag of words


El modelo **Bag of Words** es una de las t√©cnicas m√°s simples y utilizadas en el procesamiento de lenguaje natural (NLP) para representar texto en un formato num√©rico que las m√°quinas pueden entender. A pesar de su simplicidad, sigue siendo una herramienta poderosa para tareas como clasificaci√≥n de texto, clustering y an√°lisis de sentimiento.

---

### ¬øQu√© es Bag of Words?

El modelo **BoW** convierte un conjunto de textos (corpus) en una representaci√≥n matricial basada √∫nicamente en la **frecuencia de las palabras** que aparecen en los documentos, ignorando su orden y contexto. En esencia, crea una "bolsa" de palabras donde la posici√≥n de las palabras no importa, pero su presencia o ausencia s√≠.

#### Ejemplo:
Corpus:
1. "El gato duerme"
2. "El perro corre"
3. "El gato corre"

**Bolso de palabras**:
- ["El", "gato", "duerme", "perro", "corre"]

**Matriz de frecuencias**:

| Documento    | El  | gato | duerme | perro | corre |
|--------------|-----|------|--------|-------|-------|
| 1. "El gato duerme" | 1   | 1    | 1      | 0     | 0     |
| 2. "El perro corre" | 1   | 0    | 0      | 1     | 1     |
| 3. "El gato corre"  | 1   | 1    | 0      | 0     | 1     |

---

### ¬øC√≥mo funciona?

1. **Tokenizaci√≥n**:
   - Divide los documentos en palabras (tokens).

2. **Construcci√≥n del vocabulario**:
   - Crea una lista de palabras √∫nicas en el corpus.

3. **Vectorizaci√≥n**:
   - Representa cada documento como un vector de frecuencias basado en el vocabulario.

---

### Ventajas

1. **Simplicidad**:
   - Es f√°cil de entender e implementar.
   
2. **Eficiencia**:
   - Funciona bien con textos cortos y corpora peque√±os.

3. **Compatibilidad**:
   - Puede integrarse con modelos tradicionales como Naive Bayes, SVM, o redes neuronales b√°sicas.

---

### Desventajas

1. **Ignora el contexto**:
   - No captura relaciones entre palabras, como sin√≥nimos o frases.
   
2. **Alta dimensionalidad**:
   - Si el corpus tiene muchas palabras √∫nicas, el vector resultante ser√° grande y disperso.

3. **No distingue la importancia de las palabras**:
   - Palabras comunes como "el", "de", "y" tienen el mismo peso que palabras m√°s significativas.

---

### Mejoras al modelo BoW

1. **TF-IDF (Term Frequency-Inverse Document Frequency)**:
   - Ajusta las frecuencias para dar m√°s peso a palabras relevantes y reducir el peso de palabras comunes.
   
2. **N-grams**:
   - Considera secuencias de palabras (como pares o tr√≠os) en lugar de palabras individuales.

3. **Reducci√≥n de dimensionalidad**:
   - Usa t√©cnicas como PCA o selecci√≥n de caracter√≠sticas para manejar la alta dimensionalidad.

---

### Implementaci√≥n en Python

#### Usando `CountVectorizer` de `sklearn`
```python
from sklearn.feature_extraction.text import CountVectorizer

# Corpus de ejemplo
corpus = [
    "El gato duerme",
    "El perro corre",
    "El gato corre"
]

# Inicializar el vectorizador
vectorizer = CountVectorizer()

# Transformar el corpus en una matriz BoW
X = vectorizer.fit_transform(corpus)

# Mostrar el vocabulario
print("Vocabulario:", vectorizer.get_feature_names_out())

# Mostrar la matriz BoW
print("Matriz BoW:\n", X.toarray())
```

**Salida**:
```
Vocabulario: ['corre' 'duerme' 'el' 'gato' 'perro']
Matriz BoW:
 [[0 1 1 1 0]
  [1 0 1 0 1]
  [1 0 1 1 0]]
```

---

### ¬øCu√°ndo usar Bag of Words?

1. **Tareas sencillas**:
   - Clasificaci√≥n de texto, an√°lisis de sentimiento o detecci√≥n de spam.

2. **Modelos tradicionales**:
   - Funciona bien con Naive Bayes, SVM o regresi√≥n log√≠stica.

3. **Corpus peque√±os**:
   - En textos largos o complejos, su incapacidad para capturar contexto se vuelve un problema.

---

- **Simplicidad**: F√°cil de entender y usar.
- **Limitaciones**: Ignora contexto y puede generar vectores grandes.
- **Alternativas**: TF-IDF o embeddings como Word2Vec y BERT para modelos m√°s avanzados.

In [40]:
' '.join(lemmas)

'hacer varios a√±o pelot√≥n fusilamiento coronel aureliano buend√≠a recordar aquel tarde remoto padre llevar conocer hielo'

In [41]:
############## Bag of words ################

## Vectorizador
vectorizador = CountVectorizer()

## Bolsa de palabras
texto_bow = vectorizador.fit_transform([' '.join(lemmas)])

## Veamos un dataframe con la bolsa de palabras
import pandas as pd

df = pd.DataFrame(texto_bow.toarray(), columns=vectorizador.get_feature_names_out())
df_index = pd.DataFrame([' '.join(lemmas)], columns=['Texto'])

df = pd.concat([df_index, df], axis=1)
df

Unnamed: 0,Texto,aquel,aureliano,a√±o,buend√≠a,conocer,coronel,fusilamiento,hacer,hielo,llevar,padre,pelot√≥n,recordar,remoto,tarde,varios
0,hacer varios a√±o pelot√≥n fusilamiento coronel ...,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1


In [42]:
textos = [
    "perro perro gato",       # perro aparece 2 veces
    "gato perro gato",        # gato aparece 2 veces
    "perro pez perro pez pez" # perro y pez se repiten
]

# Creamos el vectorizador
vectorizador = CountVectorizer()

# Ajustamos y transformamos
texto_bow = vectorizador.fit_transform(textos)

# Creamos el DataFrame de la matriz
df_bow = pd.DataFrame(texto_bow.toarray(), columns=vectorizador.get_feature_names_out())

# Agregamos columna con el texto original para referencia
df_textos = pd.DataFrame(textos, columns=["Texto"])
df_final = pd.concat([df_textos, df_bow], axis=1)

df_final

Unnamed: 0,Texto,gato,perro,pez
0,perro perro gato,1,2,0
1,gato perro gato,2,1,0
2,perro pez perro pez pez,0,2,3


## ‚úÖ 8. Conclusiones

En este notebook, se presentaron los pasos m√°s comunes en el preprocesamiento de texto. Es importante tener en cuenta que estos pasos pueden variar dependiendo del problema y del texto que se est√© analizando. Para las siguientes tareas es probable que se hagan algunos de los pasos mencionados anteriormente.

<img src="https://www.mermaidchart.com/raw/b60c8142-12ae-46c9-8412-7333ee1508cd?theme=light&version=v0.1&format=svg">

In [43]:
def clean_text(
    text: str,
) -> str:
    """Limpia y normaliza un texto en espa√±ol: min√∫sculas, eliminaci√≥n de caracteres no alfanum√©ricos,
    tokenizaci√≥n, eliminaci√≥n de *stopwords* y lematizaci√≥n.

    Args:
        text: Texto original a procesar.

    Returns:
        Texto limpio, tokenizado, sin *stopwords* y lematizado.

    Raises:
        ValueError: Si `text` est√° vac√≠o o s√≥lo contiene espacios.

    Examples:
        >>> import spacy
        >>> nlp_es = spacy.load("es_core_news_sm")
        >>> clean_text("¬°Los gatos corren r√°pidamente!", nlp=nlp_es)
        'gato correr r√°pidamente'
    """
    if not text or not text.strip():
        raise ValueError("`text` no debe estar vac√≠o.")

    # Normalizaci√≥n: min√∫sculas
    text = text.lower()

    # Eliminaci√≥n de caracteres no alfanum√©ricos (excepto espacios)
    text = re.sub(r"[^a-zA-Z0-9\s]", "", text)

    # Tokenizaci√≥n con NLTK
    tokens = word_tokenize(text)

    # Stop words
    stopwords_esp = stopwords.words('spanish')
    tokens = [token for token in tokens if token not in stopwords_esp]

    # Lematizaci√≥n con spaCy
    nlp = spacy.load("es_core_news_sm")  # Carga por defecto (m√°s lento si se hace muchas veces)
    doc = nlp(" ".join(tokens))
    tokens_lemma = [token.lemma_ for token in doc]

    return " ".join(tokens_lemma)



In [44]:
clean_text('En la vida hay muchos chismoso para las chismofilias')

'vida chismoso chismofilia'

In [45]:
Corpus_DF['Texto_Limpio'] = Corpus_DF['Comentario'].apply(clean_text)
Corpus_DF

Unnamed: 0,Comentario,Sentimiento,Comentario Limpio,Texto_Limpio
0,"Me encanta usar las chismofilias, ahora estoy ...",Positivo,me encanta usar las chismofilias ahora estoy a...,encantar usar chismofilia ahora dar pasa vecin...
1,"Es incre√≠ble, escucho cosas que nunca imagin√©....",Positivo,es incre√≠ble escucho cosas que nunca imagin√© m...,increble escucho cosa nunca imagin til conocer...
2,"La calidad del audio es sorprendente, puedo es...",Positivo,la calidad del audio es sorprendente puedo esc...,calidad audio sorprendente poder escuchar clar...
3,"La bater√≠a dura mucho tiempo, lo uso todo el d...",Positivo,la bater√≠a dura mucho tiempo lo uso todo el d√≠...,batera duro tiempo uso dar problema excelente ...
4,"No puedo creer que exista algo as√≠, es como te...",Positivo,no puedo creer que exista algo as√≠ es como ten...,poder creer exista as tener superpoder chismosear
5,"El dise√±o es muy discreto, nadie sospecha que ...",Positivo,el dise√±o es muy discreto nadie sospecha que e...,diseo discreto nadie sospechar escuchar totalm...
6,"El alcance es limitado, no puedo escuchar lo q...",Negativo,el alcance es limitado no puedo escuchar lo qu...,alcance limitado poder escuchar pasar casa lado
7,"Es muy caro para lo que ofrece, esperaba m√°s f...",Negativo,es muy caro para lo que ofrece esperaba m√°s fu...,caro ofrecer esperar ms funci√≥n precio
8,A veces se desconecta y pierdo lo que estaban ...,Negativo,a veces se desconecta y pierdo lo que estaban ...,vez desconectar pierdo decir frustrante
9,"No cumple con las expectativas, el sonido es m...",Negativo,no cumple con las expectativas el sonido es ma...,cumplir expectativa sonido malo escuchar bien ...


In [46]:
pd.set_option('display.max_columns', None)

vectorizador_chismofilia = CountVectorizer()

vectorizador_chismofilia.fit(Corpus_DF['Texto_Limpio'])

salida = vectorizador_chismofilia.transform(Corpus_DF['Texto_Limpio'])

pd.DataFrame(salida.toarray(), columns=vectorizador_chismofilia.get_feature_names_out())

Unnamed: 0,adictiva,ahora,alcance,alrededor,as,audio,barato,batera,bien,bueno,calidad,caro,casa,chismofilia,chismosear,claridad,compra,conocer,cosa,creer,cumplir,dar,deberar,decir,dejar,desconectar,dinero,discreto,diseo,divertido,duro,encanta,encantar,entender,enterar,escuchar,escucho,esperar,excelente,exista,expectativa,fama,feliz,forma,frustrante,funcionar,funci√≥n,gran,gustar,hecho,imagin,increble,lado,limitado,malo,ms,nadie,nunca,ofrecer,pasa,pasar,perd,pierdo,pintir,poder,precio,problema,producto,psimo,qu,recomendado,sonido,sorprendente,sospechar,superpoder,tanto,tener,tiempo,til,totalmente,usar,uso,vecindario,vecino,vez,yo,√©l
0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0
2,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0
4,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0
6,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
9,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [47]:
Corpus_DF['Texto_Limpio'][0]

'encantar usar chismofilia ahora dar pasa vecindario'

In [48]:
from sklearn.base import BaseEstimator, TransformerMixin

class CleanText(BaseEstimator, TransformerMixin):
    """Transformador de scikit-learn para limpieza y normalizaci√≥n de texto en espa√±ol.

    Esta clase implementa el patr√≥n de transformador de scikit-learn, permitiendo su uso
    en pipelines para preprocesar texto. Realiza:
      - Conversi√≥n a min√∫sculas.
      - Eliminaci√≥n de caracteres no alfanum√©ricos.
      - Tokenizaci√≥n con NLTK.
      - Eliminaci√≥n de stopwords en espa√±ol.
      - Lematizaci√≥n con spaCy (`es_core_news_sm`).

    Attributes:
        nlp (spacy.language.Language): Modelo de spaCy cargado para espa√±ol.
        stopwords_esp (list[str]): Lista de stopwords en espa√±ol (NLTK).
    """

    # Carga del modelo de spaCy y stopwords al definir la clase
    nlp = spacy.load("es_core_news_sm")
    stopwords_esp = stopwords.words("spanish")

    def __init__(self):
        """Inicializa el transformador sin par√°metros adicionales."""
        pass

    def fit(self, X: pd.Series, y=None):
        """Ajusta el transformador a los datos (sin cambios para este caso).

        Args:
            X (pd.Series): Serie de textos a procesar.
            y: Ignorado. Incluido para compatibilidad con scikit-learn.

        Returns:
            CleanText: El propio transformador (self).
        """
        return self

    def clean_text(self, text: str) -> str:
        """Limpia y normaliza un texto.

        Pasos:
            1. Convierte a min√∫sculas.
            2. Elimina caracteres no alfanum√©ricos.
            3. Tokeniza con NLTK.
            4. Elimina stopwords en espa√±ol.
            5. Lematiza con spaCy.

        Args:
            text (str): Texto a limpiar.

        Returns:
            str: Texto procesado y lematizado.
        """
        # Normalizaci√≥n
        text = text.lower()

        # Eliminaci√≥n de caracteres no alfanum√©ricos
        text = re.sub(r"[^a-zA-Z0-9\s]", "", text)

        # Tokenizaci√≥n y eliminaci√≥n de stopwords
        tokens = word_tokenize(text)
        tokens = [token for token in tokens if token not in self.stopwords_esp]

        # Lematizaci√≥n
        doc = self.nlp(" ".join(tokens))
        tokens = [token.lemma_ for token in doc]

        return " ".join(tokens)

    def transform(self, X: pd.Series, y=None) -> pd.Series:
        """Aplica la limpieza de texto a una serie de pandas.

        Args:
            X (pd.Series): Serie de textos a procesar.
            y: Ignorado. Incluido para compatibilidad con scikit-learn.

        Returns:
            pd.Series: Serie con textos procesados.
        """
        return X.apply(self.clean_text)

    def fit_transform(self, X: pd.Series, y=None) -> pd.Series:
        """Ajusta y transforma la serie de textos.

        Args:
            X (pd.Series): Serie de textos a procesar.
            y: Ignorado. Incluido para compatibilidad con scikit-learn.

        Returns:
            pd.Series: Serie con textos procesados.
        """
        return self.transform(X)



In [49]:
cleaner = CleanText()

cleaner.fit_transform(Corpus_DF['Comentario'])

Unnamed: 0,Comentario
0,encantar usar chismofilia ahora dar pasa vecin...
1,increble escucho cosa nunca imagin til conocer...
2,calidad audio sorprendente poder escuchar clar...
3,batera duro tiempo uso dar problema excelente ...
4,poder creer exista as tener superpoder chismosear
5,diseo discreto nadie sospechar escuchar totalm...
6,alcance limitado poder escuchar pasar casa lado
7,caro ofrecer esperar ms funci√≥n precio
8,vez desconectar pierdo decir frustrante
9,cumplir expectativa sonido malo escuchar bien ...


In [50]:
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier

pipeline = Pipeline([
    ('cleaner', CleanText()),
    ('vectorizer', CountVectorizer()),
    ('classifier', RandomForestClassifier())
])

In [51]:
pipeline.fit(Corpus_DF['Comentario'], Corpus_DF['Sentimiento']=='Positivo')

In [52]:
y_pred = pipeline.predict(Corpus_DF['Comentario'])

In [53]:
from sklearn.metrics import classification_report, accuracy_score

print(classification_report(Corpus_DF['Sentimiento']=='Positivo', y_pred))

              precision    recall  f1-score   support

       False       1.00      1.00      1.00         6
        True       1.00      1.00      1.00         9

    accuracy                           1.00        15
   macro avg       1.00      1.00      1.00        15
weighted avg       1.00      1.00      1.00        15



In [54]:
pipeline.predict(pd.DataFrame(['Es un producto frustrante'])[0])

array([ True])

In [55]:
cleaner = CleanText()
cleaner.fit(Corpus_DF['Comentario'])

count_vectorizer = CountVectorizer()
count_vectorizer.fit(cleaner.transform(Corpus_DF['Comentario']))

random_forest_classifier = RandomForestClassifier()
random_forest_classifier.fit(count_vectorizer.transform(cleaner.transform(Corpus_DF['Comentario'])), Corpus_DF['Sentimiento']=='Positivo')


In [56]:
texto = cleaner.transform(pd.DataFrame(['Es un producto frustrante'])[0])

texto

Unnamed: 0,0
0,producto frustrante


In [57]:
vector = count_vectorizer.transform(texto)

pd.DataFrame(vector.toarray(), columns=count_vectorizer.get_feature_names_out())

Unnamed: 0,adictiva,ahora,alcance,alrededor,as,audio,barato,batera,bien,bueno,calidad,caro,casa,chismofilia,chismosear,claridad,compra,conocer,cosa,creer,cumplir,dar,deberar,decir,dejar,desconectar,dinero,discreto,diseo,divertido,duro,encanta,encantar,entender,enterar,escuchar,escucho,esperar,excelente,exista,expectativa,fama,feliz,forma,frustrante,funcionar,funci√≥n,gran,gustar,hecho,imagin,increble,lado,limitado,malo,ms,nadie,nunca,ofrecer,pasa,pasar,perd,pierdo,pintir,poder,precio,problema,producto,psimo,qu,recomendado,sonido,sorprendente,sospechar,superpoder,tanto,tener,tiempo,til,totalmente,usar,uso,vecindario,vecino,vez,yo,√©l
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [58]:
random_forest_classifier.predict(vector)

array([ True])

# Adelanto...

In [59]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [60]:
import pandas as pd

In [61]:
#!pip install openpyxl

In [62]:
DF = pd.read_excel("/content/drive/MyDrive/2025-2/NLP/reviews hotel total.xlsx")

In [63]:
DF.columns

Index(['Link hotel', 'Pa√≠s', 'Acomodaci√≥n', 'Noches', 'Fecha hospedaje',
       'Grupo viaje', 'Fecha rese√±a', 'Titulo', 'Calificaci√≥n',
       'Cosas Positivas', 'Cosas Negativas', 'rese√±a'],
      dtype='object')

In [64]:
DF.head()

Unnamed: 0,Link hotel,Pa√≠s,Acomodaci√≥n,Noches,Fecha hospedaje,Grupo viaje,Fecha rese√±a,Titulo,Calificaci√≥n,Cosas Positivas,Cosas Negativas,rese√±a
0,https://www.booking.com/hotel/co/apto-en-el-ce...,Venezuela,,2 noches,julio de 2023,En pareja,31 de julio de 2023,Excepcional,10,Fue la Mejor Opci√≥n que pudimos haber tomado e...,,S√≠
1,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,4 noches,octubre de 2024,Persona que viaja sola,23 de octubre de 2024,Fant√°stica,10,"Ubicaci√≥n, comodidades y limpieza",,S√≠
2,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,1 noche,octubre de 2024,Persona que viaja sola,15 de octubre de 2024,Excepcional,10,"El lugar esta muy bien ubicado, el apartamento...",,S√≠
3,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,1 noche,agosto de 2024,En pareja,20 de agosto de 2024,Gran apartamento en una gran ubicaci√≥n.,10,Todo estuvo perfecto. La ubicaci√≥n y la relaci...,,S√≠
4,https://www.booking.com/hotel/co/apto-en-el-ce...,Colombia,,3 noches,marzo de 2024,En pareja,27 de marzo de 2024,Excepcional,10,"Es muy c√≥modo y acogedor, la atenci√≥n es excel...",,S√≠


In [65]:
DF[['Pa√≠s', 'Acomodaci√≥n', 'Noches', 'Fecha hospedaje',
       'Grupo viaje', 'Fecha rese√±a', 'Titulo', 'Calificaci√≥n',
       'Cosas Positivas', 'Cosas Negativas', 'rese√±a']].to_csv('reviews_booking.csv')

In [66]:
DF['Calificaci√≥n'] = DF['Calificaci√≥n'].str.replace(',','.').astype(float)

In [67]:
DF_inicial =  DF[DF['Calificaci√≥n']<=7]
DF_inicial = DF_inicial[DF_inicial['Pa√≠s'].isin(['Colombia'])]['Cosas Negativas']
DF_inicial = DF_inicial[DF_inicial.fillna('').apply(len)>60].sample(7500)

In [68]:
DF_inicial

Unnamed: 0,Cosas Negativas
271560,"Los ba√±os no funcionan, bo les baja agua, se t..."
289592,No ten√≠a toalla para uno secarse despu√©s de ba...
349432,el jabon de ba√±o toco compartirlo para las man...
244690,Hubo necesidad de cambiarme de habitacion porq...
189034,"Se notaba descuido en la habitaci√≥n, como si e..."
...,...
117065,"Un poco la higiene, a la salida me estaban cob..."
163304,Rooms have carpeted floors and frankly they we...
381554,La atenci√≥n del personal en recepci√≥n no fue l...
144768,No me gusto que el servicio incluye nevera en ...


In [69]:
DF_Final = pd.DataFrame()

DF_Final['Comentarios'] = DF_inicial
DF_Final['Clas'] = 'Negativos'

In [70]:
DF_Final

Unnamed: 0,Comentarios,Clas
271560,"Los ba√±os no funcionan, bo les baja agua, se t...",Negativos
289592,No ten√≠a toalla para uno secarse despu√©s de ba...,Negativos
349432,el jabon de ba√±o toco compartirlo para las man...,Negativos
244690,Hubo necesidad de cambiarme de habitacion porq...,Negativos
189034,"Se notaba descuido en la habitaci√≥n, como si e...",Negativos
...,...,...
117065,"Un poco la higiene, a la salida me estaban cob...",Negativos
163304,Rooms have carpeted floors and frankly they we...,Negativos
381554,La atenci√≥n del personal en recepci√≥n no fue l...,Negativos
144768,No me gusto que el servicio incluye nevera en ...,Negativos


In [71]:
text_limpio = cleaner.fit_transform(DF_inicial)
text_limpio

Unnamed: 0,Cosas Negativas
271560,bao funcionar bo bajo agua tapar inodoro estar...
289592,tenar toallo secar √©l despus baar √©l quedar de...
349432,jabon bao tocar compartir √©l mano solo poner h...
244690,necesidad cambiarme habitacion colchon cama as...
189034,notar descuido habitacin si usado preparado re...
...,...
117065,higienir salida cobrar 40000 ped explicacin te...
163304,room have carpeted floors and frankly they wer...
381554,atencin personal recepcin mejor llame vara vez...
144768,gusto servicio incluir nevera habitacion llega...


In [72]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [73]:
count_vectorizer = TfidfVectorizer(ngram_range=(2,2))
vectores = count_vectorizer.fit_transform(text_limpio)

In [74]:
DF_count = pd.DataFrame(vectores.toarray(),columns=count_vectorizer.get_feature_names_out())

In [75]:
DF_count.sum(axis=0).sort_values(ascending=False).head(30)

Unnamed: 0,0
agua caliente,41.071793
escuchar ruido,22.106706
todo noche,20.393846
check in,20.140572
habitacin tenar,19.034325
demasiado ruido,17.56889
aire acondicionado,17.221437
atencin personal,15.83221
ruido habitaci√≥n,15.668057
hacer aseo,15.264502


In [76]:
DF_inicial = DF[DF['Calificaci√≥n']>=9]

DF_inicial = DF_inicial[DF_inicial['Pa√≠s'].isin(['Colombia'])]['Cosas Positivas']
DF_inicial = DF_inicial[DF_inicial.fillna('').apply(len)>60].sample(7500)

In [77]:
DF_inicial

Unnamed: 0,Cosas Positivas
87034,"hotel c√≥modo, limpio y con lo necesario para p..."
238368,el desayuno estuvo muy bueno. La atenci√≥n del ...
12854,"Buena atenci√≥n y instalaciones c√≥modas, quedam..."
39012,"El lugar es muy bonito, las camas, las cobijas..."
116847,"El servicio es bueno, las habitaciones son c√≥m..."
...,...
136768,La atenci√≥n prestada por los encargados La ama...
333477,Acertado el lugar escogido. La anfitriona aten...
25554,El personal da excelente servicio.\nLas habita...
239588,"Buena ubicaci√≥n, limpio y los trabajadores muy..."


In [78]:
DF_Final_2 = pd.DataFrame()

DF_Final_2['Comentarios'] = DF_inicial
DF_Final_2['Clas']='Positivos'

In [79]:
DF_Final_2

Unnamed: 0,Comentarios,Clas
87034,"hotel c√≥modo, limpio y con lo necesario para p...",Positivos
238368,el desayuno estuvo muy bueno. La atenci√≥n del ...,Positivos
12854,"Buena atenci√≥n y instalaciones c√≥modas, quedam...",Positivos
39012,"El lugar es muy bonito, las camas, las cobijas...",Positivos
116847,"El servicio es bueno, las habitaciones son c√≥m...",Positivos
...,...,...
136768,La atenci√≥n prestada por los encargados La ama...,Positivos
333477,Acertado el lugar escogido. La anfitriona aten...,Positivos
25554,El personal da excelente servicio.\nLas habita...,Positivos
239588,"Buena ubicaci√≥n, limpio y los trabajadores muy...",Positivos


In [80]:
text_limpio = cleaner.fit_transform(DF_Final_2['Comentarios'])

In [81]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [82]:
count_vectorizer = TfidfVectorizer(ngram_range=(2,2))
vectores = count_vectorizer.fit_transform(text_limpio)

In [83]:

DF_count = pd.DataFrame(vectores.toarray(),columns=count_vectorizer.get_feature_names_out())

In [84]:
DF_count.sum(axis=0).sort_values(ascending=False).head(30)

Unnamed: 0,0
personal amable,97.692758
atencin personal,86.437418
excelente ubicacin,71.53744
excelente atencin,60.589504
buen ubicacin,59.143536
bien ubicado,54.042632
buen atencin,52.773724
personal atento,47.941456
desayuno delicioso,46.299238
excelente servicio,45.517068
