<a href="https://colab.research.google.com/github/anadiedrichs/procesamientoDelHabla/blob/main/UNIDAD_1_Limpieza_de_Texto_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🧼 Limpieza de texto

Este notebook te guiará por los pasos más comunes para limpiar texto en tareas de procesamiento del lenguaje natural (NLP).

## 🧭 Objetivo
Explorar distintas técnicas de limpieza de texto y reflexionar sobre su impacto en tareas de procesamiento del lenguaje.

## 📚 Ejemplos de texto desordenado

In [1]:
ejemplos = [
    "¡Hola! ¿cómo estás??? Estoy viendo la serie 'Dark' 😱💥 en Netflix desde ayer!!!",
    "Este producto es malííísimo... no lo recomiendo 😡😡😡",
    "<html><body>Oferta del día: 50% OFF!!! <a href='promo.html'>Ver más</a></body></html>",
    "Q ondaa!!! akí re tranqui, vo' sabes 😎✌️"
]

for i, texto in enumerate(ejemplos, 1):
    print(f"{i}. {texto}")

1. ¡Hola! ¿cómo estás??? Estoy viendo la serie 'Dark' 😱💥 en Netflix desde ayer!!!
2. Este producto es malííísimo... no lo recomiendo 😡😡😡
3. <html><body>Oferta del día: 50% OFF!!! <a href='promo.html'>Ver más</a></body></html>
4. Q ondaa!!! akí re tranqui, vo' sabes 😎✌️


## 🔧 Limpieza paso a paso

### a. Pasar a minúsculas

In [2]:
ejemplo = ejemplos[0]
ejemplo.lower()

"¡hola! ¿cómo estás??? estoy viendo la serie 'dark' 😱💥 en netflix desde ayer!!!"

### b. Eliminar signos de puntuación

In [3]:
import string

ejemplo = ejemplo.lower()
sin_puntuacion = ''.join(c for c in ejemplo if c not in string.punctuation)

print(sin_puntuacion)

¡hola ¿cómo estás estoy viendo la serie dark 😱💥 en netflix desde ayer


### c. Eliminar emojis y símbolos

In [4]:
import re

# elimina cualquier caracter que no sea un número, un espacio o una coma
def quitar_emojis(texto):
    return re.sub(r'[^\w\s,]', '', texto)

quitar_emojis(sin_puntuacion)

'hola cómo estás estoy viendo la serie dark  en netflix desde ayer'

#### Expresiones regulares

* `re.sub(pattern, replacement, texto)` reemplaza todas las coincidencias del pattern por replacement en texto.

* `r'[^\w\s,]'` es una expresión regular que indica qué queremos eliminar.


#### Análisis de la expresión [^\w\s,]


* `[...]`: indica un conjunto de caracteres.

* `^`: dentro de los corchetes, niega el conjunto. Es decir, busca lo que no está en lo que viene después.

* `\w`: cualquier carácter alfa-numérico (letras y números, y también guion bajo _).

* `\s`: cualquier carácter de espacio en blanco (espacio, tabulador, salto de línea).

* `,`: el carácter coma, incluido explícitamente.

Entonces `r'[^\w\s,]'` significa:
**Cualquier carácter que no sea una letra, número, espacio o coma**

### d. Eliminar stopwords

In [8]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stopwords_es = set(stopwords.words('spanish'))
# print(len(stopwords_es))

palabras = quitar_emojis(sin_puntuacion).split()
filtradas = [p for p in palabras if p not in stopwords_es]
print(filtradas)

['hola', 'cómo', 'viendo', 'serie', 'dark', 'netflix', 'ayer']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## 🔍 Comparar antes y después

In [9]:
def limpiar_texto(texto):
    texto = texto.lower()
    texto = ''.join(c for c in texto if c not in string.punctuation)
    texto = quitar_emojis(texto)
    palabras = texto.split()
    palabras = [p for p in palabras if p not in stopwords_es]
    return ' '.join(palabras)

for i, texto in enumerate(ejemplos, 1):
    print(f"{i}. Original: {texto}")
    print(f"   Limpio  : {limpiar_texto(texto)}\n")

1. Original: ¡Hola! ¿cómo estás??? Estoy viendo la serie 'Dark' 😱💥 en Netflix desde ayer!!!
   Limpio  : hola cómo viendo serie dark netflix ayer

2. Original: Este producto es malííísimo... no lo recomiendo 😡😡😡
   Limpio  : producto malííísimo recomiendo

3. Original: <html><body>Oferta del día: 50% OFF!!! <a href='promo.html'>Ver más</a></body></html>
   Limpio  : htmlbodyoferta día 50 off hrefpromohtmlver másabodyhtml

4. Original: Q ondaa!!! akí re tranqui, vo' sabes 😎✌️
   Limpio  : q ondaa akí re tranqui vo sabes

