<a href="https://colab.research.google.com/github/anadiedrichs/procesamientoDelHabla/blob/main/UNIDAD_1_Limpieza_de_Texto_parte_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üßº Limpieza de texto

Este notebook te guiar√° por los pasos m√°s comunes para limpiar texto en tareas de procesamiento del lenguaje natural (NLP).

## üß≠ Objetivo
Explorar distintas t√©cnicas de limpieza de texto y reflexionar sobre su impacto en tareas de procesamiento del lenguaje.

## üìö Ejemplos de texto desordenado

In [1]:
ejemplos = [
    "¬°Hola! ¬øc√≥mo est√°s??? Estoy viendo la serie 'Dark' üò±üí• en Netflix desde ayer!!!",
    "Este producto es mal√≠√≠√≠simo... no lo recomiendo üò°üò°üò°",
    "<html><body>Oferta del d√≠a: 50% OFF!!! <a href='promo.html'>Ver m√°s</a></body></html>",
    "Q ondaa!!! ak√≠ re tranqui, vo' sabes üòé‚úåÔ∏è"
]

for i, texto in enumerate(ejemplos, 1):
    print(f"{i}. {texto}")

1. ¬°Hola! ¬øc√≥mo est√°s??? Estoy viendo la serie 'Dark' üò±üí• en Netflix desde ayer!!!
2. Este producto es mal√≠√≠√≠simo... no lo recomiendo üò°üò°üò°
3. <html><body>Oferta del d√≠a: 50% OFF!!! <a href='promo.html'>Ver m√°s</a></body></html>
4. Q ondaa!!! ak√≠ re tranqui, vo' sabes üòé‚úåÔ∏è


## üîß Limpieza paso a paso

### a. Pasar a min√∫sculas

In [2]:
ejemplo = ejemplos[0]
ejemplo.lower()

"¬°hola! ¬øc√≥mo est√°s??? estoy viendo la serie 'dark' üò±üí• en netflix desde ayer!!!"

### b. Eliminar signos de puntuaci√≥n

In [3]:
import string

ejemplo = ejemplo.lower()
sin_puntuacion = ''.join(c for c in ejemplo if c not in string.punctuation)

print(sin_puntuacion)

¬°hola ¬øc√≥mo est√°s estoy viendo la serie dark üò±üí• en netflix desde ayer


### c. Eliminar emojis y s√≠mbolos

In [4]:
import re

# elimina cualquier caracter que no sea un n√∫mero, un espacio o una coma
def quitar_emojis(texto):
    return re.sub(r'[^\w\s,]', '', texto)

quitar_emojis(sin_puntuacion)

'hola c√≥mo est√°s estoy viendo la serie dark  en netflix desde ayer'

#### Expresiones regulares

* `re.sub(pattern, replacement, texto)` reemplaza todas las coincidencias del pattern por replacement en texto.

* `r'[^\w\s,]'` es una expresi√≥n regular que indica qu√© queremos eliminar.


#### An√°lisis de la expresi√≥n [^\w\s,]


* `[...]`: indica un conjunto de caracteres.

* `^`: dentro de los corchetes, niega el conjunto. Es decir, busca lo que no est√° en lo que viene despu√©s.

* `\w`: cualquier car√°cter alfa-num√©rico (letras y n√∫meros, y tambi√©n guion bajo _).

* `\s`: cualquier car√°cter de espacio en blanco (espacio, tabulador, salto de l√≠nea).

* `,`: el car√°cter coma, incluido expl√≠citamente.

Entonces `r'[^\w\s,]'` significa:
**Cualquier car√°cter que no sea una letra, n√∫mero, espacio o coma**

### d. Eliminar stopwords

In [8]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stopwords_es = set(stopwords.words('spanish'))
# print(len(stopwords_es))

palabras = quitar_emojis(sin_puntuacion).split()
filtradas = [p for p in palabras if p not in stopwords_es]
print(filtradas)

['hola', 'c√≥mo', 'viendo', 'serie', 'dark', 'netflix', 'ayer']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## üîç Comparar antes y despu√©s

In [9]:
def limpiar_texto(texto):
    texto = texto.lower()
    texto = ''.join(c for c in texto if c not in string.punctuation)
    texto = quitar_emojis(texto)
    palabras = texto.split()
    palabras = [p for p in palabras if p not in stopwords_es]
    return ' '.join(palabras)

for i, texto in enumerate(ejemplos, 1):
    print(f"{i}. Original: {texto}")
    print(f"   Limpio  : {limpiar_texto(texto)}\n")

1. Original: ¬°Hola! ¬øc√≥mo est√°s??? Estoy viendo la serie 'Dark' üò±üí• en Netflix desde ayer!!!
   Limpio  : hola c√≥mo viendo serie dark netflix ayer

2. Original: Este producto es mal√≠√≠√≠simo... no lo recomiendo üò°üò°üò°
   Limpio  : producto mal√≠√≠√≠simo recomiendo

3. Original: <html><body>Oferta del d√≠a: 50% OFF!!! <a href='promo.html'>Ver m√°s</a></body></html>
   Limpio  : htmlbodyoferta d√≠a 50 off hrefpromohtmlver m√°sabodyhtml

4. Original: Q ondaa!!! ak√≠ re tranqui, vo' sabes üòé‚úåÔ∏è
   Limpio  : q ondaa ak√≠ re tranqui vo sabes

