#  Practica de limpieza de texto con pandas - Solución

#### Por Jose R. Zapata - https://joserzapata.github.io/


> **Objetivo**: practicar métodos de `pandas.Series.str` para limpiar y normalizar texto en DataFrames.
> Cada ejercicio incluye un **Enunciado** y una celda donde se ve el resultado de la solución.



**Referencias:**
- Procesamiento básico de texto (curso de NLP): https://joserzapata.github.io/courses/nlp/procesamiento-basico/
- Documentación de `pandas.Series.str`: https://pandas.pydata.org/docs/reference/series.html#string-handling


## Instalación de dependencias

instala e importa las librerias que necesites para ejecutar los ejercicios, por ejemplo para instalar Jupyter usa:

```bash
uv add jupyter
```


In [2]:
# Copie su código aca


In [4]:
import pandas as pd

## Conjuntos de datos de juguete
Creamos 4 DataFrames para practicar distintas tareas de limpieza: texto general, tweets, productos y personas.

In [5]:
## Texto general
df_texto = pd.DataFrame(
    {
        "texto": [
            "  ¡Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)  ",
            "Pandas > numpy? 🤔  Email: persona@example.com   ",
            "Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan",
            "Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123",
            "      TABLAS\t, \n espacios   y saltos de línea.\r\n",
            "Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44",
            "Dirección: Cll 10 # 5-20; Medellín. Barrio: La América",
            "Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",
        ]
    }
)

## Tweets
df_tweets = pd.DataFrame(
    {
        "tweet": [
            "RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python",
            "¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊",
            "Probando cosas en Jupyter... sin link ni hashtag",
            "@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml",
            "¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data",
        ]
    }
)

## Productos y precios
df_productos = pd.DataFrame(
    {
        "producto": [
            "Camisa talla M",
            "Pantalón-XL",
            "Zapato, Talla: 42",
            "Blusa s",
            "Medias 10-12",
            "Polo Talla l",
            "Vestido - 36",
            "Sombrero (talla Única)",
        ],
        "precio": [
            "$1.234,50",
            "USD 45",
            "30,00 €",
            "25.000",
            "$ 0",
            "S/. 120.90",
            "COP 9.990",
            "AR$ 2.550,00",
        ],
    }
)

## Personas, respuestas y direcciones
df_personas = pd.DataFrame(
    {
        "nombre": [
            "ana María LOPEZ",
            "Juan  perez",
            "Ñandú   Gómez",
            "Miguel (Soporte)",
            "  MÓNICA de la CRUZ  ",
            "luis-delgado",
        ],
        "categoria": ["Sí", "si", "SI ", "No", "—", None],
        "direccion": [
            "Calle 45 # 12-34, Bogotá",
            "Av. Siempre Viva 742 - Lima",
            "Cll. 10 No. 5-20 Medellín",
            "Cra 7a # 45-60, Bogotá",
            "Av. 9 #12-34  Cali",
            "Av. Insurgentes Sur 1234, CDMX",
        ],
        "id_raw": ["abc-0001", "abc 001", "ABC0002", "Abc_003", "abc-00004", "ABC-0005"],
    }
)

In [6]:
print("df_texto:")
display(df_texto)
print("\ndf_tweets:")
display(df_tweets)
print("\ndf_productos:")
display(df_productos)
print("\ndf_personas:")
display(df_personas)


df_texto:


Unnamed: 0,texto
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...
1,Pandas > numpy? 🤔 Email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...
4,"TABLAS\t, \n espacios y saltos de líne..."
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"



df_tweets:


Unnamed: 0,tweet
0,RT @maria: Nuevo post en el blog -> http://blo...
1,¡Me encanta Pandas! #datos #Python https://exa...
2,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...



df_productos:


Unnamed: 0,producto,precio
0,Camisa talla M,"$1.234,50"
1,Pantalón-XL,USD 45
2,"Zapato, Talla: 42","30,00 €"
3,Blusa s,25.000
4,Medias 10-12,$ 0
5,Polo Talla l,S/. 120.90
6,Vestido - 36,COP 9.990
7,Sombrero (talla Única),"AR$ 2.550,00"



df_personas:


Unnamed: 0,nombre,categoria,direccion,id_raw
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005


## Inspección rápida

- Explora los cuatro DataFrames
- Identifica qué columnas requieren **limpieza textual** y por qué (espacios, acentos, emojis, URLs, etc.).
- Escribe un breve comentario (como comentario en la celda) con tus observaciones.

In [7]:
# Copie su código aca
df_texto.info()
df_tweets.info()
df_productos.info()
df_personas.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   texto   8 non-null      object
dtypes: object(1)
memory usage: 196.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   tweet   5 non-null      object
dtypes: object(1)
memory usage: 172.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   producto  8 non-null      object
 1   precio    8 non-null      object
dtypes: object(2)
memory usage: 260.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nombre     6 n

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   texto   8 non-null      object
dtypes: object(1)
memory usage: 196.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   tweet   5 non-null      object
dtypes: object(1)
memory usage: 172.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   producto  8 non-null      object
 1   precio    8 non-null      object
dtypes: object(2)
memory usage: 260.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nombre     6 n

## 1) Normaliza a minúsculas

En el DataFrame `df_texto`, crea una nueva columna `texto_min` que contenga el texto de la columna `texto` en minúsculas.

In [8]:
# Crear columna texto_min con el texto en minúsculas
df_texto['texto_min'] = df_texto['texto'].str.lower()

# Mostrar el resultado
print("Comparación del texto original y en minúsculas:")
display(pd.DataFrame({
    'Original': df_texto['texto'],
    'Minúsculas': df_texto['texto_min']
}).head())

Comparación del texto original y en minúsculas:


Unnamed: 0,Original,Minúsculas
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,¡hola mundo!!! esto es un ejemplo: visita...
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #...,me gusta el café colombiano; es buenísimo!!! #...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,oferta!!! 3x2 en jabón líquido 500ml - código:...
4,"TABLAS\t, \n espacios y saltos de líne...","tablas\t, \n espacios y saltos de líne..."


Unnamed: 0,texto,texto_min
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4,"TABLAS\t, \n espacios y saltos de línea.\r\n","tablas\t, \n espacios y saltos de línea.\r\n"
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,dirección: cll 10 # 5-20; medellín. barrio: la américa
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


## 2) Eliminar Espacios

Genera  la columna `texto_espacios` eliminando espacios al inicio/fin

In [9]:
# Crear columna texto_espacios eliminando espacios al inicio y final
df_texto['texto_espacios'] = df_texto['texto'].str.strip()

# Mostrar el resultado
print("Comparación de textos - Original vs Sin espacios:")
display(pd.DataFrame({
    'Original': df_texto['texto'],
    'Sin espacios': df_texto['texto_espacios']
}))

Comparación de textos - Original vs Sin espacios:


Unnamed: 0,Original,Sin espacios
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,¡Hola Mundo!!! Esto es un EJEMPLO: visita h...
1,Pandas > numpy? 🤔 Email: persona@example.com,Pandas > numpy? 🤔 Email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #...,Me gusta el café colombiano; es buenísimo!!! #...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...
4,"TABLAS\t, \n espacios y saltos de líne...","TABLAS\t, \n espacios y saltos de línea."
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


Unnamed: 0,texto_espacios,texto_min
0,¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :),¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,pandas > numpy? 🤔 email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3,oferta!!! 3x2 en jabón líquido 500ml - código: a-123,oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4,"tablas\t, \n espacios y saltos de línea.","tablas\t, \n espacios y saltos de línea.\r\n"
5,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,dirección: cll 10 # 5-20; medellín. barrio: la américa,dirección: cll 10 # 5-20; medellín. barrio: la américa
7,"emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


## 3) Puntuación

Crea `texto_sin_punct` removiendo puntuación y símbolos, conservando letras y espacios.

In [10]:
# Importar la biblioteca re para usar expresiones regulares
import re

# Crear columna texto_sin_punct removiendo puntuación y símbolos
# [^\w\s] significa "cualquier caracter que no sea letra, número o espacio"
df_texto['texto_sin_punct'] = df_texto['texto'].str.replace(r'[^\w\s]', '', regex=True)

# Mostrar el resultado
print("Comparación de textos - Original vs Sin puntuación:")
display(pd.DataFrame({
    'Original': df_texto['texto'],
    'Sin puntuación': df_texto['texto_sin_punct']
}))

Comparación de textos - Original vs Sin puntuación:


Unnamed: 0,Original,Sin puntuación
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,Hola Mundo Esto es un EJEMPLO visita http...
1,Pandas > numpy? 🤔 Email: persona@example.com,Pandas numpy Email personaexamplecom
2,Me gusta el café colombiano; es buenísimo!!! #...,Me gusta el café colombiano es buenísimo Café ...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,Oferta 3x2 en jabón líquido 500ml CÓDIGO A123
4,"TABLAS\t, \n espacios y saltos de líne...",TABLAS\t \n espacios y saltos de línea...
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,Teléfono 57 3001234567 Whatsapp 57 300 222 33 44
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,Dirección Cll 10 520 Medellín Barrio La América
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",Emoji test símbolos y otros


0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el café colombiano es buenísimo café colombia juan
3                          oferta 3x2 en jabón líquido 500ml  código a123
4                                tablas\t \n espacios   y saltos de línea
5                        teléfono 57 3001234567 whatsapp 57 300 222 33 44
6                        dirección cll 10  520 medellín barrio la américa
7                                           emoji test  símbolos  y otros
Name: texto_sin_punct, dtype: object

## 4) Acentos

Elimina los acentos de las vocales del texto `df_texto` y grábalo en una nueva columna `texto_sin_acentos`.

In [11]:
# Primero, asegurarnos de que los DataFrames estén creados
import pandas as pd

# Recrear el DataFrame df_texto con los datos originales
df_texto = pd.DataFrame(
    {
        "texto": [
            "  ¡Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)  ",
            "Pandas > numpy? 🤔  Email: persona@example.com   ",
            "Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan",
            "Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123",
            "      TABLAS\t, \n espacios   y saltos de línea.\r\n",
            "Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44",
            "Dirección: Cll 10 # 5-20; Medellín. Barrio: La América",
            "Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",
        ]
    }
)

# Ahora sí, importar unidecode y aplicar la transformación
from unidecode import unidecode

# Crear columna texto_sin_acentos eliminando acentos
df_texto['texto_sin_acentos'] = df_texto['texto'].apply(unidecode)

# Mostrar el resultado
print("Comparación de textos - Original vs Sin acentos:")
display(pd.DataFrame({
    'Original': df_texto['texto'],
    'Sin acentos': df_texto['texto_sin_acentos']
}))

Comparación de textos - Original vs Sin acentos:


Unnamed: 0,Original,Sin acentos
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,!Hola Mundo!!! Esto es un EJEMPLO: visita...
1,Pandas > numpy? 🤔 Email: persona@example.com,Pandas > numpy? Email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #...,Me gusta el cafe colombiano; es buenisimo!!! #...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,Oferta!!! 3x2 en jabon liquido 500ml - CODIGO:...
4,"TABLAS\t, \n espacios y saltos de líne...","TABLAS\t, \n espacios y saltos de line..."
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,Telefono: (57) 300-123-45-67; Whatsapp +57 300...
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,Direccion: Cll 10 # 5-20; Medellin. Barrio: La...
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","Emoji test: , simbolos (c)(r)(tm) y otros..."


0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el cafe colombiano es buenisimo cafe colombia juan
3                          oferta 3x2 en jabon liquido 500ml  codigo a123
4                                tablas\t \n espacios   y saltos de linea
5                        telefono 57 3001234567 whatsapp 57 300 222 33 44
6                        direccion cll 10  520 medellin barrio la america
7                                           emoji test  simbolos  y otros
Name: texto_sin_acentos, dtype: object

## 5) Emojis

Crear la columna `texto_sin_emoji` quitando emojis, pictogramas y símbolos gráficos comunes.

In [12]:
# Primero, recreamos el DataFrame df_texto
df_texto = pd.DataFrame(
    {
        "texto": [
            "  ¡Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)  ",
            "Pandas > numpy? 🤔  Email: persona@example.com   ",
            "Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan",
            "Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123",
            "      TABLAS\t, \n espacios   y saltos de línea.\r\n",
            "Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44",
            "Dirección: Cll 10 # 5-20; Medellín. Barrio: La América",
            "Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",
        ]
    }
)

# Importar las bibliotecas necesarias
import re
import emoji

# Función para remover emojis y símbolos especiales
def remove_emojis_and_symbols(text):
    # Remover emojis usando la biblioteca emoji
    text = emoji.replace_emoji(text, '')
    
    # Remover otros símbolos especiales y pictogramas
    # Esto incluye símbolos como ©®™, flechas, y otros caracteres especiales
    text = re.sub(r'[^\w\s,.!?;\-:@#$/]', '', text)
    
    return text

# Crear columna texto_sin_emoji eliminando emojis y símbolos
df_texto['texto_sin_emoji'] = df_texto['texto'].apply(remove_emojis_and_symbols)

# Mostrar el resultado
print("Comparación de textos - Original vs Sin emojis:")
display(pd.DataFrame({
    'Original': df_texto['texto'],
    'Sin emojis': df_texto['texto_sin_emoji']
}))

Comparación de textos - Original vs Sin emojis:


Unnamed: 0,Original,Sin emojis
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,Hola Mundo!!! Esto es un EJEMPLO: visita ...
1,Pandas > numpy? 🤔 Email: persona@example.com,Pandas numpy? Email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #...,Me gusta el café colombiano; es buenísimo!!! #...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...
4,"TABLAS\t, \n espacios y saltos de líne...","TABLAS\t, \n espacios y saltos de líne..."
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,Teléfono: 57 300-123-45-67; Whatsapp 57 300 22...
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","Emoji test: , símbolos y otros"


0    ¡hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)
1                                        pandas > numpy?   email: persona@example.com
2                  me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3                                oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4                                          tablas\t, \n espacios   y saltos de línea.
5                            teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6                              dirección: cll 10 # 5-20; medellín. barrio: la américa
7                                               emoji test: ️‍, símbolos ©®™ y otros…
Name: texto_sin_emoji, dtype: object

## 6) Extrae emails y URLs

En `df_texto`, crea las columnas `email` y `urls` extrayendo emails y URLs del texto original.

**Patrones sugeridos:**
- Email: `[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+`
- URL: `https?://\S+`

In [13]:
# Importar la biblioteca re para expresiones regulares
import re

# Patrones para emails y URLs
patron_email = r'[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+'
patron_url = r'https?://\S+'

# Extraer emails y URLs usando str.extract()
df_texto['email'] = df_texto['texto'].str.extract(f'({patron_email})', expand=False)
df_texto['urls'] = df_texto['texto'].str.extract(f'({patron_url})', expand=False)

# Mostrar el resultado
print("Textos con sus emails y URLs extraídos:")
display(pd.DataFrame({
    'Texto original': df_texto['texto'],
    'Email extraído': df_texto['email'],
    'URL extraída': df_texto['urls']
}))

Textos con sus emails y URLs extraídos:


Unnamed: 0,Texto original,Email extraído,URL extraída
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,,https://miweb.com
1,Pandas > numpy? 🤔 Email: persona@example.com,persona@example.com,
2,Me gusta el café colombiano; es buenísimo!!! #...,,
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,,
4,"TABLAS\t, \n espacios y saltos de líne...",,
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,,
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,,
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",,


Unnamed: 0,texto,email,urls
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),[],[https://miweb.com]
1,Pandas > numpy? 🤔 Email: persona@example.com,[persona@example.com],[]
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,[],[]
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,[],[]
4,"TABLAS\t, \n espacios y saltos de línea.\r\n",[],[]
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,[],[]
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,[],[]
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",[],[]


## 7) Hashtags, menciones y URLs en tweets

En `df_tweets`, crea las columnas `hashtags`, `mentions` y `urls`
extrayendo hashtags, menciones y URLs del texto del tweet.

In [14]:
# Importar la biblioteca re para expresiones regulares
import re

# Patrones para hashtags, menciones y URLs
patron_hashtags = r'#(\w+)'  # Captura el texto después del #
patron_mentions = r'@(\w+)'  # Captura el texto después del @
patron_urls = r'https?://\S+'  # URLs comenzando con http:// o https://

# Función para extraer todas las coincidencias y unirlas con comas
def extraer_elementos(texto, patron):
    elementos = re.findall(patron, texto)
    return ', '.join(elementos) if elementos else None

# Extraer hashtags, menciones y URLs
df_tweets['hashtags'] = df_tweets['tweet'].apply(lambda x: extraer_elementos(x, patron_hashtags))
df_tweets['mentions'] = df_tweets['tweet'].apply(lambda x: extraer_elementos(x, patron_mentions))
df_tweets['urls'] = df_tweets['tweet'].str.extract(f'({patron_urls})', expand=False)

# Mostrar el resultado
print("Tweets con elementos extraídos:")
display(pd.DataFrame({
    'Tweet original': df_tweets['tweet'],
    'Hashtags': df_tweets['hashtags'],
    'Menciones': df_tweets['mentions'],
    'URLs': df_tweets['urls']
}))

Tweets con elementos extraídos:


Unnamed: 0,Tweet original,Hashtags,Menciones,URLs
0,RT @maria: Nuevo post en el blog -> http://blo...,"nlp, python",maria,http://blog.com/post?id=45
1,¡Me encanta Pandas! #datos #Python https://exa...,"datos, Python",data_science,https://example.org
2,Probando cosas en Jupyter... sin link ni hashtag,,,
3,@juan y @ana lanzaron curso de NLP en https://...,"nlp, ml","juan, ana",https://cursos.ai
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...,data,,https://foro.com


Unnamed: 0,tweet,hashtags,mentions,urls
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45]
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,"[#datos, #Python]",[@data_science],[https://example.org]
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[]
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai]
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,[#data],[],[https://foro.com]


## 8) ¿Es retuit? Limpia el prefijo

Crea la columna `es_rt` (booleano) si el tweet comienza con `RT`. Luego genera la columna `tweet_sin_rt` quitando el prefijo `RT @usuario:` del inicio.

In [15]:
# Verificar si el tweet comienza con 'RT'
df_tweets['es_rt'] = df_tweets['tweet'].str.startswith('RT ')

# Quitar el prefijo 'RT @usuario:' usando una expresión regular
# El patrón captura 'RT @nombre_usuario:' al inicio del texto
patron_rt = r'^RT @\w+: '
df_tweets['tweet_sin_rt'] = df_tweets['tweet'].str.replace(patron_rt, '', regex=True)

# Mostrar el resultado
print("Tweets con identificación de RT y limpieza del prefijo:")
display(pd.DataFrame({
    'Tweet original': df_tweets['tweet'],
    'Es retweet?': df_tweets['es_rt'],
    'Tweet sin RT': df_tweets['tweet_sin_rt']
}))

Tweets con identificación de RT y limpieza del prefijo:


Unnamed: 0,Tweet original,Es retweet?,Tweet sin RT
0,RT @maria: Nuevo post en el blog -> http://blo...,True,Nuevo post en el blog -> http://blog.com/post?...
1,¡Me encanta Pandas! #datos #Python https://exa...,False,¡Me encanta Pandas! #datos #Python https://exa...
2,Probando cosas en Jupyter... sin link ni hashtag,False,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...,False,@juan y @ana lanzaron curso de NLP en https://...
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...,False,¿Pandas o Polars? debátanlo aquí 👉 https://for...


Unnamed: 0,tweet,hashtags,mentions,urls,es_rt,tweet_sin_rt
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45],True,Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,"[#datos, #Python]",[@data_science],[https://example.org],False,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[],False,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai],False,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,[#data],[],[https://foro.com],False,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data


## 9) `tweet_limpio`

Crea `tweet_limpio` removiendo URLs, menciones y hashtags; además, elimina la puntuación sobrante, quita espacios y pasa a minúsculas.

In [16]:
# Función para limpiar tweets
def limpiar_tweet(texto):
    # Paso 1: Convertir a minúsculas
    texto = texto.lower()
    
    # Paso 2: Remover URLs
    texto = re.sub(r'https?://\S+', '', texto)
    
    # Paso 3: Remover menciones (@usuario)
    texto = re.sub(r'@\w+', '', texto)
    
    # Paso 4: Remover hashtags (#tema)
    texto = re.sub(r'#\w+', '', texto)
    
    # Paso 5: Remover puntuación (excepto letras, números y espacios)
    texto = re.sub(r'[^\w\s]', '', texto)
    
    # Paso 6: Colapsar espacios múltiples y eliminar espacios al inicio/fin
    texto = ' '.join(texto.split())
    
    return texto

# Aplicar la limpieza a los tweets
df_tweets['tweet_limpio'] = df_tweets['tweet'].apply(limpiar_tweet)

# Mostrar el resultado
print("Comparación de tweets - Original vs Limpio:")
display(pd.DataFrame({
    'Tweet original': df_tweets['tweet'],
    'Tweet limpio': df_tweets['tweet_limpio']
}))

Comparación de tweets - Original vs Limpio:


Unnamed: 0,Tweet original,Tweet limpio
0,RT @maria: Nuevo post en el blog -> http://blo...,rt nuevo post en el blog
1,¡Me encanta Pandas! #datos #Python https://exa...,me encanta pandas
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...,y lanzaron curso de nlp en
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...,pandas o polars debátanlo aquí


Unnamed: 0,tweet,tweet_limpio
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,nuevo post en el blog
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,me encanta pandas
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,y lanzaron curso de nlp en
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,pandas o polars debátanlo aquí


## 10) Talla en `df_productos`

Extrae y estandariza la talla:
- Letras: `XS, S, M, L, XL, XXL`, o `TU` (talla única).
- Números: captura como `talla_num`.
Crea la columna`talla_std` (letras) y `talla_num` (numérica).

In [17]:
# Importar la biblioteca re para expresiones regulares
import re

# Función para extraer y estandarizar tallas
def extraer_talla(texto):
    # Convertir a mayúsculas para estandarizar
    texto = texto.upper()
    
    # Buscar tallas en formato letra
    patron_letras = r'\b(XS|S|M|L|XL|XXL|UNICA|ÚNICA|TU)\b'
    match_letra = re.search(patron_letras, texto)
    
    # Buscar tallas numéricas
    patron_numeros = r'\b(\d+)\b'
    match_numero = re.search(patron_numeros, texto)
    
    # Procesar talla en letra
    talla_letra = None
    if match_letra:
        talla = match_letra.group(1)
        # Estandarizar "UNICA/ÚNICA" a "TU"
        if talla in ['UNICA', 'ÚNICA']:
            talla = 'TU'
        talla_letra = talla
    
    # Procesar talla numérica
    talla_num = None
    if match_numero:
        talla_num = int(match_numero.group(1))
    
    return talla_letra, talla_num

# Aplicar la función a la columna producto
tallas = df_productos['producto'].apply(extraer_talla)
df_productos['talla_std'] = tallas.apply(lambda x: x[0])  # Talla en letra
df_productos['talla_num'] = tallas.apply(lambda x: x[1])  # Talla numérica

# Mostrar el resultado
print("Productos con tallas estandarizadas:")
display(pd.DataFrame({
    'Producto original': df_productos['producto'],
    'Talla estándar': df_productos['talla_std'],
    'Talla numérica': df_productos['talla_num']
}))

Productos con tallas estandarizadas:


Unnamed: 0,Producto original,Talla estándar,Talla numérica
0,Camisa talla M,M,
1,Pantalón-XL,XL,
2,"Zapato, Talla: 42",,42.0
3,Blusa s,S,
4,Medias 10-12,,10.0
5,Polo Talla l,L,
6,Vestido - 36,,36.0
7,Sombrero (talla Única),TU,


Unnamed: 0,producto,precio,talla_std,talla_num
0,Camisa talla M,"$1.234,50",M,
1,Pantalón-XL,USD 45,XL,
2,"Zapato, Talla: 42","30,00 €",,42.0
3,Blusa s,25.000,S,
4,Medias 10-12,$ 0,,10.0
5,Polo Talla l,S/. 120.90,L,
6,Vestido - 36,COP 9.990,,36.0
7,Sombrero (talla Única),"AR$ 2.550,00",TU,


## 11) Extraer de precios

Convierte la columna `precio` a numérico (`precio_num`) independiente del formato (`$1.234,50`, `USD 45`, `30,00 €`, `COP 9.990`, etc.).

In [18]:
# Función para limpiar y convertir precios a numérico
def convertir_precio(texto):
    # Paso 1: Remover símbolos de moneda y espacios
    simbolos = r'[$€USDARCOPSs/\.]+'
    texto = re.sub(simbolos, '', texto)
    texto = texto.strip()
    
    # Paso 2: Estandarizar el separador decimal (cambiar , por .)
    if ',' in texto:
        # Si hay una coma y un punto, asumimos que la coma es el separador decimal
        if '.' in texto:
            texto = texto.replace('.', '')  # Eliminar separadores de miles
        texto = texto.replace(',', '.')  # Convertir la coma en punto decimal
    
    # Paso 3: Convertir a float
    try:
        return float(texto)
    except ValueError:
        return None

# Aplicar la conversión a la columna precio
df_productos['precio_num'] = df_productos['precio'].apply(convertir_precio)

# Mostrar el resultado
print("Precios convertidos a formato numérico:")
display(pd.DataFrame({
    'Precio original': df_productos['precio'],
    'Precio numérico': df_productos['precio_num']
}))

Precios convertidos a formato numérico:


Unnamed: 0,Precio original,Precio numérico
0,"$1.234,50",1234.5
1,USD 45,45.0
2,"30,00 €",30.0
3,25.000,25000.0
4,$ 0,0.0
5,S/. 120.90,12090.0
6,COP 9.990,9990.0
7,"AR$ 2.550,00",2550.0


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,XL,,45.0
2,"Zapato, Talla: 42","30,00 €",,42.0,30.0
3,Blusa s,25.000,S,,25.0
4,Medias 10-12,$ 0,,10.0,0.0
5,Polo Talla l,S/. 120.90,L,,
6,Vestido - 36,COP 9.990,,36.0,9.99
7,Sombrero (talla Única),"AR$ 2.550,00",TU,,2550.0


## 12) Filtrado por texto

Filtra el DataFrame `df_productos` para mostrar solo filas cuyo `producto` contenga **camisa** o **pantalón**, ignorando acentos y mayúsculas/minúsculas.

In [19]:
# Filtrar productos que contengan 'camisa' o 'pantalón' ignorando acentos y mayúsculas
from unidecode import unidecode

# Normalizar el texto de la columna 'producto' (quitar acentos y pasar a minúsculas)
prod_normal = df_productos['producto'].fillna('').apply(lambda s: unidecode(s).lower())

# Crear máscara buscando 'camisa' o 'pantalon' (sin acento)
mask = prod_normal.str.contains(r'camisa|pantalon')

# Aplicar el filtro y mostrar el resultado
df_productos_filtrado = df_productos[mask].copy()
print("Productos filtrados (contienen 'camisa' o 'pantalón'):")
display(df_productos_filtrado)


Productos filtrados (contienen 'camisa' o 'pantalón'):


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,XL,,45.0


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,XL,,45.0


## 13) Limpieza de nombres propios

En el DataFrame `df_personas`, crea `nombre_limpio` en `df_personas`:
- Quita paréntesis y su contenido.
- Reemplaza guiones por espacio y elimina espacios extra.
- Aplica *title case* y conserva conectores (`de`, `del`, `la`, `y`) en minúscula.

In [20]:
# Limpieza y normalización de nombres propios en df_personas
import re
import pandas as pd

connectors = {'de', 'del', 'la', 'y'}  # conectores que deben permanecer en minúscula

def clean_nombre(name):
    if pd.isna(name):
        return name
    # 1) Quitar paréntesis y su contenido
    name = re.sub(r"\(.*?\)", "", name)
    # 2) Reemplazar guiones por espacio
    name = name.replace('-', ' ')
    # 3) Eliminar espacios extra y trim
    name = ' '.join(name.split())
    # 4) Aplicar title case
    name = name.title()
    # 5) Dejar conectores en minúscula (por palabra)
    # Usamos regex por límites de palabra
    for c in connectors:
        name = re.sub(rf"\b{c.title()}\b", c, name)
    return name

# Crear la columna nombre_limpio
df_personas['nombre_limpio'] = df_personas['nombre'].apply(clean_nombre)

# Mostrar resultado
print("Nombres originales vs limpiados:")
display(pd.DataFrame({
    'Nombre original': df_personas['nombre'],
    'Nombre limpio': df_personas['nombre_limpio']
}))

Nombres originales vs limpiados:


Unnamed: 0,Nombre original,Nombre limpio
0,ana María LOPEZ,Ana María Lopez
1,Juan perez,Juan Perez
2,Ñandú Gómez,Ñandú Gómez
3,Miguel (Soporte),Miguel
4,MÓNICA de la CRUZ,Mónica de la Cruz
5,luis-delgado,Luis Delgado


0      Ana María Lopez
1           Juan Perez
2          Ñandú Gómez
3               Miguel
4    Mónica de la Cruz
5         Luis Delgado
Name: nombre_limpio, dtype: object

## 14) Normaliza respuestas categóricas

En el DataFrame `df_personas`, convierte `categoria` en booleano `categoria_bool` donde cualquier variante de **sí** (con/ sin tilde) sea `True`; el resto `False`.

In [21]:
# Normalizar la columna 'categoria' a booleano 'categoria_bool'
from unidecode import unidecode
import pandas as pd

def is_si(val):
    # None / NaN => False
    if pd.isna(val):
        return False
    s = unidecode(str(val)).strip().lower()
    # Después de unidecode 'sí' -> 'si'
    return s in ('si', 's')

# Crear la columna
df_personas['categoria_bool'] = df_personas['categoria'].apply(is_si)

# Mostrar el resultado
print("Normalización de 'categoria' a booleano:")
display(pd.DataFrame({
    'categoria_raw': df_personas['categoria'],
    'categoria_bool': df_personas['categoria_bool']
}))

Normalización de 'categoria' a booleano:


Unnamed: 0,categoria_raw,categoria_bool
0,Sí,True
1,si,True
2,SI,True
3,No,False
4,—,False
5,,False


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001,Ana María Lopez,True
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002,Ñandú Gómez,True
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003,Miguel,False
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004,Mónica de la Cruz,False
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False


## 15) Ciudad desde la dirección

En el DataFrame `df_personas`, Extrae la **ciudad** en una columna `ciudad`

In [None]:
# Extraer la ciudad desde 'direccion' (más robusto que una sola regex)
import pandas as pd

def extraer_ciudad(addr):
    if pd.isna(addr):
        return None
    s = str(addr).strip()
    # Separadores frecuentes que indican la parte final (coma, guion, punto y coma)
    for sep in [',', '-', ';']:
        if sep in s:
            part = s.split(sep)[-1].strip()
            # Si queda vacío, seguir intentando
            if part:
                return part
    # Si no hay separador, tomar la última palabra/grupo (p. ej. '... 5-20 Medellín')
    parts = s.split()
    return parts[-1] if parts else None

# Aplicar la extracción y limpiar espacios redundantes
df_personas['ciudad'] = df_personas['direccion'].apply(extraer_ciudad)
# Normalizar espacios internos
df_personas['ciudad'] = df_personas['ciudad'].str.replace(r'\s+', ' ', regex=True).str.strip()

# Mostrar resultado
df_personas[['direccion', 'ciudad']]


Unnamed: 0,direccion,ciudad
0,"Calle 45 # 12-34, Bogotá",Bogotá
1,Av. Siempre Viva 742 - Lima,Lima
2,Cll. 10 No. 5-20 Medellín,20 Medellín
3,"Cra 7a # 45-60, Bogotá",Bogotá
4,Av. 9 #12-34 Cali,34 Cali
5,"Av. Insurgentes Sur 1234, CDMX",CDMX


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool,ciudad
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001,Ana María Lopez,True,Bogotá
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True,Lima
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002,Ñandú Gómez,True,Medellín
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003,Miguel,False,Bogotá
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004,Mónica de la Cruz,False,Cali
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False,CDMX


## 16) Normaliza y valida IDs

En el DataFrame `df_personas`, a partir de `id_raw`, crea la columna `id_norm` con formato `ABC-0001` (tres letras + guion + 4 dígitos) y `id_valido` (True/False).

In [24]:
def normaliza_id(id_raw):
    # Convertir a string, mayúsculas y quitar espacios
    id_raw = str(id_raw).upper().strip()

    # Extraer letras y números usando regex
    letras = re.findall(r"[A-Z]", id_raw)
    numeros = re.findall(r"\d", id_raw)

    # Normalizar solo si tenemos suficientes caracteres
    if len(letras) >= 3 and len(numeros) >= 1:
        # Tomar las primeras 3 letras y formatear números con ceros a la izquierda
        id_norm = f"{''.join(letras[:3])}-{int(''.join(numeros)):04d}"
        return id_norm
    return None


def valida_id(id_norm):
    if id_norm is None:
        return False
    # Validar formato exacto: 3 letras + guion + 4 dígitos
    return bool(re.match(r"^[A-Z]{3}-\d{4}$", id_norm))


# Aplicar normalización
df_personas["id_norm"] = df_personas["id_raw"].apply(normaliza_id)

# Validar IDs normalizados
df_personas["id_valido"] = df_personas["id_norm"].apply(valida_id)

# Mostrar resultado
df_personas[["id_raw", "id_norm","id_valido"]]

Unnamed: 0,id_raw,id_norm,id_valido
0,abc-0001,ABC-0001,True
1,abc 001,ABC-0001,True
2,ABC0002,ABC-0002,True
3,Abc_003,ABC-0003,True
4,abc-00004,ABC-0004,True
5,ABC-0005,ABC-0005,True


Unnamed: 0,id_raw,id_norm,id_valido
0,abc-0001,ABC-0001,True
1,abc 001,ABC-0001,True
2,ABC0002,ABC-0002,True
3,Abc_003,ABC-0003,True
4,abc-00004,ABC-0004,True
5,ABC-0005,ABC-0005,True


## 17) Mini *pipeline* de limpieza general

Escribe una función `limpia_basica(s)` que: ponga el texto en minuscula, quite acentos, URLs, menciones y hashtags, puntuación, dígitos y colapse espacios. Aplícala a `df_texto['texto']` y guarda en `texto_limpio_final`.

In [39]:
# Copie su código aca


In [25]:
def limpia_basica(s):
    # Convertir a string y a minúsculas
    texto = str(s).lower()

    # Eliminar URLs
    texto = re.sub(r"https?://\S+", "", texto)

    # Eliminar menciones (@usuario)
    texto = re.sub(r"@\w+", "", texto)

    # Eliminar hashtags (#tema)
    texto = re.sub(r"#\w+", "", texto)

    # Quitar acentos
    texto = texto_sin_acentos(texto)

    # Eliminar dígitos
    texto = re.sub(r"\d+", "", texto)

    # Eliminar puntuación y símbolos (mantener solo letras y espacios)
    texto = re.sub(r"[^\w\s]", "", texto)

    # Colapsar espacios múltiples y eliminar espacios al inicio/fin
    texto = re.sub(r"\s+", " ", texto).strip()

    return texto


# Aplicar la función de limpieza al DataFrame
df_texto["texto_limpio_final"] = df_texto["texto"].apply(limpia_basica)

# Mostrar resultado
df_texto[["texto", "texto_limpio_final"]]


NameError: name 'texto_sin_acentos' is not defined

## 18)¿Qué tanto cambió el texto?

En el dataframe `df_texto`, 

Cual es la diferencia entre la longitud original (`len_raw`) y la longitud tras la limpieza (`len_clean`)?

In [41]:
# Copie su código aca


Unnamed: 0,texto,texto_limpio_final,len_raw,len_clean
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),hola mundo esto es un ejemplo visita,84,36
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas numpy email persona com,48,30
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,me gusta el cafe colombiano es buenisimo,66,40
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,oferta x en jabon liquido ml codigo a,52,37
4,"TABLAS\t, \n espacios y saltos de línea.\r\n",tablas espacios y saltos de linea,48,33
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,telefono whatsapp,56,17
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,direccion cll medellin barrio la america,54,40
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test simbolos y otros,42,27


### Guardar de resultados

Guarda el dataframe df_texto en parquet con `df_texto.to_parquet('archivo.parquet', index=False)`.

**Phd. Jose R. Zapata**
- [https://joserzapata.github.io/](https://joserzapata.github.io/)
- [https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/](https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/)