#  Practica de limpieza de texto con pandas - Solución

#### Por Jose R. Zapata - https://joserzapata.github.io/


> **Objetivo**: practicar métodos de `pandas.Series.str` para limpiar y normalizar texto en DataFrames.
> Cada ejercicio incluye un **Enunciado** y una celda donde se ve el resultado de la solución.



**Referencias:**
- Procesamiento básico de texto (curso de NLP): https://joserzapata.github.io/courses/nlp/procesamiento-basico/
- Documentación de `pandas.Series.str`: https://pandas.pydata.org/docs/reference/series.html#string-handling


## Instalación de dependencias

instala e importa las librerias que necesites para ejecutar los ejercicios, por ejemplo para instalar Jupyter usa:

```bash
uv add jupyter
```


In [1]:
import pandas as pd
import numpy as np
import re

pd.set_option("display.max_colwidth", None)

## Conjuntos de datos de juguete
Creamos 4 DataFrames para practicar distintas tareas de limpieza: texto general, tweets, productos y personas.

In [None]:
## Texto general
df_texto = pd.DataFrame(
    {
        "texto": [
            "  ¡Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)  ",
            "Pandas > numpy? 🤔  Email: persona@example.com   ",
            "Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan",
            "Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123",
            "      TABLAS\t, \n espacios   y saltos de línea.\r\n",
            "Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44",
            "Dirección: Cll 10 # 5-20; Medellín. Barrio: La América",
            "Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",
        ]
    }
)

## Tweets
df_tweets = pd.DataFrame(
    {
        "tweet": [
            "RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python",
            "¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊",
            "Probando cosas en Jupyter... sin link ni hashtag",
            "@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml",
            "¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data",
        ]
    }
)

## Productos y precios
df_productos = pd.DataFrame(
    {
        "producto": [
            "Camisa talla M",
            "Pantalón-XL",
            "Zapato, Talla: 42",
            "Blusa s",
            "Medias 10-12",
            "Polo Talla l",
            "Vestido - 36",
            "Sombrero (talla Única)",
        ],
        "precio": [
            "$1.234,50",
            "USD 45",
            "30,00 €",
            "25.000",
            "$ 0",
            "S/. 120.90",
            "COP 9.990",
            "AR$ 2.550,00",
        ],
    }
)

## Personas, respuestas y direcciones
df_personas = pd.DataFrame(
    {
        "nombre": [
            "ana María LOPEZ",
            "Juan  perez",
            "Ñandú   Gómez",
            "Miguel (Soporte)",
            "  MÓNICA de la CRUZ  ",
            "luis-delgado",
        ],
        "categoria": ["Sí", "si", "SI ", "No", "—", None],
        "direccion": [
            "Calle 45 # 12-34, Bogotá",
            "Av. Siempre Viva 742 - Lima",
            "Cll. 10 No. 5-20 Medellín",
            "Cra 7a # 45-60, Bogotá",
            "Av. 9 #12-34  Cali",
            "Av. Insurgentes Sur 1234, CDMX",
        ],
        "id_raw": [
            "abc-0001",
            "abc 001",
            "ABC0002",
            "Abc_003",
            "abc-00004",
            "ABC-0005",
        ],
    }
)

In [3]:
print("df_texto:")
display(df_texto)
print("df_tweets:")
display(df_tweets)
print("df_productos:")
display(df_productos)
print("df_personas:")
display(df_personas)

df_texto:


Unnamed: 0,texto
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :)
1,Pandas > numpy? 🤔 Email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123
4,"TABLAS\t, \n espacios y saltos de línea.\r\n"
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


df_tweets:


Unnamed: 0,tweet
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊
2,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data


df_productos:


Unnamed: 0,producto,precio
0,Camisa talla M,"$1.234,50"
1,Pantalón-XL,USD 45
2,"Zapato, Talla: 42","30,00 €"
3,Blusa s,25.000
4,Medias 10-12,$ 0
5,Polo Talla l,S/. 120.90
6,Vestido - 36,COP 9.990
7,Sombrero (talla Única),"AR$ 2.550,00"


df_personas:


Unnamed: 0,nombre,categoria,direccion,id_raw
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005


df_texto:


Unnamed: 0,texto
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :)
1,Pandas > numpy? 🤔 Email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123
4,"TABLAS\t, \n espacios y saltos de línea.\r\n"
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"



df_tweets:


Unnamed: 0,tweet
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊
2,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data



df_productos:


Unnamed: 0,producto,precio
0,Camisa talla M,"$1.234,50"
1,Pantalón-XL,USD 45
2,"Zapato, Talla: 42","30,00 €"
3,Blusa s,25.000
4,Medias 10-12,$ 0
5,Polo Talla l,S/. 120.90
6,Vestido - 36,COP 9.990
7,Sombrero (talla Única),"AR$ 2.550,00"



df_personas:


Unnamed: 0,nombre,categoria,direccion,id_raw
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005


## Inspección rápida

- Explora los cuatro DataFrames
- Identifica qué columnas requieren **limpieza textual** y por qué (espacios, acentos, emojis, URLs, etc.).
- Escribe un breve comentario (como comentario en la celda) con tus observaciones.

In [4]:
df_texto.info()
df_tweets.info()
df_productos.info()
df_personas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   texto   8 non-null      object
dtypes: object(1)
memory usage: 196.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   tweet   5 non-null      object
dtypes: object(1)
memory usage: 172.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   producto  8 non-null      object
 1   precio    8 non-null      object
dtypes: object(2)
memory usage: 260.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nombre     6 n

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   texto   8 non-null      object
dtypes: object(1)
memory usage: 196.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   tweet   5 non-null      object
dtypes: object(1)
memory usage: 172.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   producto  8 non-null      object
 1   precio    8 non-null      object
dtypes: object(2)
memory usage: 260.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nombre     6 n

## 1) Normaliza a minúsculas

En el DataFrame `df_texto`, crea una nueva columna `texto_min` que contenga el texto de la columna `texto` en minúsculas.

In [None]:
df_texto["texto_min"] = df_texto["texto"].str.lower()
display(df_texto)

Unnamed: 0,texto,texto_min
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4,"TABLAS\t, \n espacios y saltos de línea.\r\n","tablas\t, \n espacios y saltos de línea.\r\n"
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,dirección: cll 10 # 5-20; medellín. barrio: la américa
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


Unnamed: 0,texto,texto_min
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4,"TABLAS\t, \n espacios y saltos de línea.\r\n","tablas\t, \n espacios y saltos de línea.\r\n"
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,dirección: cll 10 # 5-20; medellín. barrio: la américa
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


## 2) Eliminar Espacios

Genera  la columna `texto_espacios` eliminando espacios al inicio/fin

In [None]:
df_texto["texto_espacios"] = df_texto["texto_min"].str.strip()
display(df_texto[["texto_espacios", "texto_min"]])

Unnamed: 0,texto_espacios,texto_min
0,¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :),¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,pandas > numpy? 🤔 email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3,oferta!!! 3x2 en jabón líquido 500ml - código: a-123,oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4,"tablas\t, \n espacios y saltos de línea.","tablas\t, \n espacios y saltos de línea.\r\n"
5,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,dirección: cll 10 # 5-20; medellín. barrio: la américa,dirección: cll 10 # 5-20; medellín. barrio: la américa
7,"emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


Unnamed: 0,texto_espacios,texto_min
0,¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :),¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,pandas > numpy? 🤔 email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3,oferta!!! 3x2 en jabón líquido 500ml - código: a-123,oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4,"tablas\t, \n espacios y saltos de línea.","tablas\t, \n espacios y saltos de línea.\r\n"
5,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,dirección: cll 10 # 5-20; medellín. barrio: la américa,dirección: cll 10 # 5-20; medellín. barrio: la américa
7,"emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


## 3) Puntuación

Crea `texto_sin_punct` removiendo puntuación y símbolos, conservando letras y espacios.

In [None]:
df_texto["texto_sin_punct"] = df_texto["texto_espacios"].str.replace(
    r"[^\w\s]", "", regex=True
)
print(df_texto["texto_sin_punct"])

0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el café colombiano es buenísimo café colombia juan
3                          oferta 3x2 en jabón líquido 500ml  código a123
4                                tablas\t \n espacios   y saltos de línea
5                        teléfono 57 3001234567 whatsapp 57 300 222 33 44
6                        dirección cll 10  520 medellín barrio la américa
7                                           emoji test  símbolos  y otros
Name: texto_sin_punct, dtype: object


0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el café colombiano es buenísimo café colombia juan
3                          oferta 3x2 en jabón líquido 500ml  código a123
4                                tablas\t \n espacios   y saltos de línea
5                        teléfono 57 3001234567 whatsapp 57 300 222 33 44
6                        dirección cll 10  520 medellín barrio la américa
7                                           emoji test  símbolos  y otros
Name: texto_sin_punct, dtype: object

## 4) Acentos

Elimina los acentos de las vocales del texto `df_texto` y grábalo en una nueva columna `texto_sin_acentos`.

In [None]:
import unicodedata


def eliminar_acentos(texto):
    return "".join(
        c
        for c in unicodedata.normalize("NFD", texto)
        if unicodedata.category(c) != "Mn"
    )


df_texto["texto_sin_acentos"] = df_texto["texto_sin_punct"].apply(eliminar_acentos)
print("Texto sin acentos:")
print(df_texto["texto_sin_acentos"])

Texto sin acentos:
0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el cafe colombiano es buenisimo cafe colombia juan
3                          oferta 3x2 en jabon liquido 500ml  codigo a123
4                                tablas\t \n espacios   y saltos de linea
5                        telefono 57 3001234567 whatsapp 57 300 222 33 44
6                        direccion cll 10  520 medellin barrio la america
7                                           emoji test  simbolos  y otros
Name: texto_sin_acentos, dtype: object


0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el cafe colombiano es buenisimo cafe colombia juan
3                          oferta 3x2 en jabon liquido 500ml  codigo a123
4                                tablas\t \n espacios   y saltos de linea
5                        telefono 57 3001234567 whatsapp 57 300 222 33 44
6                        direccion cll 10  520 medellin barrio la america
7                                           emoji test  simbolos  y otros
Name: texto_sin_acentos, dtype: object

## 5) Emojis

Crear la columna `texto_sin_emoji` quitando emojis, pictogramas y símbolos gráficos comunes.

In [None]:
# Patrón para detectar emojis y símbolos gráficos
emoji_pattern = re.compile(
    "["
    "\U0001f600-\U0001f64f"  # emoticones
    "\U0001f300-\U0001f5ff"  # símbolos & pictogramas
    "\U0001f680-\U0001f6ff"  # símbolos de transporte & mapas
    "\U0001f1e0-\U0001f1ff"  # banderas
    "\U00002702-\U000027b0"  # símbolos varios
    "\U000024c2-\U0001f251"
    "\U0001f926-\U0001f937"
    "\U00010000-\U0010ffff"
    "\u200d"
    "\u2640-\u2642"
    "\u2600-\u2b55"
    "\u23cf"
    "\u23e9"
    "\u231a"
    "\u3030"
    "\ufe0f"
    "]+",
    flags=re.UNICODE,
)

df_texto["texto_sin_emoji"] = df_texto["texto_espacios"].str.replace(
    emoji_pattern, "", regex=True
)
print("Texto sin emojis:")
print(df_texto["texto_sin_emoji"])

Texto sin emojis:
0    ¡hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)
1                                        pandas > numpy?   email: persona@example.com
2                  me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3                                oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4                                          tablas\t, \n espacios   y saltos de línea.
5                            teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6                              dirección: cll 10 # 5-20; medellín. barrio: la américa
7                                                 emoji test: , símbolos ©®™ y otros…
Name: texto_sin_emoji, dtype: object


0    ¡hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)
1                                        pandas > numpy?   email: persona@example.com
2                  me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3                                oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4                                          tablas\t, \n espacios   y saltos de línea.
5                            teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6                              dirección: cll 10 # 5-20; medellín. barrio: la américa
7                                               emoji test: ️‍, símbolos ©®™ y otros…
Name: texto_sin_emoji, dtype: object

## 6) Extrae emails y URLs

En `df_texto`, crea las columnas `email` y `urls` extrayendo emails y URLs del texto original.

**Patrones sugeridos:**
- Email: `[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+`
- URL: `https?://\S+`

In [None]:
# Patrones para emails y URLs con grupos de captura
email_pattern = r"([A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+)"
url_pattern = r"(https?://\S+)"

# Extraer emails y URLs
df_texto["email"] = df_texto["texto"].str.extract(email_pattern).fillna("[]")
df_texto["urls"] = df_texto["texto"].str.extract(url_pattern).fillna("[]")

# Mostrar las columnas relevantes
print("Texto original, emails y URLs encontradas:")
display(df_texto[["texto", "email", "urls"]])

Texto original, emails y URLs encontradas:


Unnamed: 0,texto,email,urls
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),[],https://miweb.com
1,Pandas > numpy? 🤔 Email: persona@example.com,persona@example.com,[]
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,[],[]
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,[],[]
4,"TABLAS\t, \n espacios y saltos de línea.\r\n",[],[]
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,[],[]
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,[],[]
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",[],[]


Unnamed: 0,texto,email,urls
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),[],[https://miweb.com]
1,Pandas > numpy? 🤔 Email: persona@example.com,[persona@example.com],[]
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,[],[]
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,[],[]
4,"TABLAS\t, \n espacios y saltos de línea.\r\n",[],[]
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,[],[]
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,[],[]
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",[],[]


## 7) Hashtags, menciones y URLs en tweets

En `df_tweets`, crea las columnas `hashtags`, `mentions` y `urls`
extrayendo hashtags, menciones y URLs del texto del tweet.

In [None]:
# Patrones para hashtags, menciones y URLs
hashtag_pattern = r"#\w+"
mention_pattern = r"@\w+"
url_pattern = r"https?://\S+"

# Extraer todos los hashtags, menciones y URLs usando findall
df_tweets["hashtags"] = (
    df_tweets["tweet"]
    .str.findall(hashtag_pattern)
    .apply(lambda x: str(x) if x else "[]")
)
df_tweets["mentions"] = (
    df_tweets["tweet"]
    .str.findall(mention_pattern)
    .apply(lambda x: str(x) if x else "[]")
)
df_tweets["urls"] = (
    df_tweets["tweet"].str.findall(url_pattern).apply(lambda x: str(x) if x else "[]")
)

# Mostrar las columnas relevantes
display(df_tweets[["tweet", "hashtags", "mentions", "urls"]])

Unnamed: 0,tweet,hashtags,mentions,urls
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"['#nlp', '#python']",['@maria'],['http://blog.com/post?id=45']
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,"['#datos', '#Python']",['@data_science'],['https://example.org']
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[]
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"['#nlp', '#ml']","['@juan', '@ana']",['https://cursos.ai']
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,['#data'],[],['https://foro.com']


Unnamed: 0,tweet,hashtags,mentions,urls
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45]
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,"[#datos, #Python]",[@data_science],[https://example.org]
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[]
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai]
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,[#data],[],[https://foro.com]


## 8) ¿Es retuit? Limpia el prefijo

Crea la columna `es_rt` (booleano) si el tweet comienza con `RT`. Luego genera la columna `tweet_sin_rt` quitando el prefijo `RT @usuario:` del inicio.

In [None]:
# Crear columna es_rt
df_tweets["es_rt"] = df_tweets["tweet"].str.startswith("RT")

# Crear columna tweet_sin_rt eliminando el prefijo RT @usuario:
df_tweets["tweet_sin_rt"] = df_tweets["tweet"].str.replace(
    r"^RT @\w+:\s*", "", regex=True
)

# Mostrar el resultado
display(df_tweets[["tweet", "hashtags", "mentions", "urls", "es_rt", "tweet_sin_rt"]])

Unnamed: 0,tweet,hashtags,mentions,urls,es_rt,tweet_sin_rt
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"['#nlp', '#python']",['@maria'],['http://blog.com/post?id=45'],True,Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,"['#datos', '#Python']",['@data_science'],['https://example.org'],False,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[],False,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"['#nlp', '#ml']","['@juan', '@ana']",['https://cursos.ai'],False,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,['#data'],[],['https://foro.com'],False,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data


Unnamed: 0,tweet,hashtags,mentions,urls,es_rt,tweet_sin_rt
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45],True,Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,"[#datos, #Python]",[@data_science],[https://example.org],False,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[],False,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai],False,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,[#data],[],[https://foro.com],False,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data


## 9) `tweet_limpio`

Crea `tweet_limpio` removiendo URLs, menciones y hashtags; además, elimina la puntuación sobrante, quita espacios y pasa a minúsculas.

In [None]:
# Crear tweet_limpio
# 1. Remover URLs, menciones y hashtags
df_tweets["tweet_limpio"] = df_tweets["tweet_sin_rt"].str.replace(
    r"https?://\S+", "", regex=True
)  # URLs
df_tweets["tweet_limpio"] = df_tweets["tweet_limpio"].str.replace(
    r"@\w+", "", regex=True
)  # menciones
df_tweets["tweet_limpio"] = df_tweets["tweet_limpio"].str.replace(
    r"#\w+", "", regex=True
)  # hashtags

# 2. Eliminar puntuación y símbolos especiales
df_tweets["tweet_limpio"] = df_tweets["tweet_limpio"].str.replace(
    r"[^\w\s]", "", regex=True
)

# 3. Convertir a minúsculas
df_tweets["tweet_limpio"] = df_tweets["tweet_limpio"].str.lower()

# 4. Eliminar espacios múltiples y espacios al inicio/fin
df_tweets["tweet_limpio"] = (
    df_tweets["tweet_limpio"].str.replace(r"\s+", " ", regex=True).str.strip()
)

# Mostrar resultados
display(df_tweets[["tweet", "tweet_limpio"]])

Unnamed: 0,tweet,tweet_limpio
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,nuevo post en el blog
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,me encanta pandas
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,y lanzaron curso de nlp en
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,pandas o polars debátanlo aquí


Unnamed: 0,tweet,tweet_limpio
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,nuevo post en el blog
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,me encanta pandas
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,y lanzaron curso de nlp en
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,pandas o polars debátanlo aquí


## 10) Talla en `df_productos`

Extrae y estandariza la talla:
- Letras: `XS, S, M, L, XL, XXL`, o `TU` (talla única).
- Números: captura como `talla_num`.
Crea la columna`talla_std` (letras) y `talla_num` (numérica).

In [None]:
# Función para estandarizar tallas en letras
def estandarizar_talla(texto):
    if pd.isna(texto):
        return None

    # Convertir a mayúsculas y quitar espacios
    texto = texto.upper().strip()

    # Manejar casos especiales - normalizamos quitando espacios y acentos
    texto_norm = "".join(
        c
        for c in unicodedata.normalize("NFD", texto)
        if unicodedata.category(c) != "Mn"
    ).replace(" ", "")

    # Primero revisar si es talla única
    if any(palabra in texto_norm for palabra in ["TALLAUNICA", "UNICA"]):
        return "TU"

    # Validar que sea una talla válida
    tallas_validas = {"XS", "S", "M", "L", "XL", "XXL", "TU"}
    if texto in tallas_validas:
        return texto
    return None


# 1. Extraer talla en letras del final del producto
# Intentamos capturar primero talla única y luego las otras tallas
patron_talla = r"(?:talla\s+)?(?:([úuUÚ]nica)|([XSMLxsml]|XL|XXL))(?:\s*$|\))"
df_productos["talla_std"] = (
    df_productos["producto"]
    .str.extract(patron_talla, flags=re.IGNORECASE)
    .bfill(axis=1)
    .iloc[:, 0]
)

# 2. Extraer talla numérica del final del producto
df_productos["talla_num"] = (
    df_productos["producto"].str.extract(r"[\s-]+(\d+)(?:\s*-\s*\d+)?$").astype(float)
)

# 3. Estandarizar tallas en letras
df_productos["talla_std"] = df_productos["talla_std"].apply(estandarizar_talla)

# 4. Asegurarse que no haya conflicto entre tallas numéricas y de letras
df_productos.loc[df_productos["talla_num"].notna(), "talla_std"] = np.nan
df_productos.loc[df_productos["talla_std"].notna(), "talla_num"] = np.nan

# Mostrar resultados
display(df_productos[["producto", "precio", "talla_std", "talla_num"]])

Unnamed: 0,producto,precio,talla_std,talla_num
0,Camisa talla M,"$1.234,50",M,
1,Pantalón-XL,USD 45,XL,
2,"Zapato, Talla: 42","30,00 €",,42.0
3,Blusa s,25.000,S,
4,Medias 10-12,$ 0,,10.0
5,Polo Talla l,S/. 120.90,L,
6,Vestido - 36,COP 9.990,,36.0
7,Sombrero (talla Única),"AR$ 2.550,00",TU,


Unnamed: 0,producto,precio,talla_std,talla_num
0,Camisa talla M,"$1.234,50",M,
1,Pantalón-XL,USD 45,XL,
2,"Zapato, Talla: 42","30,00 €",,42.0
3,Blusa s,25.000,S,
4,Medias 10-12,$ 0,,10.0
5,Polo Talla l,S/. 120.90,L,
6,Vestido - 36,COP 9.990,,36.0
7,Sombrero (talla Única),"AR$ 2.550,00",TU,


## 11) Extraer de precios

Convierte la columna `precio` a numérico (`precio_num`) independiente del formato (`$1.234,50`, `USD 45`, `30,00 €`, `COP 9.990`, etc.).

In [None]:
# 1. Primero limpiamos el texto de símbolos de moneda y espacios
df_productos["precio_limpio"] = df_productos["precio"].str.replace(
    r"[A-Za-z$€\s]", "", regex=True
)


# 2. Función para procesar el formato del número
def procesar_precio(texto):
    if pd.isna(texto):
        return None

    try:
        # Si tiene coma y punto, la coma es el decimal
        if "," in texto and "." in texto:
            # Quitamos los puntos (separadores de miles) y reemplazamos la coma por punto
            return float(texto.replace(".", "").replace(",", "."))

        # Si solo tiene coma o solo tiene punto, es el separador decimal
        return float(texto.replace(",", "."))
    except ValueError:
        # Si hay error en la conversión, retornamos NaN
        return np.nan


# 3. Aplicar la función a la columna limpia
df_productos["precio_num"] = df_productos["precio_limpio"].apply(procesar_precio)

# 4. Eliminamos la columna temporal
df_productos = df_productos.drop("precio_limpio", axis=1)

# Mostrar resultados
display(df_productos[["producto", "precio", "talla_std", "talla_num", "precio_num"]])

Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,XL,,45.0
2,"Zapato, Talla: 42","30,00 €",,42.0,30.0
3,Blusa s,25.000,S,,25.0
4,Medias 10-12,$ 0,,10.0,0.0
5,Polo Talla l,S/. 120.90,L,,
6,Vestido - 36,COP 9.990,,36.0,9.99
7,Sombrero (talla Única),"AR$ 2.550,00",TU,,2550.0


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,XL,,45.0
2,"Zapato, Talla: 42","30,00 €",,42.0,30.0
3,Blusa s,25.000,S,,25.0
4,Medias 10-12,$ 0,,10.0,0.0
5,Polo Talla l,S/. 120.90,L,,
6,Vestido - 36,COP 9.990,,36.0,9.99
7,Sombrero (talla Única),"AR$ 2.550,00",TU,,2550.0


## 12) Filtrado por texto

Filtra el DataFrame `df_productos` para mostrar solo filas cuyo `producto` contenga **camisa** o **pantalón**, ignorando acentos y mayúsculas/minúsculas.

In [29]:
# Copie su código aca


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,XL,,45.0


## 13) Limpieza de nombres propios

En el DataFrame `df_personas`, crea `nombre_limpio` en `df_personas`:
- Quita paréntesis y su contenido.
- Reemplaza guiones por espacio y elimina espacios extra.
- Aplica *title case* y conserva conectores (`de`, `del`, `la`, `y`) en minúscula.

In [31]:
# Copie su código aca


0      Ana María Lopez
1           Juan Perez
2          Ñandú Gómez
3               Miguel
4    Mónica de la Cruz
5         Luis Delgado
Name: nombre_limpio, dtype: object

## 14) Normaliza respuestas categóricas

En el DataFrame `df_personas`, convierte `categoria` en booleano `categoria_bool` donde cualquier variante de **sí** (con/ sin tilde) sea `True`; el resto `False`.

In [33]:
# Copie su código aca


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001,Ana María Lopez,True
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002,Ñandú Gómez,True
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003,Miguel,False
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004,Mónica de la Cruz,False
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False


## 15) Ciudad desde la dirección

En el DataFrame `df_personas`, Extrae la **ciudad** en una columna `ciudad`

In [35]:
# Copie su código aca


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool,ciudad
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001,Ana María Lopez,True,Bogotá
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True,Lima
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002,Ñandú Gómez,True,Medellín
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003,Miguel,False,Bogotá
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004,Mónica de la Cruz,False,Cali
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False,CDMX


## 16) Normaliza y valida IDs

En el DataFrame `df_personas`, a partir de `id_raw`, crea la columna `id_norm` con formato `ABC-0001` (tres letras + guion + 4 dígitos) y `id_valido` (True/False).

In [37]:
# Copie su código aca


Unnamed: 0,id_raw,id_norm,id_valido
0,abc-0001,ABC-0001,True
1,abc 001,ABC-0001,True
2,ABC0002,ABC-0002,True
3,Abc_003,ABC-0003,True
4,abc-00004,ABC-0004,True
5,ABC-0005,ABC-0005,True


## 17) Mini *pipeline* de limpieza general

Escribe una función `limpia_basica(s)` que: ponga el texto en minuscula, quite acentos, URLs, menciones y hashtags, puntuación, dígitos y colapse espacios. Aplícala a `df_texto['texto']` y guarda en `texto_limpio_final`.

In [39]:
# Copie su código aca


Unnamed: 0,texto,texto_limpio_final
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),hola mundo esto es un ejemplo visita
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas numpy email persona com
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,me gusta el cafe colombiano es buenisimo
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,oferta x en jabon liquido ml codigo a
4,"TABLAS\t, \n espacios y saltos de línea.\r\n",tablas espacios y saltos de linea
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,telefono whatsapp
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,direccion cll medellin barrio la america
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test simbolos y otros


## 18)¿Qué tanto cambió el texto?

En el dataframe `df_texto`, 

Cual es la diferencia entre la longitud original (`len_raw`) y la longitud tras la limpieza (`len_clean`)?

In [41]:
# Copie su código aca


Unnamed: 0,texto,texto_limpio_final,len_raw,len_clean
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),hola mundo esto es un ejemplo visita,84,36
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas numpy email persona com,48,30
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,me gusta el cafe colombiano es buenisimo,66,40
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,oferta x en jabon liquido ml codigo a,52,37
4,"TABLAS\t, \n espacios y saltos de línea.\r\n",tablas espacios y saltos de linea,48,33
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,telefono whatsapp,56,17
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,direccion cll medellin barrio la america,54,40
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test simbolos y otros,42,27


### Guardar de resultados

Guarda el dataframe df_texto en parquet con `df_texto.to_parquet('archivo.parquet', index=False)`.

**Phd. Jose R. Zapata**
- [https://joserzapata.github.io/](https://joserzapata.github.io/)
- [https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/](https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/)