#  Practica de limpieza de texto con pandas - Solución

#### Por Jose R. Zapata - https://joserzapata.github.io/


> **Objetivo**: practicar métodos de `pandas.Series.str` para limpiar y normalizar texto en DataFrames.
> Cada ejercicio incluye un **Enunciado** y una celda donde se ve el resultado de la solución.



**Referencias:**
- Procesamiento básico de texto (curso de NLP): https://joserzapata.github.io/courses/nlp/procesamiento-basico/
- Documentación de `pandas.Series.str`: https://pandas.pydata.org/docs/reference/series.html#string-handling


## Instalación de dependencias

instala e importa las librerias que necesites para ejecutar los ejercicios, por ejemplo para instalar Jupyter usa:

```bash
uv add jupyter
```


In [1]:
# Copie su código aca


In [2]:
import pandas as pd

## Conjuntos de datos de juguete
Creamos 4 DataFrames para practicar distintas tareas de limpieza: texto general, tweets, productos y personas.

In [3]:
## Texto general
df_texto = pd.DataFrame(
    {
        "texto": [
            "  ¡Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)  ",
            "Pandas > numpy? 🤔  Email: persona@example.com   ",
            "Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan",
            "Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123",
            "      TABLAS\t, \n espacios   y saltos de línea.\r\n",
            "Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44",
            "Dirección: Cll 10 # 5-20; Medellín. Barrio: La América",
            "Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",
        ]
    }
)

## Tweets
df_tweets = pd.DataFrame(
    {
        "tweet": [
            "RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python",
            "¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊",
            "Probando cosas en Jupyter... sin link ni hashtag",
            "@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml",
            "¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data",
        ]
    }
)

## Productos y precios
df_productos = pd.DataFrame(
    {
        "producto": [
            "Camisa talla M",
            "Pantalón-XL",
            "Zapato, Talla: 42",
            "Blusa s",
            "Medias 10-12",
            "Polo Talla l",
            "Vestido - 36",
            "Sombrero (talla Única)",
        ],
        "precio": [
            "$1.234,50",
            "USD 45",
            "30,00 €",
            "25.000",
            "$ 0",
            "S/. 120.90",
            "COP 9.990",
            "AR$ 2.550,00",
        ],
    }
)

## Personas, respuestas y direcciones
df_personas = pd.DataFrame(
    {
        "nombre": [
            "ana María LOPEZ",
            "Juan  perez",
            "Ñandú   Gómez",
            "Miguel (Soporte)",
            "  MÓNICA de la CRUZ  ",
            "luis-delgado",
        ],
        "categoria": ["Sí", "si", "SI ", "No", "—", None],
        "direccion": [
            "Calle 45 # 12-34, Bogotá",
            "Av. Siempre Viva 742 - Lima",
            "Cll. 10 No. 5-20 Medellín",
            "Cra 7a # 45-60, Bogotá",
            "Av. 9 #12-34  Cali",
            "Av. Insurgentes Sur 1234, CDMX",
        ],
        "id_raw": ["abc-0001", "abc 001", "ABC0002", "Abc_003", "abc-00004", "ABC-0005"],
    }
)

## Inspección rápida

- Explora los cuatro DataFrames
- Identifica qué columnas requieren **limpieza textual** y por qué (espacios, acentos, emojis, URLs, etc.).
- Escribe un breve comentario (como comentario en la celda) con tus observaciones.

In [4]:
# Copie su código aca


## 1) Normaliza a minúsculas

En el DataFrame `df_texto`, crea una nueva columna `texto_min` que contenga el texto de la columna `texto` en minúsculas.

In [5]:
# Copie su código aca
#texto_min = df_texto["texto"].str.lower() 
#df_texto[["texto", "texto_min"]]

df_texto["texto_min"] = df_texto["texto"].str.lower()
df_texto[["texto", "texto_min"]]

Unnamed: 0,texto,texto_min
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,¡hola mundo!!! esto es un ejemplo: visita...
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #...,me gusta el café colombiano; es buenísimo!!! #...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,oferta!!! 3x2 en jabón líquido 500ml - código:...
4,"TABLAS\t, \n espacios y saltos de líne...","tablas\t, \n espacios y saltos de líne..."
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,teléfono: (57) 300-123-45-67; whatsapp +57 300...
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,dirección: cll 10 # 5-20; medellín. barrio: la...
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


## 2) Eliminar Espacios

Genera  la columna `texto_espacios` eliminando espacios al inicio/fin

In [6]:
# Copie su código aca
df_texto["texto_espacios"] = df_texto["texto"].str.strip()
df_texto["texto_espacios_min"] = df_texto["texto_min"].str.strip()
df_texto[["texto", "texto_espacios","texto_min","texto_espacios_min"]]

Unnamed: 0,texto,texto_espacios,texto_min,texto_espacios_min
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,¡Hola Mundo!!! Esto es un EJEMPLO: visita h...,¡hola mundo!!! esto es un ejemplo: visita...,¡hola mundo!!! esto es un ejemplo: visita h...
1,Pandas > numpy? 🤔 Email: persona@example.com,Pandas > numpy? 🤔 Email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #...,Me gusta el café colombiano; es buenísimo!!! #...,me gusta el café colombiano; es buenísimo!!! #...,me gusta el café colombiano; es buenísimo!!! #...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,oferta!!! 3x2 en jabón líquido 500ml - código:...,oferta!!! 3x2 en jabón líquido 500ml - código:...
4,"TABLAS\t, \n espacios y saltos de líne...","TABLAS\t, \n espacios y saltos de línea.","tablas\t, \n espacios y saltos de líne...","tablas\t, \n espacios y saltos de línea."
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,teléfono: (57) 300-123-45-67; whatsapp +57 300...,teléfono: (57) 300-123-45-67; whatsapp +57 300...
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,dirección: cll 10 # 5-20; medellín. barrio: la...,dirección: cll 10 # 5-20; medellín. barrio: la...
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


## 3) Puntuación

Crea `texto_sin_punct` removiendo puntuación y símbolos, conservando letras y espacios.

In [7]:
# Copie su código aca

df_texto["texto_sin_puntuacion_con_emojis"] = df_texto["texto_espacios_min"].str.replace(
    r"[^\w\s\U0001F300-\U0001FAFF]", "", regex=True
)
df_texto[["texto_sin_puntuacion_con_emojis", "texto_espacios_min"]]

Unnamed: 0,texto_sin_puntuacion_con_emojis,texto_espacios_min
0,hola mundo esto es un ejemplo visita httpsm...,¡hola mundo!!! esto es un ejemplo: visita h...
1,pandas numpy 🤔 email personaexamplecom,pandas > numpy? 🤔 email: persona@example.com
2,me gusta el café colombiano es buenísimo café ...,me gusta el café colombiano; es buenísimo!!! #...
3,oferta 3x2 en jabón líquido 500ml código a123,oferta!!! 3x2 en jabón líquido 500ml - código:...
4,tablas\t \n espacios y saltos de línea,"tablas\t, \n espacios y saltos de línea."
5,teléfono 57 3001234567 whatsapp 57 300 222 33 44,teléfono: (57) 300-123-45-67; whatsapp +57 300...
6,dirección cll 10 520 medellín barrio la américa,dirección: cll 10 # 5-20; medellín. barrio: la...
7,emoji test 😀🙌🏽🏳🌈 símbolos y otros,"emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


In [8]:
print(df_texto["texto_sin_puntuacion_con_emojis"])

0    hola mundo  esto es   un ejemplo visita httpsm...
1             pandas  numpy 🤔  email personaexamplecom
2    me gusta el café colombiano es buenísimo café ...
3       oferta 3x2 en jabón líquido 500ml  código a123
4             tablas\t \n espacios   y saltos de línea
5     teléfono 57 3001234567 whatsapp 57 300 222 33 44
6     dirección cll 10  520 medellín barrio la américa
7                   emoji test 😀🙌🏽🏳🌈 símbolos  y otros
Name: texto_sin_puntuacion_con_emojis, dtype: object


In [9]:
df_texto["texto_sin_puntuacion"] = df_texto["texto_espacios_min"].str.replace(r"[^\w\s]", "", regex=True)
df_texto[[ "texto_sin_puntuacion"]]

Unnamed: 0,texto_sin_puntuacion
0,hola mundo esto es un ejemplo visita httpsm...
1,pandas numpy email personaexamplecom
2,me gusta el café colombiano es buenísimo café ...
3,oferta 3x2 en jabón líquido 500ml código a123
4,tablas\t \n espacios y saltos de línea
5,teléfono 57 3001234567 whatsapp 57 300 222 33 44
6,dirección cll 10 520 medellín barrio la américa
7,emoji test símbolos y otros


In [10]:
print(df_texto["texto_sin_puntuacion"])

0    hola mundo  esto es   un ejemplo visita httpsm...
1              pandas  numpy   email personaexamplecom
2    me gusta el café colombiano es buenísimo café ...
3       oferta 3x2 en jabón líquido 500ml  código a123
4             tablas\t \n espacios   y saltos de línea
5     teléfono 57 3001234567 whatsapp 57 300 222 33 44
6     dirección cll 10  520 medellín barrio la américa
7                        emoji test  símbolos  y otros
Name: texto_sin_puntuacion, dtype: object


## 4) Acentos

Elimina los acentos de las vocales del texto `df_texto` y grábalo en una nueva columna `texto_sin_acentos`.

In [11]:
# Copie su código aca
df_texto["texto_sin_acentos"]= df_texto["texto_sin_puntuacion"].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
print(df_texto[["texto_sin_acentos"]])

                                   texto_sin_acentos
0  hola mundo  esto es   un ejemplo visita httpsm...
1            pandas  numpy   email personaexamplecom
2  me gusta el cafe colombiano es buenisimo cafe ...
3     oferta 3x2 en jabon liquido 500ml  codigo a123
4           tablas\t \n espacios   y saltos de linea
5   telefono 57 3001234567 whatsapp 57 300 222 33 44
6   direccion cll 10  520 medellin barrio la america
7                      emoji test  simbolos  y otros


## 5) Emojis

Crear la columna `texto_sin_emoji` quitando emojis, pictogramas y símbolos gráficos comunes.

In [12]:
# Copie su código aca
df_texto["texto_sin_emojis"] = (df_texto["texto_sin_acentos"].str.encode("ascii", "ignore").str.decode("ascii"))
df_texto[["texto_sin_acentos","texto_sin_emojis"]]

Unnamed: 0,texto_sin_acentos,texto_sin_emojis
0,hola mundo esto es un ejemplo visita httpsm...,hola mundo esto es un ejemplo visita httpsm...
1,pandas numpy email personaexamplecom,pandas numpy email personaexamplecom
2,me gusta el cafe colombiano es buenisimo cafe ...,me gusta el cafe colombiano es buenisimo cafe ...
3,oferta 3x2 en jabon liquido 500ml codigo a123,oferta 3x2 en jabon liquido 500ml codigo a123
4,tablas\t \n espacios y saltos de linea,tablas\t \n espacios y saltos de linea
5,telefono 57 3001234567 whatsapp 57 300 222 33 44,telefono 57 3001234567 whatsapp 57 300 222 33 44
6,direccion cll 10 520 medellin barrio la america,direccion cll 10 520 medellin barrio la america
7,emoji test simbolos y otros,emoji test simbolos y otros


In [13]:
print(df_texto["texto_sin_emojis"])

0    hola mundo  esto es   un ejemplo visita httpsm...
1              pandas  numpy   email personaexamplecom
2    me gusta el cafe colombiano es buenisimo cafe ...
3       oferta 3x2 en jabon liquido 500ml  codigo a123
4             tablas\t \n espacios   y saltos de linea
5     telefono 57 3001234567 whatsapp 57 300 222 33 44
6     direccion cll 10  520 medellin barrio la america
7                        emoji test  simbolos  y otros
Name: texto_sin_emojis, dtype: object


## 6) Extrae emails y URLs

En `df_texto`, crea las columnas `email` y `urls` extrayendo emails y URLs del texto original.

**Patrones sugeridos:**
- Email: `[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+`
- URL: `https?://\S+`

In [14]:
# Copie su código aca
df_texto["email"] = df_texto["texto_min"].str.extract(r"([A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+)",expand=False,)
df_texto["url"] = df_texto["texto_min"].str.extract(r"(https?://\S+)", expand=False)
df_texto[["texto_min", "email", "url"]]

Unnamed: 0,texto_min,email,url
0,¡hola mundo!!! esto es un ejemplo: visita...,,https://miweb.com
1,pandas > numpy? 🤔 email: persona@example.com,persona@example.com,
2,me gusta el café colombiano; es buenísimo!!! #...,,
3,oferta!!! 3x2 en jabón líquido 500ml - código:...,,
4,"tablas\t, \n espacios y saltos de líne...",,
5,teléfono: (57) 300-123-45-67; whatsapp +57 300...,,
6,dirección: cll 10 # 5-20; medellín. barrio: la...,,
7,"emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",,


## 7) Hashtags, menciones y URLs en tweets

En `df_tweets`, crea las columnas `hashtags`, `mentions` y `urls`
extrayendo hashtags, menciones y URLs del texto del tweet.

In [15]:
# Copie su código aca
df_tweets.head()

Unnamed: 0,tweet
0,RT @maria: Nuevo post en el blog -> http://blo...
1,¡Me encanta Pandas! #datos #Python https://exa...
2,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...


In [16]:
df_tweets["url"] = df_tweets["tweet"].str.extract(r"(https?://\S+)", expand=False)
df_tweets["hashtags"] = df_tweets["tweet"].str.findall(r"#(\w+)")
df_tweets["mentions"] = df_tweets["tweet"].str.findall(r"@(\w+)")

df_tweets[["tweet", "url", "hashtags", "mentions"]]


Unnamed: 0,tweet,url,hashtags,mentions
0,RT @maria: Nuevo post en el blog -> http://blo...,http://blog.com/post?id=45,"[nlp, python]",[maria]
1,¡Me encanta Pandas! #datos #Python https://exa...,https://example.org,"[datos, Python]",[data_science]
2,Probando cosas en Jupyter... sin link ni hashtag,,[],[]
3,@juan y @ana lanzaron curso de NLP en https://...,https://cursos.ai,"[nlp, ml]","[juan, ana]"
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...,https://foro.com,[data],[]


## 8) ¿Es retuit? Limpia el prefijo

Crea la columna `es_rt` (booleano) si el tweet comienza con `RT`. Luego genera la columna `tweet_sin_rt` quitando el prefijo `RT @usuario:` del inicio.

In [17]:
# Copie su código aca
df_tweets["es_rt"] = df_tweets["tweet"].str.startswith("RT @")
df_tweets["tweet_sin_rt"] = df_tweets["tweet"].str.replace(r"^RT\s+@\w+:?\s*", "", regex=True)
df_tweets[["tweet", "es_rt", "tweet_sin_rt"]]


Unnamed: 0,tweet,es_rt,tweet_sin_rt
0,RT @maria: Nuevo post en el blog -> http://blo...,True,Nuevo post en el blog -> http://blog.com/post?...
1,¡Me encanta Pandas! #datos #Python https://exa...,False,¡Me encanta Pandas! #datos #Python https://exa...
2,Probando cosas en Jupyter... sin link ni hashtag,False,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...,False,@juan y @ana lanzaron curso de NLP en https://...
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...,False,¿Pandas o Polars? debátanlo aquí 👉 https://for...


## 9) `tweet_limpio`

Crea `tweet_limpio` removiendo URLs, menciones y hashtags; además, elimina la puntuación sobrante, quita espacios y pasa a minúsculas.

In [18]:
# Copie su código aca
df_tweets["limpio"] = df_tweets["tweet_sin_rt"].str.replace(r"https?://\S+", "", regex=True) \
    .str.replace(r"#\w+", "", regex=True) \
    .str.replace(r"@\w+", "", regex=True) \
    .str.replace(r"\s+", " ", regex=True) \
    .str.strip()\
    .str.lower()\
    .str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')\
    .str.replace(r"[^\w\s]", "", regex=True)
df_tweets[["tweet", "limpio"]]

Unnamed: 0,tweet,limpio
0,RT @maria: Nuevo post en el blog -> http://blo...,nuevo post en el blog
1,¡Me encanta Pandas! #datos #Python https://exa...,me encanta pandas
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...,y lanzaron curso de nlp en
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...,pandas o polars debatanlo aqui


## 10) Talla en `df_productos`

Extrae y estandariza la talla:
- Letras: `XS, S, M, L, XL, XXL`, o `TU` (talla única).
- Números: captura como `talla_num`.
Crea la columna`talla_std` (letras) y `talla_num` (numérica).

In [19]:
# Copie su código aca
print(df_productos)

                 producto        precio
0          Camisa talla M     $1.234,50
1             Pantalón-XL        USD 45
2       Zapato, Talla: 42       30,00 €
3                 Blusa s        25.000
4            Medias 10-12           $ 0
5            Polo Talla l    S/. 120.90
6            Vestido - 36     COP 9.990
7  Sombrero (talla Única)  AR$ 2.550,00


In [20]:
import re

df_productos["talla_num"] = df_productos["producto"].str.extract(
    r"\b(\d{2,3})\b", flags=re.IGNORECASE, expand=False
)
df_productos["talla_std"] =df_productos["producto"].str.extract(
    r"\b(xs|s|m|l|xl|xxl|xxxl|única)\b",
    flags=re.IGNORECASE,
    expand=False
).str.upper()

df_productos["talla_std"] = (
    df_productos["talla_std"]
    .str.replace(r"talla[:\s\-]*", "", flags=re.IGNORECASE, regex=True)
    .str.upper()
)
df_productos["talla_std"] = df_productos["talla_std"].replace("ÚNICA", "TU")
df_productos[["producto", "talla_num", "talla_std"]]


Unnamed: 0,producto,talla_num,talla_std
0,Camisa talla M,,M
1,Pantalón-XL,,XL
2,"Zapato, Talla: 42",42.0,
3,Blusa s,,S
4,Medias 10-12,10.0,
5,Polo Talla l,,L
6,Vestido - 36,36.0,
7,Sombrero (talla Única),,TU


## 11) Extraer de precios

Convierte la columna `precio` a numérico (`precio_num`) independiente del formato (`$1.234,50`, `USD 45`, `30,00 €`, `COP 9.990`, etc.).

In [21]:
# Copie su código aca
df_productos.info()

df_productos["precio_num"] = (
    df_productos["precio"]
    .str.replace(r"[^\d,\.]", "", regex=True)
    .str.replace(r"\.(?=\d{3})", "", regex=True) 
    .str.replace(",", ".", regex=False)
)

df_productos["precio_num"] = pd.to_numeric(df_productos["precio_num"], errors="coerce")
df_productos.info()

df_productos[["producto", "talla_num", "talla_std", "precio", "precio_num"]]


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   producto   8 non-null      object
 1   precio     8 non-null      object
 2   talla_num  3 non-null      object
 3   talla_std  5 non-null      object
dtypes: object(4)
memory usage: 388.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   producto    8 non-null      object 
 1   precio      8 non-null      object 
 2   talla_num   3 non-null      object 
 3   talla_std   5 non-null      object 
 4   precio_num  8 non-null      float64
dtypes: float64(1), object(4)
memory usage: 452.0+ bytes


Unnamed: 0,producto,talla_num,talla_std,precio,precio_num
0,Camisa talla M,,M,"$1.234,50",1234.5
1,Pantalón-XL,,XL,USD 45,45.0
2,"Zapato, Talla: 42",42.0,,"30,00 €",30.0
3,Blusa s,,S,25.000,25000.0
4,Medias 10-12,10.0,,$ 0,0.0
5,Polo Talla l,,L,S/. 120.90,120.9
6,Vestido - 36,36.0,,COP 9.990,9990.0
7,Sombrero (talla Única),,TU,"AR$ 2.550,00",2550.0


## 12) Filtrado por texto

Filtra el DataFrame `df_productos` para mostrar solo filas cuyo `producto` contenga **camisa** o **pantalón**, ignorando acentos y mayúsculas/minúsculas.

In [22]:
# Copie su código aca

df_productos["producto_Limpio"] = (
    df_productos["producto"]
    .str.lower()
    .str.normalize("NFD")
    .str.replace(r"[\u0300-\u036f]", "", regex=True)  # Elimina acentos
)

# Filtrar "camisa" o "pantalon"
df_filtrado = df_productos[
    df_productos["producto_Limpio"].str.contains(r"camisa|pantalon", regex=True)
]

df_filtrado[["producto","precio", "talla_num", "talla_std", "precio_num"]]


Unnamed: 0,producto,precio,talla_num,talla_std,precio_num
0,Camisa talla M,"$1.234,50",,M,1234.5
1,Pantalón-XL,USD 45,,XL,45.0


## 13) Limpieza de nombres propios

En el DataFrame `df_personas`, crea `nombre_limpio` en `df_personas`:
- Quita paréntesis y su contenido.
- Reemplaza guiones por espacio y elimina espacios extra.
- Aplica *title case* y conserva conectores (`de`, `del`, `la`, `y`) en minúscula.

In [23]:
# Copie su código aca
df_personas.head()

Unnamed: 0,nombre,categoria,direccion,id_raw
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004


In [24]:


df_personas["nombre_limpio"] = df_personas["nombre"].str.replace(
    r"\(.*?\)", "", regex=True
)
df_personas["nombre_limpio"] = (
    df_personas["nombre_limpio"]
    .str.replace("-", " ")
    .str.strip()
    .str.replace(r"\s+", " ", regex=True)
)
conectores = ["de", "del", "la", "y"]

df_personas["nombre_limpio"] = (
    df_personas["nombre_limpio"]
    .str.title() 
    .apply(
        lambda x: " ".join(
            [w.lower() if w.lower() in conectores else w for w in x.split()]
        )
    )
)

df_personas[["nombre", "nombre_limpio"]]

Unnamed: 0,nombre,nombre_limpio
0,ana María LOPEZ,Ana María Lopez
1,Juan perez,Juan Perez
2,Ñandú Gómez,Ñandú Gómez
3,Miguel (Soporte),Miguel
4,MÓNICA de la CRUZ,Mónica de la Cruz
5,luis-delgado,Luis Delgado


## 14) Normaliza respuestas categóricas

En el DataFrame `df_personas`, convierte `categoria` en booleano `categoria_bool` donde cualquier variante de **sí** (con/ sin tilde) sea `True`; el resto `False`.

In [25]:
# Copie su código aca
# Copie su código aca

df_personas["categoria_bool"] = (
    df_personas["categoria"]
    .str.strip()
    .str.lower()
    .str.normalize("NFD")
    .str.replace(r"[\u0300-\u036f]", "", regex=True)
    .eq("si") 
)

df_personas["categoria_bool"] = df_personas["categoria_bool"].astype(bool)

df_personas.info()
df_personas[["categoria", "categoria_bool"]]


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   nombre          6 non-null      object
 1   categoria       5 non-null      object
 2   direccion       6 non-null      object
 3   id_raw          6 non-null      object
 4   nombre_limpio   6 non-null      object
 5   categoria_bool  6 non-null      bool  
dtypes: bool(1), object(5)
memory usage: 378.0+ bytes


Unnamed: 0,categoria,categoria_bool
0,Sí,True
1,si,True
2,SI,True
3,No,False
4,—,False
5,,False


## 15) Ciudad desde la dirección

En el DataFrame `df_personas`, Extrae la **ciudad** en una columna `ciudad`

In [26]:
# Copie su código aca
df_personas["ciudades"] = df_personas["direccion"].str.extract(
    r",?\s*([A-Za-zÁÉÍÓÚáéíóúÑñ\s]+)\.?\s*$", expand=False
)
df_personas[["direccion", "ciudades"]]
df_personas.head()

Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool,ciudades
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001,Ana María Lopez,True,Bogotá
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True,Lima
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002,Ñandú Gómez,True,Medellín
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003,Miguel,False,Bogotá
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004,Mónica de la Cruz,False,Cali


## 16) Normaliza y valida IDs

En el DataFrame `df_personas`, a partir de `id_raw`, crea la columna `id_norm` con formato `ABC-0001` (tres letras + guion + 4 dígitos) y `id_valido` (True/False).

In [27]:
# Copie su código aca
df_personas["id_norm"] = (df_personas["id_raw"]
    .str.upper()
    .str.extract(r"([A-Z]{3})[-\s]?(\d{1,4})")  # 3 letras + números
    .apply(
        lambda x: f"{x[0]}-{int(x[1]):04d}"
        if pd.notnull(x[0]) and pd.notnull(x[1])
        else None,
        axis=1,
    )
)
df_personas["id_valido"] = df_personas["id_norm"].str.match(r"^[A-Z]{3}-\d{4}$")
df_personas.info()
df_personas[["id_raw", "id_norm", "id_valido"]]


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   nombre          6 non-null      object
 1   categoria       5 non-null      object
 2   direccion       6 non-null      object
 3   id_raw          6 non-null      object
 4   nombre_limpio   6 non-null      object
 5   categoria_bool  6 non-null      bool  
 6   ciudades        6 non-null      object
 7   id_norm         5 non-null      object
 8   id_valido       5 non-null      object
dtypes: bool(1), object(8)
memory usage: 522.0+ bytes


Unnamed: 0,id_raw,id_norm,id_valido
0,abc-0001,ABC-0001,True
1,abc 001,ABC-0001,True
2,ABC0002,ABC-0002,True
3,Abc_003,,
4,abc-00004,ABC-0000,True
5,ABC-0005,ABC-0005,True


In [28]:
df_personas.head()

Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool,ciudades,id_norm,id_valido
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001,Ana María Lopez,True,Bogotá,ABC-0001,True
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True,Lima,ABC-0001,True
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002,Ñandú Gómez,True,Medellín,ABC-0002,True
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003,Miguel,False,Bogotá,,
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004,Mónica de la Cruz,False,Cali,ABC-0000,True


## 17) Mini *pipeline* de limpieza general

Escribe una función `limpia_basica(s)` que: ponga el texto en minuscula, quite acentos, URLs, menciones y hashtags, puntuación, dígitos y colapse espacios. Aplícala a `df_texto['texto']` y guarda en `texto_limpio_final`.

In [29]:
# Copie su código aca
import re
import string
import unicodedata

def limpia_basica(s):
    # 1. Poner en minúscula
    s = s.lower()

    # 2. Quitar acentos
    # Normaliza a NFD (Canonical Decomposition) y filtra caracteres 'Mn' (Non-Spacing Mark)
    s = "".join(
        c for c in unicodedata.normalize("NFD", s) if unicodedata.category(c) != "Mn"
    )

    # 3. Quitar URLs
    s = re.sub(r"https?://\S+|www\.\S+", "", s)

    # 4. Quitar menciones y hashtags
    s = re.sub(r"@\w+", "", s)  # Menciones
    s = re.sub(r"#\w+", "", s)  # Hashtags

    # 5. Quitar puntuación
    s = s.translate(str.maketrans("", "", string.punctuation))

    # 6. Quitar dígitos
    s = s.translate(str.maketrans("", "", string.digits))

    # 7. Colapsar espacios (múltiples espacios, tabulaciones, saltos de línea)
    s = " ".join(s.split())   

    # 8. para quitar emojis y caracteres no-ASCII
    s = s.encode("ascii", errors="ignore").decode("utf-8")


    return s

In [30]:
df_texto["texto_limpio_final"] = df_texto["texto"].apply(limpia_basica)
df_texto[["texto","texto_limpio_final"]]


Unnamed: 0,texto,texto_limpio_final
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,hola mundo esto es un ejemplo visita
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas numpy email personacom
2,Me gusta el café colombiano; es buenísimo!!! #...,me gusta el cafe colombiano es buenisimo
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,oferta x en jabon liquido ml codigo a
4,"TABLAS\t, \n espacios y saltos de líne...",tablas espacios y saltos de linea
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,telefono whatsapp
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,direccion cll medellin barrio la america
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test simbolos y otros


## 18)¿Qué tanto cambió el texto?

En el dataframe `df_texto`, 

Cual es la diferencia entre la longitud original (`len_raw`) y la longitud tras la limpieza (`len_clean`)?

In [31]:
# Copie su código aca
df_texto["len_raw"] = df_texto["texto"].str.len()
df_texto["len_clean"] = df_texto["texto_limpio_final"].str.len()
df_texto[["texto", "len_raw", "texto_limpio_final", "len_clean"]]

Unnamed: 0,texto,len_raw,texto_limpio_final,len_clean
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,84,hola mundo esto es un ejemplo visita,36
1,Pandas > numpy? 🤔 Email: persona@example.com,48,pandas numpy email personacom,30
2,Me gusta el café colombiano; es buenísimo!!! #...,66,me gusta el cafe colombiano es buenisimo,40
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,52,oferta x en jabon liquido ml codigo a,37
4,"TABLAS\t, \n espacios y saltos de líne...",48,tablas espacios y saltos de linea,33
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,56,telefono whatsapp,17
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,54,direccion cll medellin barrio la america,40
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",42,emoji test simbolos y otros,29


### Guardar de resultados

Guarda el dataframe df_texto en parquet con `df_texto.to_parquet('archivo.parquet', index=False)`.

**Phd. Jose R. Zapata**
- [https://joserzapata.github.io/](https://joserzapata.github.io/)
- [https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/](https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/)

In [32]:
!uv pip install pyarrow


[2mUsing Python 3.12.11 environment at: /workspaces/Curso_NLP_WMQ/.venv[0m
[2mAudited [1m1 package[0m [2min 13ms[0m[0m


In [33]:
df_texto.to_parquet("archivo.parquet", index=False)
