#  Practica de limpieza de texto con pandas - Solución

#### Por Jose R. Zapata - https://joserzapata.github.io/


> **Objetivo**: practicar métodos de `pandas.Series.str` para limpiar y normalizar texto en DataFrames.
> Cada ejercicio incluye un **Enunciado** y una celda donde se ve el resultado de la solución.



**Referencias:**
- Procesamiento básico de texto (curso de NLP): https://joserzapata.github.io/courses/nlp/procesamiento-basico/
- Documentación de `pandas.Series.str`: https://pandas.pydata.org/docs/reference/series.html#string-handling


## Instalación de dependencias

instala e importa las librerias que necesites para ejecutar los ejercicios, por ejemplo para instalar Jupyter usa:

```bash
uv add jupyter
```


In [None]:
# Copie su código aca


: 

In [None]:
import pandas as pd
import numpy as np
import re

## Conjuntos de datos de juguete
Creamos 4 DataFrames para practicar distintas tareas de limpieza: texto general, tweets, productos y personas.

In [None]:
## Texto general
df_texto = pd.DataFrame(
    {
        "texto": [
            "  ¡Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)  ",
            "Pandas > numpy? 🤔  Email: persona@example.com   ",
            "Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan",
            "Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123",
            "      TABLAS\t, \n espacios   y saltos de línea.\r\n",
            "Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44",
            "Dirección: Cll 10 # 5-20; Medellín. Barrio: La América",
            "Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",
        ]
    }
)

## Tweets
df_tweets = pd.DataFrame(
    {
        "tweet": [
            "RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python",
            "¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊",
            "Probando cosas en Jupyter... sin link ni hashtag",
            "@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml",
            "¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data",
        ]
    }
)

## Productos y precios
df_productos = pd.DataFrame(
    {
        "producto": [
            "Camisa talla M",
            "Pantalón-XL",
            "Zapato, Talla: 42",
            "Blusa s",
            "Medias 10-12",
            "Polo Talla l",
            "Vestido - 36",
            "Sombrero (talla Única)",
        ],
        "precio": [
            "$1.234,50",
            "USD 45",
            "30,00 €",
            "25.000",
            "$ 0",
            "S/. 120.90",
            "COP 9.990",
            "AR$ 2.550,00",
        ],
    }
)

## Personas, respuestas y direcciones
df_personas = pd.DataFrame(
    {
        "nombre": [
            "ana María LOPEZ",
            "Juan  perez",
            "Ñandú   Gómez",
            "Miguel (Soporte)",
            "  MÓNICA de la CRUZ  ",
            "luis-delgado",
        ],
        "categoria": ["Sí", "si", "SI ", "No", "—", None],
        "direccion": [
            "Calle 45 # 12-34, Bogotá",
            "Av. Siempre Viva 742 - Lima",
            "Cll. 10 No. 5-20 Medellín",
            "Cra 7a # 45-60, Bogotá",
            "Av. 9 #12-34  Cali",
            "Av. Insurgentes Sur 1234, CDMX",
        ],
        "id_raw": [
            "abc-0001",
            "abc 001",
            "ABC0002",
            "Abc_003",
            "abc-00004",
            "ABC-0005",
        ],
    }
)

In [None]:
print("df_texto:")
display(df_texto)
print("\ndf_tweets:")
display(df_tweets)
print("\ndf_productos:")
display(df_productos)
print("\ndf_personas:")
display(df_personas)


## Inspección rápida

- Explora los cuatro DataFrames
- Identifica qué columnas requieren **limpieza textual** y por qué (espacios, acentos, emojis, URLs, etc.).
- Escribe un breve comentario (como comentario en la celda) con tus observaciones.

In [None]:
# Copie su código aca
df_texto.info()
df_tweets.info()
df_productos.info()
df_personas.info()

## 1) Normaliza a minúsculas

En el DataFrame `df_texto`, crea una nueva columna `texto_min` que contenga el texto de la columna `texto` en minúsculas.

In [None]:
# Copie su código aca
df_texto["texto_min"] = df_texto["texto"].str.lower()
display(df_texto)

## 2) Eliminar Espacios

Genera  la columna `texto_espacios` eliminando espacios al inicio/fin

In [None]:
# Copie su código aca
df_texto["texto_espacios"] = df_texto["texto_min"].str.strip()
display(df_texto)

## 3) Puntuación

Crea `texto_sin_punct` removiendo puntuación y símbolos, conservando letras y espacios.

In [None]:
# Copie su código aca
df_texto["texto_sin_punct"] = df_texto["texto_espacios"].str.replace(
    r"[^\w\s]", "", regex=True
)
display(df_texto)

In [None]:
df_texto["texto_sin_punct"]

## 4) Acentos

Elimina los acentos de las vocales del texto `df_texto` y grábalo en una nueva columna `texto_sin_acentos`.

In [None]:
# Copie su código aca
df_texto["texto_sin_acentos"] = df_texto["texto_sin_punct"].replace(
    {"á": "a", "é": "e", "í": "i", "ó": "o", "ú": "u", "ü": "u"}, regex=True
)
display(df_texto)

## 5) Emojis

Crear la columna `texto_sin_emoji` quitando emojis, pictogramas y símbolos gráficos comunes.

In [None]:
# Copie su código aca
df_texto["texto_sin_emojis"] = df_texto["texto_sin_acentos"].str.replace(
    r"[^\x00-\x7F]+", "", regex=True
)
df_texto["texto_sin_emojis"]

## 6) Extrae emails y URLs

En `df_texto`, crea las columnas `email` y `urls` extrayendo emails y URLs del texto original.

**Patrones sugeridos:**
- Email: `[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+`
- URL: `https?://\S+`

In [None]:
# Copie su código aca
df_texto["email"] = df_texto["texto"].str.findall(
    r"[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+"
)
df_texto["url"] = df_texto["texto"].str.findall(r"https?://\S+")

In [None]:
display(df_texto[["texto", "email", "url"]])

## 7) Hashtags, menciones y URLs en tweets

En `df_tweets`, crea las columnas `hashtags`, `mentions` y `urls`
extrayendo hashtags, menciones y URLs del texto del tweet.

In [None]:
# Copie su código aca

df_tweets["hashtag"] = df_tweets["tweet"].str.findall(
    r"(#\w+)" 
)
df_tweets["mentions"] = df_tweets["tweet"].str.findall(r"(@\w+)")
df_tweets["urls"] = df_tweets["tweet"].str.findall(r"https?://\S+")

In [None]:
df_tweets

## 8) ¿Es retuit? Limpia el prefijo

Crea la columna `es_rt` (booleano) si el tweet comienza con `RT`. Luego genera la columna `tweet_sin_rt` quitando el prefijo `RT @usuario:` del inicio.

In [None]:
# Copie su código aca
df_tweets['es_rt']=[True if tweet.startswith("RT ") else False for tweet in df_tweets['tweet']]
df_tweets['tweet_sin_rt']=df_tweets['tweet'].str.replace(r"^RT @\w+: ","",regex=True)

In [None]:
df_tweets

In [None]:
df_tweets

## 9) `tweet_limpio`

Crea `tweet_limpio` removiendo URLs, menciones y hashtags; además, elimina la puntuación sobrante, quita espacios y pasa a minúsculas.

In [None]:
# Copie su código aca
df_tweets['tweet_limpio']=df_tweets['tweet_sin_rt'].str.lower().replace(r"(#\w+)|(@\w+)|(https?://\S+)|([^\x00-\x7F]+)|([^\w\s])","",regex=True).str.strip()

In [None]:
df_tweets[['tweet','tweet_limpio']]

## 10) Talla en `df_productos`

Extrae y estandariza la talla:
- Letras: `XS, S, M, L, XL, XXL`, o `TU` (talla única).
- Números: captura como `talla_num`.
Crea la columna`talla_std` (letras) y `talla_num` (numérica).

In [None]:
# Copie su código aca
def extraer_talla(producto):
    if pd.isna(producto):
        return None, None

    producto_str = str(producto).upper()
    producto_str = producto_str.replace("ÚNICA", "UNICA")  # normalizar acento

    patron_letra = r"\b(XS|S|M|L|XL|XXL|UNICA)\b"
    patron_numero = r"\b\d+(?:-\d+)?\b"

    # buscar talla por letra
    m_letra = re.search(patron_letra, producto_str)
    if m_letra:
        talla = m_letra.group()
        if talla == "UNICA":
            return "TU", None
        return talla, None
    # buscar talla numérica
    m_num = re.search(patron_numero, producto_str)
    if m_num:
        num = m_num.group()
        if "-" in num:  # rango como "10-12" -> tomar primer número
            num = num.split("-")[0]
        try:
            return None, int(num)
        except ValueError:
            return None, None

    return None, None

pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)

df_productos[["talla_std", "talla_num"]] = (
    df_productos["producto"].apply(extraer_talla).apply(pd.Series)
)

display(df_productos)

In [None]:
# Copie su código aca
# Extract standard sizes (XS, S, M, L, XL, XXL, TU)
df_productos['talla_std'] = df_productos['producto'].str.extract(r"(?i)\b(XXL|XL|L|M|S|TU|TALLA UNICA|TALLA ÚNICA)\b")
df_productos['talla_std'] = df_productos['talla_std'].replace(
    {
        r"(?i)^talla unica$": "TU",
        r"(?i)^talla única$": "TU"
    },
    regex=True
)
# Extract numeric sizes
df_productos['talla_num'] = df_productos['producto'].str.extract(
    r'(\d+)(?=\s*$|\s*[,\)])'
)


# Clean up standard sizes
df_productos['talla_std'] = df_productos['talla_std'].str.upper().str.strip()
df_productos['talla_std'] = df_productos['talla_std']

display(df_productos[['producto', 'talla_std', 'talla_num']])

## 11) Extraer de precios

Convierte la columna `precio` a numérico (`precio_num`) independiente del formato (`$1.234,50`, `USD 45`, `30,00 €`, `COP 9.990`, etc.).

In [None]:
# Copie su código aca
def extraer_precio(precio):
    if pd.isna(precio):
        return None

    precio = str(precio)

    nums = re.findall(r"[\d.,]+", precio)
    if not nums:
        return None

    num = nums[-1]

    if "," in num and "." in num:
        num = num.replace(".", "").replace(",", ".")
    elif "," in num:
        if len(num.split(",")[1]) == 2:
            # Es decimal (1,23)
            num = num.replace(",", ".")
        else:
            # Es separador de miles (1,234)
            num = num.replace(",", "")

    # Convertir a float
    try:
        return float(num)
    except:
        return None

# Convertir precios
df_productos["precio_num"] = df_productos["precio"].apply(extraer_precio)
display(df_productos)

## 12) Filtrado por texto

Filtra el DataFrame `df_productos` para mostrar solo filas cuyo `producto` contenga **camisa** o **pantalón**, ignorando acentos y mayúsculas/minúsculas.

In [None]:
# Copie su código aca
df_productos[df_productos['producto'].replace(
    {"á": "a", "é": "e", "í": "i", "ó": "o", "ú": "u", "ü": "u"}, regex=True
).str.contains(r'(?i)(camisa|pantalon)')]

## 13) Limpieza de nombres propios

En el DataFrame `df_personas`, crea `nombre_limpio` en `df_personas`:
- Quita paréntesis y su contenido.
- Reemplaza guiones por espacio y elimina espacios extra.
- Aplica *title case* y conserva conectores (`de`, `del`, `la`, `y`) en minúscula.

In [None]:
# Copie su código aca
def clean_name(nombre):
    if pd.isna(nombre):
        return nombre

    # Lista de conectores que se deben conservar
    conectores = ["de", "del", "la", "y"]

    # Quitar paréntesis y su contenido
    nombre = re.sub(r"\([^)]*\)", "", nombre)

    # Reemplazar guiones por espacios
    nombre = nombre.replace("-", " ")

    # Eliminar espacios múltiples y espacios a los extremos
    nombre = re.sub(r"\s+", " ", nombre).strip()

    # Aplicar title case (Primer Nombre en Minusculas)
    palabras = nombre.title().split()

    # Poner conectores en minúscula
    palabras = [
        palabra.lower() if palabra.lower() in conectores else palabra
        for palabra in palabras
    ]

    # Unir lista de palabras
    return " ".join(palabras)

# Crear columna resultado
df_personas["nombre_limpio"] = df_personas["nombre"].apply(clean_name)

display(df_personas[["nombre","nombre_limpio"]])

In [None]:
df_personas["nombre_limpio"]

## 14) Normaliza respuestas categóricas

En el DataFrame `df_personas`, convierte `categoria` en booleano `categoria_bool` donde cualquier variante de **sí** (con/ sin tilde) sea `True`; el resto `False`.

In [None]:
# Copie su código aca
patron = r"^(sí|si|s|1|true|verdadero)$"

# Crear columna booleana (True si coincide, False si no)
df_personas["categoria_bool"] = df_personas["categoria"].str.lower().str.strip().str.match(patron, case=False, na=False)

df_personas

## 15) Ciudad desde la dirección

En el DataFrame `df_personas`, Extrae la **ciudad** en una columna `ciudad`

In [None]:
df_personas["direccion"].str.split()

In [None]:
# Copie su código aca
df_personas["ciudad"]=df_personas["direccion"].apply(lambda x: x.split()[-1])
df_personas

## 16) Normaliza y valida IDs

En el DataFrame `df_personas`, a partir de `id_raw`, crea la columna `id_norm` con formato `ABC-0001` (tres letras + guion + 4 dígitos) y `id_valido` (True/False).

In [None]:
# Copie su código aca
def normalizar_id(id_raw):
    if pd.isna(id_raw):
        return None, False
    s = str(id_raw)
    letras = "".join(re.findall(r"[A-Za-z]", s)).upper()
    nums_m = re.search(r"(\d+)",s)
    num = int(nums_m.group(1))
    num_cadena = str(num).zfill(4)
    id_norm = f"{letras}-{num_cadena}"
    return id_norm

df_personas["id_norm"] = df_personas["id_raw"].apply(lambda x: normalizar_id(x))

In [None]:
df_personas

In [None]:
# Copie su código aca
regex_valid_id=r"^[A-Z]{3}-\d{4}$"

df_personas["id_valido"] = df_personas["id_norm"].str.match(regex_valid_id, case=False, na=False)


In [None]:
df_personas[["id_raw","id_norm","id_valido"]]

## 17) Mini *pipeline* de limpieza general

Escribe una función `limpia_basica(s)` que: ponga el texto en minuscula, quite acentos, URLs, menciones y hashtags, puntuación, dígitos y colapse espacios. Aplícala a `df_texto['texto']` y guarda en `texto_limpio_final`.

In [None]:
# Copie su código aca
def limpia_basica(s):
    if pd.isna(s):
        return s
    # Convertir a minúsculas
    s = str(s).lower()
    # Eliminar espacios en los extremos y múltiples espacios
    s = re.sub(r"\s+", " ", s).strip()
    # Reemplazar acentos
    s = s.replace("á", "a").replace("é", "e").replace("í", "i").replace("ó", "o").replace("ú", "u").replace("ü", "u")
    #Eliminar URLs
    s = re.sub(r"https?://\S+", "", s)
    #Eliminar  menciones (@text)
    s = re.sub(r"@\w+", "", s)
    #Eliminar hashtags (#text)
    s = re.sub(r"#\w+", "", s)
    #Eliminar signos de puntuacion y emojis
    s = re.sub(r"[^\x00-\x7F]+", "", s)
    #Eliminar digitos
    s = re.sub(r"\d+", "", s)
    # Eliminar caracteres especiales
    s = re.sub(r"[^\w\s]", "", s)
    return s

In [None]:
df_texto['texto_limpio_final'] = df_texto['texto'].apply(limpia_basica)

In [None]:
df_texto

## 18)¿Qué tanto cambió el texto?

En el dataframe `df_texto`, 

Cual es la diferencia entre la longitud original (`len_raw`) y la longitud tras la limpieza (`len_clean`)?

In [None]:
# Copie su código aca
df_texto["len_raw"] = df_texto["texto"].str.len()
df_texto["len_clean"] = df_texto["texto_limpio_final"].str.len()
df_texto["len_diff"] = df_texto["len_raw"] - df_texto["len_clean"]

In [None]:
df_texto

### Guardar de resultados

Guarda el dataframe df_texto en parquet con `df_texto.to_parquet('archivo.parquet', index=False)`.

In [None]:
df_texto.to_parquet("../1-data/archivo.parquet", index=False)

**Phd. Jose R. Zapata**
- [https://joserzapata.github.io/](https://joserzapata.github.io/)
- [https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/](https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/)