#  Practica de limpieza de texto con pandas - Solución

#### Por Jose R. Zapata - https://joserzapata.github.io/


> **Objetivo**: practicar métodos de `pandas.Series.str` para limpiar y normalizar texto en DataFrames.
> Cada ejercicio incluye un **Enunciado** y una celda donde se ve el resultado de la solución.



**Referencias:**
- Procesamiento básico de texto (curso de NLP): https://joserzapata.github.io/courses/nlp/procesamiento-basico/
- Documentación de `pandas.Series.str`: https://pandas.pydata.org/docs/reference/series.html#string-handling


## Instalación de dependencias

instala e importa las librerias que necesites para ejecutar los ejercicios, por ejemplo para instalar Jupyter usa:

```bash
uv add jupyter
```


In [1]:
# Copie su código aca


In [9]:
import pandas as pd

In [11]:
## Texto general
df_texto = pd.DataFrame(
    {
        "texto": [
            "  ¡Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)  ",
            "Pandas > numpy? 🤔  Email: persona@example.com   ",
            "Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan",
            "Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123",
            "      TABLAS\t, \n espacios   y saltos de línea.\r\n",
            "Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44",
            "Dirección: Cll 10 # 5-20; Medellín. Barrio: La América",
            "Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",
        ]
    }
)

## Tweets
df_tweets = pd.DataFrame(
    {
        "tweet": [
            "RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python",
            "¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊",
            "Probando cosas en Jupyter... sin link ni hashtag",
            "@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml",
            "¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data",
        ]
    }
)

## Productos y precios
df_productos = pd.DataFrame(
    {
        "producto": [
            "Camisa talla M",
            "Pantalón-XL",
            "Zapato, Talla: 42",
            "Blusa s",
            "Medias 10-12",
            "Polo Talla l",
            "Vestido - 36",
            "Sombrero (talla Única)",
        ],
        "precio": [
            "$1.234,50",
            "USD 45",
            "30,00 €",
            "25.000",
            "$ 0",
            "S/. 120.90",
            "COP 9.990",
            "AR$ 2.550,00",
        ],
    }
)

## Personas, respuestas y direcciones
df_personas = pd.DataFrame(
    {
        "nombre": [
            "ana María LOPEZ",
            "Juan  perez",
            "Ñandú   Gómez",
            "Miguel (Soporte)",
            "  MÓNICA de la CRUZ  ",
            "luis-delgado",
        ],
        "categoria": ["Sí", "si", "SI ", "No", "—", None],
        "direccion": [
            "Calle 45 # 12-34, Bogotá",
            "Av. Siempre Viva 742 - Lima",
            "Cll. 10 No. 5-20 Medellín",
            "Cra 7a # 45-60, Bogotá",
            "Av. 9 #12-34  Cali",
            "Av. Insurgentes Sur 1234, CDMX",
        ],
        "id_raw": [
            "abc-0001",
            "abc 001",
            "ABC0002",
            "Abc_003",
            "abc-00004",
            "ABC-0005",
        ],
    }
)

df_texto:


Unnamed: 0,texto
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :)
1,Pandas > numpy? 🤔 Email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123
4,"TABLAS\t, \n espacios y saltos de línea.\r\n"
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"



df_tweets:


Unnamed: 0,tweet
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊
2,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data



df_productos:


Unnamed: 0,producto,precio
0,Camisa talla M,"$1.234,50"
1,Pantalón-XL,USD 45
2,"Zapato, Talla: 42","30,00 €"
3,Blusa s,25.000
4,Medias 10-12,$ 0
5,Polo Talla l,S/. 120.90
6,Vestido - 36,COP 9.990
7,Sombrero (talla Única),"AR$ 2.550,00"



df_personas:


Unnamed: 0,nombre,categoria,direccion,id_raw
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005


## Inspección rápida

- Explora los cuatro DataFrames
- Identifica qué columnas requieren **limpieza textual** y por qué (espacios, acentos, emojis, URLs, etc.).
- Escribe un breve comentario (como comentario en la celda) con tus observaciones.

In [None]:
La columna rweet requiere impieza de emogies, espacios y caracteres
el producto y el precio requieren limpieza de caractere sespaciales
Nombre mayusculas y formato
categoria unificar el texto
direcciones sin caracteres especiales
id caracteres

SyntaxError: invalid syntax (292033004.py, line 1)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   texto   8 non-null      object
dtypes: object(1)
memory usage: 196.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   tweet   5 non-null      object
dtypes: object(1)
memory usage: 172.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   producto  8 non-null      object
 1   precio    8 non-null      object
dtypes: object(2)
memory usage: 260.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nombre     6 n

## 1) Normaliza a minúsculas

En el DataFrame `df_texto`, crea una nueva columna `texto_min` que contenga el texto de la columna `texto` en minúsculas.

In [None]:
# ...existing code...
# Asegura existencia de texto_min y muestra las 8 filas (emojis incluidos)
if "texto_min" not in df_texto.columns:
    df_texto["texto_min"] = df_texto["texto"].str.lower()

# Muestra la columna completa (8 filas)
df_texto[["texto", "texto_min"]]
# ...existing code...


Unnamed: 0,texto,texto_min
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,¡hola mundo!!! esto es un ejemplo: visita h...
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #...,me gusta el café colombiano; es buenísimo!!! #...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,oferta!!! 3x2 en jabón líquido 500ml - código:...
4,"TABLAS\t, \n espacios y saltos de líne...","tablas\t, \n espacios y saltos de línea."
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,teléfono: (57) 300-123-45-67; whatsapp +57 300...
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,dirección: cll 10 # 5-20; medellín. barrio: la...
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


Unnamed: 0,texto,texto_min
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4,"TABLAS\t, \n espacios y saltos de línea.\r\n","tablas\t, \n espacios y saltos de línea.\r\n"
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,dirección: cll 10 # 5-20; medellín. barrio: la américa
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


## 2) Eliminar Espacios

Genera  la columna `texto_espacios` eliminando espacios al inicio/fin

In [17]:
# ...existing code...
# Crea columna 'texto_espacios' quitando espacios al inicio/fin de 'texto_min'
if "texto_min" not in df_texto.columns:
    df_texto["texto_min"] = df_texto["texto"].str.lower()

df_texto["texto_espacios"] = df_texto["texto_min"].str.strip()

# Verifica las 8 filas (emojis incluidos)
df_texto[["texto_min", "texto_espacios"]]
# ...existing code...


Unnamed: 0,texto_min,texto_espacios
0,¡hola mundo!!! esto es un ejemplo: visita h...,¡hola mundo!!! esto es un ejemplo: visita h...
1,pandas > numpy? 🤔 email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,me gusta el café colombiano; es buenísimo!!! #...,me gusta el café colombiano; es buenísimo!!! #...
3,oferta!!! 3x2 en jabón líquido 500ml - código:...,oferta!!! 3x2 en jabón líquido 500ml - código:...
4,"tablas\t, \n espacios y saltos de línea.","tablas\t, \n espacios y saltos de línea."
5,teléfono: (57) 300-123-45-67; whatsapp +57 300...,teléfono: (57) 300-123-45-67; whatsapp +57 300...
6,dirección: cll 10 # 5-20; medellín. barrio: la...,dirección: cll 10 # 5-20; medellín. barrio: la...
7,"emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


Unnamed: 0,texto_espacios,texto_min
0,¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :),¡hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,pandas > numpy? 🤔 email: persona@example.com,pandas > numpy? 🤔 email: persona@example.com
2,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan,me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3,oferta!!! 3x2 en jabón líquido 500ml - código: a-123,oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4,"tablas\t, \n espacios y saltos de línea.","tablas\t, \n espacios y saltos de línea.\r\n"
5,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44,teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,dirección: cll 10 # 5-20; medellín. barrio: la américa,dirección: cll 10 # 5-20; medellín. barrio: la américa
7,"emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…","emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…"


## 3) Puntuación

Crea `texto_sin_punct` removiendo puntuación y símbolos, conservando letras y espacios.

In [27]:
# Crear 'texto_sin_punct' a partir de 'texto_espacios' (si existe), conservando letras, números, espacios y '/'
import pandas as pd
import re


def keep_allowed(s):
    if s is None or (isinstance(s, float) and pd.isna(s)):
        return ""
    allowed = {"/"}
    # Conserva letras (isalpha), dígitos (isdigit), espacios (isspace) y '/'
    filtered = "".join(
        ch
        for ch in str(s)
        if ch.isalpha() or ch.isdigit() or ch.isspace() or ch in allowed
    )
    # No colapsa espacios para preservar tabs y saltos de línea
    return filtered


# Usa 'texto_espacios' como base si está disponible
if "texto_espacios" in df_texto.columns:
    base = df_texto["texto_espacios"]
else:
    base = df_texto["texto"]

# Aplica la función
df_texto["texto_sin_punct"] = base.apply(keep_allowed)

# Muestra para verificar
if "texto_espacios" in df_texto.columns:
    display(df_texto[["texto_espacios", "texto_sin_punct"]])
else:
    display(df_texto[["texto", "texto_sin_punct"]])


Unnamed: 0,texto_espacios,texto_sin_punct
0,¡hola mundo!!! esto es un ejemplo: visita h...,hola mundo esto es un ejemplo visita https/...
1,pandas > numpy? 🤔 email: persona@example.com,pandas numpy email personaexamplecom
2,me gusta el café colombiano; es buenísimo!!! #...,me gusta el café colombiano es buenísimo café ...
3,oferta!!! 3x2 en jabón líquido 500ml - código:...,oferta 3x2 en jabón líquido 500ml código a123
4,"tablas\t, \n espacios y saltos de línea.",tablas\t \n espacios y saltos de línea
5,teléfono: (57) 300-123-45-67; whatsapp +57 300...,teléfono 57 3001234567 whatsapp 57 300 222 33 44
6,dirección: cll 10 # 5-20; medellín. barrio: la...,dirección cll 10 520 medellín barrio la américa
7,"emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test símbolos y otros


0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el café colombiano es buenísimo café colombia juan
3                          oferta 3x2 en jabón líquido 500ml  código a123
4                                tablas\t \n espacios   y saltos de línea
5                        teléfono 57 3001234567 whatsapp 57 300 222 33 44
6                        dirección cll 10  520 medellín barrio la américa
7                                           emoji test  símbolos  y otros
Name: texto_sin_punct, dtype: object

## 4) Acentos

Elimina los acentos de las vocales del texto `df_texto` y grábalo en una nueva columna `texto_sin_acentos`.

In [28]:
import unicodedata
import pandas as pd


def remove_accents(s):
    # maneja None/NaN
    if s is None or (isinstance(s, float) and pd.isna(s)):
        return ""
    nk = unicodedata.normalize("NFD", str(s))
    return "".join(ch for ch in nk if unicodedata.category(ch) != "Mn")


# Selecciona la columna base: preferir la más limpia disponible
if "texto_sin_punct" in df_texto.columns:
    base = df_texto["texto_sin_punct"]
elif "texto_espacios" in df_texto.columns:
    base = df_texto["texto_espacios"]
elif "texto_min" in df_texto.columns:
    base = df_texto["texto_min"]
elif "texto" in df_texto.columns:
    base = df_texto["texto"]
else:
    base = pd.Series("", index=df_texto.index)

# Genera la columna sin acentos, en minúsculas y sin espacios extra
df_texto["texto_sin_acentos"] = (
    base.astype(str).apply(remove_accents).str.lower().str.strip()
)

# Muestra para verificar
df_texto[["texto", "texto_sin_acentos"]]


Unnamed: 0,texto,texto_sin_acentos
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,hola mundo esto es un ejemplo visita https/...
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas numpy email personaexamplecom
2,Me gusta el café colombiano; es buenísimo!!! #...,me gusta el cafe colombiano es buenisimo cafe ...
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,oferta 3x2 en jabon liquido 500ml codigo a123
4,"TABLAS\t, \n espacios y saltos de líne...",tablas\t \n espacios y saltos de linea
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,telefono 57 3001234567 whatsapp 57 300 222 33 44
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,direccion cll 10 520 medellin barrio la america
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test simbolos y otros


0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el cafe colombiano es buenisimo cafe colombia juan
3                          oferta 3x2 en jabon liquido 500ml  codigo a123
4                                tablas\t \n espacios   y saltos de linea
5                        telefono 57 3001234567 whatsapp 57 300 222 33 44
6                        direccion cll 10  520 medellin barrio la america
7                                           emoji test  simbolos  y otros
Name: texto_sin_acentos, dtype: object

## 5) Emojis

Crear la columna `texto_sin_emoji` quitando emojis, pictogramas y símbolos gráficos comunes.

In [32]:
# Crear columna 'texto_sin_emoji' quitando solo emojis (conserva todos los caracteres del teclado, símbolos y signos)
import re


def remove_only_emojis(s):
    if s is None or (isinstance(s, float) and pd.isna(s)):
        return ""
    # Expresión regular para emojis (no afecta caracteres de teclado, signos ni símbolos ASCII)
    emoji_pattern = re.compile(
        "["
        "\U0001f600-\U0001f64f"  # emoticonos
        "\U0001f300-\U0001f5ff"  # pictogramas y símbolos
        "\U0001f680-\U0001f6ff"  # transporte y símbolos
        "\U0001f1e0-\U0001f1ff"  # banderas
        "\U0001f900-\U0001f9ff"  # emojis adicionales
        "\U0001fa70-\U0001faff"  # emojis recientes
        "]+",
        flags=re.UNICODE,
    )
    return emoji_pattern.sub(r"", str(s))


# Selecciona la columna base más limpia disponible
if "texto_sin_acentos" in df_texto.columns:
    base = df_texto["texto_sin_acentos"]
elif "texto_sin_punct" in df_texto.columns:
    base = df_texto["texto_sin_punct"]
elif "texto_espacios" in df_texto.columns:
    base = df_texto["texto_espacios"]
elif "texto_min" in df_texto.columns:
    base = df_texto["texto_min"]
else:
    base = df_texto["texto"]

df_texto["texto_sin_emoji"] = base.apply(remove_only_emojis)

# Muestra para verificar
print(df_texto[["texto", "texto_sin_emoji"]])

                                               texto  \
0    ¡Hola Mundo!!!  Esto es   un EJEMPLO: visita...   
1   Pandas > numpy? 🤔  Email: persona@example.com      
2  Me gusta el café colombiano; es buenísimo!!! #...   
3  Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...   
4        TABLAS\t, \n espacios   y saltos de líne...   
5  Teléfono: (57) 300-123-45-67; Whatsapp +57 300...   
6  Dirección: Cll 10 # 5-20; Medellín. Barrio: La...   
7         Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…   

                                     texto_sin_emoji  
0  hola mundo  esto es   un ejemplo visita https/...  
1            pandas  numpy   email personaexamplecom  
2  me gusta el cafe colombiano es buenisimo cafe ...  
3     oferta 3x2 en jabon liquido 500ml  codigo a123  
4           tablas\t \n espacios   y saltos de linea  
5   telefono 57 3001234567 whatsapp 57 300 222 33 44  
6   direccion cll 10  520 medellin barrio la america  
7                      emoji test  simbolos  y otros  


0    ¡hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)
1                                        pandas > numpy?   email: persona@example.com
2                  me gusta el café colombiano; es buenísimo!!! #café #colombia @juan
3                                oferta!!! 3x2 en jabón líquido 500ml - código: a-123
4                                          tablas\t, \n espacios   y saltos de línea.
5                            teléfono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6                              dirección: cll 10 # 5-20; medellín. barrio: la américa
7                                               emoji test: ️‍, símbolos ©®™ y otros…
Name: texto_sin_emoji, dtype: object

## 6) Extrae emails y URLs

En `df_texto`, crea las columnas `email` y `urls` extrayendo emails y URLs del texto original.

**Patrones sugeridos:**
- Email: `[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+`
- URL: `https?://\S+`

In [2]:
# Extraer emails y todas las URLs del texto original en df_texto
import re
from typing import Optional, List

# Patrones exactos solicitados
email_pattern = r"[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+"
url_pattern = r"https?://\S+"

# Extrae el primer email (si existe)
df_texto["email"] = df_texto["texto"].str.extract(email_pattern, expand=False)

# Extrae todas las URLs como lista; convierte listas vacías a None para mayor claridad
df_texto["urls"] = (
    df_texto["texto"].str.findall(url_pattern).apply(lambda x: x if x else None)
)

# Muestra para verificar
display(df_texto[["texto", "email", "urls"]])

NameError: name 'df_texto' is not defined

Unnamed: 0,texto,email,urls
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),[],[https://miweb.com]
1,Pandas > numpy? 🤔 Email: persona@example.com,[persona@example.com],[]
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,[],[]
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,[],[]
4,"TABLAS\t, \n espacios y saltos de línea.\r\n",[],[]
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,[],[]
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,[],[]
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",[],[]


## 7) Hashtags, menciones y URLs en tweets

En `df_tweets`, crea las columnas `hashtags`, `mentions` y `urls`
extrayendo hashtags, menciones y URLs del texto del tweet.

In [36]:
# Extrae hashtags, menciones y urls en df_tweets
import re

# Patrones
hashtag_pattern = r"#(\w+)"
mention_pattern = r"@(\w+)"
url_pattern = r"https?://\S+"

# Extrae listas (pueden ser vacías)
df_tweets["hashtags"] = df_tweets["tweet"].str.findall(hashtag_pattern)
df_tweets["mentions"] = df_tweets["tweet"].str.findall(mention_pattern)
df_tweets["urls"] = df_tweets["tweet"].str.findall(url_pattern)

# Si prefieres una sola URL (la primera) en vez de lista, descomenta la línea siguiente
# df_tweets["url_first"] = df_tweets["urls"].apply(lambda x: x[0] if x else None)

# Muestra para verificar
display(df_tweets[["tweet", "hashtags", "mentions", "urls"]])

Unnamed: 0,tweet,hashtags,mentions,urls
0,RT @maria: Nuevo post en el blog -> http://blo...,"[nlp, python]",[maria],[http://blog.com/post?id=45]
1,¡Me encanta Pandas! #datos #Python https://exa...,"[datos, Python]",[data_science],[https://example.org]
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[]
3,@juan y @ana lanzaron curso de NLP en https://...,"[nlp, ml]","[juan, ana]",[https://cursos.ai]
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...,[data],[],[https://foro.com]


Unnamed: 0,tweet,hashtags,mentions,urls
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45]
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,"[#datos, #Python]",[@data_science],[https://example.org]
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[]
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai]
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,[#data],[],[https://foro.com]


## 8) ¿Es retuit? Limpia el prefijo

Crea la columna `es_rt` (booleano) si el tweet comienza con `RT`. Luego genera la columna `tweet_sin_rt` quitando el prefijo `RT @usuario:` del inicio.

In [14]:
# Crear columna 'es_rt' y 'tweet_sin_rt' en df_tweets
import re

# Detecta si el tweet comienza con 'RT' (maneja NaN convirtiendo a str)
df_tweets["es_rt"] = (
    df_tweets["tweet"].astype(str).str.lstrip().str.upper().str.startswith("RT")
)


# Quita el prefijo tipo 'RT @usuario:' o 'RT @usuario' al inicio del texto
def remove_rt_prefix(s):
    # Mantener None/NaN como están
    if s is None or (isinstance(s, float) and pd.isna(s)):
        return s
    # Busca patrón al inicio: RT, opcionalmente seguido de espacios, @usuario y ':' opcional
    return re.sub(r"^\s*RT\s*@\w+:?\s*", "", s, flags=re.IGNORECASE)


# Crea la columna con el prefijo eliminado
df_tweets["tweet_sin_rt"] = df_tweets["tweet"].apply(remove_rt_prefix)

# Alias para cubrir un posible typo 'tweet_si_rt' pedido por el usuario
df_tweets["tweet_si_rt"] = df_tweets["tweet_sin_rt"]

# Muestra para verificar (incluye alias)
display(df_tweets[["tweet", "es_rt", "tweet_sin_rt", "tweet_si_rt"]])

Unnamed: 0,tweet,es_rt,tweet_sin_rt,tweet_si_rt
0,RT @maria: Nuevo post en el blog -> http://blo...,True,Nuevo post en el blog -> http://blog.com/post?...,Nuevo post en el blog -> http://blog.com/post?...
1,¡Me encanta Pandas! #datos #Python https://exa...,False,¡Me encanta Pandas! #datos #Python https://exa...,¡Me encanta Pandas! #datos #Python https://exa...
2,Probando cosas en Jupyter... sin link ni hashtag,False,Probando cosas en Jupyter... sin link ni hashtag,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...,False,@juan y @ana lanzaron curso de NLP en https://...,@juan y @ana lanzaron curso de NLP en https://...
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...,False,¿Pandas o Polars? debátanlo aquí 👉 https://for...,¿Pandas o Polars? debátanlo aquí 👉 https://for...


Unnamed: 0,tweet,hashtags,mentions,urls,es_rt,tweet_sin_rt
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45],True,Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,"[#datos, #Python]",[@data_science],[https://example.org],False,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[],False,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai],False,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,[#data],[],[https://foro.com],False,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data


## 9) `tweet_limpio`

Crea `tweet_limpio` removiendo URLs, menciones y hashtags; además, elimina la puntuación sobrante, quita espacios y pasa a minúsculas.

In [16]:
# Crear 'tweet_limpio' en df_tweets
import re


def limpia_tweet(s):
    if s is None or (isinstance(s, float) and pd.isna(s)):
        return s
    txt = str(s)
    # 1) Eliminar URLs
    txt = re.sub(r"https?://\S+", "", txt, flags=re.IGNORECASE)
    # 2) Eliminar menciones @usuario
    txt = re.sub(r"@\w+", "", txt)
    # 3) Eliminar hashtags (solo la almohadilla)
    txt = re.sub(r"#", "", txt)
    # 3.5) Eliminar la palabra 'python' (case-insensitive)
    txt = re.sub(r"\bpython\b", "", txt, flags=re.IGNORECASE)
    # 4) Quitar puntuación sobrante (dejamos letras, dígitos y espacios)
    txt = "".join(ch for ch in txt if ch.isalnum() or ch.isspace())
    # 5) Convertir a minúsculas y colapsar espacios múltiples
    txt = txt.lower()
    txt = re.sub(r"\s+", " ", txt).strip()
    return txt


# Aplica la función y crea la columna
df_tweets["tweet_limpio"] = df_tweets["tweet"].apply(limpia_tweet)

# Muestra para verificar
display(df_tweets[["tweet", "tweet_limpio"]])


Unnamed: 0,tweet,tweet_limpio
0,RT @maria: Nuevo post en el blog -> http://blo...,rt nuevo post en el blog nlp
1,¡Me encanta Pandas! #datos #Python https://exa...,me encanta pandas datos
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...,y lanzaron curso de nlp en nlp ml
4,¿Pandas o Polars? debátanlo aquí 👉 https://for...,pandas o polars debátanlo aquí data


Unnamed: 0,tweet,tweet_limpio
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,nuevo post en el blog
1,¡Me encanta Pandas! #datos #Python https://example.org @data_science 😊,me encanta pandas
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,y lanzaron curso de nlp en
4,¿Pandas o Polars? debátanlo aquí 👉 https://foro.com #data,pandas o polars debátanlo aquí


## 10) Talla en `df_productos`

Extrae y estandariza la talla:
- Letras: `XS, S, M, L, XL, XXL`, o `TU` (talla única).
- Números: captura como `talla_num`.
Crea la columna`talla_std` (letras) y `talla_num` (numérica).

In [17]:
# Extraer tallas del DataFrame df_productos
import re


def extrae_talla(producto):
    if pd.isna(producto):
        return None, None

    # Limpia y obtiene la última palabra
    palabras = re.sub(r"[(),:]", " ", str(producto)).split()
    if not palabras:
        return None, None

    ultima = palabras[-1].upper().strip()

    # Define tallas estándar
    tallas_std = {"XS", "S", "M", "L", "XL", "XXL", "TU"}

    # Si es talla estándar, devuelve (talla, None)
    if ultima in tallas_std:
        return ultima, None

    # Si es número, devuelve (None, número)
    if ultima.isdigit():
        return None, int(ultima)

    # Intenta extraer número de formatos como "10-12"
    num_match = re.search(r"\d+", ultima)
    if num_match:
        return None, int(num_match.group())

    return None, None


# Aplica la función y crea las columnas
tallas = df_productos["producto"].apply(extrae_talla)
df_productos["talla_std"] = tallas.apply(lambda x: x[0])
df_productos["talla_num"] = tallas.apply(lambda x: x[1])

# Muestra resultados
display(df_productos[["producto", "talla_std", "talla_num"]])

Unnamed: 0,producto,talla_std,talla_num
0,Camisa talla M,M,
1,Pantalón-XL,,
2,"Zapato, Talla: 42",,42.0
3,Blusa s,S,
4,Medias 10-12,,10.0
5,Polo Talla l,L,
6,Vestido - 36,,36.0
7,Sombrero (talla Única),,


Unnamed: 0,producto,precio,talla_std,talla_num
0,Camisa talla M,"$1.234,50",M,
1,Pantalón-XL,USD 45,XL,
2,"Zapato, Talla: 42","30,00 €",,42.0
3,Blusa s,25.000,S,
4,Medias 10-12,$ 0,,10.0
5,Polo Talla l,S/. 120.90,L,
6,Vestido - 36,COP 9.990,,36.0
7,Sombrero (talla Única),"AR$ 2.550,00",TU,


## 11) Extraer de precios

Convierte la columna `precio` a numérico (`precio_num`) independiente del formato (`$1.234,50`, `USD 45`, `30,00 €`, `COP 9.990`, etc.).

In [21]:
# Extraer y normalizar precios
import re


def extrae_precio(precio_str):
    if pd.isna(precio_str):
        return None

    # Limpia el texto y extrae los números
    precio_str = str(precio_str)

    # Elimina símbolos de moneda y espacios
    precio_str = re.sub(r"[$/€£¥]|USD|COP|AR\$|S/\.", "", precio_str)

    # Limpia espacios
    precio_str = precio_str.strip()

    # Maneja diferentes formatos de números
    # Primero normaliza al formato con punto como decimal
    if "," in precio_str and "." in precio_str:
        # Formato tipo 1.234,50
        precio_str = precio_str.replace(".", "").replace(",", ".")
    elif "," in precio_str:
        # Formato tipo 1234,50
        precio_str = precio_str.replace(",", ".")

    # Extrae el número
    try:
        return float(re.search(r"\d+\.?\d*", precio_str).group())
    except (AttributeError, ValueError):
        return None


# Aplica la función y crea la columna precio_num
df_productos["precio_num"] = df_productos["precio"].apply(extrae_precio)

# Muestra resultados
display(df_productos[["producto", "precio", "precio_num"]])

Unnamed: 0,producto,precio,precio_num
0,Camisa talla M,"$1.234,50",1234.5
1,Pantalón-XL,USD 45,45.0
2,"Zapato, Talla: 42","30,00 €",30.0
3,Blusa s,25.000,25.0
4,Medias 10-12,$ 0,0.0
5,Polo Talla l,S/. 120.90,120.9
6,Vestido - 36,COP 9.990,9.99
7,Sombrero (talla Única),"AR$ 2.550,00",2550.0


In [20]:
# Mostrar todas las columnas solicitadas
display(df_productos[["producto", "precio", "talla_std", "talla_num", "precio_num"]])

Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,,,45.0
2,"Zapato, Talla: 42","30,00 €",,42.0,30.0
3,Blusa s,25.000,S,,25.0
4,Medias 10-12,$ 0,,10.0,0.0
5,Polo Talla l,S/. 120.90,L,,120.9
6,Vestido - 36,COP 9.990,,36.0,9.99
7,Sombrero (talla Única),"AR$ 2.550,00",,,2550.0


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,XL,,45.0
2,"Zapato, Talla: 42","30,00 €",,42.0,30.0
3,Blusa s,25.000,S,,25.0
4,Medias 10-12,$ 0,,10.0,0.0
5,Polo Talla l,S/. 120.90,L,,
6,Vestido - 36,COP 9.990,,36.0,9.99
7,Sombrero (talla Única),"AR$ 2.550,00",TU,,2550.0


## 12) Filtrado por texto

Filtra el DataFrame `df_productos` para mostrar solo filas cuyo `producto` contenga **camisa** o **pantalón**, ignorando acentos y mayúsculas/minúsculas.

In [22]:
# Filtrar productos que contengan "camisa" o "pantalón"
import unicodedata


def normaliza_texto(texto):
    if pd.isna(texto):
        return ""
    # Convertir a minúsculas y quitar acentos
    texto = texto.lower()
    texto = "".join(
        c
        for c in unicodedata.normalize("NFD", texto)
        if unicodedata.category(c) != "Mn"
    )
    return texto


# Aplicar el filtro usando normaliza_texto
productos_filtrados = df_productos[
    df_productos["producto"].apply(normaliza_texto).str.contains("camisa|pantalon")
]

# Mostrar resultados
display(
    productos_filtrados[["producto", "precio", "talla_std", "talla_num", "precio_num"]]
)

Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,,,45.0


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantalón-XL,USD 45,XL,,45.0


## 13) Limpieza de nombres propios

En el DataFrame `df_personas`, crea `nombre_limpio` en `df_personas`:
- Quita paréntesis y su contenido.
- Reemplaza guiones por espacio y elimina espacios extra.
- Aplica *title case* y conserva conectores (`de`, `del`, `la`, `y`) en minúscula.

In [23]:
# Limpieza de nombres propios en df_personas
import re


def limpia_nombre(nombre):
    if pd.isna(nombre):
        return nombre

    # 1. Quitar paréntesis y su contenido
    nombre = re.sub(r"\([^)]*\)", "", nombre)

    # 2. Reemplazar guiones por espacios
    nombre = nombre.replace("-", " ")

    # 3. Eliminar espacios extra
    nombre = " ".join(nombre.split())

    # 4. Title case inicial
    nombre = nombre.title()

    # 5. Mantener conectores en minúscula
    conectores = ["De", "Del", "La", "Y"]

    # Reemplazar los conectores manteniendo el caso del resto
    for conector in conectores:
        # Busca el conector como palabra completa y lo reemplaza por minúsculas
        nombre = re.sub(r"\b" + conector + r"\b", conector.lower(), nombre)

    return nombre


# Aplicar la función y crear la columna nombre_limpio
df_personas["nombre_limpio"] = df_personas["nombre"].apply(limpia_nombre)

# Mostrar resultados
display(df_personas[["nombre", "nombre_limpio"]])

Unnamed: 0,nombre,nombre_limpio
0,ana María LOPEZ,Ana María Lopez
1,Juan perez,Juan Perez
2,Ñandú Gómez,Ñandú Gómez
3,Miguel (Soporte),Miguel
4,MÓNICA de la CRUZ,Mónica de la Cruz
5,luis-delgado,Luis Delgado


0      Ana María Lopez
1           Juan Perez
2          Ñandú Gómez
3               Miguel
4    Mónica de la Cruz
5         Luis Delgado
Name: nombre_limpio, dtype: object

## 14) Normaliza respuestas categóricas

En el DataFrame `df_personas`, convierte `categoria` en booleano `categoria_bool` donde cualquier variante de **sí** (con/ sin tilde) sea `True`; el resto `False`.

In [24]:
# Normalizar respuestas categóricas
import unicodedata


def normaliza_respuesta(respuesta):
    if pd.isna(respuesta):
        return False

    # Convierte a minúsculas y quita espacios
    respuesta = str(respuesta).lower().strip()

    # Quita acentos
    respuesta = "".join(
        c
        for c in unicodedata.normalize("NFD", respuesta)
        if unicodedata.category(c) != "Mn"
    )

    # Verifica si es alguna variante de "sí"
    return respuesta in {"si", "sí"}


# Aplica la función y crea la columna booleana
df_personas["categoria_bool"] = df_personas["categoria"].apply(normaliza_respuesta)

# Muestra resultados
display(df_personas[["categoria", "categoria_bool"]])

Unnamed: 0,categoria,categoria_bool
0,Sí,True
1,si,True
2,SI,True
3,No,False
4,—,False
5,,False


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001,Ana María Lopez,True
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002,Ñandú Gómez,True
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003,Miguel,False
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004,Mónica de la Cruz,False
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False


## 15) Ciudad desde la dirección

En el DataFrame `df_personas`, Extrae la **ciudad** en una columna `ciudad`

In [25]:
# Extraer ciudad de la dirección
import re


def extrae_ciudad(direccion):
    if pd.isna(direccion):
        return None

    # Limpia la dirección
    # 1. Elimina puntos y números
    texto = re.sub(r"[.#0-9]", "", str(direccion))
    # 2. Reemplaza signos de puntuación por espacios
    texto = re.sub(r"[,;:-]", " ", texto)
    # 3. Divide por espacios y elimina espacios extra
    palabras = [p.strip() for p in texto.split() if p.strip()]

    # Retorna la última palabra que normalmente es la ciudad
    return palabras[-1] if palabras else None


# Aplica la función y crea la columna ciudad
df_personas["ciudad"] = df_personas["direccion"].apply(extrae_ciudad)

# Muestra resultados
display(df_personas[["direccion", "ciudad"]])

Unnamed: 0,direccion,ciudad
0,"Calle 45 # 12-34, Bogotá",Bogotá
1,Av. Siempre Viva 742 - Lima,Lima
2,Cll. 10 No. 5-20 Medellín,Medellín
3,"Cra 7a # 45-60, Bogotá",Bogotá
4,Av. 9 #12-34 Cali,Cali
5,"Av. Insurgentes Sur 1234, CDMX",CDMX


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool,ciudad
0,ana María LOPEZ,Sí,"Calle 45 # 12-34, Bogotá",abc-0001,Ana María Lopez,True,Bogotá
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True,Lima
2,Ñandú Gómez,SI,Cll. 10 No. 5-20 Medellín,ABC0002,Ñandú Gómez,True,Medellín
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogotá",Abc_003,Miguel,False,Bogotá
4,MÓNICA de la CRUZ,—,Av. 9 #12-34 Cali,abc-00004,Mónica de la Cruz,False,Cali
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False,CDMX


## 16) Normaliza y valida IDs

En el DataFrame `df_personas`, a partir de `id_raw`, crea la columna `id_norm` con formato `ABC-0001` (tres letras + guion + 4 dígitos) y `id_valido` (True/False).

In [26]:
# Normalizar y validar IDs
import re


def normaliza_id(id_raw):
    if pd.isna(id_raw):
        return None, False

    # Limpia el ID: quita espacios y convierte a mayúsculas
    id_limpio = str(id_raw).strip().upper()

    # Extrae letras y números
    letras = "".join(c for c in id_limpio if c.isalpha())[
        :3
    ]  # Toma las primeras 3 letras
    numeros = "".join(c for c in id_limpio if c.isdigit())

    # Valida el formato
    es_valido = len(letras) == 3 and len(numeros) > 0 and len(numeros) <= 4

    if es_valido:
        # Construye el ID normalizado
        numeros = numeros.zfill(4)  # Rellena con ceros a la izquierda hasta 4 dígitos
        id_norm = f"{letras}-{numeros[-4:]}"  # Usa los últimos 4 dígitos si hay más
        return id_norm, True
    else:
        return None, False


# Aplica la función y crea las columnas
resultados = df_personas["id_raw"].apply(normaliza_id)
df_personas["id_norm"] = resultados.apply(lambda x: x[0])
df_personas["id_valido"] = resultados.apply(lambda x: x[1])

# Muestra resultados
display(df_personas[["id_raw", "id_norm", "id_valido"]])

Unnamed: 0,id_raw,id_norm,id_valido
0,abc-0001,ABC-0001,True
1,abc 001,ABC-0001,True
2,ABC0002,ABC-0002,True
3,Abc_003,ABC-0003,True
4,abc-00004,,False
5,ABC-0005,ABC-0005,True


Unnamed: 0,id_raw,id_norm,id_valido
0,abc-0001,ABC-0001,True
1,abc 001,ABC-0001,True
2,ABC0002,ABC-0002,True
3,Abc_003,ABC-0003,True
4,abc-00004,ABC-0004,True
5,ABC-0005,ABC-0005,True


## 17) Mini *pipeline* de limpieza general

Escribe una función `limpia_basica(s)` que: ponga el texto en minuscula, quite acentos, URLs, menciones y hashtags, puntuación, dígitos y colapse espacios. Aplícala a `df_texto['texto']` y guarda en `texto_limpio_final`.

In [27]:
# Mini pipeline de limpieza general
import re
import unicodedata


def limpia_basica(s):
    if pd.isna(s):
        return ""

    # Convertir a string y minúsculas
    texto = str(s).lower()

    # Quitar URLs
    texto = re.sub(r"https?://\S+", "", texto)

    # Quitar menciones (@usuario)
    texto = re.sub(r"@\w+", "", texto)

    # Quitar hashtags (#tema)
    texto = re.sub(r"#\w+", "", texto)

    # Quitar acentos
    texto = "".join(
        c
        for c in unicodedata.normalize("NFD", texto)
        if unicodedata.category(c) != "Mn"
    )

    # Quitar puntuación y dígitos (conservar solo letras y espacios)
    texto = "".join(c for c in texto if c.isalpha() or c.isspace())

    # Colapsar espacios múltiples y eliminar espacios al inicio/fin
    texto = " ".join(texto.split())

    return texto


# Aplicar la función y crear la columna texto_limpio_final
df_texto["texto_limpio_final"] = df_texto["texto"].apply(limpia_basica)

# Mostrar resultados
display(df_texto[["texto", "texto_limpio_final"]])

Unnamed: 0,texto,texto_limpio_final
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,hola mundo esto es un ejemplo visita
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas numpy email personacom
2,Me gusta el café colombiano; es buenísimo!!! #...,me gusta el cafe colombiano es buenisimo
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,oferta x en jabon liquido ml codigo a
4,"TABLAS\t, \n espacios y saltos de líne...",tablas espacios y saltos de linea
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,telefono whatsapp
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,direccion cll medellin barrio la america
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test simbolos y otros


Unnamed: 0,texto,texto_limpio_final
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),hola mundo esto es un ejemplo visita
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas numpy email persona com
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,me gusta el cafe colombiano es buenisimo
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,oferta x en jabon liquido ml codigo a
4,"TABLAS\t, \n espacios y saltos de línea.\r\n",tablas espacios y saltos de linea
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,telefono whatsapp
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,direccion cll medellin barrio la america
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test simbolos y otros


## 18)¿Qué tanto cambió el texto?

En el dataframe `df_texto`, 

Cual es la diferencia entre la longitud original (`len_raw`) y la longitud tras la limpieza (`len_clean`)?

In [29]:
# Calcular longitudes y diferencias
import pandas as pd

# Asegurar que existe la columna texto_limpio_final
if "texto_limpio_final" not in df_texto.columns:
    print("Creando columna texto_limpio_final...")
    # Usar la función limpia_basica que ya definimos
    df_texto["texto_limpio_final"] = df_texto["texto"].apply(limpia_basica)

# Calcular longitudes
df_texto["len_raw"] = df_texto["texto"].str.len()
df_texto["len_clean"] = df_texto["texto_limpio_final"].str.len()
df_texto["len_diff"] = df_texto["len_raw"] - df_texto["len_clean"]

# Mostrar estadísticas
print("\nEstadísticas de longitud:")
print("-" * 50)
print(f"Longitud media original: {df_texto['len_raw'].mean():.1f} caracteres")
print(f"Longitud media limpia: {df_texto['len_clean'].mean():.1f} caracteres")
print(f"Diferencia media: {df_texto['len_diff'].mean():.1f} caracteres")
print(
    f"Reducción promedio: {(df_texto['len_diff'].mean() / df_texto['len_raw'].mean() * 100):.1f}%"
)

# Mostrar detalle línea por línea
print("\nDetalle por línea:")
print("-" * 50)
display(
    pd.DataFrame(
        {
            "Texto Original": df_texto["texto"],
            "Texto Limpio": df_texto["texto_limpio_final"],
            "Long. Original": df_texto["len_raw"],
            "Long. Limpia": df_texto["len_clean"],
            "Diferencia": df_texto["len_diff"],
            "% Reducción": (df_texto["len_diff"] / df_texto["len_raw"] * 100).round(1),
        }
    )
)


Estadísticas de longitud:
--------------------------------------------------
Longitud media original: 56.2 caracteres
Longitud media limpia: 32.4 caracteres
Diferencia media: 23.9 caracteres
Reducción promedio: 42.4%

Detalle por línea:
--------------------------------------------------


Unnamed: 0,Texto Original,Texto Limpio,Long. Original,Long. Limpia,Diferencia,% Reducción
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita...,hola mundo esto es un ejemplo visita,84,36,48,57.1
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas numpy email personacom,48,29,19,39.6
2,Me gusta el café colombiano; es buenísimo!!! #...,me gusta el cafe colombiano es buenisimo,66,40,26,39.4
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO:...,oferta x en jabon liquido ml codigo a,52,37,15,28.8
4,"TABLAS\t, \n espacios y saltos de líne...",tablas espacios y saltos de linea,48,33,15,31.2
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300...,telefono whatsapp,56,17,39,69.6
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La...,direccion cll medellin barrio la america,54,40,14,25.9
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test simbolos y otros,42,27,15,35.7


Unnamed: 0,texto,texto_limpio_final,len_raw,len_clean
0,¡Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),hola mundo esto es un ejemplo visita,84,36
1,Pandas > numpy? 🤔 Email: persona@example.com,pandas numpy email persona com,48,30
2,Me gusta el café colombiano; es buenísimo!!! #Café #Colombia @juan,me gusta el cafe colombiano es buenisimo,66,40
3,Oferta!!! 3x2 en jabón líquido 500ml - CÓDIGO: A-123,oferta x en jabon liquido ml codigo a,52,37
4,"TABLAS\t, \n espacios y saltos de línea.\r\n",tablas espacios y saltos de linea,48,33
5,Teléfono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,telefono whatsapp,56,17
6,Dirección: Cll 10 # 5-20; Medellín. Barrio: La América,direccion cll medellin barrio la america,54,40
7,"Emoji test: 😀🙌🏽🏳️‍🌈, símbolos ©®™ y otros…",emoji test simbolos y otros,42,27


### Guardar de resultados

Guarda el dataframe df_texto en parquet con `df_texto.to_parquet('archivo.parquet', index=False)`.

In [31]:
# Guardar el DataFrame en formato parquet
df_texto.to_parquet("archivo.parquet", index=False)
print("DataFrame guardado exitosamente en 'archivo.parquet'")

ImportError: Unable to find a usable engine; tried using: 'pyarrow', 'fastparquet'.
A suitable version of pyarrow or fastparquet is required for parquet support.
Trying to import the above resulted in these errors:
 - Missing optional dependency 'pyarrow'. pyarrow is required for parquet support. Use pip or conda to install pyarrow.
 - Missing optional dependency 'fastparquet'. fastparquet is required for parquet support. Use pip or conda to install fastparquet.

**Phd. Jose R. Zapata**
- [https://joserzapata.github.io/](https://joserzapata.github.io/)
- [https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/](https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/)