#  Practica de limpieza de texto con pandas - Soluci√≥n

#### Por Jose R. Zapata - https://joserzapata.github.io/


> **Objetivo**: practicar m√©todos de `pandas.Series.str` para limpiar y normalizar texto en DataFrames.
> Cada ejercicio incluye un **Enunciado** y una celda donde se ve el resultado de la soluci√≥n.



**Referencias:**
- Procesamiento b√°sico de texto (curso de NLP): https://joserzapata.github.io/courses/nlp/procesamiento-basico/
- Documentaci√≥n de `pandas.Series.str`: https://pandas.pydata.org/docs/reference/series.html#string-handling


## Instalaci√≥n de dependencias

instala e importa las librerias que necesites para ejecutar los ejercicios, por ejemplo para instalar Jupyter usa:

```bash
uv add jupyter
```


In [1]:
import pandas as pd

In [None]:
# Copie su c√≥digo aca


In [1]:
import pandas as pd

## Conjuntos de datos de juguete
Creamos 4 DataFrames para practicar distintas tareas de limpieza: texto general, tweets, productos y personas.

In [2]:
## Texto general
df_texto = pd.DataFrame(
    {
        "texto": [
            "  ¬°Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)  ",
            "Pandas > numpy? ü§î  Email: persona@example.com   ",
            "Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan",
            "Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123",
            "      TABLAS\t, \n espacios   y saltos de l√≠nea.\r\n",
            "Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44",
            "Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica",
            "Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",
        ]
    }
)

## Tweets
df_tweets = pd.DataFrame(
    {
        "tweet": [
            "RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python",
            "¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä",
            "Probando cosas en Jupyter... sin link ni hashtag",
            "@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml",
            "¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data",
        ]
    }
)

## Productos y precios
df_productos = pd.DataFrame(
    {
        "producto": [
            "Camisa talla M",
            "Pantal√≥n-XL",
            "Zapato, Talla: 42",
            "Blusa s",
            "Medias 10-12",
            "Polo Talla l",
            "Vestido - 36",
            "Sombrero (talla √önica)",
        ],
        "precio": [
            "$1.234,50",
            "USD 45",
            "30,00 ‚Ç¨",
            "25.000",
            "$ 0",
            "S/. 120.90",
            "COP 9.990",
            "AR$ 2.550,00",
        ],
    }
)

## Personas, respuestas y direcciones
df_personas = pd.DataFrame(
    {
        "nombre": [
            "ana Mar√≠a LOPEZ",
            "Juan  perez",
            "√ëand√∫   G√≥mez",
            "Miguel (Soporte)",
            "  M√ìNICA de la CRUZ  ",
            "luis-delgado",
        ],
        "categoria": ["S√≠", "si", "SI ", "No", "‚Äî", None],
        "direccion": [
            "Calle 45 # 12-34, Bogot√°",
            "Av. Siempre Viva 742 - Lima",
            "Cll. 10 No. 5-20 Medell√≠n",
            "Cra 7a # 45-60, Bogot√°",
            "Av. 9 #12-34  Cali",
            "Av. Insurgentes Sur 1234, CDMX",
        ],
        "id_raw": ["abc-0001", "abc 001", "ABC0002", "Abc_003", "abc-00004", "ABC-0005"],
    }
)

## Inspecci√≥n r√°pida

- Explora los cuatro DataFrames
- Identifica qu√© columnas requieren **limpieza textual** y por qu√© (espacios, acentos, emojis, URLs, etc.).
- Escribe un breve comentario (como comentario en la celda) con tus observaciones.

In [None]:
# Copie su c√≥digo aca


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   texto   8 non-null      object
dtypes: object(1)
memory usage: 196.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   tweet   5 non-null      object
dtypes: object(1)
memory usage: 172.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   producto  8 non-null      object
 1   precio    8 non-null      object
dtypes: object(2)
memory usage: 260.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nombre     6 n

## 1) Normaliza a min√∫sculas

En el DataFrame `df_texto`, crea una nueva columna `texto_min` que contenga el texto de la columna `texto` en min√∫sculas.

In [3]:
# Copie su c√≥digo aca
df_texto["texto_min"] = df_texto["texto"].str.lower()
print(df_texto[["texto", "texto_min"]])

                                               texto  \
0    ¬°Hola Mundo!!!  Esto es   un EJEMPLO: visita...   
1   Pandas > numpy? ü§î  Email: persona@example.com      
2  Me gusta el caf√© colombiano; es buen√≠simo!!! #...   
3  Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...   
4        TABLAS\t, \n espacios   y saltos de l√≠ne...   
5  Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...   
6  Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...   
7         Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶   

                                           texto_min  
0    ¬°hola mundo!!!  esto es   un ejemplo: visita...  
1   pandas > numpy? ü§î  email: persona@example.com     
2  me gusta el caf√© colombiano; es buen√≠simo!!! #...  
3  oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo:...  
4        tablas\t, \n espacios   y saltos de l√≠ne...  
5  tel√©fono: (57) 300-123-45-67; whatsapp +57 300...  
6  direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la...  
7  

Unnamed: 0,texto,texto_min
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),¬°hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,Pandas > numpy? ü§î Email: persona@example.com,pandas > numpy? ü§î email: persona@example.com
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan,me gusta el caf√© colombiano; es buen√≠simo!!! #caf√© #colombia @juan
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123,oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo: a-123
4,"TABLAS\t, \n espacios y saltos de l√≠nea.\r\n","tablas\t, \n espacios y saltos de l√≠nea.\r\n"
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,tel√©fono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica,direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la am√©rica
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶","emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶"


## 2) Eliminar Espacios

Genera  la columna `texto_espacios` eliminando espacios al inicio/fin

In [4]:
# Copie su c√≥digo aca
df_texto["texto_espacios"] = df_texto["texto_min"].str.strip()
print(df_texto[["texto_min", "texto_espacios"]])

                                           texto_min  \
0    ¬°hola mundo!!!  esto es   un ejemplo: visita...   
1   pandas > numpy? ü§î  email: persona@example.com      
2  me gusta el caf√© colombiano; es buen√≠simo!!! #...   
3  oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo:...   
4        tablas\t, \n espacios   y saltos de l√≠ne...   
5  tel√©fono: (57) 300-123-45-67; whatsapp +57 300...   
6  direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la...   
7         emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶   

                                      texto_espacios  
0  ¬°hola mundo!!!  esto es   un ejemplo: visita h...  
1      pandas > numpy? ü§î  email: persona@example.com  
2  me gusta el caf√© colombiano; es buen√≠simo!!! #...  
3  oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo:...  
4         tablas\t, \n espacios   y saltos de l√≠nea.  
5  tel√©fono: (57) 300-123-45-67; whatsapp +57 300...  
6  direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la...  
7  

Unnamed: 0,texto_espacios,texto_min
0,¬°hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :),¬°hola mundo!!! esto es un ejemplo: visita https://miweb.com #datascience :)
1,pandas > numpy? ü§î email: persona@example.com,pandas > numpy? ü§î email: persona@example.com
2,me gusta el caf√© colombiano; es buen√≠simo!!! #caf√© #colombia @juan,me gusta el caf√© colombiano; es buen√≠simo!!! #caf√© #colombia @juan
3,oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo: a-123,oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo: a-123
4,"tablas\t, \n espacios y saltos de l√≠nea.","tablas\t, \n espacios y saltos de l√≠nea.\r\n"
5,tel√©fono: (57) 300-123-45-67; whatsapp +57 300 222 33 44,tel√©fono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6,direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la am√©rica,direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la am√©rica
7,"emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶","emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶"


## 3) Puntuaci√≥n

Crea `texto_sin_punct` removiendo puntuaci√≥n y s√≠mbolos, conservando letras y espacios.

In [5]:
# Copie su c√≥digo aca
import re
import unicodedata

# Configurar pandas para mostrar todo el texto sin truncamiento
pd.set_option("display.max_colwidth", None)  # No truncar columnas
pd.set_option("display.max_rows", None)  # Mostrar todas las filas
pd.set_option("display.width", None)  # No limitar ancho de pantalla


def limpiar_texto(texto):
    if pd.isna(texto):
        return texto

    # Normalizar texto
    texto = unicodedata.normalize("NFKC", texto)

    # Eliminar emojis y s√≠mbolos especiales
    patron_emoji = re.compile(
        "["
        "\U0001f600-\U0001f64f"  # emoticones
        "\U0001f300-\U0001f5ff"  # s√≠mbolos & pictogramas
        "\U0001f680-\U0001f6ff"  # s√≠mbolos de transporte & mapas
        "\U0001f1e0-\U0001f1ff"  # banderas
        "\U00002702-\U000027b0"  # s√≠mbolos varios
        "\U000024c2-\U0001f251"
        "]+",
        flags=re.UNICODE,
    )

    texto = patron_emoji.sub("", texto)

    # Eliminar signos de puntuaci√≥n
    texto = re.sub(r"[^\w\s]", " ", texto)

    # Eliminar espacios m√∫ltiples
    texto = re.sub(r"\s+", " ", texto).strip()

    return texto


# Aplicar la limpieza y mostrar resultados
df_texto["texto_sin_punct"] = df_texto["texto_min"].apply(limpiar_texto)
print(df_texto[["texto_min", "texto_sin_punct"]])

                                                                              texto_min  \
0    ¬°hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)     
1                                      pandas > numpy? ü§î  email: persona@example.com      
2                    me gusta el caf√© colombiano; es buen√≠simo!!! #caf√© #colombia @juan   
3                                  oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo: a-123   
4                                        tablas\t, \n espacios   y saltos de l√≠nea.\r\n   
5                              tel√©fono: (57) 300-123-45-67; whatsapp +57 300 222 33 44   
6                                direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la am√©rica   
7                                            emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶   

                                                    texto_sin_punct  
0  hola mundo esto es un ejemplo visita https miweb com datascience  

0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el caf√© colombiano es buen√≠simo caf√© colombia juan
3                          oferta 3x2 en jab√≥n l√≠quido 500ml  c√≥digo a123
4                                tablas\t \n espacios   y saltos de l√≠nea
5                        tel√©fono 57 3001234567 whatsapp 57 300 222 33 44
6                        direcci√≥n cll 10  520 medell√≠n barrio la am√©rica
7                                           emoji test  s√≠mbolos  y otros
Name: texto_sin_punct, dtype: object

## 4) Acentos

Elimina los acentos de las vocales del texto `df_texto` y gr√°balo en una nueva columna `texto_sin_acentos`.

In [9]:
# Copie su c√≥digo aca
import unicodedata


def quitar_acentos(texto):
    if pd.isna(texto):
        return texto

    # Normalizar el texto (descomponer caracteres acentuados)
    texto = unicodedata.normalize("NFKD", texto)

    # Eliminar diacr√≠ticos (los acentos)
    texto = "".join([c for c in texto if not unicodedata.combining(c)])

    return texto


# Configurar pandas para mostrar todo el texto
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)
pd.set_option("display.width", None)

# Aplicar la funci√≥n y crear nueva columna
df_texto["texto_sin_acentos"] = df_texto["texto_min"].apply(quitar_acentos)

# Mostrar resultado
print(df_texto[["texto_min", "texto_sin_acentos"]])

                                                                              texto_min  \
0    ¬°hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)     
1                                      pandas > numpy? ü§î  email: persona@example.com      
2                    me gusta el caf√© colombiano; es buen√≠simo!!! #caf√© #colombia @juan   
3                                  oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo: a-123   
4                                        tablas\t, \n espacios   y saltos de l√≠nea.\r\n   
5                              tel√©fono: (57) 300-123-45-67; whatsapp +57 300 222 33 44   
6                                direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la am√©rica   
7                                            emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶   

                                                                      texto_sin_acentos  
0    ¬°hola mundo!!!  esto es   un ejemplo: visit

0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el cafe colombiano es buenisimo cafe colombia juan
3                          oferta 3x2 en jabon liquido 500ml  codigo a123
4                                tablas\t \n espacios   y saltos de linea
5                        telefono 57 3001234567 whatsapp 57 300 222 33 44
6                        direccion cll 10  520 medellin barrio la america
7                                           emoji test  simbolos  y otros
Name: texto_sin_acentos, dtype: object

## 5) Emojis

Crear la columna `texto_sin_emoji` quitando emojis, pictogramas y s√≠mbolos gr√°ficos comunes.

In [12]:
# Copie su c√≥digo aca
import re


def quitar_emojis(texto):
    if pd.isna(texto):
        return texto

    # Patr√≥n para detectar emojis y s√≠mbolos usando rangos Unicode
    patron_emoji = re.compile(
        "["
        "\U0001f600-\U0001f64f"  # emoticones
        "\U0001f300-\U0001f5ff"  # s√≠mbolos & pictogramas
        "\U0001f680-\U0001f6ff"  # s√≠mbolos de transporte & mapas
        "\U0001f1e0-\U0001f1ff"  # banderas
        "\U00002702-\U000027b0"  # s√≠mbolos varios
        "\U0001f900-\U0001f9ff"  # s√≠mbolos suplementarios
        "\U00002600-\U000026ff"  # s√≠mbolos miscel√°neos
        "\u2600-\u26ff"  # s√≠mbolos varios
        "\u2700-\u27bf"  # s√≠mbolos de dibujo
        "\u3000-\u303f"  # s√≠mbolos CJK
        "\u3200-\u32ff"  # s√≠mbolos encerrados CJK
        "]+",
        flags=re.UNICODE,
    )

    # Reemplazar emojis y s√≠mbolos con espacio vac√≠o
    texto = patron_emoji.sub("", texto)

    # Eliminar espacios m√∫ltiples
    texto = re.sub(r"\s+", " ", texto).strip()

    return texto


# Configurar pandas para mostrar todo el texto
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)
pd.set_option("display.width", None)

# Aplicar la funci√≥n para quitar emojis y s√≠mbolos
df_texto["texto_sin_emoji"] = df_texto["texto_min"].apply(quitar_emojis)

# Mostrar resultado
print(df_texto[["texto_min", "texto_sin_emoji"]])

                                                                              texto_min  \
0    ¬°hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)     
1                                      pandas > numpy? ü§î  email: persona@example.com      
2                    me gusta el caf√© colombiano; es buen√≠simo!!! #caf√© #colombia @juan   
3                                  oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo: a-123   
4                                        tablas\t, \n espacios   y saltos de l√≠nea.\r\n   
5                              tel√©fono: (57) 300-123-45-67; whatsapp +57 300 222 33 44   
6                                direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la am√©rica   
7                                            emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶   

                                                               texto_sin_emoji  
0  ¬°hola mundo!!! esto es un ejemplo: visita https://miwe

0    ¬°hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)
1                                        pandas > numpy?   email: persona@example.com
2                  me gusta el caf√© colombiano; es buen√≠simo!!! #caf√© #colombia @juan
3                                oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo: a-123
4                                          tablas\t, \n espacios   y saltos de l√≠nea.
5                            tel√©fono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6                              direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la am√©rica
7                                               emoji test: Ô∏è‚Äç, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶
Name: texto_sin_emoji, dtype: object

## 6) Extrae emails y URLs

En `df_texto`, crea las columnas `email` y `urls` extrayendo emails y URLs del texto original.

**Patrones sugeridos:**
- Email: `[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+`
- URL: `https?://\S+`

In [13]:
# Copie su c√≥digo aca
import re

# Configurar pandas para mostrar todo el texto
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)
pd.set_option("display.width", None)


def extraer_emails(texto):
    if pd.isna(texto):
        return []
    # Patr√≥n para emails
    patron_email = r"[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+"
    return re.findall(patron_email, texto)


def extraer_urls(texto):
    if pd.isna(texto):
        return []
    # Patr√≥n para URLs
    patron_url = r"https?://\S+"
    return re.findall(patron_url, texto)


# Extraer emails y URLs
df_texto["emails"] = df_texto["texto_min"].apply(extraer_emails)
df_texto["urls"] = df_texto["texto_min"].apply(extraer_urls)

# Mostrar resultados
print(df_texto[["texto_min", "emails", "urls"]])

                                                                              texto_min  \
0    ¬°hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)     
1                                      pandas > numpy? ü§î  email: persona@example.com      
2                    me gusta el caf√© colombiano; es buen√≠simo!!! #caf√© #colombia @juan   
3                                  oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo: a-123   
4                                        tablas\t, \n espacios   y saltos de l√≠nea.\r\n   
5                              tel√©fono: (57) 300-123-45-67; whatsapp +57 300 222 33 44   
6                                direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la am√©rica   
7                                            emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶   

                  emails                 urls  
0                     []  [https://miweb.com]  
1  [persona@example.com]                   

Unnamed: 0,texto,email,urls
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),[],[https://miweb.com]
1,Pandas > numpy? ü§î Email: persona@example.com,[persona@example.com],[]
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan,[],[]
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123,[],[]
4,"TABLAS\t, \n espacios y saltos de l√≠nea.\r\n",[],[]
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,[],[]
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica,[],[]
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",[],[]


## 7) Hashtags, menciones y URLs en tweets

En `df_tweets`, crea las columnas `hashtags`, `mentions` y `urls`
extrayendo hashtags, menciones y URLs del texto del tweet.

In [17]:
# Copie su c√≥digo aca
import re

# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)
pd.set_option("display.width", None)


def extraer_elementos_tweet(texto):
    if pd.isna(texto):
        return [], [], []

    # Patrones regex
    patron_hashtags = r"#[\w\d]+"
    patron_mentions = r"@[\w\d]+"
    patron_urls = r"https?://\S+"

    # Extraer elementos
    hashtags = re.findall(patron_hashtags, texto)
    mentions = re.findall(patron_mentions, texto)
    urls = re.findall(patron_urls, texto)

    return hashtags, mentions, urls


# Aplicar la funci√≥n y crear nuevas columnas
df_tweets[["hashtags", "mentions", "urls"]] = (
    df_tweets["tweet"].apply(extraer_elementos_tweet).apply(pd.Series)
)

# Mostrar resultado
print(df_tweets[["tweet", "hashtags", "mentions", "urls"]])

                                                                         tweet  \
0  RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python   
1       ¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä   
2                             Probando cosas en Jupyter... sin link ni hashtag   
3             @juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml   
4                    ¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data   

            hashtags         mentions                          urls  
0    [#nlp, #python]         [@maria]  [http://blog.com/post?id=45]  
1  [#datos, #Python]  [@data_science]         [https://example.org]  
2                 []               []                            []  
3        [#nlp, #ml]    [@juan, @ana]           [https://cursos.ai]  
4            [#data]               []            [https://foro.com]  


Unnamed: 0,tweet,hashtags,mentions,urls
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45]
1,¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä,"[#datos, #Python]",[@data_science],[https://example.org]
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[]
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai]
4,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data,[#data],[],[https://foro.com]


## 8) ¬øEs retuit? Limpia el prefijo

Crea la columna `es_rt` (booleano) si el tweet comienza con `RT`. Luego genera la columna `tweet_sin_rt` quitando el prefijo `RT @usuario:` del inicio.

In [19]:
# Copie su c√≥digo aca
import re

# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)
pd.set_option("display.width", None)


def procesar_rt(tweet):
    if pd.isna(tweet):
        return False, tweet

    # Verificar si es RT
    es_rt = tweet.strip().startswith("RT ")

    if es_rt:
        # Eliminar el prefijo "RT @usuario:" usando regex
        tweet_limpio = re.sub(r"^RT\s+@\w+:\s*", "", tweet)
    else:
        tweet_limpio = tweet

    return es_rt, tweet_limpio


# Aplicar la funci√≥n y crear nuevas columnas
df_tweets[["es_rt", "tweet_sin_rt"]] = (
    df_tweets["tweet"].apply(procesar_rt).apply(pd.Series)
)

# Reordenar las columnas seg√∫n la estructura solicitada
columnas = ["tweet", "hashtags", "mentions", "urls", "es_rt", "tweet_sin_rt"]
df_tweets = df_tweets[columnas]

# Mostrar resultado
print(df_tweets)

                                                                         tweet  \
0  RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python   
1       ¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä   
2                             Probando cosas en Jupyter... sin link ni hashtag   
3             @juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml   
4                    ¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data   

            hashtags         mentions                          urls  es_rt  \
0    [#nlp, #python]         [@maria]  [http://blog.com/post?id=45]   True   
1  [#datos, #Python]  [@data_science]         [https://example.org]  False   
2                 []               []                            []  False   
3        [#nlp, #ml]    [@juan, @ana]           [https://cursos.ai]  False   
4            [#data]               []            [https://foro.com]  False   

                            

Unnamed: 0,tweet,hashtags,mentions,urls,es_rt,tweet_sin_rt
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45],True,Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python
1,¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä,"[#datos, #Python]",[@data_science],[https://example.org],False,¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[],False,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai],False,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml
4,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data,[#data],[],[https://foro.com],False,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data


## 9) `tweet_limpio`

Crea `tweet_limpio` removiendo URLs, menciones y hashtags; adem√°s, elimina la puntuaci√≥n sobrante, quita espacios y pasa a min√∫sculas.

In [21]:
# Copie su c√≥digo aca
import re


def limpiar_tweet(tweet):
    if pd.isna(tweet):
        return tweet

    # Convertir a min√∫sculas
    tweet = tweet.lower()

    # Quitar RT y @usuario: del inicio
    tweet = re.sub(r"^rt\s+@\w+:\s*", "", tweet)

    # Quitar URLs
    tweet = re.sub(r"https?://\S+", "", tweet)

    # Quitar menciones
    tweet = re.sub(r"@\w+", "", tweet)

    # Quitar hashtags
    tweet = re.sub(r"#\w+", "", tweet)

    # Quitar puntuaci√≥n (mantener solo letras, n√∫meros y espacios)
    tweet = re.sub(r"[^\w\s]", " ", tweet)

    # Normalizar espacios (eliminar m√∫ltiples espacios y espacios al inicio/fin)
    tweet = re.sub(r"\s+", " ", tweet).strip()

    return tweet


# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)
pd.set_option("display.width", None)

# Crear columna tweet_limpio
df_tweets["tweet_limpio"] = df_tweets["tweet"].apply(limpiar_tweet)

# Mostrar resultado
print(df_tweets[["tweet", "tweet_limpio"]])

                                                                         tweet  \
0  RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python   
1       ¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä   
2                             Probando cosas en Jupyter... sin link ni hashtag   
3             @juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml   
4                    ¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data   

                                    tweet_limpio  
0                          nuevo post en el blog  
1                              me encanta pandas  
2  probando cosas en jupyter sin link ni hashtag  
3                     y lanzaron curso de nlp en  
4                 pandas o polars deb√°tanlo aqu√≠  


Unnamed: 0,tweet,tweet_limpio
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,nuevo post en el blog
1,¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä,me encanta pandas
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,y lanzaron curso de nlp en
4,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data,pandas o polars deb√°tanlo aqu√≠


## 10) Talla en `df_productos`

Extrae y estandariza la talla:
- Letras: `XS, S, M, L, XL, XXL`, o `TU` (talla √∫nica).
- N√∫meros: captura como `talla_num`.
Crea la columna`talla_std` (letras) y `talla_num` (num√©rica).

In [24]:
# Copie su c√≥digo aca
import re


def extraer_talla(producto):
    if pd.isna(producto):
        return None, None

    # Convertir a may√∫sculas para estandarizar
    producto = producto.upper()

    # Patrones para tallas
    patron_letra = r"\b(XS|S|M|L|XL|XXL|UNICA|√öNICA)\b"
    patron_numero = r"\b\d+(?:\-\d+)?\b"

    # Buscar tallas por letra
    talla_letra = re.search(patron_letra, producto)
    if talla_letra:
        talla = talla_letra.group()
        # Estandarizar "UNICA/√öNICA" a "TU"
        if talla in ["UNICA", "√öNICA"]:
            return "TU", None
        return talla, None

    # Buscar tallas num√©ricas
    talla_num = re.search(patron_numero, producto)
    if talla_num:
        num = talla_num.group()
        # Si es un rango (ej: 10-12), tomar el primer n√∫mero
        if "-" in num:
            num = num.split("-")[0]
        return None, int(num)

    return None, None


# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)

# Aplicar la funci√≥n y crear nuevas columnas
df_productos[["talla_std", "talla_num"]] = (
    df_productos["producto"].apply(extraer_talla).apply(pd.Series)
)

# Mostrar resultado
print(df_productos[["producto","precio", "talla_std", "talla_num"]])

                 producto        precio talla_std  talla_num
0          Camisa talla M     $1.234,50         M        NaN
1             Pantal√≥n-XL        USD 45        XL        NaN
2       Zapato, Talla: 42       30,00 ‚Ç¨       NaN       42.0
3                 Blusa s        25.000         S        NaN
4            Medias 10-12           $ 0       NaN       10.0
5            Polo Talla l    S/. 120.90         L        NaN
6            Vestido - 36     COP 9.990       NaN       36.0
7  Sombrero (talla √önica)  AR$ 2.550,00        TU        NaN


Unnamed: 0,producto,precio,talla_std,talla_num
0,Camisa talla M,"$1.234,50",M,
1,Pantal√≥n-XL,USD 45,XL,
2,"Zapato, Talla: 42","30,00 ‚Ç¨",,42.0
3,Blusa s,25.000,S,
4,Medias 10-12,$ 0,,10.0
5,Polo Talla l,S/. 120.90,L,
6,Vestido - 36,COP 9.990,,36.0
7,Sombrero (talla √önica),"AR$ 2.550,00",TU,


## 11) Extraer de precios

Convierte la columna `precio` a num√©rico (`precio_num`) independiente del formato (`$1.234,50`, `USD 45`, `30,00 ‚Ç¨`, `COP 9.990`, etc.).

In [25]:
# Copie su c√≥digo aca
import re


def convertir_precio(precio):
    if pd.isna(precio):
        return None

    # Convertir a string y limpiar
    precio = str(precio)

    # Extraer solo los n√∫meros y posible punto/coma decimal
    nums = re.findall(r"[\d.,]+", precio)
    if not nums:
        return None

    # Tomar el √∫ltimo n√∫mero encontrado (por si hay c√≥digos/cantidades antes)
    num = nums[-1]

    # Normalizar separadores
    if "," in num and "." in num:
        # Formato 1.234,56
        num = num.replace(".", "").replace(",", ".")
    elif "," in num:
        # Formato 1,234 o 1,23
        if len(num.split(",")[1]) == 2:
            # Es decimal (1,23)
            num = num.replace(",", ".")
        else:
            # Es separador de miles (1,234)
            num = num.replace(",", "")

    # Convertir a float
    try:
        return float(num)
    except:
        return None


# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)

# Convertir precios
df_productos["precio_num"] = df_productos["precio"].apply(convertir_precio)

# Mostrar resultado
print(
    df_productos[["producto", "precio", "talla_std", "talla_num", "precio_num"]]
)

                 producto        precio talla_std  talla_num  precio_num
0          Camisa talla M     $1.234,50         M        NaN     1234.50
1             Pantal√≥n-XL        USD 45        XL        NaN       45.00
2       Zapato, Talla: 42       30,00 ‚Ç¨       NaN       42.0       30.00
3                 Blusa s        25.000         S        NaN       25.00
4            Medias 10-12           $ 0       NaN       10.0        0.00
5            Polo Talla l    S/. 120.90         L        NaN      120.90
6            Vestido - 36     COP 9.990       NaN       36.0        9.99
7  Sombrero (talla √önica)  AR$ 2.550,00        TU        NaN     2550.00


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantal√≥n-XL,USD 45,XL,,45.0
2,"Zapato, Talla: 42","30,00 ‚Ç¨",,42.0,30.0
3,Blusa s,25.000,S,,25.0
4,Medias 10-12,$ 0,,10.0,0.0
5,Polo Talla l,S/. 120.90,L,,
6,Vestido - 36,COP 9.990,,36.0,9.99
7,Sombrero (talla √önica),"AR$ 2.550,00",TU,,2550.0


## 12) Filtrado por texto

Filtra el DataFrame `df_productos` para mostrar solo filas cuyo `producto` contenga **camisa** o **pantal√≥n**, ignorando acentos y may√∫sculas/min√∫sculas.

In [26]:
# Copie su c√≥digo aca
import unicodedata
import re


def quitar_acentos(texto):
    if pd.isna(texto):
        return texto

    # Normalizar texto y quitar acentos
    texto = unicodedata.normalize("NFKD", texto)
    texto = "".join([c for c in texto if not unicodedata.combining(c)])

    return texto.lower()


# Aplicar limpieza y filtrado
df_filtrado = df_productos.copy()
df_filtrado["producto_norm"] = df_filtrado["producto"].apply(quitar_acentos)

# Filtrar productos que contengan 'camisa' o 'pantalon'
mascara = df_filtrado["producto_norm"].str.contains(
    "camisa|pantalon", regex=True, na=False
)
df_filtrado = df_filtrado[mascara]

# Mostrar resultado sin la columna temporal
print(df_filtrado[["producto", "precio", "talla_std", "talla_num", "precio_num"]])

         producto     precio talla_std  talla_num  precio_num
0  Camisa talla M  $1.234,50         M        NaN      1234.5
1     Pantal√≥n-XL     USD 45        XL        NaN        45.0


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantal√≥n-XL,USD 45,XL,,45.0


## 13) Limpieza de nombres propios

En el DataFrame `df_personas`, crea `nombre_limpio` en `df_personas`:
- Quita par√©ntesis y su contenido.
- Reemplaza guiones por espacio y elimina espacios extra.
- Aplica *title case* y conserva conectores (`de`, `del`, `la`, `y`) en min√∫scula.

In [27]:
# Copie su c√≥digo aca
import re


def limpiar_nombre(nombre):
    if pd.isna(nombre):
        return nombre

    # Lista de conectores que deben permanecer en min√∫scula
    conectores = ["de", "del", "la", "y"]

    # Quitar par√©ntesis y su contenido
    nombre = re.sub(r"\([^)]*\)", "", nombre)

    # Reemplazar guiones por espacios
    nombre = nombre.replace("-", " ")

    # Eliminar espacios m√∫ltiples y espacios al inicio/fin
    nombre = re.sub(r"\s+", " ", nombre).strip()

    # Aplicar title case
    palabras = nombre.title().split()

    # Poner conectores en min√∫scula
    palabras = [
        palabra.lower() if palabra.lower() in conectores else palabra
        for palabra in palabras
    ]

    # Unir palabras
    return " ".join(palabras)


# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)

# Crear columna nombre_limpio
df_personas["nombre_limpio"] = df_personas["nombre"].apply(limpiar_nombre)

# Mostrar resultado
print(df_personas[["nombre", "nombre_limpio"]])

                  nombre      nombre_limpio
0        ana Mar√≠a LOPEZ    Ana Mar√≠a Lopez
1            Juan  perez         Juan Perez
2          √ëand√∫   G√≥mez        √ëand√∫ G√≥mez
3       Miguel (Soporte)             Miguel
4    M√ìNICA de la CRUZ    M√≥nica de la Cruz
5           luis-delgado       Luis Delgado


0      Ana Mar√≠a Lopez
1           Juan Perez
2          √ëand√∫ G√≥mez
3               Miguel
4    M√≥nica de la Cruz
5         Luis Delgado
Name: nombre_limpio, dtype: object

## 14) Normaliza respuestas categ√≥ricas

En el DataFrame `df_personas`, convierte `categoria` en booleano `categoria_bool` donde cualquier variante de **s√≠** (con/ sin tilde) sea `True`; el resto `False`.

In [30]:
# Copie su c√≥digo aca
import re
import unicodedata


def normalizar_si(texto):
    if pd.isna(texto):
        return False

    # Convertir a string, quitar espacios y convertir a min√∫sculas
    texto = str(texto).strip().lower()

    # Normalizar quitando acentos
    texto = unicodedata.normalize("NFKD", texto)
    texto = "".join([c for c in texto if not unicodedata.combining(c)])

    # Verificar si es alguna variante de "s√≠"
    return texto in ["si", "s", "yes", "true"]


# Aplicar la funci√≥n para crear columna booleana
df_personas["categoria_bool"] = df_personas["categoria"].apply(normalizar_si)

# Mostrar resultado
print(df_personas[["nombre", "categoria","direccion","id_raw","nombre_limpio", "categoria_bool"]])

                  nombre categoria                       direccion     id_raw  \
0        ana Mar√≠a LOPEZ        S√≠        Calle 45 # 12-34, Bogot√°   abc-0001   
1            Juan  perez        si     Av. Siempre Viva 742 - Lima    abc 001   
2          √ëand√∫   G√≥mez       SI        Cll. 10 No. 5-20 Medell√≠n    ABC0002   
3       Miguel (Soporte)        No          Cra 7a # 45-60, Bogot√°    Abc_003   
4    M√ìNICA de la CRUZ           ‚Äî              Av. 9 #12-34  Cali  abc-00004   
5           luis-delgado      None  Av. Insurgentes Sur 1234, CDMX   ABC-0005   

       nombre_limpio  categoria_bool  
0    Ana Mar√≠a Lopez            True  
1         Juan Perez            True  
2        √ëand√∫ G√≥mez            True  
3             Miguel           False  
4  M√≥nica de la Cruz           False  
5       Luis Delgado           False  


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool
0,ana Mar√≠a LOPEZ,S√≠,"Calle 45 # 12-34, Bogot√°",abc-0001,Ana Mar√≠a Lopez,True
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True
2,√ëand√∫ G√≥mez,SI,Cll. 10 No. 5-20 Medell√≠n,ABC0002,√ëand√∫ G√≥mez,True
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogot√°",Abc_003,Miguel,False
4,M√ìNICA de la CRUZ,‚Äî,Av. 9 #12-34 Cali,abc-00004,M√≥nica de la Cruz,False
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False


## 15) Ciudad desde la direcci√≥n

En el DataFrame `df_personas`, Extrae la **ciudad** en una columna `ciudad`

In [31]:
# Copie su c√≥digo aca
import re


def extraer_ciudad(direccion):
    if pd.isna(direccion):
        return None

    # Lista de ciudades conocidas
    ciudades = ["Bogot√°", "Medell√≠n", "Cali", "Lima", "CDMX"]

    # Normalizar texto: quitar tildes y convertir a t√≠tulo
    texto = direccion.title()

    # Buscar la √∫ltima palabra despu√©s de una coma o el √∫ltimo elemento
    for ciudad in ciudades:
        if ciudad.title() in texto:
            return ciudad

    # Si no encuentra ciudad, buscar √∫ltima palabra despu√©s de coma
    partes = texto.split(",")
    if len(partes) > 1:
        return partes[-1].strip()

    return None


# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)

# Extraer ciudad
df_personas["ciudad"] = df_personas["direccion"].apply(extraer_ciudad)

# Mostrar resultado con todas las columnas solicitadas
print(
    df_personas[
        [
            "nombre",
            "categoria",
            "direccion",
            "id_raw",
            "nombre_limpio",
            "categoria_bool",
            "ciudad",
        ]
    ]
)

                  nombre categoria                       direccion     id_raw  \
0        ana Mar√≠a LOPEZ        S√≠        Calle 45 # 12-34, Bogot√°   abc-0001   
1            Juan  perez        si     Av. Siempre Viva 742 - Lima    abc 001   
2          √ëand√∫   G√≥mez       SI        Cll. 10 No. 5-20 Medell√≠n    ABC0002   
3       Miguel (Soporte)        No          Cra 7a # 45-60, Bogot√°    Abc_003   
4    M√ìNICA de la CRUZ           ‚Äî              Av. 9 #12-34  Cali  abc-00004   
5           luis-delgado      None  Av. Insurgentes Sur 1234, CDMX   ABC-0005   

       nombre_limpio  categoria_bool    ciudad  
0    Ana Mar√≠a Lopez            True    Bogot√°  
1         Juan Perez            True      Lima  
2        √ëand√∫ G√≥mez            True  Medell√≠n  
3             Miguel           False    Bogot√°  
4  M√≥nica de la Cruz           False      Cali  
5       Luis Delgado           False      CDMX  


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool,ciudad
0,ana Mar√≠a LOPEZ,S√≠,"Calle 45 # 12-34, Bogot√°",abc-0001,Ana Mar√≠a Lopez,True,Bogot√°
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True,Lima
2,√ëand√∫ G√≥mez,SI,Cll. 10 No. 5-20 Medell√≠n,ABC0002,√ëand√∫ G√≥mez,True,Medell√≠n
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogot√°",Abc_003,Miguel,False,Bogot√°
4,M√ìNICA de la CRUZ,‚Äî,Av. 9 #12-34 Cali,abc-00004,M√≥nica de la Cruz,False,Cali
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False,CDMX


## 16) Normaliza y valida IDs

En el DataFrame `df_personas`, a partir de `id_raw`, crea la columna `id_norm` con formato `ABC-0001` (tres letras + guion + 4 d√≠gitos) y `id_valido` (True/False).

In [33]:
# Copie su c√≥digo aca
import re


def normalizar_id(id_raw):
    if pd.isna(id_raw):
        return None, False

    # Convertir a may√∫sculas y quitar espacios
    id_clean = id_raw.upper().replace(" ", "")

    # Patr√≥n regex para extraer letras y n√∫meros
    letras = re.findall(r"[A-Z]+", id_clean)
    numeros = re.findall(r"\d+", id_clean)

    # Validar formato
    if not letras or not numeros:
        return None, False

    # Tomar primeras 3 letras
    letras = letras[0][:3]

    # Tomar √∫ltimos 4 d√≠gitos
    num = numeros[-1].zfill(4)[-4:]

    # Construir ID normalizado
    id_norm = f"{letras}-{num}"

    # Validar formato final
    es_valido = bool(re.match(r"^[A-Z]{3}-\d{4}$", id_norm))

    return id_norm, es_valido


# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)

# Aplicar normalizaci√≥n
df_personas[["id_norm", "id_valido"]] = (
    df_personas["id_raw"].apply(normalizar_id).apply(pd.Series)
)

# Mostrar resultado con todas las columnas
print(
    df_personas[
        [
            "id_raw",
            "id_norm",
            "id_valido",
        ]
    ]
)

      id_raw   id_norm  id_valido
0   abc-0001  ABC-0001       True
1    abc 001  ABC-0001       True
2    ABC0002  ABC-0002       True
3    Abc_003  ABC-0003       True
4  abc-00004  ABC-0004       True
5   ABC-0005  ABC-0005       True


Unnamed: 0,id_raw,id_norm,id_valido
0,abc-0001,ABC-0001,True
1,abc 001,ABC-0001,True
2,ABC0002,ABC-0002,True
3,Abc_003,ABC-0003,True
4,abc-00004,ABC-0004,True
5,ABC-0005,ABC-0005,True


## 17) Mini *pipeline* de limpieza general

Escribe una funci√≥n `limpia_basica(s)` que: ponga el texto en minuscula, quite acentos, URLs, menciones y hashtags, puntuaci√≥n, d√≠gitos y colapse espacios. Apl√≠cala a `df_texto['texto']` y guarda en `texto_limpio_final`.

In [37]:
# Copie su c√≥digo aca
import re
import unicodedata


def limpia_basica(s):
    if pd.isna(s):
        return s

    # Convertir a min√∫sculas
    s = s.lower()

    # Quitar acentos/tildes
    s = unicodedata.normalize("NFKD", s)
    s = "".join([c for c in s if not unicodedata.combining(c)])

    # Quitar URLs
    s = re.sub(r"https?://\S+", " ", s)

    # Quitar hashtags
    s = re.sub(r"#\w+", " ", s)

    # Quitar menciones
    s = re.sub(r"@\w+", " ", s)

    # Quitar s√≠mbolos especiales (¬©¬Æ‚Ñ¢) y puntuaci√≥n
    s = re.sub(r"[¬©¬Æ‚Ñ¢]", " ", s)  # Primero eliminamos los s√≠mbolos especiales
    s = re.sub(r"[^\w\s]", " ", s)  # Luego el resto de la puntuaci√≥n

    # Quitar d√≠gitos
    s = re.sub(r"\d+", " ", s)

    # Colapsar espacios m√∫ltiples y eliminar espacios inicio/fin
    s = re.sub(r"\s+", " ", s).strip()

    return s


# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)
pd.set_option("display.width", None)

# Aplicar limpieza y crear nueva columna
df_texto["texto_limpio_final"] = df_texto["texto"].apply(limpia_basica)

# Mostrar resultado
print(df_texto[["texto", "texto_limpio_final"]])

                                                                                  texto  \
0    ¬°Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)     
1                                      Pandas > numpy? ü§î  Email: persona@example.com      
2                    Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan   
3                                  Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123   
4                                        TABLAS\t, \n espacios   y saltos de l√≠nea.\r\n   
5                              Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44   
6                                Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica   
7                                            Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶   

                         texto_limpio_final  
0      hola mundo esto es un ejemplo visita  
1            pandas numpy email persona com  
2

Unnamed: 0,texto,texto_limpio_final
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),hola mundo esto es un ejemplo visita
1,Pandas > numpy? ü§î Email: persona@example.com,pandas numpy email persona com
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan,me gusta el cafe colombiano es buenisimo
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123,oferta x en jabon liquido ml codigo a
4,"TABLAS\t, \n espacios y saltos de l√≠nea.\r\n",tablas espacios y saltos de linea
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,telefono whatsapp
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica,direccion cll medellin barrio la america
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",emoji test simbolos y otros


## 18)¬øQu√© tanto cambi√≥ el texto?

En el dataframe `df_texto`, 

Cual es la diferencia entre la longitud original (`len_raw`) y la longitud tras la limpieza (`len_clean`)?

In [39]:
# Copie su c√≥digo aca
# Calcular longitudes
df_texto["len_raw"] = df_texto["texto"].str.len()
df_texto["len_clean"] = df_texto["texto_limpio_final"].str.len()

# Calcular diferencia
df_texto["diff_len"] = df_texto["len_raw"] - df_texto["len_clean"]

# Configurar visualizaci√≥n de pandas
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)

# Mostrar resultados
print("\nComparaci√≥n de longitudes:")
print(df_texto[["texto", "texto_limpio_final", "len_raw", "len_clean", "diff_len"]])



Comparaci√≥n de longitudes:
                                                                                  texto  \
0    ¬°Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)     
1                                      Pandas > numpy? ü§î  Email: persona@example.com      
2                    Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan   
3                                  Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123   
4                                        TABLAS\t, \n espacios   y saltos de l√≠nea.\r\n   
5                              Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44   
6                                Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica   
7                                            Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶   

                         texto_limpio_final  len_raw  len_clean  diff_len  
0      hola mundo esto es un ejemp

Unnamed: 0,texto,texto_limpio_final,len_raw,len_clean
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),hola mundo esto es un ejemplo visita,84,36
1,Pandas > numpy? ü§î Email: persona@example.com,pandas numpy email persona com,48,30
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan,me gusta el cafe colombiano es buenisimo,66,40
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123,oferta x en jabon liquido ml codigo a,52,37
4,"TABLAS\t, \n espacios y saltos de l√≠nea.\r\n",tablas espacios y saltos de linea,48,33
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,telefono whatsapp,56,17
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica,direccion cll medellin barrio la america,54,40
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",emoji test simbolos y otros,42,27


### Guardar de resultados

Guarda el dataframe df_texto en parquet con `df_texto.to_parquet('archivo.parquet', index=False)`.

**Phd. Jose R. Zapata**
- [https://joserzapata.github.io/](https://joserzapata.github.io/)
- [https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/](https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/)