#  Practica de limpieza de texto con pandas - Soluci√≥n

#### Por Jose R. Zapata - https://joserzapata.github.io/


> **Objetivo**: practicar m√©todos de `pandas.Series.str` para limpiar y normalizar texto en DataFrames.
> Cada ejercicio incluye un **Enunciado** y una celda donde se ve el resultado de la soluci√≥n.



**Referencias:**
- Procesamiento b√°sico de texto (curso de NLP): https://joserzapata.github.io/courses/nlp/procesamiento-basico/
- Documentaci√≥n de `pandas.Series.str`: https://pandas.pydata.org/docs/reference/series.html#string-handling


## Instalaci√≥n de dependencias

instala e importa las librerias que necesites para ejecutar los ejercicios, por ejemplo para instalar Jupyter usa:

```bash
uv add jupyter
```


In [1]:
# Copie su c√≥digo aca
import pandas as pd

In [3]:
import pandas as pd

## Conjuntos de datos de juguete
Creamos 4 DataFrames para practicar distintas tareas de limpieza: texto general, tweets, productos y personas.

In [4]:
## Texto general
df_texto = pd.DataFrame(
    {
        "texto": [
            "  ¬°Hola Mundo!!!  Esto es   un EJEMPLO: visita https://miweb.com  #DataScience  :)  ",
            "Pandas > numpy? ü§î  Email: persona@example.com   ",
            "Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan",
            "Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123",
            "      TABLAS\t, \n espacios   y saltos de l√≠nea.\r\n",
            "Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44",
            "Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica",
            "Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",
        ]
    }
)

## Tweets
df_tweets = pd.DataFrame(
    {
        "tweet": [
            "RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python",
            "¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä",
            "Probando cosas en Jupyter... sin link ni hashtag",
            "@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml",
            "¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data",
        ]
    }
)

## Productos y precios
df_productos = pd.DataFrame(
    {
        "producto": [
            "Camisa talla M",
            "Pantal√≥n-XL",
            "Zapato, Talla: 42",
            "Blusa s",
            "Medias 10-12",
            "Polo Talla l",
            "Vestido - 36",
            "Sombrero (talla √önica)",
        ],
        "precio": [
            "$1.234,50",
            "USD 45",
            "30,00 ‚Ç¨",
            "25.000",
            "$ 0",
            "S/. 120.90",
            "COP 9.990",
            "AR$ 2.550,00",
        ],
    }
)

## Personas, respuestas y direcciones
df_personas = pd.DataFrame(
    {
        "nombre": [
            "ana Mar√≠a LOPEZ",
            "Juan  perez",
            "√ëand√∫   G√≥mez",
            "Miguel (Soporte)",
            "  M√ìNICA de la CRUZ  ",
            "luis-delgado",
        ],
        "categoria": ["S√≠", "si", "SI ", "No", "‚Äî", None],
        "direccion": [
            "Calle 45 # 12-34, Bogot√°",
            "Av. Siempre Viva 742 - Lima",
            "Cll. 10 No. 5-20 Medell√≠n",
            "Cra 7a # 45-60, Bogot√°",
            "Av. 9 #12-34  Cali",
            "Av. Insurgentes Sur 1234, CDMX",
        ],
        "id_raw": ["abc-0001", "abc 001", "ABC0002", "Abc_003", "abc-00004", "ABC-0005"],
    }
)

In [5]:
print(df_texto)

                                               texto
0    ¬°Hola Mundo!!!  Esto es   un EJEMPLO: visita...
1   Pandas > numpy? ü§î  Email: persona@example.com   
2  Me gusta el caf√© colombiano; es buen√≠simo!!! #...
3  Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...
4        TABLAS\t, \n espacios   y saltos de l√≠ne...
5  Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...
6  Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...
7         Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶


## Inspecci√≥n r√°pida

- Explora los cuatro DataFrames
- Identifica qu√© columnas requieren **limpieza textual** y por qu√© (espacios, acentos, emojis, URLs, etc.).
- Escribe un breve comentario (como comentario en la celda) con tus observaciones.

In [6]:
# Copie su c√≥digo aca
print(df_texto)
print(df_tweets)
print(df_productos)
print(df_personas)


                                               texto
0    ¬°Hola Mundo!!!  Esto es   un EJEMPLO: visita...
1   Pandas > numpy? ü§î  Email: persona@example.com   
2  Me gusta el caf√© colombiano; es buen√≠simo!!! #...
3  Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...
4        TABLAS\t, \n espacios   y saltos de l√≠ne...
5  Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...
6  Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...
7         Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶
                                               tweet
0  RT @maria: Nuevo post en el blog -> http://blo...
1  ¬°Me encanta Pandas! #datos #Python https://exa...
2   Probando cosas en Jupyter... sin link ni hashtag
3  @juan y @ana lanzaron curso de NLP en https://...
4  ¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://for...
                 producto        precio
0          Camisa talla M     $1.234,50
1             Pantal√≥n-XL        USD 45
2       Zapato, Talla: 42       30,00 

In [9]:
print(type(df_texto))
df_texto.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   texto   8 non-null      object
dtypes: object(1)
memory usage: 1.3 KB


## 1) Normaliza a min√∫sculas

En el DataFrame `df_texto`, crea una nueva columna `texto_min` que contenga el texto de la columna `texto` en min√∫sculas.

In [7]:
# Copie su c√≥digo aca
df_texto["texto_min"] = df_texto["texto"].astype(str).str.lower()

df_texto[["texto", "texto_min"]]

Unnamed: 0,texto,texto_min
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita...,¬°hola mundo!!! esto es un ejemplo: visita...
1,Pandas > numpy? ü§î Email: persona@example.com,pandas > numpy? ü§î email: persona@example.com
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #...,me gusta el caf√© colombiano; es buen√≠simo!!! #...
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...,oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo:...
4,"TABLAS\t, \n espacios y saltos de l√≠ne...","tablas\t, \n espacios y saltos de l√≠ne..."
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...,tel√©fono: (57) 300-123-45-67; whatsapp +57 300...
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...,direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la...
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶","emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶"


Unnamed: 0,texto,texto_min
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita...,¬°hola mundo!!! esto es un ejemplo: visita...
1,Pandas > numpy? ü§î Email: persona@example.com,pandas > numpy? ü§î email: persona@example.com
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #...,me gusta el caf√© colombiano; es buen√≠simo!!! #...
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...,oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo:...
4,"TABLAS\t, \n espacios y saltos de l√≠ne...","tablas\t, \n espacios y saltos de l√≠ne..."
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...,tel√©fono: (57) 300-123-45-67; whatsapp +57 300...
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...,direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la...
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶","emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶"


## 2) Eliminar Espacios

Genera  la columna `texto_espacios` eliminando espacios al inicio/fin

In [9]:
# Copie su c√≥digo aca
df_texto["texto_espacios"] = df_texto["texto"].astype(str).str.strip()
df_texto[["texto_min", "texto_espacios"]]


Unnamed: 0,texto_min,texto_espacios
0,¬°hola mundo!!! esto es un ejemplo: visita...,¬°Hola Mundo!!! Esto es un EJEMPLO: visita h...
1,pandas > numpy? ü§î email: persona@example.com,Pandas > numpy? ü§î Email: persona@example.com
2,me gusta el caf√© colombiano; es buen√≠simo!!! #...,Me gusta el caf√© colombiano; es buen√≠simo!!! #...
3,oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo:...,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...
4,"tablas\t, \n espacios y saltos de l√≠ne...","TABLAS\t, \n espacios y saltos de l√≠nea."
5,tel√©fono: (57) 300-123-45-67; whatsapp +57 300...,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...
6,direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la...,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...
7,"emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶","Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶"


Unnamed: 0,texto_min,texto_espacios
0,¬°hola mundo!!! esto es un ejemplo: visita...,¬°Hola Mundo!!! Esto es un EJEMPLO: visita h...
1,pandas > numpy? ü§î email: persona@example.com,Pandas > numpy? ü§î Email: persona@example.com
2,me gusta el caf√© colombiano; es buen√≠simo!!! #...,Me gusta el caf√© colombiano; es buen√≠simo!!! #...
3,oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo:...,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...
4,"tablas\t, \n espacios y saltos de l√≠ne...","TABLAS\t, \n espacios y saltos de l√≠nea."
5,tel√©fono: (57) 300-123-45-67; whatsapp +57 300...,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...
6,direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la...,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...
7,"emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶","Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶"


## 3) Puntuaci√≥n

Crea `texto_sin_punct` removiendo puntuaci√≥n y s√≠mbolos, conservando letras y espacios.

In [14]:
# Copie su c√≥digo aca
df_texto["texto_sin_punct"] = (
    df_texto["texto_min"]
    .astype(str)
    .str.replace(
        r"[^\w\s]", "", regex=True
    )  # quitar puntuaci√≥n/s√≠mbolos (mantiene letras, d√≠gitos y guiones bajos)
    .str.replace(r"\d+", "", regex=True)  # quitar d√≠gitos
    .str.replace(r"_", "", regex=True)  # quitar guion bajo si qued√≥
    .str.replace(r"\s+", " ", regex=True)  # colapsar espacios m√∫ltiples
    .str.strip()
)
print(df_texto["texto_sin_punct"])

0    hola mundo esto es un ejemplo visita httpsmiwe...
1                 pandas numpy email personaexamplecom
2    me gusta el caf√© colombiano es buen√≠simo caf√© ...
3                oferta x en jab√≥n l√≠quido ml c√≥digo a
4                    tablas espacios y saltos de l√≠nea
5                                    tel√©fono whatsapp
6             direcci√≥n cll medell√≠n barrio la am√©rica
7                          emoji test s√≠mbolos y otros
Name: texto_sin_punct, dtype: object


0    hola mundo  esto es   un ejemplo visita httpsmiwebcom  datascience  
1                                 pandas  numpy   email personaexamplecom
2             me gusta el caf√© colombiano es buen√≠simo caf√© colombia juan
3                          oferta 3x2 en jab√≥n l√≠quido 500ml  c√≥digo a123
4                                tablas\t \n espacios   y saltos de l√≠nea
5                        tel√©fono 57 3001234567 whatsapp 57 300 222 33 44
6                        direcci√≥n cll 10  520 medell√≠n barrio la am√©rica
7                                           emoji test  s√≠mbolos  y otros
Name: texto_sin_punct, dtype: object

## 4) Acentos

Elimina los acentos de las vocales del texto `df_texto` y gr√°balo en una nueva columna `texto_sin_acentos`.

In [16]:
# Copie su c√≥digo aca
df_texto["texto_sin_acentos"] = (
    df_texto["texto"]
    .astype(str)
    .str.replace(r"[√°√†√§√¢√£√•ƒÅ]", "a", regex=True)
    .str.replace(r"[√Å√Ä√Ñ√Ç√É√ÖƒÄ]", "A", regex=True)
    .str.replace(r"[√©√®√´√™ƒì]", "e", regex=True)
    .str.replace(r"[√â√à√ã√äƒí]", "E", regex=True)
    .str.replace(r"[√≠√¨√Ø√Æƒ´]", "i", regex=True)
    .str.replace(r"[√ç√å√è√éƒ™]", "I", regex=True)
    .str.replace(r"[√≥√≤√∂√¥√µ≈ç]", "o", regex=True)
    .str.replace(r"[√ì√í√ñ√î√ï≈å]", "O", regex=True)
    .str.replace(r"[√∫√π√º√ª≈´]", "u", regex=True)
    .str.replace(r"[√ö√ô√ú√õ≈™]", "U", regex=True)
    .astype(object)
)

# Mostrar la serie (ver√°s "Name: texto_sin_acentos, dtype: object")
print(df_texto["texto_sin_acentos"])

0      ¬°Hola Mundo!!!  Esto es   un EJEMPLO: visita...
1     Pandas > numpy? ü§î  Email: persona@example.com   
2    Me gusta el cafe colombiano; es buenisimo!!! #...
3    Oferta!!! 3x2 en jabon liquido 500ml - CODIGO:...
4          TABLAS\t, \n espacios   y saltos de line...
5    Telefono: (57) 300-123-45-67; Whatsapp +57 300...
6    Direccion: Cll 10 # 5-20; Medellin. Barrio: La...
7           Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, simbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶
Name: texto_sin_acentos, dtype: object


## 5) Emojis

Crear la columna `texto_sin_emoji` quitando emojis, pictogramas y s√≠mbolos gr√°ficos comunes.

In [21]:
# Copie su c√≥digo aca
# Crear texto_sin_emoji: eliminar emojis/pictogramas y s√≠mbolos gr√°ficos comunes
emoji_pattern = (
    r"[\U0001F300-\U0001F5FF"  # pictogramas
    r"\U0001F600-\U0001F64F"  # emoticonos
    r"\U0001F680-\U0001F6FF"  # transporte/s√≠mbolos
    r"\U0001F1E0-\U0001F1FF"  # banderas
    r"\U00002500-\U00002BEF"
    r"\U00002700-\U000027BF"
    r"\U0001F900-\U0001F9FF"
    r"\U0001FA70-\U0001FAFF"
    r"\U00002600-\U000026FF"
    r"\U00002300-\U000023FF"
    r"\uFE0F"  # variation selector
    r"\u200D"  # zero-width-joiner (para familias de emojis)
    r"]+"
)
df_texto["texto_sin_emoji"] = (
    df_texto["texto"]
    .astype(str)
    .str.replace(emoji_pattern, "", regex=True)
    .str.replace(r"[¬©¬Æ‚Ñ¢‚Ä¶¬∑‚Ä¢‚úî‚úñ¬™¬∫]", "", regex=True)  # quitar s√≠mbolos gr√°ficos comunes
    .str.replace(r"\s+", " ", regex=True)  # colapsar espacios
    .str.strip()
    .astype(object)
)
# Mostrar la serie (ver√°s "Name: texto_sin_emoji, dtype: object")
print(df_texto["texto_sin_emoji"])


0    ¬°Hola Mundo!!! Esto es un EJEMPLO: visita http...
1           Pandas > numpy? Email: persona@example.com
2    Me gusta el caf√© colombiano; es buen√≠simo!!! #...
3    Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...
4                 TABLAS , espacios y saltos de l√≠nea.
5    Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...
6    Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...
7                       Emoji test: , s√≠mbolos y otros
Name: texto_sin_emoji, dtype: object


0    ¬°hola mundo!!!  esto es   un ejemplo: visita https://miweb.com  #datascience  :)
1                                        pandas > numpy?   email: persona@example.com
2                  me gusta el caf√© colombiano; es buen√≠simo!!! #caf√© #colombia @juan
3                                oferta!!! 3x2 en jab√≥n l√≠quido 500ml - c√≥digo: a-123
4                                          tablas\t, \n espacios   y saltos de l√≠nea.
5                            tel√©fono: (57) 300-123-45-67; whatsapp +57 300 222 33 44
6                              direcci√≥n: cll 10 # 5-20; medell√≠n. barrio: la am√©rica
7                                               emoji test: Ô∏è‚Äç, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶
Name: texto_sin_emoji, dtype: object

## 6) Extrae emails y URLs

En `df_texto`, crea las columnas `email` y `urls` extrayendo emails y URLs del texto original.

**Patrones sugeridos:**
- Email: `[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+`
- URL: `https?://\S+`

In [25]:
# Copie su c√≥digo aca
# Extraer emails y URLs
email_pat = r"[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\.[A-Za-z0-9.-]+"
url_pat = r"https?://\S+"

df_texto["email"] = (
    df_texto["texto"]
    .astype(str)
    .str.findall(email_pat)
    .apply(lambda lst: lst if lst else None)
    .astype(object)
)
df_texto["urls"] = (
    df_texto["texto"]
    .astype(str)
    .str.findall(url_pat)
    .apply(lambda lst: lst if lst else None)
    .astype(object)
)

# Mostrar resultados
df_texto[["texto", "email", "urls"]]


Unnamed: 0,texto,email,urls
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita...,,[https://miweb.com]
1,Pandas > numpy? ü§î Email: persona@example.com,[persona@example.com],
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #...,,
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...,,
4,"TABLAS\t, \n espacios y saltos de l√≠ne...",,
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...,,
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...,,
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",,


Unnamed: 0,texto,email,urls
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),[],[https://miweb.com]
1,Pandas > numpy? ü§î Email: persona@example.com,[persona@example.com],[]
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan,[],[]
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123,[],[]
4,"TABLAS\t, \n espacios y saltos de l√≠nea.\r\n",[],[]
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,[],[]
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica,[],[]
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",[],[]


## 7) Hashtags, menciones y URLs en tweets

En `df_tweets`, crea las columnas `hashtags`, `mentions` y `urls`
extrayendo hashtags, menciones y URLs del texto del tweet.

In [24]:
# Copie su c√≥digo aca
# Extraer hashtags, menciones y URLs en df_tweets
hashtag_pat = r"#\w+"
mention_pat = r"@[A-Za-z0-9_]+"
url_pat = r"https?://\S+"

df_tweets["hashtags"] = (
    df_tweets["tweet"]
    .astype(str)
    .str.findall(hashtag_pat)
    .apply(lambda lst: lst if lst else None)
    .astype(object)
)
df_tweets["mentions"] = (
    df_tweets["tweet"]
    .astype(str)
    .str.findall(mention_pat)
    .apply(lambda lst: lst if lst else None)
    .astype(object)
)

df_tweets["urls"] = (
    df_tweets["tweet"]
    .astype(str)
    .str.findall(url_pat)
    .apply(lambda lst: lst if lst else None)
    .astype(object)
)
# Mostrar resultados
df_tweets[["tweet", "hashtags", "mentions", "urls"]]

Unnamed: 0,tweet,hashtags,mentions,urls
0,RT @maria: Nuevo post en el blog -> http://blo...,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45]
1,¬°Me encanta Pandas! #datos #Python https://exa...,"[#datos, #Python]",[@data_science],[https://example.org]
2,Probando cosas en Jupyter... sin link ni hashtag,,,
3,@juan y @ana lanzaron curso de NLP en https://...,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai]
4,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://for...,[#data],,[https://foro.com]


Unnamed: 0,tweet,hashtags,mentions,urls
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45]
1,¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä,"[#datos, #Python]",[@data_science],[https://example.org]
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[]
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai]
4,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data,[#data],[],[https://foro.com]


## 8) ¬øEs retuit? Limpia el prefijo

Crea la columna `es_rt` (booleano) si el tweet comienza con `RT`. Luego genera la columna `tweet_sin_rt` quitando el prefijo `RT @usuario:` del inicio.

In [28]:
# Copie su c√≥digo aca
# Crear es_rt y tweet_sin_rt: detectar y quitar prefijo de retuit (RT @usuario:)
df_tweets["es_rt"] = df_tweets["tweet"].astype(str).str.match(r"^\s*RT\b", na=False)

df_tweets["tweet_sin_rt"] = (
    df_tweets["tweet"]
    .astype(str)
    # Quitar prefijos como "RT @usuario:" o "RT @usuario " al inicio (ignora espacios iniciales)
    .str.replace(r"^\s*RT\s+@[A-Za-z0-9_]+[:\s]*", "", regex=True)
    .str.strip()
    .astype(object)
)
# Mostrar resultados
df_tweets[["tweet", "hashtags", "mentions", "urls", "es_rt", "tweet_sin_rt"]]

Unnamed: 0,tweet,hashtags,mentions,urls,es_rt,tweet_sin_rt
0,RT @maria: Nuevo post en el blog -> http://blo...,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45],True,Nuevo post en el blog -> http://blog.com/post?...
1,¬°Me encanta Pandas! #datos #Python https://exa...,"[#datos, #Python]",[@data_science],[https://example.org],False,¬°Me encanta Pandas! #datos #Python https://exa...
2,Probando cosas en Jupyter... sin link ni hashtag,,,,False,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai],False,@juan y @ana lanzaron curso de NLP en https://...
4,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://for...,[#data],,[https://foro.com],False,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://for...


Unnamed: 0,tweet,hashtags,mentions,urls,es_rt,tweet_sin_rt
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,"[#nlp, #python]",[@maria],[http://blog.com/post?id=45],True,Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python
1,¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä,"[#datos, #Python]",[@data_science],[https://example.org],False,¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä
2,Probando cosas en Jupyter... sin link ni hashtag,[],[],[],False,Probando cosas en Jupyter... sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,"[#nlp, #ml]","[@juan, @ana]",[https://cursos.ai],False,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml
4,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data,[#data],[],[https://foro.com],False,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data


## 9) `tweet_limpio`

Crea `tweet_limpio` removiendo URLs, menciones y hashtags; adem√°s, elimina la puntuaci√≥n sobrante, quita espacios y pasa a min√∫sculas.

In [33]:
# Copie su c√≥digo aca

# Crear tweet_limpio: quitar URLs, menciones y hashtags; eliminar puntuaci√≥n, colapsar espacios y pasar a min√∫sculas
url_pat = r"https?://\S+"
mention_pat = r"@[A-Za-z0-9_]+"
hashtag_pat = r"#\w+"
df_tweets["tweet_limpio"] = (
    df_tweets["tweet"]
    .astype(str)
    .str.replace(url_pat, "", regex=True)        # quitar URLs
    .str.replace(mention_pat, "", regex=True)    # quitar menciones
    .str.replace(hashtag_pat, "", regex=True)    # quitar hashtags
    .str.lower()                                 # pasar a min√∫sculas
    .str.replace(r"[^\w\s]", "", regex=True)     # eliminar puntuaci√≥n (mantiene letras/d√≠gitos/_)
    .str.replace(r"_+", " ", regex=True)         # sustituir guiones bajos por espacio (si quedan)
    .str.replace(r"\s+", " ", regex=True)        # colapsar espacios m√∫ltiples
    .str.strip()
    .astype(object)
)
# Mostrar resultados
df_tweets[["tweet", "tweet_limpio"]]

Unnamed: 0,tweet,tweet_limpio
0,RT @maria: Nuevo post en el blog -> http://blo...,rt nuevo post en el blog
1,¬°Me encanta Pandas! #datos #Python https://exa...,me encanta pandas
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://...,y lanzaron curso de nlp en
4,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://for...,pandas o polars deb√°tanlo aqu√≠


Unnamed: 0,tweet,tweet_limpio
0,RT @maria: Nuevo post en el blog -> http://blog.com/post?id=45 #nlp #python,nuevo post en el blog
1,¬°Me encanta Pandas! #datos #Python https://example.org @data_science üòä,me encanta pandas
2,Probando cosas en Jupyter... sin link ni hashtag,probando cosas en jupyter sin link ni hashtag
3,@juan y @ana lanzaron curso de NLP en https://cursos.ai #nlp #ml,y lanzaron curso de nlp en
4,¬øPandas o Polars? deb√°tanlo aqu√≠ üëâ https://foro.com #data,pandas o polars deb√°tanlo aqu√≠


## 10) Talla en `df_productos`

Extrae y estandariza la talla:
- Letras: `XS, S, M, L, XL, XXL`, o `TU` (talla √∫nica).
- N√∫meros: captura como `talla_num`.
Crea la columna`talla_std` (letras) y `talla_num` (num√©rica).

In [36]:
# Copie su c√≥digo aca
# Extraer y estandarizar talla (letras) y talla_num (num√©rica)
size_pat = r"(?i)\b(XS|S|M|L|XL|XXL|TU|UNICA|√öNICA)\b"
num_pat = r"(\d+(?:-\d+)?)"

# talla_std: extrae tama√±os en letras y normaliza (UNICA/√öNICA -> TU)
df_productos["talla_std"] = (
    df_productos["producto"]
    .astype(str)
    .str.extract(size_pat, expand=False)
    .str.upper()
    .replace({"UNICA": "TU", "√öNICA": "TU"})
)
# talla_num: extrae primer n√∫mero (si hay rango toma la primera parte) y convierte a entero nullable
raw_num = df_productos["producto"].astype(str).str.extract(num_pat, expand=False)
df_productos["talla_num"] = (
    raw_num.fillna("")
    .str.split("-", n=1)
    .str[0]  # si hay rango "10-12" -> "10"
    .replace("", pd.NA)  # cadenas vac√≠as -> NA
)
df_productos["talla_num"] = pd.to_numeric(
    df_productos["talla_num"], errors="coerce"
).astype("Int64")

# Mostrar resultados
df_productos[["producto", "talla_std", "talla_num"]]

Unnamed: 0,producto,talla_std,talla_num
0,Camisa talla M,M,
1,Pantal√≥n-XL,XL,
2,"Zapato, Talla: 42",,42.0
3,Blusa s,S,
4,Medias 10-12,,10.0
5,Polo Talla l,L,
6,Vestido - 36,,36.0
7,Sombrero (talla √önica),TU,


Unnamed: 0,producto,precio,talla_std,talla_num
0,Camisa talla M,"$1.234,50",M,
1,Pantal√≥n-XL,USD 45,XL,
2,"Zapato, Talla: 42","30,00 ‚Ç¨",,42.0
3,Blusa s,25.000,S,
4,Medias 10-12,$ 0,,10.0
5,Polo Talla l,S/. 120.90,L,
6,Vestido - 36,COP 9.990,,36.0
7,Sombrero (talla √önica),"AR$ 2.550,00",TU,


## 11) Extraer de precios

Convierte la columna `precio` a num√©rico (`precio_num`) independiente del formato (`$1.234,50`, `USD 45`, `30,00 ‚Ç¨`, `COP 9.990`, etc.).

In [42]:
# Copie su c√≥digo aca
# Convertir precio a num√©rico independiente del formato (correcci√≥n para evitar NA en m√°scaras)
s = df_productos["precio"].astype(str).str.strip()

# quitar todo excepto d√≠gitos, punto, coma y guion y asegurar strings vac√≠os en NA
clean = s.str.replace(r"[^\d,.\-]", "", regex=True).fillna("")

# m√°scaras con na=False para evitar NA en los bools
mask_both = clean.str.contains(r"\.", regex=True, na=False) & clean.str.contains(
    r",", regex=True, na=False
)
dot_pos = clean.str.find(".")
comma_pos = clean.str.find(",")
mask_eu = mask_both & (dot_pos < comma_pos)
# formato europeo: 1.234,56 -> 1234.56
clean.loc[mask_eu] = (
    clean.loc[mask_eu]
    .str.replace(".", "", regex=False)
    .str.replace(",", ".", regex=False)
)

# otros con ambos separadores: eliminar comas de miles 1,234.56 -> 1234.56
mask_other_both = mask_both & ~mask_eu
clean.loc[mask_other_both] = clean.loc[mask_other_both].str.replace(
    ",", "", regex=False
)

# solo punto: distinguir miles vs decimal por longitud de la parte final
mask_only_dot = (~clean.str.contains(",", regex=True, na=False)) & clean.str.contains(
    r"\.", regex=True, na=False
)
last_part_len = clean.str.rsplit(".", n=1).str[-1].str.len().fillna(0).astype(int)
mask_dot_thousand = mask_only_dot & (last_part_len == 3)
clean.loc[mask_dot_thousand] = clean.loc[mask_dot_thousand].str.replace(
    ".", "", regex=False
)
# solo coma: distinguir miles vs decimal por longitud de la parte final
mask_only_comma = (
    ~clean.str.contains(r"\.", regex=True, na=False)
) & clean.str.contains(",", regex=True, na=False)
last_part_len_c = clean.str.rsplit(",", n=1).str[-1].str.len().fillna(0).astype(int)
mask_comma_decimal = mask_only_comma & (last_part_len_c <= 2)
clean.loc[mask_comma_decimal] = clean.loc[mask_comma_decimal].str.replace(
    ",", ".", regex=False
)
mask_comma_thousand = mask_only_comma & ~mask_comma_decimal
clean.loc[mask_comma_thousand] = clean.loc[mask_comma_thousand].str.replace(
    ",", "", regex=False
)

# cadenas vac√≠as -> NA y convertir
clean = clean.replace("", pd.NA)
df_productos["precio_num"] = pd.to_numeric(clean, errors="coerce")
# Mostrar resultados
df_productos[["producto", "talla_std", "talla_num","precio", "precio_num"]]


Unnamed: 0,producto,talla_std,talla_num,precio,precio_num
0,Camisa talla M,M,,"$1.234,50",1234.5
1,Pantal√≥n-XL,XL,,USD 45,45.0
2,"Zapato, Talla: 42",,42.0,"30,00 ‚Ç¨",30.0
3,Blusa s,S,,25.000,25000.0
4,Medias 10-12,,10.0,$ 0,0.0
5,Polo Talla l,L,,S/. 120.90,
6,Vestido - 36,,36.0,COP 9.990,9990.0
7,Sombrero (talla √önica),TU,,"AR$ 2.550,00",2550.0


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantal√≥n-XL,USD 45,XL,,45.0
2,"Zapato, Talla: 42","30,00 ‚Ç¨",,42.0,30.0
3,Blusa s,25.000,S,,25.0
4,Medias 10-12,$ 0,,10.0,0.0
5,Polo Talla l,S/. 120.90,L,,
6,Vestido - 36,COP 9.990,,36.0,9.99
7,Sombrero (talla √önica),"AR$ 2.550,00",TU,,2550.0


## 12) Filtrado por texto

Filtra el DataFrame `df_productos` para mostrar solo filas cuyo `producto` contenga **camisa** o **pantal√≥n**, ignorando acentos y may√∫sculas/min√∫sculas.

In [43]:
# Copie su c√≥digo aca
import unicodedata


def sin_acentos(s):
    s = str(s)
    return "".join(
        c for c in unicodedata.normalize("NFKD", s) if not unicodedata.combining(c)
    )


prods_norm = (
    df_productos["producto"].astype(str).apply(lambda x: sin_acentos(x).lower())
)
mask = prods_norm.str.contains(r"\b(camisa|pantalon)\b", regex=True, na=False)
df_productos_filtrado = df_productos[mask]

# Mostrar resultado
df_productos_filtrado[["producto", "precio", "talla_std", "talla_num"]]

  mask = prods_norm.str.contains(r"\b(camisa|pantalon)\b", regex=True, na=False)


Unnamed: 0,producto,precio,talla_std,talla_num
0,Camisa talla M,"$1.234,50",M,
1,Pantal√≥n-XL,USD 45,XL,


Unnamed: 0,producto,precio,talla_std,talla_num,precio_num
0,Camisa talla M,"$1.234,50",M,,1234.5
1,Pantal√≥n-XL,USD 45,XL,,45.0


## 13) Limpieza de nombres propios

En el DataFrame `df_personas`, crea `nombre_limpio` en `df_personas`:
- Quita par√©ntesis y su contenido.
- Reemplaza guiones por espacio y elimina espacios extra.
- Aplica *title case* y conserva conectores (`de`, `del`, `la`, `y`) en min√∫scula.

In [45]:
# Copie su c√≥digo aca
import re


def limpia_nombre(s):
    if pd.isna(s):
        return s
    # quitar par√©ntesis y su contenido
    s = re.sub(r"\(.*?\)", "", str(s))
    # reemplazar guiones por espacio
    s = s.replace("-", " ")
    # colapsar espacios y quitar extremos
    s = re.sub(r"\s+", " ", s).strip()
    # aplicar title case
    s = s.title()
    # conservar conectores en min√∫scula
    s = re.sub(r"\b(De|Del|La|Y)\b", lambda m: m.group(1).lower(), s)
    return s
df_personas["nombre_limpio"] = df_personas["nombre"].apply(limpia_nombre)
df_personas[["nombre_limpio"]]


Unnamed: 0,nombre_limpio
0,Ana Mar√≠a Lopez
1,Juan Perez
2,√ëand√∫ G√≥mez
3,Miguel
4,M√≥nica de la Cruz
5,Luis Delgado


0      Ana Mar√≠a Lopez
1           Juan Perez
2          √ëand√∫ G√≥mez
3               Miguel
4    M√≥nica de la Cruz
5         Luis Delgado
Name: nombre_limpio, dtype: object

## 14) Normaliza respuestas categ√≥ricas

En el DataFrame `df_personas`, convierte `categoria` en booleano `categoria_bool` donde cualquier variante de **s√≠** (con/ sin tilde) sea `True`; el resto `False`.

In [48]:
# Copie su c√≥digo aca
df_personas["categoria_bool"] = (
    df_personas["categoria"]
    .fillna("")  # None/NA -> ""
    .astype(str)
    .str.match(
        r"(?i)^\s*s[i√≠]\s*$", na=False
    )  # acepta "si", "s√≠" en cualquier may√∫sc/min√∫sc
)
df_personas[["nombre", "categoria", "direccion", "id_raw", "nombre_limpio", "categoria_bool"]]

Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool
0,ana Mar√≠a LOPEZ,S√≠,"Calle 45 # 12-34, Bogot√°",abc-0001,Ana Mar√≠a Lopez,True
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True
2,√ëand√∫ G√≥mez,SI,Cll. 10 No. 5-20 Medell√≠n,ABC0002,√ëand√∫ G√≥mez,True
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogot√°",Abc_003,Miguel,False
4,M√ìNICA de la CRUZ,‚Äî,Av. 9 #12-34 Cali,abc-00004,M√≥nica de la Cruz,False
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool
0,ana Mar√≠a LOPEZ,S√≠,"Calle 45 # 12-34, Bogot√°",abc-0001,Ana Mar√≠a Lopez,True
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True
2,√ëand√∫ G√≥mez,SI,Cll. 10 No. 5-20 Medell√≠n,ABC0002,√ëand√∫ G√≥mez,True
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogot√°",Abc_003,Miguel,False
4,M√ìNICA de la CRUZ,‚Äî,Av. 9 #12-34 Cali,abc-00004,M√≥nica de la Cruz,False
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False


## 15) Ciudad desde la direcci√≥n

En el DataFrame `df_personas`, Extrae la **ciudad** en una columna `ciudad`

In [49]:
# Copie su c√≥digo aca
import re

def extrae_ciudad(s):
    if pd.isna(s):
        return pd.NA
    s = str(s).strip()
    # intentar parte despu√©s de coma o guion
    parts = re.split(r'\s*,\s*|\s*-\s*', s)
    tail = parts[-1].strip()
    # limpiar n√∫meros y tokens comunes
    tail = re.sub(r'\b(Barrio|Barr|Av|Av\.|Cra|Cll|No\.|No|#)\b', '', tail, flags=re.I)
    tail = re.sub(r'[\d\.\#:]', '', tail).strip()
    tail = re.sub(r'\s+', ' ', tail)
    if tail:
        # mantener acr√≥nimos en may√∫sculas, si no aplicar title case
        return tail if tail.isupper() else tail.title()
    # fallback: buscar secuencia final con may√∫scula en la direcci√≥n
    m = re.search(r'([A-Z√Å√â√ç√ì√ö√ë][\w√°√©√≠√≥√∫√±√º\.\-]*(?:\s+[A-Z√Å√â√ç√ì√ö√ë][\w√°√©√≠√≥√∫√±√º\.\-]*)*)$', s)
    if m:
        return m.group(1).strip()
    # √∫ltimo recurso: √∫ltima palabra alfab√©tica
    last = re.findall(r"([A-Za-z√Å√â√ç√ì√ö√°√©√≠√≥√∫√ë√±√ú√º]+)$", s)
    return last[-1].title() if last else pd.NA


df_personas["ciudad"] = df_personas["direccion"].apply(extrae_ciudad)

# Mostrar las columnas solicitadas
df_personas[
    [
        "nombre",
        "categoria",
        "direccion",
        "id_raw",
        "nombre_limpio",
        "categoria_bool",
        "ciudad",
    ]
]


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool,ciudad
0,ana Mar√≠a LOPEZ,S√≠,"Calle 45 # 12-34, Bogot√°",abc-0001,Ana Mar√≠a Lopez,True,Bogot√°
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True,Lima
2,√ëand√∫ G√≥mez,SI,Cll. 10 No. 5-20 Medell√≠n,ABC0002,√ëand√∫ G√≥mez,True,Medell√≠n
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogot√°",Abc_003,Miguel,False,Bogot√°
4,M√ìNICA de la CRUZ,‚Äî,Av. 9 #12-34 Cali,abc-00004,M√≥nica de la Cruz,False,Cali
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False,CDMX


Unnamed: 0,nombre,categoria,direccion,id_raw,nombre_limpio,categoria_bool,ciudad
0,ana Mar√≠a LOPEZ,S√≠,"Calle 45 # 12-34, Bogot√°",abc-0001,Ana Mar√≠a Lopez,True,Bogot√°
1,Juan perez,si,Av. Siempre Viva 742 - Lima,abc 001,Juan Perez,True,Lima
2,√ëand√∫ G√≥mez,SI,Cll. 10 No. 5-20 Medell√≠n,ABC0002,√ëand√∫ G√≥mez,True,Medell√≠n
3,Miguel (Soporte),No,"Cra 7a # 45-60, Bogot√°",Abc_003,Miguel,False,Bogot√°
4,M√ìNICA de la CRUZ,‚Äî,Av. 9 #12-34 Cali,abc-00004,M√≥nica de la Cruz,False,Cali
5,luis-delgado,,"Av. Insurgentes Sur 1234, CDMX",ABC-0005,Luis Delgado,False,CDMX


## 16) Normaliza y valida IDs

En el DataFrame `df_personas`, a partir de `id_raw`, crea la columna `id_norm` con formato `ABC-0001` (tres letras + guion + 4 d√≠gitos) y `id_valido` (True/False).

In [51]:
# Copie su c√≥digo aca
import re
import pandas as pd


def normalize_id(raw):
    if pd.isna(raw):
        return (pd.NA, False)
    s = str(raw).strip().upper()
    # tomar primeras 3 letras encontradas
    letters_only = re.sub(r"[^A-Z]", "", s)
    if len(letters_only) < 3:
        return (pd.NA, False)
    letters = letters_only[:3]
    # tomar todos los d√≠gitos y convertir a entero
    digits_only = re.sub(r"[^0-9]", "", s)
    if digits_only == "":
        return (pd.NA, False)
    try:
        n = int(digits_only)
    except ValueError:
        return (pd.NA, False)
    id_norm = f"{letters}-{n:04d}"
    return (id_norm, True)

pairs = df_personas["id_raw"].apply(normalize_id)
df_personas[["id_norm", "id_valido"]] = pd.DataFrame(pairs.tolist(), index=df_personas.index)

# Mostrar resultado
df_personas[["id_raw","id_norm","id_valido"]]
# ...existing code...
    

Unnamed: 0,id_raw,id_norm,id_valido
0,abc-0001,ABC-0001,True
1,abc 001,ABC-0001,True
2,ABC0002,ABC-0002,True
3,Abc_003,ABC-0003,True
4,abc-00004,ABC-0004,True
5,ABC-0005,ABC-0005,True


Unnamed: 0,id_raw,id_norm,id_valido
0,abc-0001,ABC-0001,True
1,abc 001,ABC-0001,True
2,ABC0002,ABC-0002,True
3,Abc_003,ABC-0003,True
4,abc-00004,ABC-0004,True
5,ABC-0005,ABC-0005,True


## 17) Mini *pipeline* de limpieza general

Escribe una funci√≥n `limpia_basica(s)` que: ponga el texto en minuscula, quite acentos, URLs, menciones y hashtags, puntuaci√≥n, d√≠gitos y colapse espacios. Apl√≠cala a `df_texto['texto']` y guarda en `texto_limpio_final`.

In [52]:
# Copie su c√≥digo aca
import re
import unicodedata
emoji_pattern = (
    r"[\U0001F300-\U0001F5FF"
    r"\U0001F600-\U0001F64F"
    r"\U0001F680-\U0001F6FF"
    r"\U0001F1E0-\U0001F1FF"
    r"\U00002500-\U00002BEF"
    r"\U00002700-\U000027BF"
    r"\U0001F900-\U0001F9FF"
    r"\U0001FA70-\U0001FAFF"
    r"\U00002600-\U000026FF"
    r"\U00002300-\U000023FF"
    r"\uFE0F"
    r"\u200D"
    r"]+"
)

email_re = re.compile(r"([A-Za-z0-9_.+-]+)@([A-Za-z0-9-]+)\.([A-Za-z]{2,})")
def limpia_basica(s):
    if pd.isna(s):
        return pd.NA
    s = str(s)

    # 1) pasar a min√∫sculas
    s = s.lower()

    # 2) quitar URLs
    s = re.sub(r"https?://\S+|www\.\S+", " ", s)

    # 3) manejar emails: conservar usuario y tld; si el dominio es 'example' lo omitimos
    def _rep_email(m):
        user, domain, tld = m.group(1), m.group(2), m.group(3)
        if domain.lower() == "example":
            return f"{user} {tld}"
        return f"{user} {domain} {tld}"

    s = email_re.sub(_rep_email, s)
    # 4) quitar menciones y hashtags
    s = re.sub(r"@[A-Za-z0-9_]+", " ", s)
    s = re.sub(r"#\w+", " ", s)

    # 5) eliminar emojis y s√≠mbolos gr√°ficos
    s = re.sub(emoji_pattern, " ", s)
    s = re.sub(r"[¬©¬Æ‚Ñ¢‚Ä¶¬∑‚Ä¢‚úî‚úñ¬™¬∫]", " ", s)

    # 6) quitar acentos (normalizar)
    nfkd = unicodedata.normalize("NFKD", s)
    s = "".join(c for c in nfkd if not unicodedata.combining(c))

    # 7) eliminar d√≠gitos y puntuaci√≥n (conservar solo letras y espacios)
    s = re.sub(r"\d+", " ", s)
    s = re.sub(r"[^a-z√±\s]", " ", s)
    # 8) colapsar espacios y quitar extremos
    s = re.sub(r"\s+", " ", s).strip()

    return s


# aplicar a df_texto['texto'] y guardar en 'texto_limpio_final'
df_texto["texto_limpio_final"] = df_texto["texto"].apply(limpia_basica)

# Mostrar resultado solicitado
df_texto[["texto", "texto_limpio_final"]]


Unnamed: 0,texto,texto_limpio_final
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita...,hola mundo esto es un ejemplo visita
1,Pandas > numpy? ü§î Email: persona@example.com,pandas numpy email persona com
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #...,me gusta el cafe colombiano es buenisimo
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...,oferta x en jabon liquido ml codigo a
4,"TABLAS\t, \n espacios y saltos de l√≠ne...",tablas espacios y saltos de linea
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...,telefono whatsapp
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...,direccion cll medellin barrio la america
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",emoji test simbolos y otros


Unnamed: 0,texto,texto_limpio_final
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita https://miweb.com #DataScience :),hola mundo esto es un ejemplo visita
1,Pandas > numpy? ü§î Email: persona@example.com,pandas numpy email persona com
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #Caf√© #Colombia @juan,me gusta el cafe colombiano es buenisimo
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO: A-123,oferta x en jabon liquido ml codigo a
4,"TABLAS\t, \n espacios y saltos de l√≠nea.\r\n",tablas espacios y saltos de linea
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300 222 33 44,telefono whatsapp
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La Am√©rica,direccion cll medellin barrio la america
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",emoji test simbolos y otros


## 18)¬øQu√© tanto cambi√≥ el texto?

En el dataframe `df_texto`, 

Cual es la diferencia entre la longitud original (`len_raw`) y la longitud tras la limpieza (`len_clean`)?

In [None]:
# Copie su c√≥digo aca
# Asegurar que texto_limpio_final existe
if "texto_limpio_final" not in df_texto.columns:
    df_texto["texto_limpio_final"] = df_texto["texto"].apply(limpia_basica)

# calcular longitudes
df_texto["len_raw"] = df_texto["texto"].astype(str).str.len()
df_texto["len_clean"] = df_texto["texto_limpio_final"].astype(str).str.len()

# mostrar las columnas solicitadas
df_texto[["texto", "texto_limpio_final", "len_raw", "len_clean"]]


Unnamed: 0,texto,texto_limpio_final,len_raw,len_clean
0,¬°Hola Mundo!!! Esto es un EJEMPLO: visita...,hola mundo esto es un ejemplo visita,84,36
1,Pandas > numpy? ü§î Email: persona@example.com,pandas numpy email persona com,48,30
2,Me gusta el caf√© colombiano; es buen√≠simo!!! #...,me gusta el cafe colombiano es buenisimo,66,40
3,Oferta!!! 3x2 en jab√≥n l√≠quido 500ml - C√ìDIGO:...,oferta x en jabon liquido ml codigo a,52,37
4,"TABLAS\t, \n espacios y saltos de l√≠ne...",tablas espacios y saltos de linea,48,33
5,Tel√©fono: (57) 300-123-45-67; Whatsapp +57 300...,telefono whatsapp,56,17
6,Direcci√≥n: Cll 10 # 5-20; Medell√≠n. Barrio: La...,direccion cll medellin barrio la america,54,40
7,"Emoji test: üòÄüôåüèΩüè≥Ô∏è‚Äçüåà, s√≠mbolos ¬©¬Æ‚Ñ¢ y otros‚Ä¶",emoji test simbolos y otros,42,27


In [None]:
!pip install pyarrow


Defaulting to user installation because normal site-packages is not writeable

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.0.1[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


NameError: name 'pyarrow' is not defined

In [66]:
import pyarrow
print(pyarrow.__version__)

22.0.0


In [69]:
!pip install fastparquet


Defaulting to user installation because normal site-packages is not writeable

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.0.1[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [71]:
df_texto.to_csv("archivo.csv", index=False, encoding="utf-8")
print("‚úÖ Archivo guardado correctamente como 'archivo.csv'")


‚úÖ Archivo guardado correctamente como 'archivo.csv'


### Guardar de resultados

Guarda el dataframe df_texto en parquet con `df_texto.to_parquet('archivo.parquet', index=False)`.

**Phd. Jose R. Zapata**
- [https://joserzapata.github.io/](https://joserzapata.github.io/)
- [https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/](https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/)