# üìå La Importancia de Regex en Ciencia de Datos y Algoritmos de Machine Learning y Deep Learning

Las **expresiones regulares (regex)** son una herramienta clave en **ciencia de datos**, especialmente en tareas de **preprocesamiento y limpieza de texto**. Los modelos de **Machine Learning (ML) y Deep Learning (DL)** dependen en gran medida de datos estructurados y bien procesados, lo que hace que regex sea una soluci√≥n eficiente para manipular grandes vol√∫menes de datos no estructurados.

## üîπ Aplicaciones Claves en Machine Learning y Deep Learning  

1. **Procesamiento de Texto para Modelos de NLP (Procesamiento de Lenguaje Natural)**  
   - Eliminaci√≥n de caracteres especiales, signos de puntuaci√≥n y espacios extra.  
   - Normalizaci√≥n de datos textuales (convertir texto a min√∫sculas, eliminar acentos, etc.).  
   - Extracci√≥n de palabras clave y frases relevantes.  

2. **Estandarizaci√≥n y Validaci√≥n de Datos**  
   - Detecci√≥n de patrones como direcciones de correo electr√≥nico, n√∫meros de tel√©fono y c√≥digos postales.  
   - Filtrado de datos inv√°lidos en bases de datos estructuradas.  
   - Identificaci√≥n de valores duplicados o mal formateados en grandes vol√∫menes de informaci√≥n.  

3. **Optimizaci√≥n de Modelos de Aprendizaje Autom√°tico**  
   - Mejora en la calidad de los datos de entrada al eliminar ruido en el texto.  
   - Creaci√≥n de caracter√≠sticas (features) m√°s relevantes para modelos de clasificaci√≥n y predicci√≥n.  
   - Uso de regex en la generaci√≥n de etiquetas para el entrenamiento supervisado.  

4. **Filtrado de Datos en Tiempo Real**  
   - Detecci√≥n de palabras clave en flujos de datos como redes sociales, chats y correos electr√≥nicos.  
   - Monitorizaci√≥n autom√°tica de contenidos en plataformas digitales.  
   - Filtrado de datos confidenciales o sensibles antes de su almacenamiento o procesamiento.  

---

# üéØ Aplicaciones Principales de Regex para Generaci√≥n de Texto Estructurado y Filtrado Eficiente  

Las expresiones regulares se utilizan ampliamente para **transformar, estructurar y filtrar informaci√≥n textual**, permitiendo la creaci√≥n de datos m√°s organizados y √∫tiles para an√°lisis avanzado.

## üìå Generaci√≥n de Texto Estructurado  

‚úÖ **Normalizaci√≥n y Homogeneizaci√≥n de Datos**  
   - Uniformizaci√≥n de nombres, direcciones y otras entidades textuales.  
   - Reformateo de fechas, valores num√©ricos y estructuras de texto para estandarizaci√≥n.  
   - Correcci√≥n de errores tipogr√°ficos o formatos incorrectos en bases de datos.  

‚úÖ **Segmentaci√≥n y Clasificaci√≥n de Texto**  
   - Extracci√≥n de informaci√≥n clave en documentos extensos mediante patrones predefinidos.  
   - Creaci√≥n de etiquetas para an√°lisis sem√°ntico basado en patrones espec√≠ficos.  
   - Identificaci√≥n autom√°tica de partes del discurso (verbos, sustantivos, adjetivos, etc.).  

‚úÖ **Limpieza y Enriquecimiento de Datos**  
   - Eliminaci√≥n de elementos innecesarios como HTML, etiquetas de c√≥digo y caracteres especiales.  
   - Conversi√≥n de texto sin formato en estructuras m√°s organizadas para an√°lisis posterior.  
   - Creaci√≥n de nuevas variables a partir de datos textuales mediante patrones espec√≠ficos.  

## üìå Filtrado de Datos de Manera Eficiente  

‚úÖ **Detecci√≥n y Eliminaci√≥n de Datos No V√°lidos**  
   - Identificaci√≥n de registros con errores en bases de datos empresariales.  
   - Detecci√≥n y eliminaci√≥n de contenido duplicado en grandes conjuntos de datos.  
   - Validaci√≥n de la estructura de informaci√≥n antes de su uso en modelos predictivos.  

‚úÖ **An√°lisis de Opiniones y Sentimientos**  
   - Extracci√≥n de frases clave en rese√±as y comentarios para entender el sentimiento del usuario.  
   - Identificaci√≥n de t√©rminos positivos y negativos en an√°lisis de feedback.  
   - Creaci√≥n de modelos de clasificaci√≥n de sentimientos basados en patrones textuales.  

‚úÖ **Moderaci√≥n y Seguridad de Contenidos**  
   - Detecci√≥n autom√°tica de lenguaje ofensivo o contenido inapropiado en plataformas digitales.  
   - Filtrado de informaci√≥n confidencial o sensible antes de su publicaci√≥n.  
   - Implementaci√≥n de sistemas de monitoreo para evitar el fraude y el spam.  

---

# üî• Principales Comandos de Regex en Ciencia de Datos  

Las expresiones regulares utilizan una serie de comandos y patrones que permiten realizar b√∫squedas, sustituciones y segmentaciones en texto de manera eficiente. En ciencia de datos, estos comandos son fundamentales para manipular grandes vol√∫menes de informaci√≥n y mejorar la calidad de los datos de entrada en modelos predictivos.

| **Comando Regex**  | **Descripci√≥n**  |
|--------------------|-----------------|
| `\d`              | Encuentra un d√≠gito num√©rico (0-9).  |
| `\D`              | Encuentra cualquier car√°cter que NO sea un d√≠gito.  |
| `\w`              | Encuentra letras, n√∫meros y guiones bajos.  |
| `\W`              | Encuentra cualquier car√°cter que NO sea una letra, n√∫mero o guion bajo.  |
| `\s`              | Encuentra espacios en blanco, incluyendo tabulaciones y saltos de l√≠nea.  |
| `\S`              | Encuentra cualquier car√°cter que NO sea un espacio en blanco.  |
| `.`               | Coincide con cualquier car√°cter excepto saltos de l√≠nea.  |
| `^`               | Coincide con el inicio de una l√≠nea.  |
| `$`               | Coincide con el final de una l√≠nea.  |
| `*`               | Coincide con 0 o m√°s repeticiones del car√°cter previo.  |
| `+`               | Coincide con 1 o m√°s repeticiones del car√°cter previo.  |
| `?`               | Coincide con 0 o 1 ocurrencia del car√°cter previo.  |
| `{n,m}`           | Coincide entre `n` y `m` repeticiones del car√°cter previo.  |
| `|`               | Operador OR, busca una opci√≥n u otra.  |
| `()`              | Agrupa expresiones regulares para aplicar reglas espec√≠ficas.  |

En ciencia de datos, estos comandos son empleados para tareas como:  

‚úÖ **Extracci√≥n de patrones complejos** en documentos y bases de datos.  
‚úÖ **Limpieza y filtrado de informaci√≥n** en flujos de datos en tiempo real.  
‚úÖ **Transformaci√≥n y enriquecimiento de texto** para an√°lisis de contenido estructurado.  

---


Las **expresiones regulares (regex)** son una herramienta poderosa para la **ciencia de datos, NLP y Machine Learning**. Su capacidad para **manipular, limpiar y extraer informaci√≥n clave** hace que sean esenciales en la creaci√≥n de modelos predictivos m√°s precisos.  

Al integrar regex en procesos de **preprocesamiento de datos, filtrado de informaci√≥n y an√°lisis de texto**, es posible mejorar significativamente la calidad y eficiencia de los modelos de **Machine Learning y Deep Learning**, permitiendo mejores resultados en la toma de decisiones basada en datos. üöÄ  


## Ejercicio 1: Estandarizar nombres de empresas en un DataFrame

Enunciado:
En un conjunto de datos de empresas, los nombres pueden estar escritos de distintas formas. Debemos limpiar y estandarizar los nombres eliminando caracteres especiales, espacios extra y t√©rminos como "S.A.", "Ltd.", "Inc." o "Corp.".

Datos de entrada:

In [1]:
import pandas as pd

df = pd.DataFrame({'empresa': [
    'Google, Inc.', 
    'Amazon Ltd.', 
    'Facebook  S.A.', 
    'Apple   Corp', 
    'Tesla Inc'
]})

Objetivo:
Transformar los nombres en un formato est√°ndar sin caracteres especiales ni t√©rminos innecesarios.

Salida esperada:


| empresa           | empresa_limpia |
|-------------------|----------------|
| Google, Inc.      | google         |
| Amazon Ltd.       | amazon         |
| Facebook  S.A.    | facebook       |
| Apple   Corp      | apple          |


Soluci√≥n:

Unnamed: 0,empresa,empresa_limpia
0,"Google, Inc.",google
1,Amazon Ltd.,amazon
2,Facebook S.A.,facebook sa
3,Apple Corp,apple
4,Tesla Inc,tesla


## Ejercicio 2: Extraer informaci√≥n estructurada de descripciones de productos

Enunciado:
Tienes un dataset con descripciones de productos que contienen informaci√≥n como modelo, tama√±o y color en texto libre. Tu tarea es extraer estos valores en columnas separadas.

Datos de entrada:

In [3]:
df = pd.DataFrame({'descripcion': [
    'Laptop Dell Inspiron 15.6" color negro',
    'Smartphone Samsung Galaxy S21 6.2" azul',
    'Tablet Apple iPad Pro 12.9" plata'
]})

Objetivo:
Extraer modelo, tama√±o (en pulgadas) y color.


Salida esperada:


| descripcion                                      | modelo              | tama√±o_pulgadas | color |
|--------------------------------------------------|---------------------|-----------------|-------|
| Laptop Dell Inspiron 15.6" color negro           | Dell Inspiron       | 15.6"           | negro |
| Smartphone Samsung Galaxy S21 6.2" azul          | Samsung Galaxy S21  | 6.2"            | azul  |
| Tablet Apple iPad Pro 12.9" plata               | Apple iPad Pro      | 12.9"           | plata |


Soluci√≥n:

Unnamed: 0,descripcion,modelo,tama√±o_pulgadas,color
0,"Laptop Dell Inspiron 15.6"" color negro",Dell Inspiron,"15.6""",negro
1,"Smartphone Samsung Galaxy S21 6.2"" azul",Samsung Galaxy,"6.2""",azul
2,"Tablet Apple iPad Pro 12.9"" plata",Apple iPad,"12.9""",plata


## Ejercicio 3: Identificar patrones de fraude en transacciones financieras

Enunciado:
En un conjunto de datos de transacciones, identifica patrones sospechosos, como:
- M√∫ltiples transacciones en la misma cuenta con valores inusuales (9999.99, 7777.77).
- C√≥digos de transacci√≥n con valores fuera de norma (deben ser TX- seguido de 6 n√∫meros).

Datos de entrada:

In [5]:
df = pd.DataFrame({'cuenta': ['12345', '67890', '12345', '67890', '11111'],
                   'monto': ['100.50', '9999.99', '7777.77', '50.00', '7777.77'],
                   'codigo_transaccion': ['TX-123456', 'TX-ABCDE', 'TX-777777', 'TX-000000', 'ABC-123456']})


Salida esperada:


| cuenta | monto   | codigo_transaccion | monto_sospechoso | codigo_valido |
|--------|---------|---------------------|------------------|---------------|
| 67890  | 9999.99 | TX-ABCDE            | True             | False         |
| 12345  | 7777.77 | TX-777777           | True             | True          |
| 11111  | 7777.77 | ABC-123456          | True             | False         |


Soluci√≥n:

Unnamed: 0,cuenta,monto,codigo_transaccion,monto_sospechoso,codigo_valido
1,67890,9999.99,TX-ABCDE,True,False
2,12345,7777.77,TX-777777,True,True
4,11111,7777.77,ABC-123456,True,False


## Ejercicio 4: Limpiar textos de rese√±as de clientes

Enunciado:
Tienes una columna con rese√±as de clientes que contiene:
- Emojis
- Repetici√≥n de caracteres (ejemplo: buenoooo ‚Üí bueno)
- Puntuaci√≥n innecesaria

Debes limpiar estos textos para su an√°lisis.

Datos de entrada:

In [7]:
df = pd.DataFrame({'rese√±as': [
    "¬°Excelennnteeee! ü§© Muy buen servicio...",
    "Mmmmmm... No me gust√≥ üòï",
    "Perfectooooo!!!! Lo recomiendo!!! üòäüòä"
]})

Salida esperada:


| rese√±as                                         | rese√±a_limpia               |
|-------------------------------------------------|-----------------------------|
| ¬°Excelennnteeee! ü§© Muy buen servicio...        | Excelente Muy buen servicio |
| Mmmmmm... No me gust√≥ üòï                        | M No me gust√≥               |
| Perfectooooo!!!! Lo recomiendo!!! üòäüòä          | Perfecto Lo recomiendo      |


Soluci√≥n:

Unnamed: 0,rese√±as,rese√±a_limpia
0,¬°Excelennnteeee! ü§© Muy buen servicio...,Excelente Muy buen servicio
1,Mmmmmm... No me gust√≥ üòï,Mm No me gust√≥
2,Perfectooooo!!!! Lo recomiendo!!! üòäüòä,Perfecto Lo recomiendo


## Ejercicio 5: Identificar menciones a marcas en un conjunto de rese√±as

Enunciado:
Tienes un conjunto de rese√±as de productos y debes identificar las menciones a marcas espec√≠ficas en las rese√±as (como 'Apple', 'Samsung', 'Sony', etc.). Si la marca est√° presente, debes marcarla como "mencionada". Si no est√°, debe aparecer como "no mencionada".

Datos de entrada:

In [9]:
df = pd.DataFrame({'rese√±a': [
    'Me encanta el nuevo iPhone de Apple, es incre√≠ble!',
    'Samsung hace unos televisores muy buenos.',
    'Sony es el l√≠der en c√°maras digitales.',
    'A√∫n no tengo una idea clara sobre los productos de LG.',
    'No estoy seguro si comprar un Xiaomi.'
]})

Objetivo:

Identificar las menciones a las marcas en las rese√±as y marcar si est√°n presentes o no.


Salida esperada:


| rese√±a                                                        | marca_mencionada |
|---------------------------------------------------------------|------------------|
| Me encanta el nuevo iPhone de Apple, es incre√≠ble!             | mencionada       |
| Samsung hace unos televisores muy buenos.                      | mencionada       |
| Sony es el l√≠der en c√°maras digitales.                         | no mencionada      |
| A√∫n no tengo una idea clara sobre los productos de LG.         | mencionada       |
| No estoy seguro si comprar un Xiaomi.                          | mencionada       |

Soluci√≥n:

Unnamed: 0,rese√±a,marca_mencionada
0,"Me encanta el nuevo iPhone de Apple, es incre√≠...",mencionada
1,Samsung hace unos televisores muy buenos.,mencionada
2,Sony es el l√≠der en c√°maras digitales.,no mencionada
3,A√∫n no tengo una idea clara sobre los producto...,mencionada
4,No estoy seguro si comprar un Xiaomi.,mencionada


## Ejercicio 6: Tokenizaci√≥n de palabras clave en opiniones de productos

Enunciado:
Tienes una columna con opiniones de clientes sobre productos. Debes extraer todas las palabras clave relevantes (sustantivos y adjetivos) eliminando conectores y signos de puntuaci√≥n.

Datos de entrada:

In [11]:
df = pd.DataFrame({'opiniones': [
    "El tel√©fono es incre√≠blemente r√°pido y tiene una gran c√°mara!",
    "La bater√≠a dura poco, pero el dise√±o es elegante.",
    "No me gust√≥ la pantalla, pero el sonido es excelente."
]})

Objetivo:
Extraer solo sustantivos y adjetivos como palabras clave.

Salida esperada:


| opiniones                                      | palabras_clave                         |
|------------------------------------------------|----------------------------------------|
| El tel√©fono es incre√≠blemente r√°pido...       | ['r√°pido', 'gran', 'c√°mara']          |
| La bater√≠a dura poco, pero el dise√±o...       | ['bater√≠a', 'dise√±o', 'elegante']     |
| No me gust√≥ la pantalla, pero el sonido...    | ['pantalla', 'sonido', 'excelente']   |

Soluci√≥n:

Unnamed: 0,opiniones,palabras_clave
0,El tel√©fono es incre√≠blemente r√°pido y tiene u...,"[incre√≠blemente, r√°pido, gran, c√°mara]"
1,"La bater√≠a dura poco, pero el dise√±o es elegante.","[bater√≠a, dise√±o, elegante]"
2,"No me gust√≥ la pantalla, pero el sonido es exc...","[pantalla, sonido, excelente]"


## Ejercicio 7: Extracci√≥n de hashtags para an√°lisis de sentimientos

Enunciado:
Tienes un conjunto de tuits que incluyen hashtags (ej. #feliz, #triste). El objetivo es extraer todos los hashtags presentes en cada tuit.

Datos de entrada:

In [13]:
df = pd.DataFrame({'tuit': [
    '¬°Me siento tan feliz hoy! #feliz #alegr√≠a',
    'Qu√© d√≠a tan horrible... #triste #mald√≠a',
    'Nuevo producto lanzado! #innovaci√≥n #tecnolog√≠a',
    '¬°Me encanta este lugar! #vacaciones #relax',
    'Odio esperar tanto... #desesperaci√≥n'
]})

Objetivo:
Extraer todos los hashtags presentes en cada tuit.

Salida esperada:

| tuit                                              | hashtags                       |
|---------------------------------------------------|--------------------------------|
| ¬°Me siento tan feliz hoy! #feliz #alegr√≠a         | ['#feliz', '#alegr√≠a']         |
| Qu√© d√≠a tan horrible... #triste #mald√≠a           | ['#triste', '#mald√≠a']         |
| Nuevo producto lanzado! #innovaci√≥n #tecnolog√≠a   | ['#innovaci√≥n', '#tecnolog√≠a'] |
| ¬°Me encanta este lugar! #vacaciones #relax        | ['#vacaciones', '#relax']      |
| Odio esperar tanto... #desesperaci√≥n              | ['#desesperaci√≥n']             |

Soluci√≥n:

Unnamed: 0,tuit,hashtags
0,¬°Me siento tan feliz hoy! #feliz #alegr√≠a,"[#feliz, #alegr√≠a]"
1,Qu√© d√≠a tan horrible... #triste #mald√≠a,"[#triste, #mald√≠a]"
2,Nuevo producto lanzado! #innovaci√≥n #tecnolog√≠a,"[#innovaci√≥n, #tecnolog√≠a]"
3,¬°Me encanta este lugar! #vacaciones #relax,"[#vacaciones, #relax]"
4,Odio esperar tanto... #desesperaci√≥n,[#desesperaci√≥n]


## Ejercicio 8: Analizar sentimiento basado en palabras clave

Enunciado:
Tienes un conjunto de tuits y deseas clasificarlos como "positivos" o "negativos" basados en la presencia de ciertas palabras clave (por ejemplo, "bueno", "feliz" para positivo y "malo", "triste" para negativo).

Datos de entrada:

In [15]:
df = pd.DataFrame({'tuit': [
    'Me siento tan feliz hoy, el d√≠a ha sido incre√≠ble.',
    'Este producto es muy malo, no lo recomiendo.',
    'Excelente experiencia de compra, lo volver√© a hacer.',
    'El servicio fue lento y la comida estaba fr√≠a.',
    'Muy feliz con el resultado final, totalmente recomendable.'
]})

Objetivo:
Clasificar los tuits como "positivo" o "negativo" seg√∫n las palabras clave.

Salida esperada:


| tuit                                                   | sentimiento |
|--------------------------------------------------------|-------------|
| Me siento tan feliz hoy, el d√≠a ha sido incre√≠ble.     | positivo    |
| Este producto es muy malo, no lo recomiendo.           | negativo    |
| Excelente experiencia de compra, lo volver√© a hacer.   | positivo    |
| El servicio fue lento y la comida estaba fr√≠a.         | negativo    |
| Muy feliz con el resultado final, totalmente recomendable. | positivo    |

Soluci√≥n:


Unnamed: 0,tuit,sentimiento
0,"Me siento tan feliz hoy, el d√≠a ha sido incre√≠...",positivo
1,"Este producto es muy malo, no lo recomiendo.",positivo
2,"Excelente experiencia de compra, lo volver√© a ...",positivo
3,El servicio fue lento y la comida estaba fr√≠a.,negativo
4,"Muy feliz con el resultado final, totalmente r...",positivo


## Ejercicio 9: Filtrar tuits con menciones a otros usuarios

Enunciado:
Tienes un conjunto de tuits y deseas filtrar aquellos que contienen menciones a otros usuarios, es decir, aquellos que contienen el s√≠mbolo "@" seguido del nombre de usuario.

Datos de entrada:

In [17]:
df = pd.DataFrame({'tuit': [
    '@juanito ¬°Nos vemos ma√±ana!',
    'Estoy tan emocionado por este evento!',
    '@mar√≠a_22 ¬øC√≥mo est√°s?',
    'No puedo esperar para probar este producto.',
    '@pedro123 ¬øTe gustar√≠a acompa√±arme?'
]})

Objetivo:
Filtrar los tuits que mencionan a otros usuarios.

Salida esperada:


| tuit                                |
|-------------------------------------|
| @juanito ¬°Nos vemos ma√±ana!         |
| @mar√≠a_22 ¬øC√≥mo est√°s?              |
| @pedro123 ¬øTe gustar√≠a acompa√±arme? |

Soluci√≥n:

Unnamed: 0,tuit
0,@juanito ¬°Nos vemos ma√±ana!
2,@mar√≠a_22 ¬øC√≥mo est√°s?
4,@pedro123 ¬øTe gustar√≠a acompa√±arme?


## Ejercicio 10: Identificar lenguaje ofensivo en comentarios

Enunciado:
En un sistema de moderaci√≥n, debemos detectar palabras ofensivas en comentarios y marcarlos como inapropiados.

Datos de entrada:

In [19]:
df = pd.DataFrame({'comentarios': [
    "Este producto es una porquer√≠a, no lo compren!",
    "Me gust√≥ mucho, excelente servicio.",
    "Vaya basura de producto, un fraude total."
]})

Objetivo:
Identificar cometarios con palabras ofensivas.

Salida esperada:

| comentarios                                   | es_ofensivo |
|----------------------------------------------|-------------|
| Este producto es una porquer√≠a...           | True        |
| Me gust√≥ mucho, excelente servicio.         | False       |
| Vaya basura de producto, un fraude total.   | True        |

Soluci√≥n:

Unnamed: 0,comentarios,es_ofensivo
0,"Este producto es una porquer√≠a, no lo compren!",True
1,"Me gust√≥ mucho, excelente servicio.",False
2,"Vaya basura de producto, un fraude total.",True
