`Expresiones regex útiles para regexp_replace en Spark`

`Notas Importantes:`

- ^ dentro de [] significa "no"
- `\\` se usa para escapar caracteres especiales

Algunos patrones pueden variar según la versión de Spark


Consejos:

- Prueba siempre tus expresiones regulares
- Usa el método más simple que resuelva tu problema

1. Patrones de Caracteres:

- [a-z]       solo letras minúsculas
- [A-Z]       solo letras mayúsculas
- [a-zA-Z]    todas las letras (mayúsculas y minúsculas)
- [0-9]       solo números

2. Eliminación de Caracteres:
- [^a-z]          elimina todo menos letras minúsculas
- [^A-Z]          elimina todo menos letras mayúsculas
- [^a-zA-Z]       elimina todo menos letras
- [^a-zA-Z ]      elimina todo menos letras y espacios
- [^0-9]          elimina todo menos números
- [^a-zA-Z0-9]    elimina todo menos letras y números

3. Patrones Especiales:
- \d          cualquier dígito
- \D          cualquier NO dígito
- \w          cualquier caracter de palabra (letras, números, guion bajo)
- \W          cualquier NO caracter de palabra
- \s          cualquier espacio en blanco
- \S          cualquier NO espacio en blanco

4. Ejemplos Específicos:
- [^@.]           elimina todo menos @ y .
- [^\p{ASCII}]    elimina todos los caracteres ASCII
- [^\p{L}]        elimina todas las letras de cualquier idioma
- [^a-zA-Z0-9 ]   elimina todo menos letras, números y espacios

In [None]:
# 1
from pyspark.sql.functions import regexp_replace, col, trim

df = df.withColumn(
    'City',
    trim(regexp_replace(col('City'),"[^a-zA-Z ]",""))
)
# opciones que se pueden implementar

# Eliminar todos los caracteres especiales
regexp_replace(col("columna"), "[^a-zA-Z ]", "")  # Solo letras y espacios

# Eliminar números
regexp_replace(col("columna"), "[0-9]", "")  # Quita todos los dígitos

# Eliminar letras
regexp_replace(col("columna"), "[a-zA-Z]", "")  # Quita todas las letras

# Mantener solo números
regexp_replace(col("columna"), "[^0-9]", "")  # Solo dígitos


In [None]:
#2
df = df.withColumn(
    'City',
    trim(regexp_replace(col('City'),"[^a-zA-Z ]",""))
)
# opciones que se pueden implementar

# Eliminar espacios
regexp_replace(col("columna"), "\\s", "")  # Quita todos los espacios

# Reemplazar múltiples espacios por uno solo
regexp_replace(col("columna"), "\\s+", " ")

# Eliminar puntuación
regexp_replace(col("columna"), "[\\p{Punct}]", "")

# Eliminar caracteres especiales y acentos
regexp_replace(col("columna"), "[^a-zA-Z0-9 ]", "")


In [None]:
#3 Validaciones y tranformaciones 
df = df.withColumn(
    'email',
    trim(regexp_replace(col('email'),"[^a-zA-Z0-9@.]",""))
)

# Validar email (ejemplo básico)
regexp_replace(col("email"), "[^a-zA-Z0-9@.]", "")

# Formatear teléfonos (quitar caracteres no numéricos)
regexp_replace(col("phone"), "[^0-9]", "")

# Limpiar nombres (mantener solo letras y espacios)
regexp_replace(col("name"), "[^a-zA-Z ]", "")


In [None]:
#4 Patrones avanzados

# Reemplazar caracteres no ASCII
regexp_replace(col("columna"), "[^\\p{ASCII}]", "")

# Eliminar caracteres Unicode
regexp_replace(col("columna"), "[^\\p{L}\\p{N} ]", "")

# Mantener solo caracteres latinos
regexp_replace(col("columna"), "[^\\p{InLatin}]", "")


In [None]:
# Eliminar prefijos o sufijos
regexp_replace(col("columna"), "^(Mr\\.|Mrs\\.|Ms\\.) ", "")

# Reemplazar múltiples espacios
regexp_replace(col("columna"), "\\s{2,}", " ")

# Eliminar saltos de línea
regexp_replace(col("columna"), "\\n", " ")

# Eliminar tabulaciones
regexp_replace(col("columna"), "\\t", "")


In [None]:
# \d - Dígitos
regexp_replace(col("columna"), "\\d", "")  # Elimina números

# \w - Caracteres de palabra (letras, números, guion bajo)
regexp_replace(col("columna"), "\\w", "")  # Elimina caracteres de palabra

# \W - Caracteres que NO son de palabra
regexp_replace(col("columna"), "\\W", "")  # Elimina caracteres no alfanuméricos


In [None]:
# Limpiar nombres con múltiples transformaciones
df = df.withColumn("cleaned_name", 
    regexp_replace(
        regexp_replace(col("name"), "[^a-zA-Z ]", ""),  # Quita caracteres especiales
        "\\s+", " "  # Reemplaza múltiples espacios
    )
)
