In [1]:
import pandas as pd
import numpy as np

data_marketing = {
    'nombre_cliente': ['  juan.perez ', 'MARIA  gomez', 'Carlos-ROJAS ', '  Ana.DIAZ'],
    'ubicacion': ['Bogota | Calle 85', 'Medellin| Cra 43', 'Cali  | Av. Sexta', 'Bogota|Calle 100'],
    'correo': ['juan.p@GMAIL.com', 'maria.g@EMPRESA.NET', 'carlos.r@HOTMAIL.COM', 'ana.d@TECH-CORP.COM'],
    'id_campaña': ['CAMP-2024_VERANO', 'camp-2023_invierno', 'CAMP.2024.OTOÑO', 'Camp-2022_primavera']
}

df_marketing = pd.DataFrame(data_marketing)

print("---  BASE DE DATOS DE MARKETING (SUCIA) ---")
print(df_marketing)

---  BASE DE DATOS DE MARKETING (SUCIA) ---
  nombre_cliente          ubicacion                correo           id_campaña
0    juan.perez   Bogota | Calle 85      juan.p@GMAIL.com     CAMP-2024_VERANO
1   MARIA  gomez   Medellin| Cra 43   maria.g@EMPRESA.NET   camp-2023_invierno
2  Carlos-ROJAS   Cali  | Av. Sexta  carlos.r@HOTMAIL.COM      CAMP.2024.OTOÑO
3       Ana.DIAZ   Bogota|Calle 100   ana.d@TECH-CORP.COM  Camp-2022_primavera


# Solución 1: Limpieza de Nombres (Reemplazo y Formato)

In [2]:
# Creación de la copia del DataFrame para limpieza
df_limpio = df_marketing.copy()

# Limpieza de la columna 'nombre_cliente'
df_limpio['nombre_cliente'] = df_limpio['nombre_cliente'].str.strip().str.replace('-',' ').str.replace('.', ' ')

#Poner en formato titulo
df_limpio['nombre_cliente'] = df_limpio['nombre_cliente'].str.title()

#Eliminar espacios
df_limpio['nombre_cliente'] = df_limpio['nombre_cliente'].str.replace(r'\s+', ' ', regex=True) # Esto busca "cualquier cantidad de espacios juntos" y los convierte en uno

#Imprimir la columna limpia
print(df_limpio['nombre_cliente'])

0      Juan Perez
1     Maria Gomez
2    Carlos Rojas
3        Ana Diaz
Name: nombre_cliente, dtype: str


# Solució 2: Georreferenciación (Split & Expand)

In [3]:
#Crear una variable para la creación de una variable nueva
columna_nueva=df_limpio['ubicacion'].str.split('|', expand=True)


# Creación de la columna nueva
df_limpio['ciudad'] = columna_nueva[0].str.strip().str.title()
df_limpio['direccion'] = columna_nueva[1].str.strip()

#Eliminación de espacios innecesarios
df_limpio['ciudad'] = df_limpio['ciudad'].str.strip()
df_limpio['direccion'] = df_limpio['direccion'].str.strip()

print(df_limpio[['ciudad','direccion']])

     ciudad  direccion
0    Bogota   Calle 85
1  Medellin     Cra 43
2      Cali  Av. Sexta
3    Bogota  Calle 100


# Solución 3: Extracción de Año (Slicing)

In [4]:
# Pasar año los datos de la columna id_campaña a mayúscula y quitar espacios
# De paso hacemos limpieza de los '_' y '.' que hay
df_limpio['id_campaña'] = df_limpio['id_campaña'].str.upper().str.strip()
# Reemplaza puntos (.) y guiones bajos (_) por guiones (-) usando una expresión regular [._] con regex=True.
df_limpio['id_campaña'] = df_limpio['id_campaña'].str.replace(r'[._]', '-', regex=True)

#Crear nueva columna llamada 'año_campaña' extrayendo solo el año
df_limpio['año_campaña'] = df_limpio['id_campaña'].str[5:9]

#Mostrar datos
print(df_limpio[['id_campaña','año_campaña']])

            id_campaña año_campaña
0     CAMP-2024-VERANO        2024
1   CAMP-2023-INVIERNO        2023
2      CAMP-2024-OTOÑO        2024
3  CAMP-2022-PRIMAVERA        2022


# Solución 4:Filtrado B2B (Contains + Lógica)+

In [5]:
#Para tener mejor presentaciòn de los datos, colocamos la columna correo en minuscula
df_limpio['correo'] = df_limpio['correo'].str.lower()
#Creación de la columna 'es_personal' donde se guardara si es personal o corporativo
df_limpio['es_personal']= df_limpio['correo'].str.contains('gmail|hotmail', case=False)

print(df_limpio[['correo','es_personal']])

                 correo  es_personal
0      juan.p@gmail.com         True
1   maria.g@empresa.net        False
2  carlos.r@hotmail.com         True
3   ana.d@tech-corp.com        False
