In [2]:
import pandas as pd
import re

In [4]:
# TODO: Dado el siguiente dataset sucio, limpia y estandariza:
contactos_sucios = pd.DataFrame({
    'nombre': ['  juan perez  ', 'ANA GARCIA', 'carlos LOPEZ'],
    'telefono': ['91 555 1234', '915551235', '91-555-1236'],
    'email': ['juan@COMPANY.COM', 'ana.garcia@company', 'carlos.lopez@company.com']
})

# 1. Estandarizar nombres (Title Case, sin espacios extra)
# 2. Formatear teléfonos como XX-XXX-XXXX
# 3. Normalizar emails (minúsculas, agregar .com si falta)

# Tu solución aquí:
contactos_limpios = contactos_sucios.copy()
def limpiar_nombre(nombre):
    return nombre.strip().title()
contactos_limpios['nombre'] = contactos_limpios['nombre'].apply(limpiar_nombre)

def formatear_telefono(telefono):
    digitos = re.sub(r'\D', '', telefono)  # Eliminar no dígitos
    if len(digitos) == 9:
        return f"{digitos[:2]}-{digitos[2:5]}-{digitos[5:]}"
    return telefono  # Si no es válido, devolver original
    
contactos_limpios['telefono'] = contactos_limpios['telefono'].apply(formatear_telefono)

def normalizar_email(email):
    email = email.strip().lower()
    if not email.endswith('.com'):
        email += '.com'
    return email
contactos_limpios['email'] = contactos_limpios['email'].apply(normalizar_email)
print("Dataset limpio:")
print(contactos_limpios)

Dataset limpio:
         nombre     telefono                     email
0    Juan Perez  91-555-1234          juan@company.com
1    Ana Garcia  91-555-1235    ana.garcia@company.com
2  Carlos Lopez  91-555-1236  carlos.lopez@company.com


In [6]:
# TODO: Corregir inconsistencias en este dataset:
ventas_inconsistentes = pd.DataFrame({
    'region': ['Norte', 'N', 'NORTE', 'Sur', 's', 'SUR'],
    'estado': ['completado', 'PENDIENTE', 'Comp', 'pend', 'COMPLETADO', 'Pendiente'],
    'monto': ['1,500', '2500', '1.200', '3,000', '800', '2.800']
})

# 1. Estandarizar regiones (Norte, Sur)
# 2. Estandarizar estados (Completado, Pendiente)
# 3. Convertir montos a números

# Tu solución aquí:
# Creamos una copia
ventas_corregidas = ventas_inconsistentes.copy()

def estandarizar_region(region):
    region = region.strip().upper()
    if region in ['Norte','N']:
        return 'Norte'
    elif region in ['SUR','S']:
        return 'Sur'
    else:
        return region.title()
ventas_corregidas['region'] = ventas_corregidas['region'].apply(estandarizar_region)

# EStandarizar estados
def estandarizar_estado(estado):
    estado = estado.strip().lower()
    if estado in ['completado', 'comp']:
        return 'Completado'
    elif estado in ['pendiente', 'pend']:
        return 'Pendiente'
    else:
        return estado.title()

ventas_corregidas['estado'] = ventas_corregidas['estado'].apply(estandarizar_estado)

# convertir montos a numeros
def convertir_monto(monto):
    monto_str = str(monto).replace(',','').replace('.','')  # Eliminar caracteres no numéricos
    try :
        return float(monto_str)  # Convertir a float
    except ValueError:
        return 0.0
ventas_corregidas['monto'] = ventas_corregidas['monto'].apply(convertir_monto)
print("Dataset corregido:")
print(ventas_corregidas)
print(ventas_corregidas.dtypes)

Dataset corregido:
  region      estado   monto
0  Norte  Completado  1500.0
1  Norte   Pendiente  2500.0
2  Norte  Completado  1200.0
3    Sur   Pendiente  3000.0
4    Sur  Completado   800.0
5    Sur   Pendiente  2800.0
region     object
estado     object
monto     float64
dtype: object
