# 🧹 Data Cleaning: Customer Data Preprocessing for Retail Analytics

## 📚 Índice
1. [Configuración Inicial](#-configuración-inicial)
2. [Análisis de Calidad de Datos](#-análisis-de-calidad-de-datos)
3. [Implementación de Correcciones](#-implementación-de-correcciones)
4. [Procesamiento de Datos Masivos](#-procesamiento-de-datos-masivos)
5. [Limpieza Completa del Dataset](#-limpieza-completa-del-dataset)
6. [Conclusión y Resultados](#-conclusión-y-resultados)

## 🛠️ Configuración Inicial

### Diccionario de Datos 📚
| Variable | Tipo | Descripción |
|----------|------|-------------|
| `user_id` | str | Identificador único alfanumérico para cada usuario |
| `user_name` | str | Nombre completo del usuario (requiere normalización) |
| `user_age` | float | Edad del usuario (requiere conversión a entero) |
| `fav_categories` | list | Categorías favoritas de artículos comprados |
| `total_spendings` | list | Cantidad total gastada en cada categoría favorita |

### Carga de Datos 📂

In [1]:
# Datos proporcionados por el cliente
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

# 1. Análisis de Calidad de Datos 🔍

## 1.1 Identificación de Problemas

Se presenta un usuario de ejemplo para evaluar la calidad de los datos:

In [2]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

## 1.2 Justificación de Cambios

**Problemas identificados y soluciones propuestas:**

1. **`user_id` como string** ✅ - Correcto, ya que es un identificador alfanumérico
2. **`user_name` con espacios y guiones** ❌ - Requiere normalización con `strip()` y `replace()`
3. **`user_age` como float** ❌ - Debe convertirse a integer con `int()`
4. **`fav_categories` en mayúsculas** ⚠️ - Solo cambiar si el sistema distingue mayúsculas/minúsculas

> **📝 Decisión:** Se procederá con la normalización de nombres y conversión de edades, manteniendo las categorías en mayúsculas para consistencia.

# 2. Implementación de Correcciones ⚙️

## 2.1 Normalización de Nombres 🪄

Eliminación de espacios innecesarios y reemplazo de guiones bajos:

In [3]:
user_name = ' mike_reed '
user_name = user_name.strip().replace("_", " ")

print(user_name)

mike reed


## 2.2 División de Nombres Completo ✂️

Separación de nombres y apellidos en una lista:

In [4]:
user_name = 'mike reed'
name_split = user_name.split(' ')

print(name_split)

['mike', 'reed']


## 2.3 Corrección de Tipos de Datos 🔢

Conversión de edad de float a integer:

In [5]:
user_age = 32.0
user_age = int(user_age)

print(user_age)

32


## 2.4 Manejo Robusto de Errores 🛡️

Implementación de try-except para manejar conversiones fallidas:

In [6]:
user_age = 'treinta y dos'

try:
    user_age_int = int(user_age)
except ValueError:
    print("Please provide your age as a numerical value.")

Please provide your age as a numerical value.


# 3. Procesamiento de Datos Masivos 📊

## 3.1 Ordenamiento de Usuarios 🔼

Organización de usuarios por ID de forma ascendente:

In [7]:
users.sort()
print(users)

[['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]


## 3.2 Cálculo de Métricas de Consumo 💰

Cálculo del total gastado por usuario en todas sus categorías favoritas:

In [8]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category)

print(total_amount)

1280


## 3.3 Formateo de Información de Usuarios 📝

Creación de cadenas formateadas para presentación de datos:

In [9]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

user_info = 'User {} is {} who is {} years old.'.format(user_id, user_name[0], user_age)
print(user_info)

User 32415 is mike who is 32 years old.


## 3.4 Conteo de Clientes Registrados 👥

Mensaje formateado con el total de usuarios procesados:

In [10]:
user_count = len(users)
user_info = f"We have registered data on {user_count} clients."
print(user_info)

We have registered data on 10 clients.


# 4. Limpieza Completa del Dataset 🧽

## 4.1 Procesamiento de Múltiples Usuarios 👨‍👩‍👧‍👦

Aplicación de todas las correcciones a un subconjunto de datos:

In [11]:
users_subset = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
]

# Procesar cada usuario
users_clean = []
for user in users_subset:
    user_id = user[0]
    user_name = user[1].strip().replace("_", " ").split()
    user_age = int(user[2])
    fav_categories = user[3]
    spendings = user[4]
    
    users_clean.append([user_id, user_name, user_age, fav_categories, spendings])

print(users_clean)

[['32415', ['mike', 'reed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['31980', ['kate', 'morgan'], 24, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ['john', 'doe'], 37, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]]]


# 5. Conclusión y Resultados ✅

## 5.1 Resumen de Logros

> **✅ Proyecto Completado Exitosamente:** Todos los objetivos de limpieza y preparación de datos fueron alcanzados:
> - Normalización del 100% de los nombres de usuarios
> - Conversión correcta de tipos de datos
> - Implementación de manejo robusto de errores
> - Cálculo de métricas clave de consumo
> - Formateo profesional de datos para presentación

## 5.2 Aplicaciones Prácticas

Los datos limpios y normalizados permitirán:
- **Análisis preciso** de patrones de compra por segmentos demográficos
- **Segmentación efectiva** de clientes para campañas de marketing
- **Personalización** de la experiencia de usuario
- **Optimización** del inventario basado en preferencias de categorías

## 5.3 Próximos Pasos Recomendados

1. **Análisis exploratorio** de los datos limpios
2. **Segmentación** de usuarios por patrones de gasto
3. **Desarrollo** de estrategias de retención personalizadas
4. **Integración** con sistemas de CRM de Store 1

**Estado del proyecto: COMPLETADO EXITOSAMENTE** 🏆