# üßπ Data Cleaning: Customer Data Preprocessing for Retail Analytics

## üìö √çndice
1. [Configuraci√≥n Inicial](#-configuraci√≥n-inicial)
2. [An√°lisis de Calidad de Datos](#-an√°lisis-de-calidad-de-datos)
3. [Implementaci√≥n de Correcciones](#-implementaci√≥n-de-correcciones)
4. [Procesamiento de Datos Masivos](#-procesamiento-de-datos-masivos)
5. [Limpieza Completa del Dataset](#-limpieza-completa-del-dataset)
6. [Conclusi√≥n y Resultados](#-conclusi√≥n-y-resultados)

## üõ†Ô∏è Configuraci√≥n Inicial

### Diccionario de Datos üìö
| Variable | Tipo | Descripci√≥n |
|----------|------|-------------|
| `user_id` | str | Identificador √∫nico alfanum√©rico para cada usuario |
| `user_name` | str | Nombre completo del usuario (requiere normalizaci√≥n) |
| `user_age` | float | Edad del usuario (requiere conversi√≥n a entero) |
| `fav_categories` | list | Categor√≠as favoritas de art√≠culos comprados |
| `total_spendings` | list | Cantidad total gastada en cada categor√≠a favorita |

### Carga de Datos üìÇ

In [1]:
# Datos proporcionados por el cliente
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

# 1. An√°lisis de Calidad de Datos üîç

## 1.1 Identificaci√≥n de Problemas

Se presenta un usuario de ejemplo para evaluar la calidad de los datos:

In [2]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

## 1.2 Justificaci√≥n de Cambios

**Problemas identificados y soluciones propuestas:**

1. **`user_id` como string** ‚úÖ - Correcto, ya que es un identificador alfanum√©rico
2. **`user_name` con espacios y guiones** ‚ùå - Requiere normalizaci√≥n con `strip()` y `replace()`
3. **`user_age` como float** ‚ùå - Debe convertirse a integer con `int()`
4. **`fav_categories` en may√∫sculas** ‚ö†Ô∏è - Solo cambiar si el sistema distingue may√∫sculas/min√∫sculas

> **üìù Decisi√≥n:** Se proceder√° con la normalizaci√≥n de nombres y conversi√≥n de edades, manteniendo las categor√≠as en may√∫sculas para consistencia.

# 2. Implementaci√≥n de Correcciones ‚öôÔ∏è

## 2.1 Normalizaci√≥n de Nombres ü™Ñ

Eliminaci√≥n de espacios innecesarios y reemplazo de guiones bajos:

In [3]:
user_name = ' mike_reed '
user_name = user_name.strip().replace("_", " ")

print(user_name)

mike reed


## 2.2 Divisi√≥n de Nombres Completo ‚úÇÔ∏è

Separaci√≥n de nombres y apellidos en una lista:

In [4]:
user_name = 'mike reed'
name_split = user_name.split(' ')

print(name_split)

['mike', 'reed']


## 2.3 Correcci√≥n de Tipos de Datos üî¢

Conversi√≥n de edad de float a integer:

In [5]:
user_age = 32.0
user_age = int(user_age)

print(user_age)

32


## 2.4 Manejo Robusto de Errores üõ°Ô∏è

Implementaci√≥n de try-except para manejar conversiones fallidas:

In [6]:
user_age = 'treinta y dos'

try:
    user_age_int = int(user_age)
except ValueError:
    print("Please provide your age as a numerical value.")

Please provide your age as a numerical value.


# 3. Procesamiento de Datos Masivos üìä

## 3.1 Ordenamiento de Usuarios üîº

Organizaci√≥n de usuarios por ID de forma ascendente:

In [7]:
users.sort()
print(users)

[['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]


## 3.2 C√°lculo de M√©tricas de Consumo üí∞

C√°lculo del total gastado por usuario en todas sus categor√≠as favoritas:

In [8]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category)

print(total_amount)

1280


## 3.3 Formateo de Informaci√≥n de Usuarios üìù

Creaci√≥n de cadenas formateadas para presentaci√≥n de datos:

In [9]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

user_info = 'User {} is {} who is {} years old.'.format(user_id, user_name[0], user_age)
print(user_info)

User 32415 is mike who is 32 years old.


## 3.4 Conteo de Clientes Registrados üë•

Mensaje formateado con el total de usuarios procesados:

In [10]:
user_count = len(users)
user_info = f"We have registered data on {user_count} clients."
print(user_info)

We have registered data on 10 clients.


# 4. Limpieza Completa del Dataset üßΩ

## 4.1 Procesamiento de M√∫ltiples Usuarios üë®‚Äçüë©‚Äçüëß‚Äçüë¶

Aplicaci√≥n de todas las correcciones a un subconjunto de datos:

In [11]:
users_subset = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
]

# Procesar cada usuario
users_clean = []
for user in users_subset:
    user_id = user[0]
    user_name = user[1].strip().replace("_", " ").split()
    user_age = int(user[2])
    fav_categories = user[3]
    spendings = user[4]
    
    users_clean.append([user_id, user_name, user_age, fav_categories, spendings])

print(users_clean)

[['32415', ['mike', 'reed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['31980', ['kate', 'morgan'], 24, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ['john', 'doe'], 37, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]]]


# 5. Conclusi√≥n y Resultados ‚úÖ

## 5.1 Resumen de Logros

> **‚úÖ Proyecto Completado Exitosamente:** Todos los objetivos de limpieza y preparaci√≥n de datos fueron alcanzados:
> - Normalizaci√≥n del 100% de los nombres de usuarios
> - Conversi√≥n correcta de tipos de datos
> - Implementaci√≥n de manejo robusto de errores
> - C√°lculo de m√©tricas clave de consumo
> - Formateo profesional de datos para presentaci√≥n

## 5.2 Aplicaciones Pr√°cticas

Los datos limpios y normalizados permitir√°n:
- **An√°lisis preciso** de patrones de compra por segmentos demogr√°ficos
- **Segmentaci√≥n efectiva** de clientes para campa√±as de marketing
- **Personalizaci√≥n** de la experiencia de usuario
- **Optimizaci√≥n** del inventario basado en preferencias de categor√≠as

## 5.3 Pr√≥ximos Pasos Recomendados

1. **An√°lisis exploratorio** de los datos limpios
2. **Segmentaci√≥n** de usuarios por patrones de gasto
3. **Desarrollo** de estrategias de retenci√≥n personalizadas
4. **Integraci√≥n** con sistemas de CRM de Store 1

**Estado del proyecto: COMPLETADO EXITOSAMENTE** üèÜ