# Store 1 – Limpieza y Preprocesamiento de Datos de Clientes

Store 1 proporcionó una muestra de datos de sus clientes para realizar un análisis preliminar.  
El objetivo es revisar la calidad de los datos y prepararlos para su análisis en fases posteriores.  
Los datos están organizados en una lista de Python, donde cada sublista representa un cliente y contiene la siguiente información:

- `user_id`: Identificador único del usuario.
- `user_name`: Nombre completo del usuario.
- `user_age`: Edad del usuario.
- `fav_categories`: Categorías favoritas de productos adquiridos (por ejemplo, `'ELECTRONICS'`, `'SPORT'`, `'BOOKS'`).
- `total_spendings`: Lista de gastos totales por cada categoría favorita.


In [50]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


# Paso 1 – Evaluación de calidad de los datos

Store 1 tiene como objetivo garantizar la coherencia en la recopilación de datos.  
Como parte de esta iniciativa, se debe evaluar la calidad de los datos recopilados sobre los usuarios y las usuarias.  
Se debe revisar los datos recopilados y proponer cambios.  
A continuación, se presentan los datos de un usuario específico para identificar posibles problemas de calidad:

In [5]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

**Observaciones:**

- `user_id` está en formato `str`, pero si solo se utiliza como identificador único, es aceptable mantenerlo así.
- En `user_name`, se deben eliminar los espacios y reemplazar el guion bajo por un espacio. También se recomienda aplicar `.title()` para capitalizar correctamente el nombre.
- `user_age` está en formato `float`, pero sería más apropiado convertirlo a `int` si no se esperan decimales.
- En `fav_categories`, los valores están en mayúsculas. Es recomendable convertirlos a minúsculas con `.lower()` para estandarizar el formato y facilitar su análisis.


# Paso 2 – Limpieza del nombre de usuario

Se procede a limpiar el valor de `user_name`, ya que contiene espacios innecesarios y un guion bajo como separador entre nombre y apellido.

Para ello, se aplican los siguientes métodos:
- `.strip()` para eliminar espacios al inicio y al final de la cadena.
- `.replace("_", " ")` para reemplazar guiones bajos por espacios.
- `.title()` para capitalizar cada palabra del nombre.

El resultado es un nombre formateado correctamente y listo para su análisis.


In [9]:
user_name = ' mike_reed '
user_name = user_name.strip().replace("_", " ").title()
print(user_name)


Mike Reed


# Paso 3 – División del nombre en nombre y apellido

Se divide el valor de `user_name` en dos componentes utilizando el método `.split()`.  
Este método genera una lista con el nombre y el apellido como elementos separados, permitiendo una manipulación más precisa del dato.

In [16]:
user_name = 'Mike Reed'
name_split = user_name.split()
print(name_split)


['Mike', 'Reed']


# Paso 4 – Conversión del tipo de dato de edad

El valor de `user_age` se encuentra almacenado como un número decimal (`float`).  
Dado que la edad no requiere decimales, se procede a convertir este valor al tipo `int` para estandarizar su formato y facilitar su análisis.


In [15]:
user_age = 32.0
user_age = int(user_age)

print(user_age)

32


# Paso 5 – Manejo de errores al convertir la edad

Dado que los datos ingresados pueden contener errores o estar en un formato no numérico, se implementa un bloque `try-except` para manejar posibles fallos al convertir `user_age` a tipo `int`.

Si la conversión es exitosa, se muestra el valor transformado.  
En caso contrario, se genera un mensaje informativo solicitando ingresar la edad en formato numérico.


In [60]:
user_age = 'treinta y dos'

try:
    user_age_int = int(user_age)
    print(f"La edad convertida es: {user_age_int}")
except ValueError:
    print("Please provide your age as a numerical value.")


Please provide your age as a numerical value.


# Paso 6 – Ordenamiento de usuarios por ID

Se requiere organizar los datos por el identificador de usuario (`user_id`) en orden ascendente para facilitar su análisis.

Como los valores de `user_id` se encuentran en formato de texto (`str`), primero se convierten a tipo entero (`int`).  
Luego se aplica el método `.sort()` para ordenar la lista correctamente de forma numérica.

In [71]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

for user in users:
    user[0] = int(user[0])
    
users.sort()

print(users)

[[31980, 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]], [32156, ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], [32415, ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], [32761, 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], [32984, 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], [33001, 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], [33767, ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], [33912, 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], [34009, 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], [34278, 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]


# Paso 7 – Cálculo del gasto total por usuario

Para analizar los hábitos de consumo de los usuarios, se calcula el gasto total sumando los valores asociados a cada una de sus categorías favoritas.  

La lista `spendings_per_category` contiene los montos gastados en cada categoría.  
Se utiliza la función incorporada `sum()` para obtener el total y almacenarlo en la variable `total_amount`.

In [23]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category)

print(total_amount)


1280


# Paso 8 – Generación de una cadena de resumen para el usuario

Para facilitar la presentación de información, se construye una cadena formateada que combina los valores de `user_id`, `user_name` y `user_age` en una estructura legible.  

Se utiliza una f-string para generar la frase final que resume los datos del usuario de manera clara.

In [78]:
user_id = 32415
user_name = ['Mike', 'Reed']
user_age = 32

user_info = f"User {user_id} is {user_name[0]} who is {user_age} years old."
print(user_info)

User 32415 is Mike who is 32 years old.


# Paso 9 – Conteo de registros de usuarios

Para obtener una visión general de la base de datos, se calcula la cantidad total de usuarios registrados.  
Esto se logra utilizando la función incorporada `len()` sobre la lista `users`, la cual contiene los datos de cada cliente.  

Luego, se genera una cadena formateada que comunica esta información de forma clara.


In [81]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

cantidad_de_clientes = len(users)

user_info = f"Hemos registrado datos de {cantidad_de_clientes} clientes."
print(user_info)

Hemos registrado datos de 10 clientes.


# Paso 10 – Limpieza completa de la lista de usuarios

Se realiza una limpieza completa de la lista `users` para generar una nueva lista llamada `users_clean`, con los datos corregidos y listos para su análisis.

Cada usuario es procesado aplicando los siguientes pasos:

1. Se eliminan los espacios al inicio y final del nombre, y se reemplazan los guiones bajos (`_`) por espacios.
2. Se convierte el nombre completo a formato de título con `.title()` (primera letra en mayúscula).
3. El nombre limpio se separa en una sublista `[nombre, apellido]` mediante `.split()`.
4. Se convierte el valor de `user_age` de tipo `float` a tipo `int`.
5. Se convierte el valor de `user_id` de cadena (`str`) a número entero (`int`).
6. El registro limpio se agrega a la lista `users_clean`.

El uso de un bucle `for` permite aplicar estos cambios de forma eficiente a todos los usuarios, evitando la repetición de código.


In [96]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

users_clean = []

for user in users:
    user_id = int(user[0])
    name_clean = user[1].strip().replace('_', ' ').title().split()
    age_int = int(user[2])
    fav_categories = user[3]
    total_spendings = user[4]

    users_clean.append([user_id, name_clean, age_int, fav_categories, total_spendings])

print(users_clean)


[[32415, ['Mike', 'Reed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], [31980, ['Kate', 'Morgan'], 24, ['CLOTHES', 'BOOKS'], [439, 390]], [32156, ['John', 'Doe'], 37, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], [32761, ['Samantha', 'Smith'], 29, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], [32984, ['David', 'White'], 41, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], [33001, ['Emily', 'Brown'], 26, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], [33767, ['Maria', 'Garcia'], 33, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], [33912, ['Jose', 'Martinez'], 22, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], [34009, ['Lisa', 'Wilson'], 35, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], [34278, ['James', 'Lee'], 28, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]


# Conclusión

Se ha realizado una limpieza exhaustiva de los datos de clientes proporcionados por Store 1.  
Cada registro fue corregido en formato, consistencia de tipos de datos y estructura, permitiendo su uso en análisis posteriores de manera ordenada y confiable.
Este trabajo de preprocesamiento es esencial para garantizar la calidad de los datos y optimizar cualquier proceso de análisis de clientes, segmentación o campañas de marketing que la empresa planee ejecutar.
