# Store 1 – Análisis Lógico de Datos de Clientes

Store 1 continúa desarrollando su base de datos de clientes con el objetivo de optimizar su estrategia comercial.  
En esta segunda etapa del análisis, se aplicarán estructuras de control y funciones lógicas en Python para extraer información más profunda de los datos disponibles.

Cada registro contiene los siguientes campos:

- `user_id`: identificador único para cada usuario.
- `user_name`: nombre del usuario.
- `user_age`: edad del usuario.
- `fav_categories`: categorías de artículos comprados por el usuario, como 'ELECTRONICS', 'SPORT', 'BOOKS', etc.
- `total_spendings`: lista de enteros que indican la cantidad gastada en cada una de sus categorías favoritas.


In [21]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


# Paso 1 – Limpieza de nombre y edad de usuario

En esta sección se implementa una función para estandarizar la información básica de un cliente individual.  
La función `clean_user()` toma como entrada una lista que representa a un cliente, y aplica los siguientes pasos:

1. Elimina espacios innecesarios y reemplaza guiones bajos en el nombre.
2. Convierte la edad en número entero.
3. Separa el nombre y apellido en una sublista para facilitar su uso posterior.

La función recibe como parámetros:
- `usuario`: lista con la información completa del cliente.
- `nombre`: índice de la posición del nombre dentro de la lista.
- `edad`: índice de la posición de la edad dentro de la lista.

Se incluye una validación básica de tipo y longitud para evitar errores inesperados.


In [31]:
def clean_user(usuario, nombre, edad):
    nombre_limpio = usuario[nombre].strip().replace('_', ' ').title().split()
    edad_limpia = int(usuario[edad])
    usuario[nombre] = nombre_limpio
    usuario[edad] = edad_limpia
    return usuario

# Paso 2 – Conversión de categorías a minúsculas

En esta sección se estandarizan los nombres de las categorías favoritas de cada cliente, ya que originalmente se encuentran en mayúsculas.  
Para ello, se utiliza una comprensión de listas que aplica el método `.lower()` sobre cada elemento de la lista `fav_categories`, generando una nueva lista llamada `fav_categories_low`.



In [35]:
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']
fav_categories_low = []

for category in fav_categories:
    fav_categories_low.append(category.lo0wer())

print(fav_categories_low)

['electronics', 'sport', 'books']


# Paso 3 – Conversión de categorías a minúsculas para todos los usuarios

Se transforma la lista de categorías favoritas de cada cliente a minúsculas.  
Se crea una nueva lista llamada `users_categories_low` con los usuarios actualizados, preservando intacta la lista original.

In [41]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

users_categories_low = []

for user in users:
    categories_low = []
    for category in user[3]:
        lowered_category = category.lower()
        categories_low.append(lowered_category)
    
    updated_user = user.copy()
    updated_user[3] = categories_low
    users_categories_low.append(updated_user)

print(users_categories_low)

[['32415', ' mike_reed ', 32.0, ['electronics', 'sport', 'books'], [894, 213, 173]], ['31980', 'kate morgan', 24.0, ['clothes', 'books'], [439, 390]], ['32156', ' john doe ', 37.0, ['electronics', 'home', 'food'], [459, 120, 99]], ['32761', 'SAMANTHA SMITH', 29.0, ['clothes', 'electronics', 'beauty'], [299, 679, 85]], ['32984', 'David White', 41.0, ['books', 'home', 'sport'], [234, 329, 243]], ['33001', 'emily brown', 26.0, ['beauty', 'home', 'food'], [213, 659, 79]], ['33767', ' Maria Garcia', 33.0, ['clothes', 'food', 'beauty'], [499, 189, 63]], ['33912', 'JOSE MARTINEZ', 22.0, ['sport', 'electronics', 'home'], [259, 549, 109]], ['34009', 'lisa wilson ', 35.0, ['home', 'books', 'clothes'], [329, 189, 329]], ['34278', 'James Lee', 28.0, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]


# Paso 4 – Limpieza completa del usuario con función clean_user

En esta sección se completa la función `clean_user` para realizar la limpieza integral de cada cliente.

La función ahora incluye un nuevo parámetro para el índice de las categorías (`cat_index`) y realiza las siguientes transformaciones:

- Convierte el nombre completo a minúsculas, elimina espacios y reemplaza guiones bajos.
- Separa el nombre y apellido en una sublista.
- Convierte la edad a número entero.
- Convierte todas las categorías favoritas a minúsculas.

Finalmente, se recorre toda la lista de usuarios `users`, aplicando la función `clean_user` a cada uno y almacenando los resultados en la lista `users_cleaned`.


In [45]:
def clean_user(user_info, name_index, age_index, cat_index):
    user_name_1 = user_info[name_index].strip().lower().replace('_', ' ')
    user_age_1 = int(user_info[age_index])
    user_name_1 = user_name_1.split()

    categories_low = []
    for category in user_info[cat_index]:
        categories_low.append(category.lower())

    user_info[name_index] = user_name_1
    user_info[age_index] = user_age_1
    user_info[cat_index] = categories_low

    return user_info

users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

name_index = 1
age_index = 2
cat_index = 3
users_cleaned = []

for user in users:
    user_cleaned = clean_user(user, name_index, age_index, cat_index)
    users_cleaned.append(user_cleaned)

print(users_cleaned)


[['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]], ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]], ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]], ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]], ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]], ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]], ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]], ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]], ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]], ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]


# Paso 5 – Cálculo del ingreso total de la empresa

En esta sección se calcula el ingreso total de la empresa, sumando todos los gastos realizados por cada cliente.

Se recorre la lista `users` y se extrae la lista de gastos de cada cliente para obtener el total gastado.  
Luego, se acumulan los valores individuales en la variable `revenue`, que representa el ingreso total final.

In [48]:
users = [['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
         ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
         ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
         ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
         ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
         ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
         ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
         ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
         ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
         ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]

revenue = 0

for user in users:
    spendings_list = user[4]
    total_spendings = sum(spendings_list)
    revenue += total_spendings

print(revenue)

9189


# Paso 6 – Simulación de compras adicionales hasta alcanzar fidelización

La empresa desea identificar a sus clientes leales, definidos como aquellos que han gastado más de $1500 en total.  
Para ello, se simulan nuevas compras hasta alcanzar ese umbral utilizando un bucle `while`.

En cada iteración del bucle, se genera un nuevo gasto aleatorio entre entre 30 y 80 dólares, el cual se suma al monto total ya gastado.  
El bucle finaliza una vez que el cliente ha alcanzado o superado el objetivo de gasto.

Esto permite visualizar cómo un cliente puede alcanzar el estatus de cliente leal a través de nuevas compras.

In [64]:
from random import randint  # no entiendo que es esto :(

total_amount_spent = 1280
target_amount = 1500

while total_amount_spent < target_amount:
	new_purchase = randint(30, 80) # generamos un número aleatorio de 30 a 80
	total_amount_spent += new_purchase

print(total_amount_spent)

1510


# Paso 7 – Filtrado de usuarios por edad

La empresa desea identificar a los clientes menores de 30 años.  
Para ello, se recorre la lista `users` utilizando un bucle `for`, y se aplica una condición `if` para verificar si la edad del cliente (índice 2) es menor a 30.

Cuando se cumple la condición, se imprime el nombre completo del cliente utilizando la función `.join()` para combinar nombre y apellido desde la sublista que contiene sus datos personales.

In [67]:
users = [['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
         ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
         ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
         ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
         ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
         ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
         ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
         ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
         ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
         ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]


for user in users:
    if user[2] < 30:
        full_name = ' '.join(user[1])
        print(full_name)

kate morgan
samantha smith
emily brown
jose martinez
james lee


# Paso 8 – Clientes jóvenes con alto gasto

En este paso se identifican los usuarios menores de 30 años que han realizado un gasto total superior a \$1000.

Se implementa una doble condición utilizando estructuras `if` anidadas:  
primero se verifica que la edad del usuario sea menor a 30,  
y luego se comprueba si el monto total de sus compras supera el umbral establecido.

Cuando ambas condiciones se cumplen, se imprime el nombre completo del usuario.

In [32]:
users = [['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
         ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
         ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
         ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
         ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
         ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
         ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
         ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
         ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
         ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]

for user in users:
    if user[2] < 30:
        total_spent = sum(user[4])
        if total_spent > 1000:
            full_name = ' '.join(user[1])
            print(full_name)

samantha smith
james lee


# Paso 9 – Usuarios que compraron ropa

Se recorre la lista de usuarios y se filtran aquellos que tienen la categoría `"clothes"` en su historial de compras.

Si un usuario ha comprado ropa, se imprime su nombre completo junto con su edad en la misma línea.

Esto se logra utilizando la instrucción `if` para verificar la categoría en la posición correspondiente,  
combinado con la función `.join()` para unir nombre y apellido, y `print()` para mostrar los resultados.

In [34]:
users = [['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
         ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
         ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
         ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
         ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
         ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
         ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
         ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
         ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
         ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]

for user in users:
    if 'clothes' in user[3]:
        full_name = ' '.join(user[1])
        age = user[2]
        print(full_name, age)

kate morgan 24
samantha smith 29
maria garcia 33
lisa wilson 35
james lee 28


# Paso 10 – Función para filtrar clientes por categoría

La empresa requiere obtener información detallada sobre los clientes que han realizado compras en una categoría específica.  
Para ello, se define la función `get_client_by_cat()`, que permite filtrar clientes en base a una categoría dada.

### Detalles de implementación:

La función recibe los siguientes parámetros:
- `users`: lista de usuarios.
- `id_index`: índice del ID del usuario.
- `name_index`: índice donde está almacenado el nombre (sublista).
- `age_index`: índice de la edad.
- `category_index`: índice de las categorías de compra.
- `amounts_index`: índice de los montos gastados.
- `filter_category`: categoría de compra que se desea filtrar (como `'home'`).

Para cada usuario, la función verifica si ha comprado en la categoría indicada.  
Si es así, recupera el monto gastado en esa categoría y guarda una sublista con:

- El ID del usuario.
- Su nombre (como sublista).
- Su edad.
- El monto gastado en la categoría.

El resultado final es una lista de sublistas, cada una representando a un cliente filtrado.

In [75]:
def get_client_by_cat(users, id_index, name_index, age_index, category_index, amounts_index, filter_category):
    result = []

    for user in users:
        if filter_category in user[category_index]:
            category_pos = user[category_index].index(filter_category)
            amount_spent = user[amounts_index][category_pos]
            client_data = [user[id_index], user[name_index], user[age_index], amount_spent]
            result.append(client_data)

    return result
    
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]
]

result = get_client_by_cat(users, 0, 1, 2, 3, 4, 'home')
print(result)


[['32156', ['john', 'doe'], 37, 120], ['32984', ['david', 'white'], 41, 329], ['33001', ['emily', 'brown'], 26, 659], ['33912', ['jose', 'martinez'], 22, 109], ['34009', ['lisa', 'wilson'], 35, 329]]


# Conclusión

A lo largo de este proyecto, se realizó un proceso completo de limpieza y preprocesamiento de los datos de clientes proporcionados por Store 1.

Cada paso abordó una tarea clave para mejorar la calidad de los datos:
- Se estandarizaron los nombres de los usuarios eliminando espacios, guiones bajos y corrigiendo el formato con minúsculas y mayúsculas.
- Se convirtieron las edades de flotante a entero para asegurar uniformidad.
- Las categorías de compra fueron normalizadas a minúsculas y reorganizadas sin modificar los datos originales.
- Se calculó el gasto total de cada usuario, así como el ingreso general de la empresa.
- Se simularon nuevas compras utilizando números aleatorios para analizar casos de clientes leales.
- Se aplicaron filtros para obtener información de usuarios menores de cierta edad, con gastos específicos o compras de ciertos productos.
- Finalmente, se desarrolló una función reutilizable capaz de filtrar usuarios por categoría específica y retornar información relevante como nombre, edad e historial de gasto.

Este flujo de trabajo permitió aplicar estructuras fundamentales de Python como funciones, bucles, condicionales, comprensión de listas y manipulación de estructuras anidadas. Todo esto sienta las bases para abordar análisis más complejos en proyectos posteriores con datos aún más robustos.

El resultado es una base de datos limpia, estandarizada y lista para análisis posteriores como segmentación de clientes, patrones de consumo o automatización de campañas de marketing.

