# Advanced User Data Processing and Segmentation  #


**Proyecto:** Extracción y Análisis Avanzado del Comportamiento del Usuario

**Autor:** Carlos Smith

**Fecha:** Junio 2025

*Descripción del Proyecto:*

Este proyecto se adentra en la extracción de información significativa y el análisis profundo de los hábitos de consumo de los usuarios, partiendo de los datos previamente limpiados y estructurados en la fase anterior. Aborda el desafío de transformar datos anidados y complejos en insights accionables, crucial para la toma de decisiones estratégicas.

🎯 *Objetivos Clave:*

- **Extracción de Datos Avanzada:** Implementar lógicas para acceder y manipular información compleja dentro de estructuras de datos anidadas.
- **Análisis de Comportamiento:** Calcular métricas clave del comportamiento de gasto del usuario para identificar patrones y preferencias.
- **Generación de Insights:** Producir resúmenes y agregaciones de datos que respondan directamente a las necesidades estratégicas de la dirección.
- **Optimización de Presentación:** Formatear los resultados de manera clara y profesional para diversas audiencias, incluyendo stakeholders técnicos y no técnicos.

🛠️ *Habilidades Demostradas:*

- **Python:** Dominio en la manipulación de estructuras de datos complejas (listas anidadas, diccionarios), agregación de datos y uso eficiente de funciones.
- **Análisis de Datos:** Capacidad para definir métricas relevantes, calcular agregados y extraer patrones de comportamiento.
- **Resolución de Problemas:** Habilidad para diseñar soluciones efectivas para la extracción de datos desde formatos no tabulares estándar.
- **Pensamiento Lógico/Algorítmico:** Creación de algoritmos eficientes para procesar y transformar grandes volúmenes de datos.
- **Comunicación Estratégica:** Presentación de resultados de análisis en formatos ejecutivos, facilitando la comprensión y la toma de decisiones basadas en datos.

Este proyecto subraya la capacidad para ir más allá de la limpieza de datos, enfocándose en la extracción de valor y la generación de insights accionables a partir de conjuntos de datos con mayor complejidad, una habilidad indispensable para un analista de datos avanzado.

---

**Contexto del Análisis:**

Tras establecer una base sólida con la limpieza y estructuración de los perfiles de usuario en el Proyecto 1, esta segunda fase se concentra en la profundización del análisis de los hábitos de consumo. El objetivo es proporcionar al cliente una comprensión detallada de cómo los usuarios interactúan con las diferentes categorías de productos y sus patrones de gasto, facilitando así decisiones de negocio más informadas y personalizadas.

Las empresas recopilan y almacenan datos de una forma particular. Store 1 quiere almacenar toda la información de sus clientes en una tabla.


| user_id | user_name | user_age | purchase_category | spending_per_category |
| --- | --- | --- | --- | --- |
| '32415' | 'mike', 'reed' | 32 | 'electronics', 'sport', 'books' | 894, 213, 173 |
| '31980' | 'kate', 'morgan' | 24 | 'clothes', 'shoes' | 439, 390 |

En términos técnicos, una tabla es simplemente una lista anidada que contiene una sublista para cada usuario o usuaria.

Store 1 ha creado una tabla de este tipo para sus usuarios. Está almacenada en la variable "users". Cada sublista contiene el ID del usuario, nombre y apellido, edad, categorías favoritas y el importe gastado en cada categoría.

-	**user_id:** el identificador único para cada usuario.
-	**user_name:** el nombre de usuario.
-	**user_age:** la edad del usuario.
-	**fav_categories:** las categorías de artículos comprados por el usuario, como 'ELECTRONICS', 'SPORT', 'BOOKS', etc.
-	**total_spendings:** la lista de enteros que indican la cantidad gastada en cada una de sus categorías favoritas.


In [1]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


###  **Paso 1: Encapsulando la Lógica de Limpieza en una Función Reutilizable**

En la fase final del Proyecto 1, desarrollamos un proceso robusto para limpiar y estructurar los datos de los usuarios. Este proceso incluía:

- **Normalización de Nombres:** Eliminación de espacios superfluos y reemplazo de guiones bajos (_).
- **Conversión de Edad:** Transformación del valor de la edad a un tipo de dato entero (int).
- **Descomposición de Nombres:** División del nombre completo en una sublista con nombre y apellido.

Ahora, para hacer nuestro código más eficiente, modular y reutilizable, encapsularemos esta lógica de limpieza dentro de una función. Esta práctica es fundamental en el desarrollo de software y análisis de datos, ya que permite aplicar el mismo conjunto de transformaciones a cualquier registro de usuario con una sola llamada.

**Objetivo**

Nuestro objetivo es crear una función llamada clean_user que acepte la información de un usuario y los índices específicos de su nombre y edad. La función aplicará las transformaciones previamente definidas y devolverá el registro del usuario ya limpio. Luego, probaremos esta función con un usuario de prueba para verificar su correcto funcionamiento.

**Implementación de la Función clean_user**

La función clean_user recibirá tres argumentos:

- **user_info:** Una lista que contiene toda la información de un cliente individual.
- **name_index:** Un entero que indica la posición del nombre del cliente dentro de user_info.
- **age_index:** Un entero que indica la posición de la edad del cliente dentro de user_info.


In [2]:
def clean_user(user_info, ind_name,ind_age):# define tu función aquí

    # Paso 1: elimina del nombre espacios iniciales y finales, así como guiones
    user_name_1 = user_info[ind_name].replace("_"," ") #Accediendo al nombre del usuario y remplazando guiones bajo
    user_name_1=user_name_1.strip() #Quitando espacios en blanco del nombre del usuario
    # Paso 2: convierte la edad en entero
    user_age_1 = int(user_info[ind_age]) #Convirtiendo la edad en entero
    # Paso 3: separa el nombre y el apellido en una sublista
    user_name_1=user_name_1.split(" ") #Diviendo el nombre y apellido

    # Prepara la lista con la información completa del usuario
    # Reemplaza el nombre y la edad originales con los datos limpios
    user_info[ind_name]=user_name_1 #Asignando nombre 'limpio' al indice correspondiente
    user_info[ind_age]=user_age_1 #Asignando edad 'limpia' al indice correspondiente

    return user_info #Arrojando el nombre del usuario con datos corregidos

# Prueba la función
test_user = ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]]
name_index = 1
age_index = 2

print(clean_user(test_user,name_index,age_index)) #Llamado de la función 

['32415', ['mike', 'reed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]]


Al encapsular esta lógica en una función, demostramos la habilidad para escribir código modular, reutilizable y mantenible, lo cual es una soft skill altamente valorada en roles de analista de datos. Esto también sienta las bases para procesar grandes conjuntos de datos de manera eficiente en los próximos pasos.

### **Paso 2: Normalización de Categorías Favoritas a Minúsculas**

En nuestro conjunto de datos, hemos observado que las categorías favoritas de los usuarios +(fav_categories)* están almacenadas completamente en mayúsculas. Para garantizar la consistencia y facilitar análisis posteriores (como agrupaciones o búsquedas, que suelen ser case-sensitive), es una buena práctica normalizar estos valores a minúsculas.


**Objetivo**

Nuestro objetivo en este paso es crear una nueva lista llamada *fav_categories_low* que contenga todas las categorías favoritas de un usuario, pero transformadas a minúsculas. Esto asegurará la uniformidad de los datos de categoría.


**Acción Clave**

Vamos a iterar sobre cada categoría en la lista original *fav_categories*. Por cada categoría, aplicaremos el método *lower()* para convertirla a minúsculas y luego la añadiremos a nuestra nueva lista *fav_categories_low*. Finalmente, desplegaremos el contenido de *fav_categories_low* para verificar la transformación.


In [3]:
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']
fav_categories_low = []

for element in fav_categories:
    fav_categories_low.append(element.lower())#Agregando valores de categorias en minusculas a lista

print(fav_categories_low)

['electronics', 'sport', 'books']


Normalizar el uso de mayúsculas y minúsculas en los datos es una habilidad fundamental en la limpieza de datos, ya que previene inconsistencias y errores en los análisis, demostrando tu atención al detalle y tu proactividad en la gestión de la calidad de los datos.

### **Paso 3: Normalización Masiva de Categorías a Minúsculas para Todos los Usuarios**

Hemos visto cómo normalizar las categorías a minúsculas para un único usuario. Ahora, extenderemos esta lógica para aplicarla a todos los usuarios de nuestra base de datos. Esta es una tarea común en la preparación de datos a gran escala y es esencial para garantizar la consistencia en todo el conjunto de datos.

**Objetivo**

Nuestro objetivo es crear una nueva lista, *users_categories_low*, que contendrá la información de todos los usuarios de la lista *users*, pero con sus respectivas listas de categorías favoritas (*fav_categories*) convertidas completamente a minúsculas.

**Acción Clave**

Para lograr esto, realizaremos una doble iteración:

- Primero, iteraremos a través de cada *user* en la lista principal *users*.
- Dentro de cada *user*, accederemos a su lista de ¨*fav_categories* y la recorreremos, transformando cada categoría individual a minúsculas.
- Una vez que tengamos las categorías normalizadas para un usuario, construiremos un nuevo registro de usuario con esta información y lo añadiremos a *users_categories_low*.


In [4]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

users_categories_low = []
for user in users:#Iterando en cada usuario
    categories_low = [] # Definiendo lista donde se almacenaran las categorias en minúsculas
    users_categories = user[3] #Definiendo con índice la ubicación de las categorias
    for category in users_categories:  # Revisando cada categoría de usuario
        categories_low.append(category.lower()) #Agregando a la lista antes definida, las categorías en minúsculas.
    user.pop(3) # Eliminando las categorías en mayúsculas.
    user.insert(3,categories_low) # Agregando categorías en minúsculas al usuario.
    users_categories_low.append(user) # Agregando el usuario a la lista users_categories_low

print(users_categories_low) #Imprimiendo lista con categorías corregidas.

[['32415', ' mike_reed ', 32.0, ['electronics', 'sport', 'books'], [894, 213, 173]], ['31980', 'kate morgan', 24.0, ['clothes', 'books'], [439, 390]], ['32156', ' john doe ', 37.0, ['electronics', 'home', 'food'], [459, 120, 99]], ['32761', 'SAMANTHA SMITH', 29.0, ['clothes', 'electronics', 'beauty'], [299, 679, 85]], ['32984', 'David White', 41.0, ['books', 'home', 'sport'], [234, 329, 243]], ['33001', 'emily brown', 26.0, ['beauty', 'home', 'food'], [213, 659, 79]], ['33767', ' Maria Garcia', 33.0, ['clothes', 'food', 'beauty'], [499, 189, 63]], ['33912', 'JOSE MARTINEZ', 22.0, ['sport', 'electronics', 'home'], [259, 549, 109]], ['34009', 'lisa wilson ', 35.0, ['home', 'books', 'clothes'], [329, 189, 329]], ['34278', 'James Lee', 28.0, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]


### **Paso 4: Finalizando la Función clean_user y Limpieza Global de Datos**

En los pasos anteriores, hemos desarrollado la lógica para limpiar nombres, edades y categorías por separado. Ahora, es momento de consolidar todas estas transformaciones en nuestra función *clean_user* para que sea una herramienta integral de preprocesamiento de datos. Luego, aplicaremos esta función mejorada a toda nuestra lista de usuarios.

**Objetivo**

Nuestro objetivo es perfeccionar la función *clean_user* para que también maneje la normalización de las categorías favoritas. Esto implica:

- Añadir un parámetro a *clean_user* para especificar el índice de las categorías.
- Asegurar que los nombres se conviertan a minúsculas antes de eliminar espacios y reemplazar guiones bajos, garantizando una limpieza completa y consistente.
Una vez actualizada la función, la aplicaremos a cada registro en nuestra lista de users y almacenaremos los resultados en una nueva lista llamada users_clean, que luego mostraremos.

**Refinando la Función *clean_user***

Vamos a modificar nuestra función *clean_user*

In [5]:
def clean_user(user_info, name_index, age_index, cat_index):
  # Paso 1: pon todo en minúsculas y elimina del nombre espacios iniciales y finales, así como guiones
    user_name_1 = user_info[name_index].lower().replace("_"," ").strip()

  # Paso 2: convierte la edad en entero
    user_age_1 = int(user_info[age_index])

  # Paso 3: separa el nombre y el apellido en una sublista
    user_name_1 = user_name_1.split(" ")

  # Paso 4: convierte en minúsculas todas las categorías
    categories_low = []
    for category in user[cat_index]:
        categories_low.append(category.lower())
    user_info.pop(cat_index)
    user_info.insert(cat_index, categories_low)

  # Prepara la lista con la información completa del usuario
    clean_user_info=[]
  # Reemplaza el nombre y la edad originales con los datos limpios
    clean_user_info=[user_info[0],user_name_1, user_age_1,user_info[cat_index],user_info[4]]
    return  clean_user_info


users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

name_index = 1
age_index = 2
cat_index = 3
users_cleaned = []

for user in users: #Iterando sobre cada usuario
  user_cleaned = clean_user(user, name_index, age_index, cat_index) #Armando usuario con datos corregidos
  users_cleaned.append(user_cleaned) # Agregando el usuario a lista corregida

print(users_cleaned)

[['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]], ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]], ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]], ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]], ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]], ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]], ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]], ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]], ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]], ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]


Al consolidar estas operaciones en una única función clean_user y aplicarla en un bucle, demuestras no solo habilidades de programación modular y eficiente, sino también un entendimiento de la automatización de tareas de preprocesamiento de datos a escala, una capacidad muy valorada para un analista de datos.

### **Paso 5: Cálculo de Ingresos Totales de la Empresa**

Ahora que nuestros datos de clientes están limpios y estandarizados, la dirección de la empresa está interesada en obtener una métrica de negocio fundamental: los ingresos totales generados por todos los clientes. Este valor es crucial para evaluar el rendimiento general y la salud financiera de la empresa.

**Objetivo**

Nuestro objetivo es calcular la suma de todos los gastos de cada usuario y, posteriormente, agregar estos totales individuales para obtener los ingresos totales globales de la empresa.

**Acciones Clave**

Para lograr esto, seguiremos un proceso de agregación de datos:

- **Iterar sobre la lista de usuarios**: Recorreremos cada registro de usuario en nuestra lista users (o users_clean si ya aplicaste el Paso 4 a la lista completa).
- **Extraer y sumar gastos por usuario**: Para cada usuario, accederemos a su lista de total_spendings (gastos por categoría) y sumaremos todos los valores que contiene para obtener el gasto total de ese usuario.
- **Acumular ingresos totales**: Sumaremos el gasto total de cada usuario a una variable acumuladora, que finalmente representará los ingresos totales de la empresa.

In [6]:
users = [['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
         ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
         ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
         ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
         ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
         ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
         ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
         ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
         ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
         ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]

revenue = 0

for user in users:#Iterando sobre cada usuario
    spending_list= user[4] #Extrayendo ingresos del usuario
    total_spending = sum(spending_list) #Sumando ingresos del usuario
    revenue += total_spending #Sumando y acumulando los ingresos en la variable global revenue
    

print(f"Los ingresos totales de la empresa son: ${revenue}")

Los ingresos totales de la empresa son: $9189


Este cálculo demuestra habilidad para realizar agregaciones de datos, una tarea fundamental en el análisis cuantitativo. Obtener el valor de los ingresos totales es un KPI (Key Performance Indicator) crucial para la dirección, mostrando capacidad para entregar métricas de negocio relevantes a partir de datos crudos.

### **Paso 6: Identificación de Clientes Leales y Simulación de Compras**

La empresa tiene una nueva iniciativa para recompensar a sus clientes leales ofreciéndoles descuentos exclusivos. Se considera cliente leal a aquel que realiza compras por un **importe total superior a $1500**. Nuestro objetivo es simular este comportamiento de compra hasta que se alcance este umbral, demostrando cómo identificar a estos clientes.

**Objetivo**

Crearemos un bucle *while* para simular las compras de un cliente hasta que su gasto acumulado supere los $1500. En cada "nueva compra" simulada, generaremos un valor aleatorio entre $30 y $80, que se sumará al total gastado por el cliente. Una vez que el total alcance o supere los $1500, el bucle se detendrá y mostraremos el monto final gastado por el cliente.

**Acción Clave**

Utilizaremos un bucle *while* con una condición que evalúe si el *total_spent* del cliente ha superado el umbral de lealtad ($1500). Dentro del bucle, generaremos montos de *new_purchase* aleatorios y los sumaremos al *total_spent*.

In [7]:
from random import randint

total_amount_spent = 1280
target_amount = 1500

while total_amount_spent < target_amount:# Condición para determinar si es cliente leal
	new_purchase = randint(30, 80) # generamos un número aleatorio de 30 a 80
	total_amount_spent += new_purchase # acumulando el monto gastado

print(f"El monto final gastado es: ${total_amount_spent}")

El monto final gastado es: $1531


Este ejercicio demuestra capacidad para aplicar estructuras de control de flujo (*while loops*) y simular escenarios de negocio utilizando lógica de programación. Además, resalta la habilidad para trabajar con generación de datos aleatorios para probar condiciones específicas, lo cual es muy útil en pruebas y modelado de escenarios

### **Paso 7: Identificación de Clientes Jóvenes**

La empresa está interesada en comprender mejor la demografía de su base de clientes. Específicamente, quieren identificar a los clientes menores de 30 años. Esta información puede ser valiosa para campañas de marketing dirigidas o para entender las preferencias de un segmento más joven.

**Objetivo**

Nuestro objetivo es iterar a través de la lista de todos los usuarios y, por cada uno, verificar su edad. Si la edad del cliente es menor de 30 años, mostraremos su nombre.

**Acción Clave**

Vamos a recorrer la lista *users_clean* (o la lista *users* si no has aplicado la limpieza a la lista completa aún). Para cada usuario, accederemos a su edad y a su nombre, aplicando una condición para filtrar solo a aquellos que cumplan con el criterio de edad.


In [8]:
users = [['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
         ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
         ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
         ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
         ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
         ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
         ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
         ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
         ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
         ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]


for user in users: # Iterando en cada usuario
    if user[2]<30: # Condición que usuario tenga edad deseada
        print(user[1][0])  #Imprimiendo nombre si cumple condición

kate
samantha
emily
jose
james


Este paso demuestra capacidad para realizar filtrado de datos condicional e iterar eficientemente sobre estructuras de datos. Es una habilidad esencial para extraer subconjuntos específicos de información que son relevantes para el negocio, lo cual es fundamental para el análisis demográfico y la segmentación de clientes.

### **Paso 8: Segmentación de Clientes por Edad y Gasto Total**

Continuando con nuestro análisis demográfico y de comportamiento, la empresa ahora busca identificar a un segmento de clientes muy específico: aquellos que son **jóvenes (menores de 30 años)** y que, además, han demostrado un alto nivel de compromiso económico al acumular un **gasto total superior a $1000**. Esta segmentación es vital para campañas de marketing de alto valor o programas de lealtad dirigidos.

**Objetivo**

Nuestro objetivo es filtrar nuestra lista de usuarios para mostrar los nombres de aquellos clientes que cumplen con dos criterios simultáneamente: tener menos de 30 años de edad y haber gastado un total superior a $1000.

**Acciones Clave**

Para lograr esta segmentación precisa, vamos a:

- Iterar sobre cada usuario en la lista *users_clean.*
- Para cada usuario, extraeremos su edad y su lista de gastos totales por categoría.
- Sumaremos los gastos de cada usuario para obtener su gasto total acumulado.
- Aplicaremos una doble condición de filtrado:
    - La edad debe ser menor de 30 años.
    - El gasto total acumulado debe ser mayor a $1000.
- Finalmente, mostraremos el nombre completo de los usuarios que cumplan ambas condiciones.


In [9]:
users = [['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
         ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
         ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
         ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
         ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
         ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
         ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
         ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
         ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
         ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]

for user in users: #Iterando en cada cliente
    if user[2]<30 and sum(user[4])>1000: #Especificando condiciones a cumplir
        print(user[1][0]) #Imprimiendo el nombre del cliente

samantha
james


Este paso demuestra habilidad para realizar filtrados de datos complejos combinando múltiples criterios, una tarea esencial en la segmentación de clientes. Al identificar a estos clientes de alto valor y jóvenes, proporcionas insights cruciales para estrategias de negocio focalizadas

### **Paso 9: Identificación de Compradores de Ropa**

La dirección de la empresa está interesada en analizar las preferencias de compra por categoría. Específicamente, quieren identificar a todos los clientes que han adquirido productos de la categoría "clothes" (ropa). Esta información es valiosa para entender la base de clientes interesada en moda y para futuras campañas de marketing segmentadas.

**Objetivo**

Nuestro objetivo es iterar a través de la lista de usuarios y, para cada uno, verificar si han comprado artículos en la categoría "clothes". Si un usuario ha comprado ropa, imprimiremos su nombre completo y su edad en una misma línea.

**Acciones Clave**

Para lograr esto, vamos a:

- Iterar sobre cada registro de usuario en nuestra lista *users_clean*.
- Para cada usuario, accederemos a su lista de categorías favoritas (*fav_categories*).
- Verificaremos si la cadena "*clothes*" (ya normalizada a minúsculas, gracias a nuestros pasos de limpieza anteriores) está presente en su lista de *fav_categories*.
- Si se encuentra la categoría, extraeremos el nombre (unimos el nombre y apellido si están en una sublista) y la edad del usuario.
- Finalmente, imprimiremos el nombre y la edad juntos en una sola declaración.


In [10]:
users = [['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
         ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
         ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
         ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
         ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
         ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
         ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
         ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
         ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
         ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]]

for user in users: #Iterando en cada cliente
    if "clothes" in user[3]: # Condición que hayan comprado "clothes"
        print(f"{user[1][0]} {user[2]}") #Imprimiendo nombre y edad

kate 24
samantha 29
maria 33
lisa 35
james 28


Este paso demuestra la capacidad para realizar búsquedas y filtrados basados en valores específicos dentro de listas anidadas, una habilidad esencial para el análisis de comportamiento del cliente y la segmentación del mercado. Permite a la empresa identificar rápidamente segmentos de clientes interesados en productos específicos.

### **Paso 10: Creación de la Función get_client_by_cat para Filtrado Detallado de Clientes**

Para responder a las necesidades específicas de la dirección, vamos a desarrollar una función avanzada que permita **extraer información detallada de los clientes, filtrada por categorías de compra**. Esta función consolidará varios de los conceptos que hemos explorado hasta ahora, demostrando tu capacidad para construir herramientas analíticas reutilizables y potentes.

**Objetivo**

Nuestro objetivo es crear una función robusta llamada *get_client_by_cat*. Esta función tomará la lista completa de usuarios, junto con los índices específicos de cada campo relevante. Su propósito es identificar y devolver una lista de clientes que hayan comprado en una *filter_category* específica, proporcionando su ID, nombre completo, edad y el gasto total acumulado (no solo el gasto en esa categoría específica, sino el total general).

**Especificaciones de la Función get_client_by_cat**

La función estará diseñada con los siguientes parámetros y su salida esperada:

Parámetros:
- ***users***: Una lista que contiene los datos de todos los usuarios (se recomienda usar users_clean).
- ***id_index***: El índice numérico donde se encuentra el ID del cliente dentro de cada sublista de usuario.
- ***name_index***: El índice donde el nombre del cliente (como sublista ['nombre', 'apellido']) está almacenado.
- ***age_index***: El índice donde la edad del cliente (como entero) está almacenada.
- ***category_index***: El índice donde la lista de categorías de compras (fav_categories) está almacenada.
- ***amounts_index***: El índice donde la lista de cantidades gastadas por categoría (total_spendings) está almacenada.
- ***filter_category***: Un string que representa el nombre de la categoría por la cual deseamos filtrar a los clientes (ej., 'clothes', 'electronics'). Esta categoría debe ser proporcionada en minúsculas para coincidir con nuestros datos normalizados.

**Salida**

La función devolverá una lista de sublistas. Cada sublista dentro de la salida contendrá la siguiente información para cada cliente que cumpla con el criterio de la categoría de filtro:

- El ID del cliente.
- Una sublista con el nombre y apellido del cliente.
- La edad del cliente.
- Un entero que representa la cantidad total gastada por el cliente en todas sus categorías (no solo en la categoría filtrada).





In [11]:
def get_client_by_cat(users, id_index, name_index,age_index,category_index,amounts_index,filter_category): #Función con parámetros
    filter_clients=[] #Lista donde se almacenará el filtro
    for client in users:#Iterando en cada cliente
        if filter_category in client[category_index]: #Condicion para filtrar por categoria
            total_spendings=sum(client[amounts_index])
            filter_clients.append([
                                client[id_index],
                                client[name_index],
                                client[age_index],
                                total_spendings
                                ]) #Agregando elementos deseados a lista filtrada 
    return filter_clients #Regresa lista filtrada

# La lista de usuarios
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'], [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439, 390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'], [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234, 329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213, 659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'], [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'], [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]
]

# Llama a la función con la categoría 'home'
result = get_client_by_cat(users,0,1,2,3,4,'home')# Llamando a función con parámetros

# Muestra en pantalla la lista que resulta
print(result)


[['32156', ['john', 'doe'], 37, 678], ['32984', ['david', 'white'], 41, 806], ['33001', ['emily', 'brown'], 26, 951], ['33912', ['jose', 'martinez'], 22, 917], ['34009', ['lisa', 'wilson'], 35, 847]]


Esta función *get_client_by_cat* es un excelente ejemplo de cómo aplicar las habilidades de programación funcional y manipulación de datos complejos para construir herramientas analíticas reutilizables. Demuestra ña capacidad para imprimir la lógica de negocio en código eficiente, una competencia clave para cualquier analista de datos.