🔧 Análisis Avanzado de Datos con Funciones en Python

🎯 Problema de Negocio

Store 1 requiere herramientas reutilizables y escalables para procesar datos de usuarios de manera sistemática. El proyecto desarrolla funciones personalizadas en Python para automatizar la limpieza de datos, segmentación de clientes y cálculo de métricas financieras, facilitando análisis recurrentes y toma de decisiones basada en datos.

📊 Dataset

Registros: 10 usuarios
Variables principales: user_id, user_name, user_age, fav_categories, total_spendings
Fuente: Datos internos de Store 1
Estructura: Lista anidada con sublistas por usuario

Campos del dataset:

user_id: Identificador único del usuario
user_name: Nombre y apellido (requiere normalización)
user_age: Edad (conversión float → int)
fav_categories: Lista de categorías compradas (requiere normalización a minúsculas)
total_spendings: Lista de gastos por categoría (integers)

🛠️ Stack Tecnológico

Python 3.9+: Lenguaje de programación
Funciones personalizadas: clean_user(), count_by_category(), get_client_by_cat()
Estructuras de control: for, while, if-elif-else
Manipulación de listas: Listas anidadas, comprensión de listas
Módulo random: randint() para simulaciones
Jupyter Notebook: Documentación y ejecución interactiva

📈 Pasos Clave del Proyecto

Desarrollo de Funciones de Limpieza: Creación de clean_user() para normalización de nombres, edades y categorías
Normalización Masiva: Aplicación de transformaciones a todos los usuarios del dataset
Cálculo de Métricas Financieras: Ingresos totales y gasto promedio por usuario
Segmentación de Clientes: Filtrado por edad, gasto y categorías de compra
Funciones de Análisis Avanzado: Conteo y filtrado por categoría con cálculo de gasto total
Simulación de Programa de Lealtad: Uso de while loop con valores aleatorios

✅ Características y Funcionalidades

✅ Funciones Reutilizables: Código modular para aplicar a futuros datasets
✅ Limpieza Automatizada: Normalización de nombres, edades y categorías en un solo paso
✅ Segmentación Dinámica: Filtros por edad, gasto y categoría de producto
✅ Métricas Financieras: Cálculo de ingresos totales y gasto por usuario
✅ Análisis por Categoría: Identificación de compradores por tipo de producto
✅ Simulaciones: Modelado de comportamiento de compra con random

📊 Resultados del Análisis

📈 Métricas Generales

Ingresos Totales de la Empresa: $9,189
Número Total de Usuarios: 10
Gasto Promedio por Usuario: $918.90
Rango de Edad: 22 a 41 años
Edad Promedio: 30.70 años
Gasto Mínimo: $678 (John Doe)
Gasto Máximo: $1,280 (Mike Reed)
Mediana de Gasto: $882

👥 Segmentación de Clientes

Por Rango de Edad:

Menores de 30 años: 5 usuarios (50%)
- Kate Morgan (24), Samantha Smith (29), Emily Brown (26), Jose Martinez (22), James Lee (28)
30-40 años: 4 usuarios (40%)
Mayores de 40 años: 1 usuario (10%)

Clientes de Alto Valor (Jóvenes):

Criterio: <30 años con gasto >$1,000
Total: 2 usuarios (40% del segmento joven)
- Samantha Smith: $1,063
- James Lee: $1,067

💰 Top 5 Usuarios por Gasto Total

Mike Reed: $1,280 - 32 años - 3 categorías
James Lee: $1,067 - 28 años - 3 categorías
Samantha Smith: $1,063 - 29 años - 3 categorías
Emily Brown: $951 - 26 años - 3 categorías
Jose Martinez: $917 - 22 años - 3 categorías

🛍️ Análisis por Categoría de Producto

Penetración por Categoría:

ELECTRONICS: 5 usuarios (50%) - Gasto promedio: $632.00
CLOTHES: 5 usuarios (50%)
HOME: 5 usuarios (50%) - Gasto promedio: $309.20
BOOKS: 4 usuarios (40%)
BEAUTY: 4 usuarios (40%)
SPORT: 3 usuarios (30%)
FOOD: 3 usuarios (30%)

Categorías Más Rentables (por ingresos totales):

ELECTRONICS: $3,160 (34.4% del total)
CLOTHES: $1,865 (20.3% del total)
HOME: $1,546 (16.8% del total)

Detalle de Compradores de HOME:

John Doe (37): $678
David White (41): $806
Emily Brown (26): $951
Jose Martinez (22): $917
Lisa Wilson (35): $847

Detalle de Compradores de CLOTHES:

Kate Morgan (24), Samantha Smith (29), Maria Garcia (33), Lisa Wilson (35), James Lee (28)

📊 Métricas de Comportamiento

Diversificación de Compras:

Promedio de categorías por usuario: 2.9
Usuario con más categorías: Mike Reed (3 categorías)
Usuario con menos categorías: Kate Morgan (2 categorías)

🎲 Simulación de Programa de Lealtad

Resultados de la simulación:

Monto inicial: $1,280
Objetivo para status leal: $1,500
Compras adicionales necesarias: 5 compras
Monto final alcanzado: $1,542
Status: ✅ Cliente califica para programa de lealtad

💡 Insights de Negocio y Recomendaciones

📱 Oportunidad en Segmento Joven: 50% de usuarios son menores de 30 años, incluyendo 2 clientes de alto valor (James Lee, Samantha Smith). Acción: Enfocar campañas de redes sociales en este grupo demográfico.
💻 Dominio de Electronics: La categoría genera 34.4% de ingresos totales ($3,160) con gasto promedio de $632 por usuario. Acción: Mantener stock y variedad en esta línea como prioridad estratégica.
🏠 Cross-selling Home & Electronics: Fuerte superposición entre compradores de ambas categorías (5 usuarios en común). Acción: Crear bundles combinando productos de hogar y electrónica.
🎯 Optimización del Programa de Lealtad: La simulación muestra que se requieren solo 5 compras medianas ($30-$80) para alcanzar el umbral de $1,500. Acción: Considerar ajustar el umbral a $2,000 o crear niveles intermedios para incentivar mayor gasto.
📈 Potencial de Upselling: Con mediana de $882 y máximo de $1,280, existe oportunidad de elevar el gasto de usuarios promedio. Acción: Implementar recomendaciones personalizadas basadas en categorías ya compradas.

🔍 Funciones Desarrolladas

1. `clean_user(user_info, name_index, age_index, category_index)`

# Limpia y normaliza datos completos de usuario
# Entrada: Lista con datos crudos
# Salida: Lista con datos estandarizados

2. `count_by_category(user_list, id_index, name_index, category_index, filter_category)`

# Cuenta usuarios que compraron en categoría específica
# Retorna: Número entero con cantidad de usuarios

3. `get_client_by_cat(user_list, ..., filter_category)`

# Filtra usuarios por categoría y calcula gasto total
# Retorna: Lista con [ID, nombre, edad, gasto_total]

🚀 Cómo Replicar el Proyecto

Clonar repositorio

git clone https://github.com/Baltazardv/analisis-funciones-python.git
cd analisis-funciones-python

Ejecutar el notebook

# Opción 1: Jupyter Notebook
jupyter notebook proyecto_2_analisis_funciones.ipynb

# Opción 2: JupyterLab
jupyter lab proyecto_2_analisis_funciones.ipynb

Estructura de Archivos

analisis-funciones-python/
├── README.md
├── proyecto_2_analisis_funciones.ipynb
└── reporte_analisis.md

🎯 Próximos Pasos

Este proyecto establece fundamentos para:

Automatización ETL: Pipelines de limpieza para datasets más grandes
Dashboard Interactivo: Visualización de segmentos y métricas con Streamlit/Plotly
Modelos Predictivos: Predicción de comportamiento de compra y churn
API de Funciones: Servicio web para análisis on-demand
Base de Datos: Migración de listas a SQL para queries más complejas

💡 Habilidades Demostradas

Programación funcional en Python
Limpieza y transformación de datos estructurados
Segmentación de clientes con múltiples criterios
Análisis financiero automatizado
Desarrollo de código reutilizable y modular
Documentación técnica con docstrings
Pensamiento algorítmico con estructuras de control

📚 Proyecto desarrollado como parte del Bootcamp de Data Analytics en TripleTen

👨‍💻 Autor: Baltazar Dimayuga
📧 Contacto: baltazardv13@gmail.com
💼 LinkedIn: linkedin.com/in/baltazar-dimayuga
🐙 GitHub: github.com/Baltazardv

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.gitignore		.gitignore
README.md		README.md
proyecto_2_analisis_funciones.ipynb		proyecto_2_analisis_funciones.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🔧 Análisis Avanzado de Datos con Funciones en Python

🎯 Problema de Negocio

📊 Dataset

🛠️ Stack Tecnológico

📈 Pasos Clave del Proyecto

✅ Características y Funcionalidades

📊 Resultados del Análisis

📈 Métricas Generales

👥 Segmentación de Clientes

💰 Top 5 Usuarios por Gasto Total

🛍️ Análisis por Categoría de Producto

📊 Métricas de Comportamiento

🎲 Simulación de Programa de Lealtad

💡 Insights de Negocio y Recomendaciones

🔍 Funciones Desarrolladas

1. `clean_user(user_info, name_index, age_index, category_index)`

2. `count_by_category(user_list, id_index, name_index, category_index, filter_category)`

3. `get_client_by_cat(user_list, ..., filter_category)`

🚀 Cómo Replicar el Proyecto

Clonar repositorio

Ejecutar el notebook

Estructura de Archivos

🎯 Próximos Pasos

💡 Habilidades Demostradas

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🔧 Análisis Avanzado de Datos con Funciones en Python

🎯 Problema de Negocio

📊 Dataset

🛠️ Stack Tecnológico

📈 Pasos Clave del Proyecto

✅ Características y Funcionalidades

📊 Resultados del Análisis

📈 Métricas Generales

👥 Segmentación de Clientes

💰 Top 5 Usuarios por Gasto Total

🛍️ Análisis por Categoría de Producto

📊 Métricas de Comportamiento

🎲 Simulación de Programa de Lealtad

💡 Insights de Negocio y Recomendaciones

🔍 Funciones Desarrolladas

1. clean_user(user_info, name_index, age_index, category_index)

2. count_by_category(user_list, id_index, name_index, category_index, filter_category)

3. get_client_by_cat(user_list, ..., filter_category)

🚀 Cómo Replicar el Proyecto

Clonar repositorio

Ejecutar el notebook

Estructura de Archivos

🎯 Próximos Pasos

💡 Habilidades Demostradas

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

1. `clean_user(user_info, name_index, age_index, category_index)`

2. `count_by_category(user_list, id_index, name_index, category_index, filter_category)`

3. `get_client_by_cat(user_list, ..., filter_category)`

Packages