## Lanzamiento del nuevo Programa de Fidelización de Clientes. <a class="tocSkip"></a>

----

###  Contexto del análisis

La empresa de comercio electrónico **Store 1** se encuentra preparando el lanzamiento de un nuevo **Programa de Fidelización de Clientes**. Para ello, es fundamental analizar y depurar su base de datos de clientes, asegurando que la información sea **completa, consistente y estructurada**.

El propósito final es **segmentar clientes** y **diseñar campañas personalizadas**, optimizando futuras estrategias de marketing a partir de datos confiables.

###  Objetivo

Preparar una muestra de los datos de clientes para su análisis, enfocándose en variables clave como:
- Edad
- Historial de compras
- Categorías de productos adquiridos
- Gasto total por cliente
 
 ###  Tareas realizadas

En esta etapa inicial del proyecto se llevaron a cabo las siguientes acciones:

- Limpieza de los perfiles de clientes.
- Estandarización de nombres y edades.
- Cálculo del gasto total por cliente.
- Validación de la consistencia de los datos y corrección de errores.
- Preparación del dataset para el cálculo de indicadores clave de negocio (KPIs).

Estos pasos permiten contar con una base sólida para análisis posteriores y la toma de decisiones estratégicas.

Estos son los datos que el cliente nos proporcionó. Tienen el formato de una lista de Python, con las siguientes columnas de datos:

- **user_id:** Identificador único para cada usuario.
- **user_name:** El nombre del usuario.
- **user_age:** La edad del usuario.
- **fav_categories:** Categorías favoritas de los artículos que compró el usuario, como 'ELECTRONICS', 'SPORT' y 'BOOKS' (ELECTRÓNICOS, DEPORTES y LIBROS), etc.
- **total_spendings:** Una lista de números enteros que indican la cantidad total gastada en cada una de las categorías favoritas.


In [None]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


# Paso 1

Store 1 tiene como objetivo garantizar la coherencia en la recopilación de datos. Como parte de esta iniciativa, se debe evaluar la calidad de los datos recopilados sobre los usuarios y las usuarias. Te han pedido que revises los datos recopilados y propongas cambios. A continuación verás datos sobre un usuario o una usuaria en particular; revisa los datos e identifica cualquier posible problema.


In [2]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

**Opciones:**

1. Se debe cambiar el tipo de dato de `user_id` de cadena a entero.
    
2. La variable `user_name` contiene una cadena que tiene espacios innecesarios y un guion bajo entre el nombre y el apellido.
    
3. El tipo de dato de `user_age` es correcto y no hay necesidad de convertirlo.
    
4. La lista `fav_categories` contiene cadenas en mayúsculas. En lugar de ello, debemos convertir los valores de la lista en minúsculas.


Para cada una de las opciones, escribe en la siguiente celda markdown si la identificaste como un problema real en los datos o no. Justifica tu razonamiento. Por ejemplo, si crees que la primera opción es correcta, escríbelo y explica por qué piensas que es correcta.

**Escribe tu respuesta y explica tu argumentación:**
1. Se debe cambiar el tipo de dato de `user_id` de cadena a entero.
user_id:
No es un problema.
user_id es un identificador único. Generalmente, los identificadores se mantienen como cadenas (str) y no como números (int), No es necesario cambiar su tipo de dato.

2. La variable `user_name` contiene una cadena que tiene espacios innecesarios y un guion bajo entre el nombre y el apellido.
user_name:
Sí es un problema.
En el user_name: hay espacios innecesarios antes y después del nombre, también se observa un guion bajo (_) en lugar de un espacio.

Adicionalmente, hay inconsistencia en el uso de mayúsculas y minúsculas en los nombres (mike_reed está en minúsculas y guiones bajos), lo cual podría dificultar análisis o presentación de los datos. Se debería:

Eliminar los espacios extra.

Reemplazar el guion bajo por un espacio.

Poner la primera letra de cada palabra en mayúscula.

3. El tipo de dato de `user_age` es correcto y no hay necesidad de convertirlo.
user_age:
No es un problema de momento pero se cambiara
Aunque el tipo de dato de user_age es (float), el valor no tiene decimales adicionales (ejemplo: 32.0).
No es estrictamente necesario convertirlo a (int), ya que correctamente la edad es número entero es bueno que sea un integer o integer doble y no una cadena, funcionaria como cadena si el idenificador fuera por ejemplo el RFC, pero al ser numerico si se usa como llave, es más eficiente que su tipo de dato sea un (int)

4. La lista `fav_categories` contiene cadenas en mayúsculas. En lugar de ello, debemos convertir los valores de la lista en minúsculas..
→ No es un problema.
Las categorías en mayúsculas ('ELECTRONICS', 'SPORT', 'BOOKS') mantienen la uniformidad y visibilidad en los datos, lo cual facilita su procesamiento posterior (como búsquedas o filtros). No es necesario cambiarlas a minúsculas.

Observación adicional:
Aunque en este caso el usuario tiene 3 categorías favoritas, al revisar el conjunto de datos completo vemos que no todos los usuarios tienen 3 categorías.


# Paso 2

Vamos a implementar los cambios que identificamos. Primero, necesitamos corregir los problemas de la variable `user_name` Como vimos, tiene espacios innecesarios y un guion bajo como separador entre el nombre y el apellido; tu objetivo es eliminar los espacios y luego reemplazar el guion bajo con el espacio.


In [3]:
user_name = ' mike_reed '

user_name = user_name.strip()     # Eliminaremos los espacios al principio y al final

user_name = user_name.replace('_', ' ')   # Luego reemplazamos el guion bajo por un espacio

print(user_name)


mike reed


********Hint********

Existe un método, `strip()`, que puede eliminar espacios al principio y al final de una cadena. Además, el método `replace()` se puede usar para reemplazar una parte de una cadena. En este caso, queremos reemplazar los guiones bajos (`_`) con espacios.


# Paso 3

Luego, debemos dividir el `user_name` (nombre de usuario o usuaria) actualizado en dos subcadenas para obtener una lista que contenga dos valores: la cadena para el nombre y la cadena para el apellido.

In [4]:
user_name = 'mike reed'

name_split = user_name.split()   # Dividimos el string en una lista usando el espacio como separador

print(name_split)


['mike', 'reed']


********Hint********

El método `split()` se utiliza para dividir una cadena. Por defecto, utiliza un espacio como separador.


# Paso 4

¡Genial! Ahora debemos trabajar con la variable `user_age`. Como ya mencionamos, esta tiene un tipo de datos incorrecto. Arreglemos este problema transformando el tipo de datos y mostrando el resultado final.


In [5]:
user_age = 32.0 
user_age = int(user_age) # Convertimos de float a un Entero

print(user_age)

32


********Hint********

¿Qué tipo de datos eliminará la parte de coma flotante?


# Paso 5

Como sabemos, los datos no siempre son perfectos. Debemos considerar escenarios en los que el valor de `user_age` no se pueda convertir en un número entero. Para evitar que nuestro sistema se bloquee, debemos tomar medidas con anticipación.

Escribe un código que intente convertir la variable `user_age` en un número entero y asigna el valor transformado a `user_age_int`. Si el intento falla, mostramos un mensaje pidiendo al usuario o la usuaria que proporcione su edad como un valor numérico con el mensaje: `Please provide your age as a numerical value.` (Proporcione su edad como un valor numérico.)

In [6]:
user_age = "Treinta y dos"
try:
    user_age_int = int(user_age)   # Intentamos convertir a entero
except ValueError:
    print("Please provide your age as a numerical value.")




Please provide your age as a numerical value.


********Hint********

Utiliza un bloque `try-except` para intentar la conversión; si falla, proporciona un mensaje claro indicando que la entrada debe ser numérica.

# Paso 6

El equipo de dirección de Store 1 te pidió ayudarles a organizar los datos de sus clientes para analizarlos y gestionarlos mejor.

Tu tarea es ordenar esta lista por ID de usuario de forma ascendente para que sea más fácil acceder a ella y analizarla.


In [7]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


users.sort(key=lambda user: int(user[0]))  # Ordena por el valor numérico del user_id


print(users)

[['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]


********Hint********

Puedes utilizar el método `sort()` en la lista de usuarios para ordenarla de forma ascendente.


# Paso 7

Tenemos la información de los hábitos de consumo de nuestros usuarios, incluyendo la cantidad gastada en cada una de sus categorías favoritas. La dirección está interesada en conocer la cantidad total gastada por el usuario.


Calculemos este valor y despleguémoslo.


In [8]:
fav_categories_low = ['electronics', 'sport', 'books']

spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category)  # Usamos sum() para calcular el total

print(total_amount)



1280


********Hint********

¿Cuáles son los tres métodos que se pueden aplicar a una lista para calcular sus valores mínimo, máximo y total?


# Paso 8

La dirección de la empresa nos pidió pensar en una manera de resumir toda la información de un usuario. Tu objetivo es crear una cadena formateada que utilice información de las variables `user_id`, `user_name` y `user_age`.

Esta es la cadena final que queremos crear: `User 32415 is mike who is 32 years old.` (El usuario 32415 es Mike, quien tiene 32 años).


In [9]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

user_info = f"User {user_id} is {user_name[0]} who is {user_age} years old."

print(user_info)

User 32415 is mike who is 32 years old.


********Hint********

Para crear una cadena, puedes utilizar el método `format()` o f-string. Para extraer el nombre de la lista `user_name`, puedes utilizar la segmentación.


# Paso 9

La dirección también quiere una forma fácil de conocer la cantidad de clientes con cuyos datos contamos. Tu objetivo es crear una cadena formateada que muestre la cantidad de datos de clientes registrados.

Esta es la cadena final que queremos crear: `Hemos registrado datos de X clientes`.


In [10]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

user_info= f"Hemos refistrado datos de {len(users)} clientes"

print(user_info)

Hemos refistrado datos de 10 clientes


********Hint********

Para crear una cadena, puedes utilizar el método `format()` o f-string. Para extraer la cantidad de clientes en la lista, puedes utilizar la función que devuelve la longitud de la lista.


# Paso 10

Apliquemos ahora todos los cambios a la lista de clientes. Para simplificar las cosas, te proporcionaremos una más corta.
Debes:
1. Eliminar todos los espacios iniciales y finales de los nombres, así como cualquier guion bajo.
2. Convertir todas las edades en números enteros.
3. Separar todos los nombres y apellidos en una sublista.

Guarda la lista modificada como una nueva lista llamada `users_clean` y muéstrala en la pantalla.


In [11]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
]

users_clean = []


# Procesa al primer usuario
user_name_1 = users[0][1].strip().replace("_","")
user_age_1 = int(users[0][2])
user_name_1 = user_name_1 .split()
users_clean.append([users[0][0], user_name_1, user_age_1, users[0][3], users[0][4]])

# Procesa al segundo usuario
user_name_2 = users[1][1].strip().replace("_","")
user_age_2 = int(users[1][2])
user_name_2 = user_name_2 .split()
users_clean.append([users[1][0], user_name_2, user_age_2, users[1][3], users[1][4]])

# Procesa al tercer usuario
user_name_3 = users[2][1].strip().replace("_","")
user_age_3 =  int(users[2][2])
user_name_3 = user_name_3 .split()
users_clean.append([users[2][0],user_name_3,user_age_3,users[2][3], users[2][4]])



print(users_clean)


[['32415', ['mikereed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['31980', ['kate', 'morgan'], 24, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ['john', 'doe'], 37, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]]]


********Hint********

Para procesar a cada usuario, comienza por acceder a los elementos requeridos de la lista de usuarios. Utiliza el método `strip()` para eliminar los espacios iniciales y finales y el método `replace('_',' ')` para reemplazar los guiones bajos por espacios en los nombres. Convierte la edad a un número entero utilizando `int()`. Separa el nombre completo en nombre y apellido utilizando el método `split()`. Por último, `append` (agrega) los datos limpios a la lista `users_clean`.


----------
