# Descripción del proyecto

La empresa de comercio electrónico Store 1 está preparando el lanzamiento de un nuevo Programa de Fidelización de Clientes. Para ello, necesita analizar su base de clientes y asegurarse de que los datos estén completos, limpios y organizados.

El objetivo es diseñar campañas personalizadas y optimizar futuras acciones de marketing. Para lograrlo, necesita segmentar a los clientes según variables como la edad, el historial de compras y las categorías de productos adquiridos.

Como miembro del equipo de análisis, tu tarea inicial será revisar y transformar una muestra de los datos existentes para dejarlos listos para el análisis. En esta fase deberás:

 1) Limpiar los perfiles de los clientes.

 2) Estandarizar nombres y edades.

 3) Calcular el gasto total por cliente.

 4) Validar la consistencia de los datos y corregir errores.

 5) Preparar los datos para generar indicadores de negocio (KPIs).

Los datos brindados por la empresa Store 1 tienen el formato de una lista de Python, con las siguientes columnas de datos:

- usuario_id: Identificador único para cada usuario.

- usuario_nombre: Nombre del usuario.

- usuario_edad: Edad del usuario.

- categorias_fav_low: Categorías favoritas de los artículos que compró el usuario, como ELECTRÓNICA, DEPORTE, LIBROS, etc.

- gasto_por_categoria: Una lista de números enteros que indican la cantidad total gastada en cada una de las categorías favoritas.


In [1]:
usuarios = [ 
    ['32415', ' mike_reed ', 32.0, ['ELECTRÓNICA', 'DEPORTE', 'LIBROS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['ROPA', 'LIBROS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRÓNICA', 'HOGAR', 'COMIDA'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['ROPA', 'ELECTRÓNICA', 'BELLEZA'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['LIBROS', 'HOGAR', 'DEPORTE'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BELLEZA', 'HOGAR', 'COMIDA'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['ROPA', 'COMIDA', 'BELLEZA'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['DEPORTE', 'ELECTRÓNICA', 'HOGAR'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOGAR', 'LIBROS', 'ROPA'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BELLEZA', 'ROPA', 'ELECTRÓNICA'], [189, 299, 579]],
]

En la segunda parte de este proyecto, durante el próximo sprint, desarrollarás un análisis completo que responderá directamente a las necesidades del cliente.

# **Paso 1**

Store 1 tiene como objetivo garantizar la coherencia en la recopilación de datos. Como parte de esta iniciativa, se debe evaluar la calidad de los datos recopilados sobre los usuarios y las usuarias. Te han pedido que revises los datos recopilados y propongas cambios. A continuación verás datos sobre un usuario o una usuaria en particular; revisa los datos e identifica cualquier posible problema.

In [15]:
user_name = ' mike_reed '
user_name= user_name.strip().replace("_"," ")
print(user_name)

user_age = 32.0
user_age=int(user_age)
print(user_age)

fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']
fav_categories_minus = [category.lower() for category in fav_categories]
print(fav_categories_minus)

mike reed
32
['electronics', 'sport', 'books']


## Modificaciones:

1) La variable user_name contiene una cadena que tiene espacios innecesarios y un guion bajo entre el nombre y el apellido.

2) El tipo de dato de user_age se convierte a entero, ya que está como dato flotant.

3) La lista fav_categories contiene cadenas en mayúsculas. En lugar de ello, debemos convertir los valores de la lista en minúsculas.



**Para cada una de las opciones, escribe en la siguiente celda markdown si la identificaste como un problema real en los datos o no. Justifica tu razonamiento. Por ejemplo, si crees que la primera opción es correcta, escríbelo y explica por qué piensas que es correcta.**

Respuesta y explicación de argumentación:

1) Para el caso de la variable user_name es necesario aplicar la función strip para eliminar los espacios que aparecen, adicional, se debe de indicar el sustituir el "_" por espacio.

2) Se cambia el tipo de dato de flotante a entero.

3) Se utiliza la función category.lower() para pasar los elementos de la lista de mayúscula a minúscula.



# **Paso 2**

Vamos a implementar los cambios que identificamos. Primero, necesitamos corregir los problemas de la variable `user_name` Como vimos, tiene espacios innecesarios y un guion bajo como separador entre el nombre y el apellido; tu objetivo es eliminar los espacios y luego reemplazar el guion bajo con el espacio.

In [16]:
user_name = ' mike_reed '
user_name = user_name.strip()# escribe tu código aquí
user_name = user_name.replace("_"," ")

print(user_name)

mike reed


# **Paso 3**

Luego, debemos dividir el user_name (nombre de usuario o usuaria) actualizado en dos subcadenas para obtener una lista que contenga dos valores: la cadena para el nombre y la cadena para el apellido.

In [17]:
user_name= 'mike reed'

name_split= user_name.split()

print(name_split)


['mike', 'reed']


# **Paso 4**

Ahora debemos trabajar con la variable user_age. Como ya mencionamos, esta tiene un tipo de datos incorrecto. Arreglemos este problema transformando el tipo de datos y mostrando el resultado final.

In [18]:
user_age = 32.0
user_age = int(user_age)

print(user_age)

32


# **Paso 5**

Como sabemos, los datos no siempre son perfectos. Debemos considerar escenarios en los que el valor de user_age no se pueda convertir en un número entero. Para evitar que nuestro sistema se bloquee, debemos tomar medidas con anticipación.

Escribe un código que intente convertir la variable user_age en un número entero y asigna el valor transformado a user_age_int. Si el intento falla, mostramos un mensaje pidiendo al usuario o la usuaria que proporcione su edad como un valor numérico con el mensaje: Please provide your age as a numerical value. (Proporcione su edad como un valor numérico.)

In [20]:
user_age = "Treinta y dos"

try:
    user_age_int=int(user_age)
    print(user_age_int)
except ValueError:
    print("Please provide your age as a numerical value")

Please provide your age as a numerical value


# **Paso 6**

El equipo de dirección de Store 1 te pidió ayudarles a organizar los datos de sus clientes para analizarlos y gestionarlos mejor.

Tu tarea es ordenar esta lista por ID de usuario de forma ascendente para que sea más fácil acceder a ella y analizarla.

In [21]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

users.sort()

print(users)

[['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]


# **Paso 7**

Tenemos la información de los hábitos de consumo de nuestros usuarios, incluyendo la cantidad gastada en cada una de sus categorías favoritas. La dirección está interesada en conocer la cantidad total gastada por el usuario.

Calculemos este valor y despleguémoslo.

In [27]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category)

print(f"The total amount spent by the user is: {total_amount}")

The total amount spent by the user is: 1280


# **Paso 8**

La dirección de la empresa nos pidió pensar en una manera de resumir toda la información de un usuario. Tu objetivo es crear una cadena formateada que utilice información de las variables user_id, user_name y user_age.

Esta es la cadena final que queremos crear: User 32415 is mike who is 32 years old. (El usuario 32415 es Mike, quien tiene 32 años).

In [28]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

user_info = f"User {user_id} is {user_name[0]} who is {user_age} years old"
print(user_info)

User 32415 is mike who is 32 years old


# **Paso 9**

La dirección también quiere una forma fácil de conocer la cantidad de clientes con cuyos datos contamos. Tu objetivo es crear una cadena formateada que muestre la cantidad de datos de clientes registrados.

Esta es la cadena final que queremos crear: Hemos registrado datos de X clientes.

In [29]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

cantidad_usuarios=len(users)
user_info = f"We have registered data on {cantidad_usuarios} clients"
print(user_info)

We have registered data on 10 clients


# **Paso 10**

Apliquemos ahora todos los cambios a la lista de clientes. Para simplificar las cosas, te proporcionaremos una más corta. Debes:

- Eliminar todos los espacios iniciales y finales de los nombres, así como cualquier guion bajo.

- Convertir todas las edades en números enteros.

- Separar todos los nombres y apellidos en una sublista.

Guarda la lista modificada como una nueva lista llamada users_clean y muéstrala en la pantalla.-

In [31]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
]

users_clean = []


# Procesa al primer usuario
user_name_1 = users[0][1].strip().replace("_"," ")
user_age_1 = int(users[0][2])
user_name_1 = user_name_1.split()
users_clean.append([users[0][0],user_name_1,user_age_1,users[0][3],users[0][4]])

# Procesa al segundo usuario
user_name_2 = users[1][1].strip()
user_age_2 = int(users[1][2])
user_name_2 = user_name_2.split()
users_clean.append([users[1][0],user_name_2,user_age_2,users[1][3],users[1][4]])

# Procesa al tercer usuario
user_name_3 = users[2][1].strip()
user_age_3 = int(users[2][2])
user_name_3 = user_name_3.split()
users_clean.append([users[2][0],user_name_3,user_age_3,users[2][3],users[2][4]])



print(users_clean)

[['32415', ['mike', 'reed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['31980', ['kate', 'morgan'], 24, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ['john', 'doe'], 37, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]]]
