Una empresa de comercio electrónico, Store 1, recientemente comenzó a recopilar datos sobre sus clientes. El objetivo final de Store 1 es comprender mejor el comportamiento de sus clientes y tomar decisiones basadas en datos para mejorar su experiencia online.

Como parte del equipo de análisis, tu primera tarea es evaluar la calidad de una muestra de datos recopilados y prepararla para futuros análisis.

# Cuestionario

Store 1 tiene como objetivo garantizar la coherencia en la recopilación de datos. Como parte de esta iniciativa, se debe evaluar la calidad de los datos recopilados sobre los usuarios y las usuarias. Te han pedido que revises los datos recopilados y propongas cambios. A continuación verás datos sobre un usuario o una usuaria en particular; revisa los datos e identifica cualquier posible problema.

In [1]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

**Opciones:**

1. El tipo de datos para `user_id` debe cambiarse de una cadena a un número entero.
    
2. La variable `user_name` contiene una cadena que tiene espacios innecesarios y un guion bajo entre el nombre y el apellido.
    
3. El tipo de datos de `user_age` es incorrecto.
    
4. La lista `fav_categories` contiene cadenas en mayúsculas. En su lugar, deberíamos convertir los valores de la lista a minúsculas.

Escribe en la celda Markdown a continuación el número de las opciones que has identificado como problemas. Si has identificado varios problemas, sepáralos con comas. Por ejemplo, si crees que los números 1 y 3 son correctos, escribe 1, 3.

**Escribe tu respuesta y explica tu argumentación:**
2, 3.

La opción 2 es computable a primera vista, pero los espacios al inicio y al final del string como el uso del guión bajo pueden generar problemas para posibles manipulaciones futuras de esta variable. Lo mejor sería usar la función "strip()" para remover los espacios, como también el controlar de mejor forma que esta variable no contenga carácteres especiales.

La opción 3 puede manejarse de esta forma, aunque personalmente recomendaría el uso de un dato tipo "int" debido a que la descripción del dato "edad" se maneja popularmente en incrementos de 1, por lo que manejar valores menores a 1 es innecesario para esta aplicación.

# Ejercicio 1

Vamos a implementar los cambios que identificamos. Primero, necesitamos corregir los problemas de la variable `user_name`. Como vimos, tiene espacios innecesarios y un guion bajo como separador entre el nombre y el apellido; tu objetivo es eliminar los espacios y luego reemplazar el guion bajo con el espacio.

In [3]:
user_name = ' mike_reed '
user_name = user_name.strip()           # eliminar los espacios en la cadena original
user_name = user_name.replace('_', ' ') # reemplazar el guion bajo con el espacio

print(user_name)

mike reed


# Ejercicio 2

Luego, debemos dividir el `user_name` (nombre de usuario o usuaria) actualizado en dos subcadenas para obtener una lista que contenga dos valores: la cadena para el nombre y la cadena para el apellido.

In [4]:
user_name = 'mike reed'
name_split = user_name.split(' ') # divide aquí el string user_name

print(name_split)

['mike', 'reed']


# Ejercicio 3

¡Genial! Ahora debemos trabajar con la variable `user_age`. Como ya mencionamos, esta tiene un tipo de datos incorrecto. Arreglemos este problema transformando el tipo de datos y mostrando el resultado final.

In [5]:
user_age = 32.0
user_age = int(user_age) # cambia el tipo de datos para la edad de un usuario o usuaria

# Imprimir el valor de 'user_age'
print(user_age)

# Imprimir el tipo de dato de 'user_age'
print(type(user_age))

32
<class 'int'>


# Ejercicio 4

Como sabemos, los datos no siempre son perfectos. Debemos considerar escenarios en los que el valor de `user_age` no se pueda convertir en un número entero. Para evitar que nuestro sistema se bloquee, debemos tomar medidas con anticipación.

Escribe un código que intente convertir la variable `user_age` en un número entero y asigna el valor transformado a `user_age_int`. Si el intento falla, mostramos un mensaje pidiendo al usuario o la usuaria que proporcione su edad como un valor numérico con el mensaje: `Please provide your age as a numerical value.` (Proporcione su edad como un valor numérico.)

In [6]:
user_age = 'treinta y dos'   # aquí está la variable que almacena la edad como un string.

# escribe un código que intente transformar user_age en un entero y si falla, imprime el mensaje especificado
try:
    user_age_int = int(user_age)
except:
    print("Please provide your age as a numerical value.")

Please provide your age as a numerical value.


# Ejercicio 5

Finalmente, considera que todas las categorías favoritas se almacenan en mayúsculas. Para llenar una nueva lista llamada `fav_categories_low` con las mismas categorías, pero en minúsculas, itera los valores en la lista `fav_categories`, modifícalos y agrega los nuevos valores a la lista `fav_categories_low`. Como siempre, muestra el resultado final.

In [7]:
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']
fav_categories_low = []

# escribe tu código aquí
for category in fav_categories:
    fav_categories_low.append(category.lower())

# no elimines la siguiente declaración print
print(fav_categories_low)

['electronics', 'sport', 'books']


# Ejercicio 6

Hemos obtenido información adicional sobre los hábitos de gasto de nuestros usuarios y usuarias, incluido el importe gastado en cada una de sus categorías favoritas. La gerencia está interesada en las siguientes métricas:

- Importe total gastado por el usuario o la usuaria.
- Importe mínimo gastado.
- Importe máximo gastado.

Vamos a calcular estos valores y mostrarlos en la pantalla:

In [8]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

# Almacenamos en la variable su valor numérico (transformado en string) junto a un mensaje descriptivo
total_amount = 'Importe total gastado por el usuario o usuaria: $' + str(sum(spendings_per_category)) + ' USD.'

# Almacenamos en la variable su valor numérico (transformado en string) junto a un mensaje descriptivo
max_amount = 'Importe máximo gastado: $' + str(max(spendings_per_category)) + ' USD (' + fav_categories_low[spendings_per_category.index(max(spendings_per_category))] + (').')

# Almacenamos en la variable su valor numérico (transformado en string) junto a un mensaje descriptivo
min_amount = 'Importe mínimo gastado: $' + str(min(spendings_per_category)) + ' USD (' + fav_categories_low[spendings_per_category.index(min(spendings_per_category))] + (').')

# no elimines la siguiente declaración print
print(total_amount)
print(max_amount)
print(min_amount)

Importe total gastado por el usuario o usuaria: $1280 USD.
Importe máximo gastado: $894 USD (electronics).
Importe mínimo gastado: $173 USD (books).


# Ejercicio 7

La empresa quiere ofrecer descuentos a sus clientes leales. Los clientes y las clientas que realizan compras por un importe total mayor a $1500 se consideran leales y recibirán un descuento.

Nuestro objetivo es crear un bucle `while` que compruebe el importe total gastado y se detenga al alcanzarlo. Para simular nuevas compras, la variable `new_purchase` genera un número entre 30 y 80 en cada iteración del bucle. Esto representa el importe de dinero gastado en una nueva compra y es lo que hay que sumar al total.

Una vez que se alcance el importe objetivo y se termine el bucle `while`, se mostrará la cantidad final.

In [9]:
from random import randint

total_amount_spent = 1280
target_amount = 1500

# Declaramos que mientras el total gastado no supere el valor de "target_amount" se continue con el ciclo "while"
while total_amount_spent < target_amount:
    
    # generamos un número aleatorio de 30 a 80
	new_purchase = randint(30, 80)
    
    # Declaramos el nuevo valor del total gastado por el(la) cliente(a)
	total_amount_spent += new_purchase

# Imprimimos el valor que cumple con la condición junto a un mensaje descriptivo
print('Your total spent is: $' + str(total_amount_spent) + " USD.")

Your total spent is: $1533 USD.


# Ejercicio 8

Ahora tenemos toda la información sobre un cliente o una clienta de la forma que queremos que sea. La gerencia de una empresa nos pidió proponer una forma de resumir toda la información sobre un usuario o una usuaria. Tu objetivo es crear una cadena formateada que utilice información de las variables `user_id`, `user_name` y `user_age`.

Esta es la cadena final que queremos crear: `User 32415 is mike who is 32 years old.` (El usuario 32415 es Mike, quien tiene 32 años).

In [10]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

# Opción 1 (usando "f-strings")
user_info = f"User {user_id} is {user_name[0]} who is {user_age} years old."

# Opción 2 (usando la función "format()")
# user_info = "User {} is {} who is {} years old.".format(user_id, user_name[0], user_age)

# no elimines la siguiente declaración print
print(user_info)

User 32415 is mike who is 32 years old.


Como sabes, las empresas recopilan y almacenan datos de una forma particular. Store 1 desea almacenar toda la información sobre sus clientes y clientas en una tabla.

| user_id | user_name | user_age | purchase_category | spending_per_category |
| --- | --- | --- | --- | --- |
| '32415' | 'mike', 'reed' | 32 | 'electronics', 'sport', 'books' | 894, 213, 173 |
| '31980' | 'kate', 'morgan' | 24 | 'clothes', 'shoes' | 439, 390 |

En términos técnicos, una tabla es simplemente una lista anidada que contiene una sublista para cada usuario o usuaria.

Store 1 ha creado una tabla de este tipo para sus usuarios y usuarias. Se almacena en la variable `users`. Cada sublista contiene el ID del usuario o la usuaria, nombre y apellido, edad, categorías favoritas y el importe gastado en cada categoría.

# Ejercicio 9

Para calcular los ingresos de la empresa, sigue estos pasos.

1. Utiliza `for` para iterar sobre la lista `users`.
2. Extrae la lista de gastos de cada usuario o usuaria y suma los valores.
3. Actualiza el valor de los ingresos con el total de cada usuario o usuaria.

Así obtendrás los ingresos totales de la empresa que mostrarás en la pantalla al final.

In [11]:
users = [
	  # este es el inicio de la primera sublista
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
        [894, 213, 173]
    ], # este es el final de la primera sublista

    # este es el inicio de la segunda sublista
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'shoes'],
        [439, 390]
    ] # este es el final de la segunda sublista
]

revenue = 0

for user in users:
    
    # extrae la lista de gastos de cada usuario o usuaria y suma los valores
	spendings_list = user[4]
    
    # suma los gastos de todas las categorías para obtener el total de un usuario o una usuaria en particular
	total_spendings = sum(spendings_list)
    
    # actualiza los ingresos
	revenue += total_spendings
    
# Actualizar la variable para que muestre la información de forma descriptiva en forma de string.
revenue = "Total earnings: $" + str(revenue) + (" USD.")

# no elimines la siguiente declaración print
print(revenue)

Total earnings: $2109 USD.


# Ejercicio 10

Recorre la lista de usuarios y usuarias que te hemos proporcionado y muestra los nombres de la clientela menor de 30 años.

In [12]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
     [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439,
     390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'],
     [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics',
     'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234,
     329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213,
     659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'],
     [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'
     ], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'],
     [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'
     ], [189, 299, 579]],
    ]

# escribe tu código aquí

# Texto descriptivo
print("The following users are 30 y.o. or less:")

# Selección de cada usuario de la lista de usuarios
for user in users:
    
    # Condición para seleccionar a los usuarios menores a 30 años
    if user[2] < 30:
        
        # Imprimir el primer caracter del nombre en mayúscula y el resto en minusculas (lo mismo con el apellido)
        print(user[1][0][0].upper() + user[1][0][1:] + (" ") + user[1][1][0].upper() + user[1][1][1:])

The following users are 30 y.o. or less:
Kate Morgan
Samantha Smith
Emily Brown
Jose Martinez
James Lee


# Ejercicio 11

Juntemos las tareas 9 y 10 e imprimamos los nombres de los usuarios y las usuarias que tengan menos de 30 años y un gasto total superior a 1000 dólares.

In [13]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
     [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439,
     390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'],
     [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics',
     'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234,
     329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213,
     659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'],
     [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'
     ], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'],
     [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'
     ], [189, 299, 579]],
    ]

# Texto descriptivo del problema en cuestión
print("The following users are 30 y.o. or less and had spent $1,000 USD or more:")

for user in users:
    
    # Condición para seleccionar a los usuarios menores a 30 años y que han gastado más de 1,000 dólares
    if user[2] < 30 and sum(user[4]) >= 1000:
        
        # Imprimir el primer caracter del nombre en mayúscula, el resto en minusculas (lo mismo con el apellido) y su gasto total
        print(user[1][0][0].upper() + user[1][0][1:] + (" ") + user[1][1][0].upper() + user[1][1][1:] + " ($" + str(sum(user[4])) + " USD).")

The following users are 30 y.o. or less and had spent $1,000 USD or more:
Samantha Smith ($1063 USD).
James Lee ($1067 USD).


# Ejercicio 12

Ahora vamos a mostrar el nombre y la edad de todos los usuarios y todas las usuarias que han comprado ropa. Imprime el nombre y la edad en la misma declaración print.

In [14]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
     [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439,
     390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'],
     [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics',
     'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234,
     329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213,
     659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'],
     [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'
     ], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'],
     [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'
     ], [189, 299, 579]],
    ]

#escribe tu código aquí

# Texto descriptivo del problema en cuestión
print("Users who had purchased clothes are:")

for user in users:
    
    # Condición para seleccionar la lista de secciones donde compraron de cada usuario y evaluar cada dato en ella
    for value in user[3]:
        
        # Condición para evaluar si alguna de los datos es igual a 'clothes'
        if value == 'clothes':
            
            # Imprimir el primer caracter del nombre en mayúscula, el resto en minusculas (lo mismo con el apellido) y su edad
            print(user[1][0][0].upper() + user[1][0][1:] + (" ") + user[1][1][0].upper() + user[1][1][1:] + " (" + str(user[2]) + " y.o.)")

Users who had purchased clothes are:
Kate Morgan (24 y.o.)
Samantha Smith (29 y.o.)
Maria Garcia (33 y.o.)
Lisa Wilson (35 y.o.)
James Lee (28 y.o.)
