# Descripción

Una empresa de comercio electrónico, Store 1, recientemente comenzó a recopilar datos sobre sus clientes. El objetivo final de Store 1 es comprender mejor el comportamiento de sus clientes y tomar decisiones basadas en datos para mejorar su experiencia online.

Como parte del equipo de análisis, tu primera tarea es evaluar la calidad de una muestra de datos recopilados y prepararla para futuros análisis.

# Objetivo

Store 1 tiene como objetivo garantizar la coherencia en la recopilación de datos. Como parte de esta iniciativa, se debe evaluar la calidad de los datos recopilados sobre los usuarios y las usuarias. Te han pedido que revises los datos recopilados y propongas cambios. A continuación verás datos sobre un usuario o una usuaria en particular; revisa los datos e identifica cualquier posible problema.

In [1]:
user_id = '32415'
user_name = ' mike_reed ' #Eliminar espacios en blanco del inicio y final
user_age = 32.0 #Cambiar tipo de dato de float a int
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

**Observaciones:**

- La variable `user_name` contiene una cadena que tiene espacios innecesarios y un guion bajo entre el nombre y el apellido.
    
- El tipo de datos de `user_age` es incorrecto.

> Al user_name se le deben de eliminar los espacios en blanco iniciales y finales para evitar problemas al momento de filtrar, comparar, editar, etc.

> El user_age debe cambiarse de float a int ya que la edad es un número entero, además para evitar posibles errores al momento de su manejo.

# Paso 1

Vamos a implementar los cambios que identificamos. Primero, necesitamos corregir los problemas de la variable `user_name`. Como vimos, tiene espacios innecesarios y un guion bajo como separador entre el nombre y el apellido; tu objetivo es eliminar los espacios y luego reemplazar el guion bajo con el espacio.

In [2]:
user_name = ' mike_reed '
user_name = user_name.strip() # eliminar los espacios en la cadena original
user_name = user_name.replace('_',' ') # reemplazar el guion bajo con el espacio

print(user_name)

mike reed


# Paso 2

Luego, debemos dividir el `user_name` (nombre de usuario o usuaria) actualizado en dos subcadenas para obtener una lista que contenga dos valores: la cadena para el nombre y la cadena para el apellido.

In [3]:
user_name = 'mike reed'
name_split = user_name.split()# divide aquí el string user_name

print(name_split)

['mike', 'reed']


# Paso 3

¡Genial! Ahora debemos trabajar con la variable `user_age`. Como ya mencionamos, esta tiene un tipo de datos incorrecto. Arreglemos este problema transformando el tipo de datos y mostrando el resultado final.

In [4]:
user_age = 32.0
user_age = int(user_age) # cambia el tipo de datos para la edad de un usuario o usuaria

print(user_age)

32


# Paso 4

Como sabemos, los datos no siempre son perfectos. Debemos considerar escenarios en los que el valor de `user_age` no se pueda convertir en un número entero. Para evitar que nuestro sistema se bloquee, debemos tomar medidas con anticipación.

Escribe un código que intente convertir la variable `user_age` en un número entero y asigna el valor transformado a `user_age_int`. Si el intento falla, mostramos un mensaje pidiendo al usuario o la usuaria que proporcione su edad como un valor numérico con el mensaje: `Please provide your age as a numerical value.` (Proporcione su edad como un valor numérico.)

In [5]:
user_age = 'treinta y dos' # aquí está la variable que almacena la edad como un string.

# escribe un código que intente transformar user_age en un entero y si falla, imprime el mensaje especificado
# Utilizo un bloque try-except para mostrar un mensaje de error y evitar que el programa finalice.
try:
    user_age_int = int(user_age)
except:
    print('Please provide your age as a numerical value.')

Please provide your age as a numerical value.


# Paso 5

Finalmente, considera que todas las categorías favoritas se almacenan en mayúsculas. Para llenar una nueva lista llamada `fav_categories_low` con las mismas categorías, pero en minúsculas, itera los valores en la lista `fav_categories`, modifícalos y agrega los nuevos valores a la lista `fav_categories_low`. Como siempre, muestra el resultado final.

In [6]:
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']
fav_categories_low = []

# escribe tu código aquí
for category in fav_categories: # Ciclo for para iterar los elementos de la lista de categorías.
    fav_categories_low.append(category.lower()) # Adjuntamos cada elemento iterado de la lista y al mismo tiempo lo convertimos a lowercase.

# no elimines la siguiente declaración print
print(fav_categories_low)

['electronics', 'sport', 'books']


# Paso 6

Hemos obtenido información adicional sobre los hábitos de gasto de nuestros usuarios y usuarias, incluido el importe gastado en cada una de sus categorías favoritas. La gerencia está interesada en las siguientes métricas:

- Importe total gastado por el usuario o la usuaria.
- Importe mínimo gastado.
- Importe máximo gastado.

Vamos a calcular estos valores y mostrarlos en la pantalla:

In [7]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category) # suma cada uno de los elementos de la lista.
max_amount = max(spendings_per_category) # obtiene el elemento con valor máximo de entre todos los elementos de la lista.
min_amount = min(spendings_per_category) # obtiene el elemento con valor mínimo de entre todos los elementos de la lista.

# no elimines la siguiente declaración print
print(total_amount)
print(max_amount)
print(min_amount)

1280
894
173


# Paso 7

La empresa quiere ofrecer descuentos a sus clientes leales. Los clientes y las clientas que realizan compras por un importe total mayor a $1500 se consideran leales y recibirán un descuento.

Nuestro objetivo es crear un bucle `while` que compruebe el importe total gastado y se detenga al alcanzarlo. Para simular nuevas compras, la variable `new_purchase` genera un número entre 30 y 80 en cada iteración del bucle. Esto representa el importe de dinero gastado en una nueva compra y es lo que hay que sumar al total.

Una vez que se alcance el importe objetivo y se termine el bucle `while`, se mostrará la cantidad final.

In [8]:
from random import randint

total_amount_spent = 1280
target_amount = 1500

while total_amount_spent < 1500: # Condición necesaria para que funcione el bucle while y se cumpla con el objetivo
	new_purchase = randint(30, 80) # generamos un número aleatorio de 30 a 80
	total_amount_spent += new_purchase # Se suma el valor de cada compra nueva realizada por el cliente para llevar su historial del total gastado.

print(total_amount_spent)

1527


# Paso 8

Ahora tenemos toda la información sobre un cliente o una clienta de la forma que queremos que sea. La gerencia de una empresa nos pidió proponer una forma de resumir toda la información sobre un usuario o una usuaria. Tu objetivo es crear una cadena formateada que utilice información de las variables `user_id`, `user_name` y `user_age`.

Esta es la cadena final que queremos crear: `User 32415 is mike who is 32 years old.` (El usuario 32415 es Mike, quien tiene 32 años).

In [9]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

user_info = "User {} is {} who is {} years old.".format(user_id, user_name[0], user_age) # Se utilizar el método format() para obtener una cadena con el formato requerido.

# no elimines la siguiente declaración print
print(user_info)

User 32415 is mike who is 32 years old.


Como sabes, las empresas recopilan y almacenan datos de una forma particular. Store 1 desea almacenar toda la información sobre sus clientes y clientas en una tabla.

| user_id | user_name | user_age | purchase_category | spending_per_category |
| --- | --- | --- | --- | --- |
| '32415' | 'mike', 'reed' | 32 | 'electronics', 'sport', 'books' | 894, 213, 173 |
| '31980' | 'kate', 'morgan' | 24 | 'clothes', 'shoes' | 439, 390 |

En términos técnicos, una tabla es simplemente una lista anidada que contiene una sublista para cada usuario o usuaria.

Store 1 ha creado una tabla de este tipo para sus usuarios y usuarias. Se almacena en la variable `users`. Cada sublista contiene el ID del usuario o la usuaria, nombre y apellido, edad, categorías favoritas y el importe gastado en cada categoría.

# Paso 9

Para calcular los ingresos de la empresa, sigue estos pasos.

1. Utiliza `for` para iterar sobre la lista `users`.
2. Extrae la lista de gastos de cada usuario o usuaria y suma los valores.
3. Actualiza el valor de los ingresos con el total de cada usuario o usuaria.

Así obtendrás los ingresos totales de la empresa que mostrarás en la pantalla al final.

In [10]:
users = [
	  # este es el inicio de la primera sublista
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
        [894, 213, 173]
    ], # este es el final de la primera sublista

    # este es el inicio de la segunda sublista
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'shoes'],
        [439, 390]
    ] # este es el final de la segunda sublista
]

revenue = 0

for user in users: # Bucle for para iterar en los elementos de la lista anidada.
	spendings_list = user[4] # extrae la lista de gastos de cada usuario o usuaria 
	total_spendings = sum(spendings_list) # suma los gastos de todas las categorías para obtener el total de un usuario o una usuaria en particular
	revenue += total_spendings # actualiza los ingresos

# no elimines la siguiente declaración print
print(revenue)

2109


# Paso 10

Recorre la lista de usuarios y usuarias que te hemos proporcionado y muestra los nombres de la clientela menor de 30 años.

In [11]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
     [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439,
     390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'],
     [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics',
     'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234,
     329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213,
     659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'],
     [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'
     ], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'],
     [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'
     ], [189, 299, 579]],
    ]

# escribe tu código aquí

users_filtered = [] # Inicialización de lista donde se guardarán los nombres de los clientes que cumplen el criterio de filtrado.

for user in users: # Bucle for para iterar a través de la lista anidada.
    if user[2] < 30: # Condición para filtrar los clientes menores de 30 años.
        users_filtered.append(user[1][0]) # Extrae la lista de nombres de los clientes que cumplen con la condición.

print(users_filtered) # Se muestra la lista de los nombres de los clientes que cumplen con la condición.


['kate', 'samantha', 'emily', 'jose', 'james']


# Paso 11

Juntemos las tareas 9 y 10 e imprimamos los nombres de los usuarios y las usuarias que tengan menos de 30 años y un gasto total superior a 1000 dólares.

In [12]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
     [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439,
     390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'],
     [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics',
     'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234,
     329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213,
     659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'],
     [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'
     ], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'],
     [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'
     ], [189, 299, 579]],
    ]

# escribe tu código aquí

users_filtered = [] # Inicialización de lista donde se guardarán los nombres completos de los clientes que cumplen el criterio de filtrado.

for user in users: # Bucle for para iterar a través de la lista anidada.
  
    if user[2] < 30 and sum(user[4]) > 1000: # Condición para filtrar los clientes menores de 30 años y que gastan más de $1000 USD.
        users_filtered.append(user[1][0]) # Extrae la lista de nombres de los clientes que cumplen con la condición.
        
print(users_filtered) # Se muestra la lista de los nombres de los clientes que cumplen con la condición.

['samantha', 'james']


# Paso 12

Ahora vamos a mostrar el nombre y la edad de todos los usuarios y todas las usuarias que han comprado ropa. Imprime el nombre y la edad en la misma declaración print.

In [13]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
     [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439,
     390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'],
     [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics',
     'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234,
     329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213,
     659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'],
     [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'
     ], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'],
     [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'
     ], [189, 299, 579]],
    ]

#escribe tu código aquí

users_filtered_name_age = [] # Inicialización de lista donde se guardarán los nombres y edades de los clientes que cumplen el criterio de filtrado.

for user in users: 
    for category in user[3]: # Bucle for para iterar a través de la lista anidada.
        if category == 'clothes': # Condición para filtrar los clientes que han comprado ropa.
            users_filtered_name_age.extend([[user[1][0], user[2]]]) # Extrae la lista de nombres y edades de los clientes que cumplen con la condición.
            
print(users_filtered_name_age) # Muestra la lista de nombres y edades de los clientes que cumplen con la condición.

[['kate', 24], ['samantha', 29], ['maria', 33], ['lisa', 35], ['james', 28]]
