

Como parte del equipo de análisis, lo primero que debes hacer es evaluar la calidad de una muestra de datos recopilados y prepararla para analizarla posteriormente. Después, en la segunda parte de este proyecto en el segundo sprint, desarrollarás más tus habilidades y harás tu primer análisis completo, respondiendo a las necesidades del cliente.

Estos son los datos que el cliente nos proporcionó. Tienen el formato de una lista de Python, con las siguientes columnas de datos:

- **user_id:** Identificador único para cada usuario.
- **user_name:** El nombre del usuario.
- **user_age:** La edad del usuario.
- **fav_categories:** Categorías favoritas de los artículos que compró el usuario, como 'ELECTRONICS', 'SPORT' y 'BOOKS' (ELECTRÓNICOS, DEPORTES y LIBROS), etc.
- **total_spendings:** Una lista de números enteros que indican la cantidad total gastada en cada una de las categorías favoritas.


In [97]:
import sys
import importlib

# Añadir la carpeta "data" al path
sys.path.append("../data")

# Importar y recargar el módulo
import sample_data
importlib.reload(sample_data)

# Importar la lista
from sample_data import users

# Mostrar datos
print(f"Datos cargados: {len(users)} usuarios\n")
for i, user in enumerate(users):
    print(f"{i+1:2d}. {user}")

Datos cargados: 10 usuarios

 1. ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]]
 2. ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]]
 3. ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]]
 4. ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]]
 5. ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]]
 6. ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]]
 7. ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]]
 8. ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]]
 9. ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]]
10. ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]


# Paso 1

Store 1 tiene como objetivo garantizar la coherencia en la recopilación de datos. Como parte de esta iniciativa, se debe evaluar la calidad de los datos recopilados sobre los usuarios y las usuarias. Te han pedido que revises los datos recopilados y propongas cambios. 


De acuerdo a lo observado en la lista anidadas de users se realizan las siguientes observaciones y propuestas:

1. ##### ID como entero o cadena.

Depende del propósito de la variable y de cómo se desea usar. Para nuestro caso es más adecuado definirla como entero (int).

2. ##### Formato del nombre.

   - Algunos datos tienen espacios al principio y/o al final
   - En lugar de espacio entre nombre y apellido tienen guion bajo
   - Algunos nombres estan en mayuscula y otros en miniscula

Es importante almacenar la información en un formato que facilite su manejo; si presenta todo lo anterior, puede  dificultar operaciones comunes como búsquedas, comparaciones o visualizaciones.

3. ##### Edad como float.

La edad por su naturaleza siempre es un número entero, ya que representa una cantidad discreta (años completos). Al almacenarla como un número entero en lugar de un flotante (float), no solo ahorramos memoria, sino que también simplificamos validaciones y operaciones. Además, usar un entero refuerza la semántica de los datos, lo que mejora la comprensión del código.
   
4. ##### Uso consistente de mayúsculas o minúsculas.

Normalizar el formato de texto (todo en mayúsculas o todo en minúsculas) es una práctica común para facilitar operaciones como búsquedas, comparaciones o clasificaciones. Por ejemplo, al comparar dos cadenas, los formatos inconsistentes pueden llevar a resultados inesperados. Ya depende de la naturaleza de los datos si tiene sentido o no utilizar mayúsculas o minúsculas.

# Paso 2

Vamos a implementar los cambios que identificamos. Primero, necesitamos corregir algunos problemas:

1. La variable `user_name` tiene espacios innecesarios y un guion bajo como separador entre el nombre y el apellido; tu objetivo es eliminar los espacios y luego reemplazar el guion bajo con el espacio.
2. Dividir el `user_name` (nombre de usuario o usuaria) actualizado en dos subcadenas para obtener una lista que contenga dos valores: la cadena para el nombre y la cadena para el apellido.
3. La variable user_age tiene un tipo de datos incorrecto. Arreglemos este problema transformando el tipo de datos y mostrando el resultado final.


In [154]:
# Añadir la carpeta "data" al path
sys.path.append("../src")

# Importar el modulo
import data_cleaning
importlib.reload(data_cleaning)

# Importar la lista
from data_cleaning import limpiar_usuarios as lp

# Limpiar los datos
usuarios_limpios = lp(users)

for user in (usuarios_limpios):
    print(f"{user}")


[32415, 'mike', 'reed', 32, ['electronics', 'sport', 'books'], [894, 213, 173]]
[31980, 'kate', 'morgan', 24, ['clothes', 'books'], [439, 390]]
[32156, 'john', 'doe', 37, ['electronics', 'home', 'food'], [459, 120, 99]]
[32761, 'samantha', 'smith', 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]]
[32984, 'david', 'white', 41, ['books', 'home', 'sport'], [234, 329, 243]]
[33001, 'emily', 'brown', 26, ['beauty', 'home', 'food'], [213, 659, 79]]
[33767, 'maria', 'garcia', 33, ['clothes', 'food', 'beauty'], [499, 189, 63]]
[33912, 'jose', 'martinez', 22, ['sport', 'electronics', 'home'], [259, 549, 109]]
[34009, 'lisa', 'wilson', 35, ['home', 'books', 'clothes'], [329, 189, 329]]
[34278, 'james', 'lee', 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]


## Paso 3
Como sabemos, los datos no siempre son perfectos. Debemos considerar escenarios en los que el valor de user_age no se pueda convertir en un número entero. Para evitar que nuestro sistema se bloquee, debemos tomar medidas con anticipación.

Escribe un código que intente convertir la variable user_age en un número entero y asigna el valor transformado a user_age_int. Si el intento falla, mostramos un mensaje pidiendo al usuario o la usuaria que proporcione su edad como un valor numérico con el mensaje: Please provide your age as a numerical value. (Proporcione su edad como un valor numérico.)

In [158]:
# Importar el modulo
import data_cleaning
importlib.reload(data_cleaning)

# Importar la lista
from data_cleaning import test_try as tt

# Crear una copia de users
data_copia = usuarios_limpios.copy()
new_data = [34279, 'Pepita', 'Perez', 'treinta y dos', ['beauty', 'clothes', 'electronics'], [189, 299, 579]]
data_copia.append(new_data)

# Probar la funcion try/except cuando la informacion de la edad no sea valida
tt(data_copia)

Please provide your age as a numerical value


# Paso 4

El equipo de dirección de Store 1 te pidió ayudarles a organizar los datos de sus clientes para analizarlos y gestionarlos mejor.

Tu tarea es ordenar esta lista por ID de usuario de forma ascendente para que sea más fácil acceder a ella y analizarla.


In [157]:
# Ordernar la lista de manera ascendente por Id de usuario
usuarios_limpios.sort()

for user in (usuarios_limpios):
    print(f"{user}")


[31980, 'kate', 'morgan', 24, ['clothes', 'books'], [439, 390]]
[32156, 'john', 'doe', 37, ['electronics', 'home', 'food'], [459, 120, 99]]
[32415, 'mike', 'reed', 32, ['electronics', 'sport', 'books'], [894, 213, 173]]
[32761, 'samantha', 'smith', 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85]]
[32984, 'david', 'white', 41, ['books', 'home', 'sport'], [234, 329, 243]]
[33001, 'emily', 'brown', 26, ['beauty', 'home', 'food'], [213, 659, 79]]
[33767, 'maria', 'garcia', 33, ['clothes', 'food', 'beauty'], [499, 189, 63]]
[33912, 'jose', 'martinez', 22, ['sport', 'electronics', 'home'], [259, 549, 109]]
[34009, 'lisa', 'wilson', 35, ['home', 'books', 'clothes'], [329, 189, 329]]
[34278, 'james', 'lee', 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579]]


# Paso 5

Tenemos la información de los hábitos de consumo de nuestros usuarios, incluyendo la cantidad gastada en cada una de sus categorías favoritas. La dirección está interesada en conocer la cantidad total gastada por el usuario.


Calculemos este valor y despleguémoslo.


In [159]:
# Importar el modulo
import data_cleaning
importlib.reload(data_cleaning)

# Importar la lista
from data_cleaning import calcular_gasto_total as cgt

# Funcion para calcular gastos totales por usuario
usuarios_limpios = cgt(usuarios_limpios)
for user in (usuarios_limpios):
    print(f"{user}")


[31980, 'kate', 'morgan', 24, ['clothes', 'books'], [439, 390], 829]
[32156, 'john', 'doe', 37, ['electronics', 'home', 'food'], [459, 120, 99], 678]
[32415, 'mike', 'reed', 32, ['electronics', 'sport', 'books'], [894, 213, 173], 1280]
[32761, 'samantha', 'smith', 29, ['clothes', 'electronics', 'beauty'], [299, 679, 85], 1063]
[32984, 'david', 'white', 41, ['books', 'home', 'sport'], [234, 329, 243], 806]
[33001, 'emily', 'brown', 26, ['beauty', 'home', 'food'], [213, 659, 79], 951]
[33767, 'maria', 'garcia', 33, ['clothes', 'food', 'beauty'], [499, 189, 63], 751]
[33912, 'jose', 'martinez', 22, ['sport', 'electronics', 'home'], [259, 549, 109], 917]
[34009, 'lisa', 'wilson', 35, ['home', 'books', 'clothes'], [329, 189, 329], 847]
[34278, 'james', 'lee', 28, ['beauty', 'clothes', 'electronics'], [189, 299, 579], 1067]


# Paso 8

La dirección de la empresa nos pidió pensar en una manera de resumir toda la información de un usuario. Tu objetivo es crear una cadena formateada que utilice información de las variables `user_id`, `user_name` y `user_age`.

Esta es la cadena final que queremos crear: `User 32415 is mike who is 32 years old.` (El usuario 32415 es Mike, quien tiene 32 años).


In [162]:
#Informacion del usurio
for user in (usuarios_limpios):
    user_id,nombe,apellido,edad,categorias,gastos,gasto_total = user
    user_info = f"User {user_id} is {nombe} who is {edad} years old."
    print(user_info)


User 31980 is kate who is 24 years old.
User 32156 is john who is 37 years old.
User 32415 is mike who is 32 years old.
User 32761 is samantha who is 29 years old.
User 32984 is david who is 41 years old.
User 33001 is emily who is 26 years old.
User 33767 is maria who is 33 years old.
User 33912 is jose who is 22 years old.
User 34009 is lisa who is 35 years old.
User 34278 is james who is 28 years old.


# Paso 9

La dirección también quiere una forma fácil de conocer la cantidad de clientes con cuyos datos contamos. Tu objetivo es crear una cadena formateada que muestre la cantidad de datos de clientes registrados.

Esta es la cadena final que queremos crear: `Hemos registrado datos de X clientes`.


In [163]:
user_info = ("Hemos registrado datos de {} clientes.".format(len(usuarios_limpios)))
print(user_info)

Hemos registrado datos de 10 clientes.
