# **Sprint 1 - Python b√°sico üêç**
---

La empresa de comercio electr√≥nico **Store 1** est√° preparando el lanzamiento de un nuevo **Programa de Fidelizaci√≥n de Clientes**. Para ello, necesita analizar su base de clientes y asegurarse de que los datos est√©n completos, limpios y organizados.

## üéØ**Objetivo**

**Dise√±ar campa√±as personalizadas y optimizar futuras acciones de marketing.**

Para lograrlo, es necesario segmentar a los clientes seg√∫n variables como la edad, el historial de compras y las categor√≠as de productos adquiridos. Como miembro del equipo de an√°lisis, tu tarea inicial ser√° revisar y transformar una muestra de los datos existentes para dejarlos listos para el an√°lisis. En esta fase deber√°s:

1. Limpiar los perfiles de los clientes.
2. Estandarizar nombres y edades.
3. Calcular el gasto total por cliente.
4. Validar la consistencia de los datos y corregir errores.
5. Preparar los datos para generar indicadores de negocio (KPIs).

## üóÇÔ∏è**Datos**

Estos son los datos que el cliente (Store 1) nos proporcion√≥. Tienen el formato de una lista de Python, con las siguientes columnas de datos:

- `user_id:` Identificador √∫nico para cada usuario.
- `user_name:` El nombre del usuario.
- `user_age:` La edad del usuario.
- `fav_categories:` Categor√≠as favoritas de los art√≠culos que compr√≥ el usuario, como 'ELECTRONICS', 'SPORT' y 'BOOKS' (ELECTR√ìNICOS, DEPORTES y LIBROS), etc.
- `total_spendings:` Una lista de n√∫meros enteros que indican la cantidad total gastada en cada una de las categor√≠as favoritas.


In [1]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]


## üîé**Paso 1**
---

***Store 1*** tiene como objetivo garantizar la coherencia en la recopilaci√≥n de datos. Como parte de esta iniciativa, se debe evaluar la calidad de los datos recopilados sobre los usuarios y las usuarias. A continuaci√≥n ver√°s datos sobre un usuario o una usuaria en particular; revisa los datos e identifica cualquier posible problema.

In [2]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

Para cada una de las opciones, escribe si la identificaste como un problema real en los datos o no. Justifica tu razonamiento.

**Opciones:**

1. **Se debe cambiar el tipo de dato de `user_id` de cadena a entero.**

‚ùå***INCORRECTA***. Considero que es incorrecta ya que `user_id` debe permanecer como un String, sin importar que se trate de n√∫meros. Esto debido a que si bien son n√∫meros, no es un dato que vaya a ser utilizado para realizar operaciones y c√°lculos, si no que √∫nicamente nos sirve para identificar a cada usuario.
    
2. **La variable `user_name` contiene una cadena que tiene espacios innecesarios y un guion bajo entre el nombre y el apellido.**
    
‚úÖ***CORRECTA***. La cadena (string) de `user_name` presenta espacios innecesarios al inicio y al final, adem√°s de que no est√° en un formato adecuado ni constante con el resto de la lista. A mi parecer, el formato correcto ser√≠a eliminar los espacios a los extremos y sustituir el gui√≥n bajo por un espacio en blanco.

3. **El tipo de dato de `user_age` es correcto y no hay necesidad de convertirlo.**
    
‚ùå***INCORRECTA***. La opci√≥n 3 es incorrecta debido a que `user_age` es un tipo de dato "float", pero esto no es necesario debido a que la edad se maneja con n√∫mero enteros por lo que ser√≠a mas adecuado transformar los datos a tipo "int".

4. **La lista `fav_categories` contiene cadenas en may√∫sculas. En lugar de ello, debemos convertir los valores de la lista en min√∫sculas.**

‚ùå***INCORRECTA***. No considero que el formato en `fav_categories` sea un problema, puede manejarse en may√∫sculas o en min√∫sculas siempre y cuando sea constante con los dem√°s registros de otros clientes, es decir, que siempre se use may√∫sculas.

## üîß**Paso 2**
---

Corregir los problemas de la variable `user_name`. 

Como vimos, tiene espacios innecesarios y un guion bajo como separador entre el nombre y el apellido; tu objetivo es eliminar los espacios y luego reemplazar el guion bajo con el espacio.

In [3]:
user_name = ' mike_reed '

user_name = (
    user_name
    .strip() # Elimina espacios al principio y final de un String.
    .replace("_", " ") # Reemplaza una parte de una cadena
)

print(user_name)

mike reed


## üîß**Paso 3**
---

Luego, se debe dividir el `user_name` (nombre de usuario o usuaria) actualizado en dos subcadenas para obtener una lista que contenga dos valores: la cadena para el nombre y la cadena para el apellido.

In [4]:
user_name = 'mike reed'

name_split = user_name.split() # Divide una cadena, por defecto utiliza un espacio como separador

print(name_split)

['mike', 'reed']


## üîß**Paso 4**
---

Ahora debemos trabajar con la variable `user_age`. Como ya mencionamos, esta tiene un tipo de datos incorrecto.

In [5]:
user_age = 32.0
user_age = int(user_age) # Transformado tipo de dato de float a int

print(user_age)
print(type(user_age)) # Imprime el tipo de dato

32
<class 'int'>


## üõ†Ô∏è**Paso 5**
---

Como sabemos, los datos no siempre son perfectos. Debemos considerar escenarios en los que el valor de `user_age` no se pueda convertir en un n√∫mero entero. Para evitar que nuestro sistema se bloquee, debemos tomar medidas con anticipaci√≥n.

Escribe un c√≥digo que intente convertir la variable `user_age` en un n√∫mero entero y asigna el valor transformado a `user_age_int`. Si el intento falla, mostramos un mensaje pidiendo al usuario o la usuaria que proporcione su edad como un valor num√©rico con el mensaje: **"Please provide your age as a numerical value"**.

In [6]:
user_age = 'treinta y dos'

try:
    user_age_int = int(user_age) # Trata de transformar la variable user_age al tipo int
except:
    print('Proporcione su edad como un valor num√©rico') # Si se encuentra un error, ejecuta un print

Proporcione su edad como un valor num√©rico


## ‚ÜïÔ∏è**Paso 6**
---

El equipo de direcci√≥n de ***Store 1*** te pidi√≥ ayudarles a organizar los datos de sus clientes para analizarlos y gestionarlos mejor.

La tarea es ordenar esta lista por ID de usuario de forma ascendente para que sea m√°s f√°cil acceder a ella y analizarla.

In [7]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

users.sort() # Ordena la lista de forma ascendente

print(users)

[['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]


## üßÆ**Paso 7**
---

Tenemos la informaci√≥n de los h√°bitos de consumo de nuestros usuarios, incluyendo la cantidad gastada en cada una de sus categor√≠as favoritas. La direcci√≥n est√° interesada en conocer la cantidad total gastada por el usuario.

Calcular y desplegar este valor.

In [8]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category) # Suma los valores dentro de la lista

print(total_amount)


1280


## üó£Ô∏è**Paso 8**
---

La direcci√≥n de la empresa nos pidi√≥ pensar en una manera de resumir toda la informaci√≥n de un usuario. el objetivo es crear una cadena formateada que utilice informaci√≥n de las variables `user_id`, `user_name` y `user_age`.

Esta es la cadena final que queremos crear: **"User 32415 is mike who is 32 years old"**.

In [9]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

user_info = f'El usuario {user_id} es {user_name[0]}, quien tiene {user_age} a√±os.' # Uso de f-string
print(user_info)

El usuario 32415 es mike, quien tiene 32 a√±os.


## üßÆ**Paso 9**
---

La direcci√≥n tambi√©n quiere una forma f√°cil de conocer la cantidad de clientes con cuyos datos contamos. El objetivo es crear una cadena formateada que muestre la cantidad de datos de clientes registrados.

Esta es la cadena final que queremos crear: **"Hemos registrado datos de X clientes"**.

In [10]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

user_info = f'Hemos registrado datos de {len(users)} clientes.' # Uso de f-string

print(user_info)

Hemos registrado datos de 10 clientes.


## üõ†Ô∏è**Paso 10**‚öôÔ∏è
---

Aplicar ahora todos los cambios a la lista de clientes. *(Lista reducida para simplificar)*

1. Eliminar todos los espacios iniciales y finales de los nombres, as√≠ como cualquier guion bajo.
2. Convertir todas las edades en n√∫meros enteros.
3. Separar todos los nombres y apellidos en una sublista.

Guardar la lista modificada como una nueva lista llamada `users_clean` y mostrar en la pantalla.

In [11]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
]

users_clean = []

# Procesa al primer usuario
user_name_1 = users[0][1].strip().replace('_', ' ')
user_age_1 = int(users[0][2])
user_name_1 = user_name_1.split()
users_clean.append([users[0][0], user_name_1, user_age_1, users[0][-2], users[0][-1]])

# Procesa al segundo usuario
user_name_2 = users[1][1].strip().replace('_', ' ')
user_age_2 = int(users[1][2])
user_name_2 = user_name_2.split()
users_clean.append([users[1][0], user_name_2, user_age_2, users[1][-2], users[1][-1]])

# Procesa al tercer usuario
user_name_3 = users[2][1].strip().replace('_', ' ')
user_age_3 = int(users[2][2])
user_name_3 = user_name_3.split()
users_clean.append([users[2][0], user_name_3, user_age_3, users[2][-2], users[2][-1]])

print(users_clean)


[['32415', ['mike', 'reed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['31980', ['kate', 'morgan'], 24, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ['john', 'doe'], 37, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]]]


### üîÅ**Aplicar los cambios a la lista completa:** (Ciclo for)

In [12]:
users = [
    ['32415', ' mike_reed ', 32.0, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]],
    ['31980', 'kate morgan', 24.0, ['CLOTHES', 'BOOKS'], [439, 390]],
    ['32156', ' john doe ', 37.0, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]],
    ['32761', 'SAMANTHA SMITH', 29.0, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]],
    ['32984', 'David White', 41.0, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]],
    ['33001', 'emily brown', 26.0, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]],
    ['33767', ' Maria Garcia', 33.0, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]],
    ['33912', 'JOSE MARTINEZ', 22.0, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]],
    ['34009', 'lisa wilson ', 35.0, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]],
    ['34278', 'James Lee', 28.0, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]],
]

users_clean = []

for user in users:
    name = (
        user[1] # Indice que corresponde al nombre en cada usuario
        .title() # May√∫scula al inicio de cada palabra
        .strip()
        .replace('_', ' ')
        .split()
    )
    age = int(user[2]) # Indice que corresponde a la edad en cada usuario

    users_clean.append([user[0], name, age, user[3], user[4]]) # Crear nueva sublista y a√±adirla a la lista users_clean


print(users_clean)

[['32415', ['Mike', 'Reed'], 32, ['ELECTRONICS', 'SPORT', 'BOOKS'], [894, 213, 173]], ['31980', ['Kate', 'Morgan'], 24, ['CLOTHES', 'BOOKS'], [439, 390]], ['32156', ['John', 'Doe'], 37, ['ELECTRONICS', 'HOME', 'FOOD'], [459, 120, 99]], ['32761', ['Samantha', 'Smith'], 29, ['CLOTHES', 'ELECTRONICS', 'BEAUTY'], [299, 679, 85]], ['32984', ['David', 'White'], 41, ['BOOKS', 'HOME', 'SPORT'], [234, 329, 243]], ['33001', ['Emily', 'Brown'], 26, ['BEAUTY', 'HOME', 'FOOD'], [213, 659, 79]], ['33767', ['Maria', 'Garcia'], 33, ['CLOTHES', 'FOOD', 'BEAUTY'], [499, 189, 63]], ['33912', ['Jose', 'Martinez'], 22, ['SPORT', 'ELECTRONICS', 'HOME'], [259, 549, 109]], ['34009', ['Lisa', 'Wilson'], 35, ['HOME', 'BOOKS', 'CLOTHES'], [329, 189, 329]], ['34278', ['James', 'Lee'], 28, ['BEAUTY', 'CLOTHES', 'ELECTRONICS'], [189, 299, 579]]]
