**Análisis y limpieza de datos de Store 1**

Store 1 es una empresa de comercio electrónico que ha comenzado a recopilar datos sobre sus clientes. El objetivo de este análisis es evaluar la calidad de los datos, corregir inconsistencias y extraer información útil sobre los clientes y sus patrones de compra. Esto permitirá a Store 1 mejorar su toma de decisiones y optimizar su estrategia de ventas.


**Objetivos del Proyecto**
- Identificar y corregir problemas en los datos recopilados.
- Realizar limpieza y transformaciones en la información.
- Extraer métricas clave sobre los clientes y su comportamiento de compra.
- Generar una segmentación inicial de clientes según su gasto y categoría de compra.

/

**Store 1 data analysis and cleansing**

Store 1 is an e-commerce company that has started collecting data about its customers. The goal of this analysis is to assess the quality of the data, correct inconsistencies and extract useful information about customers and their buying patterns. This will enable Store 1 to improve its decision making and optimize its sales strategy.

**Project Objectives**
- Identify and correct problems in the data collected.
- Perform data cleansing and transformations.
- Extract key metrics about customers and their buying behavior.
- Generate an initial segmentation of customers according to their spending and purchase category.

## Limpieza y transformaciones en la información / Cleaning and information transformations

Store 1 tiene como objetivo garantizar la coherencia en la recopilación de datos. Como parte de esta iniciativa, se debe evaluar la calidad de los datos recopilados sobre los usuarios y las usuarias. 

Store 1 aims to ensure consistency in data collection. As part of this initiative, the quality of data collected on users must be assessed.

In [1]:
user_id = '32415'
user_name = ' mike_reed '
user_age = 32.0
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

El tipo de datos para `user_id` debe cambiarse de una cadena a un número entero. / The data type for user_id must be changed from a string to an integer.

In [14]:
user_name = ' mike_reed '
user_name = user_name.strip() #Eliminar los espacios en la cadena original / Remove spaces in the original string
user_name = user_name.replace('_', ' ') #Reemplazar el guion bajo con el espacio / Replace the underscore with space

print(user_name)

mike reed


La variable `user_name` contiene una cadena que tiene espacios innecesarios y un guion bajo entre el nombre y el apellido.

The user_name variable contains a string that has unnecessary spaces and an underscore between the first and last name.

In [3]:
user_name = 'mike reed'
name_split = user_name.split() #Dividir el string user_name / Split string user_name

print(name_split)

['mike', 'reed']


El tipo de datos de `user_age` es incorrecto.

The data type of user_age is incorrect.

In [4]:
user_age = 32.0

#Cambiar el tipo de datos para la edad de un usuario o usuaria / Change the data type for a user's age
user_age = int(user_age) 

print(user_age)

32


Como sabemos, los datos no siempre son perfectos. Debemos considerar escenarios en los que el valor de `user_age` no se pueda convertir en un número entero. Para evitar que nuestro sistema se bloquee, debemos tomar medidas con anticipación.

Si el intento falla, mostramos un mensaje pidiendo al usuario o la usuaria que proporcione su edad como un valor numérico con el mensaje: Please provide your age as a numerical value. (Proporcione su edad como un valor numérico.)

/ 

As we know, data is not always perfect. We must consider scenarios where the value of user_age cannot be converted to an integer. To prevent our system from crashing, we must take action in advance.

If the attempt fails, we display a message asking the user to provide his or her age as a numerical value with the message: Please provide your age as a numerical value.

In [5]:
#Variable que almacena la edad como un string / Variable that stores the age as a string.
user_age = 'treinta y dos' 

try:
    user_age_int = int(user_age)

#Código que intente transformar user_age en un entero y si falla, imprime el mensaje especificado 
#Code that tries to transform user_age into an integer and if it fails, prints the specified message    
except: 
    print('Please provide your age as a numerical value.') 

Please provide your age as a numerical value.


La lista `fav_categories` contiene cadenas en mayúsculas. En su lugar, deberíamos convertir los valores de la lista a minúsculas.

The fav_categories list contains uppercase strings. Instead, we should convert the list values to lowercase.

In [6]:
fav_categories = ['ELECTRONICS', 'SPORT', 'BOOKS']

fav_categories_low = []

for categories in fav_categories:
    fav_categories_low.append(categories.lower()) 

print(fav_categories_low)

['electronics', 'sport', 'books']


## Extraer métricas clave sobre los clientes y su comportamiento de compra / Extract key metrics about customers and their buying behavior

Hemos obtenido información adicional sobre los hábitos de gasto de nuestros usuarios y usuarias, incluido el importe gastado en cada una de sus categorías favoritas. La gerencia está interesada en las siguientes métricas:
- Importe total gastado por el usuario o la usuaria.
- Importe mínimo gastado.
- Importe máximo gastado.

Vamos a calcular estos valores y mostrarlos:

/

We have obtained additional information on the spending habits of our users, including the amount spent in each of their favorite categories. Management is interested in the following metrics:

- Total amount spent by the user.
- Minimum amount spent.
- Maximum amount spent.

Let's calculate these values and display them:

In [7]:
fav_categories_low = ['electronics', 'sport', 'books']
spendings_per_category = [894, 213, 173]

total_amount = sum(spendings_per_category) 
max_amount = max(spendings_per_category) 
min_amount = min(spendings_per_category) 

print(total_amount)
print(max_amount)
print(min_amount)

1280
894
173


## Generar una segmentación inicial de clientes según su gasto y categoría de compra / Generate an initial segmentation of customers according to their spending and purchase category

La empresa quiere ofrecer descuentos a sus clientes leales. Los clientes y las clientas que realizan compras por un importe total mayor a `$1500` se consideran leales y recibirán un descuento.

El objetivo es crear un bucle while que compruebe el importe total gastado y se detenga al alcanzarlo. Para simular nuevas compras, la variable `new_purchase` genera un número entre `30` y `80` en cada iteración del bucle. Esto representa el importe de dinero gastado en una nueva compra y es lo que hay que sumar al total.

Una vez que se alcance el importe objetivo y se termine el bucle while, se mostrará la cantidad final.

/ 

The company wants to offer discounts to its loyal customers. Customers who make purchases totaling more than `$1500` are considered loyal and will receive a discount.

The goal is to create a while loop that checks the total amount spent and stops when it is reached. To simulate new purchases, the variable `new_purchase` generates a number between `30` and `80` at each iteration of the loop. This represents the amount of money spent on a new purchase and is what needs to be added to the total.

Once the target amount is reached and the while loop is terminated, the fine amount will be displayed.

In [8]:
from random import randint

total_amount_spent = 1280
target_amount = 1500

while total_amount_spent < 1500: 
    #Generar un número aleatorio de 30 a 80 / Generate a random number from 30 to 80
    new_purchase = randint(30, 80) 
    total_amount_spent += new_purchase 
    
print(total_amount_spent)

1555


Ahora tenemos toda la información sobre un cliente o una clienta de la forma que queremos que sea. La gerencia de una empresa nos pidió proponer una forma de resumir toda la información sobre un usuario o una usuaria. 

Esta es la cadena final que queremos crear: User `32415` is `mike` who is `32` years old. (El usuario 32415 es Mike, quien tiene 32 años).

/

We now have all the information about a customer the way we want it to be. The management of a company asked us to propose a way to summarize all the information about a user.

This is the final string that we want to create: User `32415` is `mike` who is `32` years old.

In [9]:
user_id = '32415'
user_name = ['mike', 'reed']
user_age = 32

user_name=user_name[0]

user_info = f"user {user_id} is {user_name} who is {user_age} years old." 

print(user_info)

user 32415 is mike who is 32 years old.


Calcular los ingresos de la empresa / Calculate the company's revenues:

In [10]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
        [894, 213, 173]
    ], 
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'shoes'],
        [439, 390]
    ] 
]
revenue = 0

for user in users:
    #Extraer la lista de gastos de cada usuario o usuaria y suma los valores
    #Extract the list of expenses for each user and add the values
    spendings_list = user[-1] 
    #Sumar los gastos de todas las categorías para obtener el total de un usuario o una usuaria en particular
    #Sum the expenses of all categories to obtain the total for a particular user
    total_spendings = sum(spendings_list) 
    #Actualiza los ingresos / #Update income
    revenue += total_spendings 

print(revenue)

2109


Recorrer la lista de usuarios y usuarias y mostrar los nombres de la clientela menor de 30 años.

Scroll through the list of users and display the names of the clientele under 30 years of age.

In [11]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
     [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439,
     390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'],
     [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics',
     'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234,
     329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213,
     659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'],
     [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'
     ], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'],
     [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'
     ], [189, 299, 579]],
    ]

clientela_menor = [] 
for clients in users:
    if clients[2] < 30:
        clientela_menor.append(clients)
        print(clients[1])

['kate', 'morgan']
['samantha', 'smith']
['emily', 'brown']
['jose', 'martinez']
['james', 'lee']


Nombres de los usuarios y las usuarias que tengan menos de 30 años y un gasto total superior a 1000 dólares.

Names of users who are under 30 years of age and have a total expenditure of more than $1,000.

In [12]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
     [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439,
     390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'],
     [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics',
     'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234,
     329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213,
     659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'],
     [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'
     ], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'],
     [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'
     ], [189, 299, 579]],
    ]

nombres = []

for user in users:
    gasto = user [-1]
    suma_gasto = sum(gasto)
    
    if user[2] < 30 and suma_gasto > 1000:
        nombres.append(user)
        
        print(user[1])

['samantha', 'smith']
['james', 'lee']


Mostrar el nombre y la edad de todos los usuarios y todas las usuarias que han comprado ropa.

Display the name and age of all users who have bought clothes.

In [13]:
users = [
    ['32415', ['mike', 'reed'], 32, ['electronics', 'sport', 'books'],
     [894, 213, 173]],
    ['31980', ['kate', 'morgan'], 24, ['clothes', 'books'], [439,
     390]],
    ['32156', ['john', 'doe'], 37, ['electronics', 'home', 'food'],
     [459, 120, 99]],
    ['32761', ['samantha', 'smith'], 29, ['clothes', 'electronics',
     'beauty'], [299, 679, 85]],
    ['32984', ['david', 'white'], 41, ['books', 'home', 'sport'], [234,
     329, 243]],
    ['33001', ['emily', 'brown'], 26, ['beauty', 'home', 'food'], [213,
     659, 79]],
    ['33767', ['maria', 'garcia'], 33, ['clothes', 'food', 'beauty'],
     [499, 189, 63]],
    ['33912', ['jose', 'martinez'], 22, ['sport', 'electronics', 'home'
     ], [259, 549, 109]],
    ['34009', ['lisa', 'wilson'], 35, ['home', 'books', 'clothes'],
     [329, 189, 329]],
    ['34278', ['james', 'lee'], 28, ['beauty', 'clothes', 'electronics'
     ], [189, 299, 579]],
    ]

ropa = []

for user in users:
    if 'clothes' in user[3]:
        ropa.append(user)
        
        print(user[1:3])

[['kate', 'morgan'], 24]
[['samantha', 'smith'], 29]
[['maria', 'garcia'], 33]
[['lisa', 'wilson'], 35]
[['james', 'lee'], 28]
