#### Parte III: Transformación y Análisis Avanzado de Datos con Pandas

#### Instrucciones

* 1.- Transformación de Datos
  * Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.
  *  Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).
* 2.- Agrupación y Agregación
  * Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
  * Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.
* 3.- Análisis Personalizado con apply
  * Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
  * Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.
* 4.- Documentación
  * Comentarios claros: Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
  * Código legible: Asegúrate de que el código sea legible y esté bien comentado.

In [1]:
# se usa biblioteca de google
from google.colab import drive

# se conecta colba con drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
# Se importa biblioteca pandas
import pandas as pd

In [3]:
# Se carga la BDD
path = '/content/drive/MyDrive/DATA/retail_sales_dataset.csv'
df = pd.read_csv(path)

In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,vtas_normalizada,ingreso_total,porcentaje_del_total,categoria,std_amount,std_med_grupo
0,0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291,456000,0.032895,Baja,456.0,-306.0
1,1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671,456000,0.219298,Baja,456.0,544.0
2,2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532,456000,0.006579,Baja,456.0,-426.0
3,3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506,456000,0.109649,Baja,456.0,44.0
4,4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975,456000,0.02193,Baja,456.0,-356.0


In [5]:
df.drop('Unnamed: 0', axis=1, inplace=True)

In [6]:
df.columns = df.columns.str.lower().str.strip().str.replace(" ", "_")

In [7]:
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,vtas_normalizada,ingreso_total,porcentaje_del_total,categoria,std_amount,std_med_grupo
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291,456000,0.032895,Baja,456.0,-306.0
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671,456000,0.219298,Baja,456.0,544.0
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532,456000,0.006579,Baja,456.0,-426.0
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506,456000,0.109649,Baja,456.0,44.0
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975,456000,0.02193,Baja,456.0,-356.0


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   transaction_id        1000 non-null   int64  
 1   date                  1000 non-null   object 
 2   customer_id           1000 non-null   object 
 3   gender                1000 non-null   object 
 4   age                   1000 non-null   int64  
 5   product_category      1000 non-null   object 
 6   quantity              1000 non-null   int64  
 7   price_per_unit        1000 non-null   int64  
 8   total_amount          1000 non-null   int64  
 9   vtas_normalizada      1000 non-null   float64
 10  ingreso_total         1000 non-null   int64  
 11  porcentaje_del_total  1000 non-null   float64
 12  categoria             1000 non-null   object 
 13  std_amount            1000 non-null   float64
 14  std_med_grupo         1000 non-null   float64
dtypes: float64(4), int64(6

In [9]:
# calcula el ingreso total por venta y normaliza las ventas.
# Se suma todos los valores de la columna 'total_amount' en la variable ingreso_total, con la funcion sum()
# Se aplica la funcion que normaliza entre rango de 0 y 1 y se agrega la columna 'vta_normalizada' al dataset
# Ejemplo de Profesor clase 7  df['Vtas_normalizada'] = df['Ventas'].apply(lambda x: (x - min_value) / (max_value - min_value)).round(2)

ingreso_total = df["total_amount"].sum()

df["vtas_normalizada"] = (df["total_amount"] - df["total_amount"].min()) / (df["total_amount"].max() - df["total_amount"].min())

In [10]:
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,vtas_normalizada,ingreso_total,porcentaje_del_total,categoria,std_amount,std_med_grupo
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291,456000,0.032895,Baja,456.0,-306.0
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671,456000,0.219298,Baja,456.0,544.0
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532,456000,0.006579,Baja,456.0,-426.0
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506,456000,0.109649,Baja,456.0,44.0
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975,456000,0.02193,Baja,456.0,-356.0


In [None]:
# Se agrega el ingreso total como columna al dataset
df["ingreso_total"] = ingreso_total

In [11]:
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,vtas_normalizada,ingreso_total,porcentaje_del_total,categoria,std_amount,std_med_grupo
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291,456000,0.032895,Baja,456.0,-306.0
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671,456000,0.219298,Baja,456.0,544.0
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532,456000,0.006579,Baja,456.0,-426.0
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506,456000,0.109649,Baja,456.0,44.0
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975,456000,0.02193,Baja,456.0,-356.0


In [12]:
#  Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

# se crea la columna 'porcentaje_de_total' con el porcentaje de cada valor de la columna total_amount
df["porcentaje_del_total"] = (df["total_amount"] * 100 ) / ingreso_total


In [13]:
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,vtas_normalizada,ingreso_total,porcentaje_del_total,categoria,std_amount,std_med_grupo
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291,456000,0.032895,Baja,456.0,-306.0
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671,456000,0.219298,Baja,456.0,544.0
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532,456000,0.006579,Baja,456.0,-426.0
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506,456000,0.109649,Baja,456.0,44.0
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975,456000,0.02193,Baja,456.0,-356.0


In [14]:
#  Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

#  para clasificar las ventas en las categorias se aplica la funcion apply con las tres condiciones a la columna 'porcentaje_del_total'
#  si es > 50 "Alta", si es igual a 50 "Media" y si es menor a 50 "Baja"

df['categoria'] = df['porcentaje_del_total'].apply(lambda x: 'Alta' if x > 50 else ('Media' if x == 50 else 'Baja'))

In [15]:
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,vtas_normalizada,ingreso_total,porcentaje_del_total,categoria,std_amount,std_med_grupo
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291,456000,0.032895,Baja,456.0,-306.0
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671,456000,0.219298,Baja,456.0,544.0
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532,456000,0.006579,Baja,456.0,-426.0
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506,456000,0.109649,Baja,456.0,44.0
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975,456000,0.02193,Baja,456.0,-356.0


#### 2.- Agrupación y Agregación

In [16]:
# Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.

# Se agrupa por genero de cliente , por cliente y año

df[["gender", "customer_id", "age"]]

Unnamed: 0,gender,customer_id,age
0,Male,CUST001,34
1,Female,CUST002,26
2,Male,CUST003,50
3,Male,CUST004,37
4,Male,CUST005,30
...,...,...,...
995,Male,CUST996,62
996,Male,CUST997,52
997,Female,CUST998,23
998,Female,CUST999,36


In [17]:
# Se agrupa por categoria de producto y cantidad

df[["product_category","quantity"]]

Unnamed: 0,product_category,quantity
0,Beauty,3
1,Clothing,2
2,Electronics,1
3,Clothing,1
4,Beauty,2
...,...,...
995,Clothing,1
996,Beauty,3
997,Beauty,4
998,Electronics,3


In [18]:
# Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas

# Se agrupa por sexo y categoria de producto para obtener la cantidad de productos

df.groupby(["gender", "product_category"])["quantity"].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,quantity
gender,product_category,Unnamed: 2_level_1
Female,Beauty,418
Female,Clothing,441
Female,Electronics,439
Male,Beauty,353
Male,Clothing,453
Male,Electronics,410


In [19]:
# Se agrupa por sexo y por categoria de producto para saber que sexo compra mas

df.groupby(["gender"])["quantity"].count()


Unnamed: 0_level_0,quantity
gender,Unnamed: 1_level_1
Female,510
Male,490


#### Se deduce que los clientes mujeres compran mas que los hombres

In [20]:
# Se agrupa por sexo, cliente y categoria de producto para obtener el promedio de edad para cada categoria de producto

df.groupby(["gender", "product_category"])["age"].mean().round()

Unnamed: 0_level_0,Unnamed: 1_level_0,age
gender,product_category,Unnamed: 2_level_1
Female,Beauty,40.0
Female,Clothing,43.0
Female,Electronics,40.0
Male,Beauty,40.0
Male,Clothing,41.0
Male,Electronics,43.0


#### Se puede deducir que el promedio de edad de los clientes por cada categoria ronda los 41 años incluyendo ambos sexos

In [21]:
# Se agrupa categoria de producto para encontrar la maxima cantidad vendida por categoria de producto

df.groupby(["product_category"])["quantity"].max()

Unnamed: 0_level_0,quantity
product_category,Unnamed: 1_level_1
Beauty,4
Clothing,4
Electronics,4


### Se deduce que la maxima cantidad vendida por categeria de producto es 4

In [22]:
# Se agrupa por categoria de producto para encontrar la minima cantidad vendida por categoria de producto

df.groupby(["product_category"])["quantity"].min()

Unnamed: 0_level_0,quantity
product_category,Unnamed: 1_level_1
Beauty,1
Clothing,1
Electronics,1


### Se deduce que la minima cantidad vendida por categeria de producto es 1

In [23]:
# Se agrupa por genero para calcular la desviacion standar de las edades

df.groupby(["gender"])["age"].std().round(2)

Unnamed: 0_level_0,age
gender,Unnamed: 1_level_1
Female,13.57
Male,13.81


* Se deduce que la desviacion standar en las mujeres, indica que en    promedio, las edades se devian 13.57 años de la media.
* Se deduce que la desviacion estandar en los hombres , indica que en promedio, las edades se desvian 13.81 años de la media.

In [24]:
# Se agrupa por genero para calcular la varianza de la  edades
df.groupby(["gender"])["age"].var().round(2)

Unnamed: 0_level_0,age
gender,Unnamed: 1_level_1
Female,184.09
Male,190.78


#### Se deduce que una varianza alta como 184.09, los datos estan muy esparcidos y estan muy disperso alrededor de la media, tanto para hombres como para mujeres.

#### 3.- Análisis Personalizado con apply

In [25]:
# Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.

df['std_amount'] = df['total_amount'].apply(lambda x: df['total_amount'].mean())
df["std_med_grupo"] = df['total_amount'] - df["std_amount"]

In [None]:
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,vtas_normalizada,ingreso_total,porcentaje_del_total,categoria,std_amount,std_med_grupo
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291,456000,0.032895,Baja,456.0,-306.0
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671,456000,0.219298,Baja,456.0,544.0
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532,456000,0.006579,Baja,456.0,-426.0
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506,456000,0.109649,Baja,456.0,44.0
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975,456000,0.02193,Baja,456.0,-356.0


### Se puede interpretar que los valores positivos en la columna std_med_grupo indica que total_mount estuvo por encima del promedio de std_amount y los valores negativos en la columna std_med_grupo, indica que total_amount estuvo por debajo del promedio.

In [26]:
# Se guardan los cambios de la data para la  siguiente parte del proyecto
path ="/content/drive/MyDrive/DATA/retail_sales_dataset4.csv"
df.to_csv(path)