Transformación de Datos

* Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.
* Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).



In [1]:
import pandas as pd
import numpy as np

In [2]:

def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV
    datos = pd.read_csv(ruta_archivo, delimiter=',')
    return datos
##Se realiza la carga con Pandas ya que numpy no muestra los valores categoricos
if __name__ == "__main__":
    ruta_archivo = '../trabajos_core/data/retail_sales_dataset.csv'
    df = cargar_datos(ruta_archivo)  

print(df.head())

##Imprime ultimas 5 filas
print("nÚltimas 5 filas del DataFrame:")
print(df.tail(5))
##Imprime informacion del dataframe
print("nInformación del DataFrame:")
print(df.info())
## Imprime estadistica descriptiva del DF
print("nEstadísticas descriptivas del DataFrame:")
print(df.describe())

   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      Electronics   
3               4  2023-05-21     CUST004    Male   37         Clothing   
4               5  2023-05-06     CUST005    Male   30           Beauty   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2         1              30            30  
3         1             500           500  
4         2              50           100  
nÚltimas 5 filas del DataFrame:
     Transaction ID        Date Customer ID  Gender  Age Product Category  \
995             996  2023-05-16     CUST996    Male   62         Clothing   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2

In [3]:
##Agregar nuevas columnas
##Ganancias con aumento del 7%
aumento_precios_7= df['Price per Unit'] * (1 + 0.07)
df['ganancias_aumento_7%'] =aumento_precios_7 * df['Quantity'] 
##Ganancias con aumento del 10%
aumento_precios_10= df['Price per Unit'] * (1 + 0.10)
df['ganancias_aumento_10%'] =aumento_precios_10 * df['Quantity'] 
##Normalizacion del total
max_value = df['Total Amount'].max()
min_value = df['Total Amount'].min()
df['total_normalizado'] = df['Total Amount'].apply(lambda x: (x - min_value) / (max_value - min_value))

##Clasificacion de ventas
# Clasificar los precios por alto y bajo costo
df['Clasificacion_ventas'] = df['Total Amount'].apply(lambda x: 'Alta' if x >= 900 else 'Media' if 61 <= x <= 899 else 'Baja')
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,ganancias_aumento_7%,ganancias_aumento_10%,total_normalizado,Clasificacion_ventas
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,160.5,165.0,0.063291,Media
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1070.0,1100.0,0.493671,Alta
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,32.1,33.0,0.002532,Baja
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,535.0,550.0,0.240506,Media
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,107.0,110.0,0.037975,Media


Agrupación y Agregación

* Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
* Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.



In [4]:
##Agrupaciones
##total por categoria de productos
group_categ_total = df.groupby('Product Category')['Total Amount'].sum()
print(group_categ_total)
##Total por mes
##Asegurarnos que columna es date
df['Date'] = pd.to_datetime(df['Date'])

# Agrupa por mes y año y suma el Total Amount
group_ventas_categoria_mes = df.groupby([pd.Grouper(key='Date', freq='ME'), 'Product Category'])['Total Amount'].sum().reset_index()

# Formatea el índice a mes/año
group_ventas_categoria_mes['Date'] = group_ventas_categoria_mes['Date'].dt.strftime('%m/%Y')

print(group_ventas_categoria_mes)

# Aplicar múltiples funciones de agregación 
##Agrupacion de ventas por categoria de productos
produc_categ = df.groupby('Product Category')['Total Amount']
##Datos estadisticos de la agrupacion
agg_result_categ = produc_categ.agg(['sum', 'mean', 'count','min','max','std','var'])
print(agg_result_categ)
##Agrupacion por mes/anho
venta_x_date =df.groupby([pd.Grouper(key='Date', freq='ME'), 'Product Category'])['Total Amount']
##Datos estadisticos de la agrupacion
agg_result_date = venta_x_date.agg(['sum', 'mean', 'count','min','max','std','var'])
print(agg_result_date)

Product Category
Beauty         143515
Clothing       155580
Electronics    156905
Name: Total Amount, dtype: int64
       Date Product Category  Total Amount
0   01/2023           Beauty         12430
1   01/2023         Clothing         13125
2   01/2023      Electronics          9895
3   02/2023           Beauty         14035
4   02/2023         Clothing         14560
5   02/2023      Electronics         15465
6   03/2023           Beauty         10545
7   03/2023         Clothing         15065
8   03/2023      Electronics          3380
9   04/2023           Beauty         11905
10  04/2023         Clothing         13940
11  04/2023      Electronics          8025
12  05/2023           Beauty         12450
13  05/2023         Clothing         17455
14  05/2023      Electronics         23245
15  06/2023           Beauty         10995
16  06/2023         Clothing         10170
17  06/2023      Electronics         15550
18  07/2023           Beauty         16090
19  07/2023         Clot

Análisis Personalizado con apply

* Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
* Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.



In [5]:
###Funcion personalizada para calcular la diferencia de ganancia con respecto a un aumento del 7% con apply
df['diferencia_10'] = df.apply(lambda row: row['ganancias_aumento_7%'] - row['Total Amount'], axis=1)


#Calcular la desviación absoluta media de la columna total amount
mean_total = df['Total Amount'].mean()
df['MAD_Total_Amount'] = df['Total Amount'].apply(lambda x: np.abs(x - mean_total))

##Calcular la desviacion de cada venta respecto a la media de su grupo
# Agrupa por categoría de producto y calcula la media de 'Total Amount' para cada grupo
mean_by_group = df.groupby('Product Category')['Total Amount'].transform('mean')

# Calcula la desviación absoluta respecto a la media del grupo
df['MAD_Group'] = df['Total Amount'].apply(lambda x: np.abs(x - mean_by_group[df.index[df['Total Amount'] == x][0]]))
df.head()


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,ganancias_aumento_7%,ganancias_aumento_10%,total_normalizado,Clasificacion_ventas,diferencia_10,MAD_Total_Amount,MAD_Group
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,160.5,165.0,0.063291,Media,10.5,306.0,317.47557
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1070.0,1100.0,0.493671,Alta,70.0,544.0,556.752137
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,32.1,33.0,0.002532,Baja,2.1,426.0,428.78655
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,535.0,550.0,0.240506,Media,35.0,44.0,56.752137
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,107.0,110.0,0.037975,Media,7.0,356.0,367.47557


Documentación

* Comentarios claros: Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
* Código legible: Asegúrate de que el código sea legible y esté bien comentado.



In [7]:
# Ejemplo de documentación en el código
"""
Este script analisa el DataFrame de retail sales para muestra de resultados.
- DataFrame original: retail_sales_dataset.cvs
- Iniciamos cargando dataset y verificando que se cargue correctamente
- Verificamos tambien las ultimas filas, informaciones y estadistica descriptiva para entender los datos.
- Se agregan nuevas columnas que son las ganancias en el aumento del 7% y 10 % asi como tambien una clasificacion del tipo de ganacia (alta, media, baja)
- Se agrupan los datos para calcular el total de ventas por categoria de producto.
- Se agrupan los datoas para mostrar el total de compras por categoria de producto en un mes/anho determinado.
- Se agregan datos estadisticos de 'sum', 'mean', 'count','min','max','std','var' a las dos agrupaciones arriba mensionados.
- Funciones personalizadas para calcular la diferencia de ganancia con respecto a un aumento del 7% y la desviación absoluta media de la columna total amount
- Calculo de la desviacion de cada venta respecto a la media de su grupo, en este caso product category con total amount
- Fecha: 01/01/2023
- Autor: Jesús Ortiz
"""

"\nEste script analisa el DataFrame de retail sales para muestra de resultados.\n- DataFrame original: retail_sales_dataset.cvs\n- Iniciamos cargando dataset y verificando que se cargue correctamente\n- Verificamos tambien las ultimas filas, informaciones y estadistica descriptiva para entender los datos.\n- Se agregan nuevas columnas que son las ganancias en el aumento del 7% y 10 % asi como tambien una clasificacion del tipo de ganacia (alta, media, baja)\n- Se agrupan los datos para calcular el total de ventas por categoria de producto.\n- Se agrupan los datoas para mostrar el total de compras por categoria de producto en un mes/anho determinado.\n- Se agregan datos estadisticos de 'sum', 'mean', 'count','min','max','std','var' a las dos agrupaciones arriba mensionados.\n- Funciones personalizadas para calcular la diferencia de ganancia con respecto a un aumento del 7% y la desviación absoluta media de la columna total amount\n- Calculo de la desviacion de cada venta respecto a la m