<a href="https://colab.research.google.com/github/Francisco2963/Proyecto-I--Parte-3-Core-/blob/main/Proyecto_I_Parte_3_(Core).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto I- Parte 3 (Core)

Análisis y Predicción de Ventas en una Tienda de Retail (Core)

Parte III: Transformación y Análisis Avanzado de Datos con Pandas

En esta tercera parte del proyecto, continuaremos trabajando con el dataset de ventas que utilizamos en la Parte II. En esta fase, aplicaremos técnicas avanzadas de transformación y análisis de datos utilizando las nuevas habilidades adquiridas en Pandas, tales como agrupaciones complejas y el uso del método apply. Nos enfocaremos en extraer insights más profundos y preparar los datos para futuros análisis y modelos predictivos.



# Instrucciones

**Transformación de Datos**

Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.

Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

**Agrupación y Agregación**

Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.

Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.

Análisis Personalizado con apply

Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.

**Documentación**

Comentarios claros: Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
Código legible: Asegúrate de que el código sea legible y esté bien comentado.

In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


In [16]:
df = pd.read_csv('/content/retail_sales_dataset.csv')
df.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


In [17]:
df.tail(5)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150
999,1000,2023-04-12,CUST1000,Male,47,Electronics,4,30,120


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [19]:
df.describe()

Unnamed: 0,Transaction ID,Age,Quantity,Price per Unit,Total Amount
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,500.5,41.392,2.514,179.89,456.0
std,288.819436,13.68143,1.132734,189.681356,559.997632
min,1.0,18.0,1.0,25.0,25.0
25%,250.75,29.0,1.0,30.0,60.0
50%,500.5,42.0,3.0,50.0,135.0
75%,750.25,53.0,4.0,300.0,900.0
max,1000.0,64.0,4.0,500.0,2000.0


Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.

Para crear una nueva columna de ventas tenemos dos opciones:

1.- podemos renombrar la columna 'Total Amount' que signica  cantidad total, que a su vez es la multiplicacion de precio unitario por cantidad, lo que daria las ventas

2.- podemos crear una nueva columna 'sales' (ventas) basada en la columna 'Total Amount'

Eligiremos la segunda opcion y lo guardaremos en una nueva variable df-1

In [20]:
df_1 = df['Sales'] = df['Total Amount']
df.head(5)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Sales
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100


Clasifica los datos:

Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

In [21]:
df_1 = df['Sales'].unique()
df_1

array([ 150, 1000,   30,  500,  100,   50,  600,  200,   75, 1500,  120,
       2000,  900,  300, 1200,   90,   25,   60])

In [22]:
df_1 = df['Sales'].dtype
df_1

dtype('int64')

Para crear la columna 'categoria de ventas' ocupamos el metodo pd.cut que nos sirve para categorizar nuestros datos numericos de la columna sales en intervalos definidos con float('int') cualquier valor superior a 1500 caera en la categoria 'Alta'

In [23]:
bins = [0, 800, 1500, float('inf')]
labels = ['Baja', 'Media', 'Alta']

df_1 = df['categoria_ventas'] = pd.cut(df['Sales'], bins = bins, labels = labels)
df.head(5)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Sales,categoria_ventas
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150,Baja
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1000,Media
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,30,Baja
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,500,Baja
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100,Baja


In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Transaction ID    1000 non-null   int64   
 1   Date              1000 non-null   object  
 2   Customer ID       1000 non-null   object  
 3   Gender            1000 non-null   object  
 4   Age               1000 non-null   int64   
 5   Product Category  1000 non-null   object  
 6   Quantity          1000 non-null   int64   
 7   Price per Unit    1000 non-null   int64   
 8   Total Amount      1000 non-null   int64   
 9   Sales             1000 non-null   int64   
 10  categoria_ventas  1000 non-null   category
dtypes: category(1), int64(6), object(4)
memory usage: 79.4+ KB


Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.

Para poder agrupar por categoria como producto y tienda, debemos crear la columna tienda

In [25]:
df['Product Category'].value_counts()

Unnamed: 0_level_0,count
Product Category,Unnamed: 1_level_1
Clothing,351
Electronics,342
Beauty,307


Crearemos un diccionario que este relacionado con la columna Product Category para poder asignar una tienda a cada fila del DataFrame

In [38]:
df['Tienda'] = df['Product Category']

dicc = {'Clothing': 'Tienda A', 'Electronics': 'Tienda B', 'Beauty': 'Tienda C'}
df['Tienda'] = df['Tienda'].map(dicc)

df.head(5)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Sales,categoria_ventas,Porcentaje,Tiendas,Tienda
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150,Baja,2.380952,,Tienda C
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1000,Media,2.040816,,Tienda A
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,30,Baja,1.960784,,Tienda B
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,500,Baja,1.960784,,Tienda A
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100,Baja,0.925926,,Tienda C


In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Transaction ID    1000 non-null   int64   
 1   Date              1000 non-null   object  
 2   Customer ID       1000 non-null   object  
 3   Gender            1000 non-null   object  
 4   Age               1000 non-null   int64   
 5   Product Category  1000 non-null   object  
 6   Quantity          1000 non-null   int64   
 7   Price per Unit    1000 non-null   int64   
 8   Total Amount      1000 non-null   int64   
 9   Sales             1000 non-null   int64   
 10  categoria_ventas  1000 non-null   category
 11  Porcentaje        1000 non-null   float64 
 12  Tiendas           0 non-null      object  
 13  Tienda            1000 non-null   object  
dtypes: category(1), float64(1), int64(6), object(6)
memory usage: 102.8+ KB


Primero habia creado la columna Tiendas con un for pero todas sus filas me indicaban valores NaN, al corregir el codigo y hacer un diccionario indicando las Tiendas A, B y C y ejecutar el codigo, en el dataFrame se crearon dos columnas, por esa razon se elimina la columna Tiendas creada primero.

In [40]:
df = df.drop('Tiendas',axis=1)

In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Transaction ID    1000 non-null   int64   
 1   Date              1000 non-null   object  
 2   Customer ID       1000 non-null   object  
 3   Gender            1000 non-null   object  
 4   Age               1000 non-null   int64   
 5   Product Category  1000 non-null   object  
 6   Quantity          1000 non-null   int64   
 7   Price per Unit    1000 non-null   int64   
 8   Total Amount      1000 non-null   int64   
 9   Sales             1000 non-null   int64   
 10  categoria_ventas  1000 non-null   category
 11  Porcentaje        1000 non-null   float64 
 12  Tienda            1000 non-null   object  
dtypes: category(1), float64(1), int64(6), object(5)
memory usage: 95.0+ KB


In [42]:
df.head(5)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Sales,categoria_ventas,Porcentaje,Tienda
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150,Baja,2.380952,Tienda C
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1000,Media,2.040816,Tienda A
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,30,Baja,1.960784,Tienda B
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,500,Baja,1.960784,Tienda A
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100,Baja,0.925926,Tienda C


Al comenzar los analisis a las columnas, guardaremos nuestros resultados en un nuevo dataFrame.

Al analizar la columna Tienda podemos ver que la tienda A dedicada a los productos de vestuarios es la que tiene mayor ubicaciones de ventas, seguida de la tienda B dedicada a la electronica y por ultimo la tienda C de didicada a los productos de belleza

In [48]:
df_1 = df['Tienda'].value_counts()
df_1.tail()

Unnamed: 0_level_0,count
Tienda,Unnamed: 1_level_1
Tienda A,351
Tienda B,342
Tienda C,307


In [49]:
df_1 = df.sort_values(by = 'Tienda')
df_1.tail()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Sales,categoria_ventas,Porcentaje,Tienda
491,492,2023-06-29,CUST492,Male,61,Beauty,4,25,100,100,Baja,0.925926,Tienda C
479,480,2023-06-29,CUST480,Female,42,Beauty,4,500,2000,2000,Alta,2.040816,Tienda C
472,473,2023-02-25,CUST473,Male,64,Beauty,1,50,50,50,Baja,0.869565,Tienda C
509,510,2023-06-10,CUST510,Female,39,Beauty,4,50,200,200,Baja,1.612903,Tienda C
499,500,2023-03-01,CUST500,Female,60,Beauty,4,25,100,100,Baja,0.925926,Tienda C


Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.

Al analizar los productos vendidos podemos ver que los productos electronicos es lo que tienen mayor venta, seguido por vestuaio y por ultimo belleza.

In [51]:
df_1 = ventas_por_producto = df.groupby('Product Category')['Sales'].sum()
df_1

Unnamed: 0_level_0,Sales
Product Category,Unnamed: 1_level_1
Beauty,143515
Clothing,155580
Electronics,156905


En esta parte podemos ver que el numero de ventas por producto la lidera la tienda A dedicada a los articulos de belleza

In [53]:
df_1 = df.groupby('Tienda')['Sales'].count()
df_1

Unnamed: 0_level_0,Sales
Tienda,Unnamed: 1_level_1
Tienda A,351
Tienda B,342
Tienda C,307


In [56]:
# Calcular el porcentaje de ventas de cada producto en su tienda
df_1 = df['Porcentaje'] = grouped['Sales'].transform(lambda x: x / x.sum() * 100)
df_1

Unnamed: 0,Sales
0,2.380952
1,2.040816
2,1.960784
3,1.960784
4,0.925926
...,...
995,0.869565
996,2.272727
997,0.925926
998,2.380952


In [63]:
df_1 = ventas_minimas_por_tienda = df.groupby('Tienda')['Sales'].min()
df_1

Unnamed: 0_level_0,Sales
Tienda,Unnamed: 1_level_1
Tienda A,25
Tienda B,25
Tienda C,25


In [61]:
df_1 = ventas_maximas_por_tienda = df.groupby('Tienda')['Sales'].max()
df_1

Unnamed: 0_level_0,Sales
Tienda,Unnamed: 1_level_1
Tienda A,2000
Tienda B,2000
Tienda C,2000


La tienda C es el que tiene el promedio mas alto en ventas, con un promedio de 465 productos vendidos.

In [67]:

df_1 = promedio_ventas_por_tienda = df.groupby('Tienda')['Sales'].mean()
df_1

Unnamed: 0_level_0,Sales
Tienda,Unnamed: 1_level_1
Tienda A,443.247863
Tienda B,458.78655
Tienda C,467.47557


La desviacion estandar de las 3 tiendas muestran un vlor alto, lo que indica que las ventas en las 3 tiendas varian mucho de un dia a otro o de un periodo a otro.

In [65]:
# Desviación estándar de las ventas por tienda
df_1 = desviacion_estandar_ventas = df.groupby('Tienda')['Sales'].std()
df_1

Unnamed: 0_level_0,Sales
Tienda,Unnamed: 1_level_1
Tienda A,550.695917
Tienda B,567.54015
Tienda C,563.612788


In [68]:
# Varianza de las ventas por tienda
df_1 = varianza_ventas = df.groupby('Tienda')['Sales'].var()
df_1

Unnamed: 0_level_0,Sales
Tienda,Unnamed: 1_level_1
Tienda A,303265.992674
Tienda B,322101.822341
Tienda C,317659.374401


Análisis Personalizado con apply

Función personalizada:

Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar. Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.

Podemos ver que las venta de la tienda C se encuentran  por debajo del pormedio de la tiendas, a excepcion de la fila 4 que se encuentra 32 unidades por encima del promedio de ventas de esa tienda.


In [85]:
df_grouped = df.groupby('Tienda')['Sales'].mean().reset_index(name='mean_sales')
df_1 = pd.merge(df, df_grouped, on='Tienda')
df_1['deviation'] = df_1.apply(lambda x: x['Sales'] - x['mean_sales'], axis=1)
df_1

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Sales,categoria_ventas,Porcentaje,Tienda,mean_sales,deviation
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150,Baja,2.380952,Tienda C,467.47557,-317.47557
1,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100,Baja,0.925926,Tienda C,467.47557,-367.47557
2,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30,30,Baja,1.960784,Tienda C,467.47557,-437.47557
3,12,2023-10-30,CUST012,Male,35,Beauty,3,25,75,75,Baja,2.325581,Tienda C,467.47557,-392.47557
4,21,2023-01-14,CUST021,Female,50,Beauty,1,500,500,500,Baja,1.960784,Tienda C,467.47557,32.52443
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,989,2023-12-28,CUST989,Female,44,Electronics,1,25,25,25,Baja,1.960784,Tienda B,458.78655,-433.78655
996,992,2023-08-21,CUST992,Female,57,Electronics,2,30,60,60,Baja,2.222222,Tienda B,458.78655,-398.78655
997,993,2023-02-06,CUST993,Female,48,Electronics,3,50,150,150,Baja,2.380952,Tienda B,458.78655,-308.78655
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,150,Baja,2.380952,Tienda B,458.78655,-308.78655


In [86]:
df_1['deviation'].describe()

Unnamed: 0,deviation
count,1000.0
mean,3.092282e-14
std,559.9081
min,-442.4756
25%,-392.4756
50%,-320.3617
75%,432.5244
max,1556.752


In [87]:
df_1['mean_sales'].describe()

Unnamed: 0,mean_sales
count,1000.0
mean,456.0
std,10.013133
min,443.247863
25%,443.247863
50%,458.78655
75%,467.47557
max,467.47557
