# **Preparación del Entorno**
 Utiliza el archivo retail_sales.csv del proyecto II.

In [23]:
# Usamos la biblioteca google para poder usar archivos en nuestro drive.
from google.colab import drive
# Este comando conecta colab con drive.
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [24]:
# Importamos pandas con el nombre "pd" por buena practica.
import pandas as pd

# **Cargar los Datos**
Carga el archivo retail_sales.csv en un DataFrame de Pandas.



In [25]:
# Importamos una bbdd en formato csv y lo guardamos en una variable.
path = "/content/drive/MyDrive/Bootcamp-CSDATOS/CORES/Proyecto I _Parte III (Core)/retail_sales_dataset.csv"  #cambiar x url de la data
df = pd.read_csv(path)
df2=df.copy() #Se crea copia para no correr riesgo de modificar el original

In [26]:
#validamos que se cargó bien e información de la data
df2.shape

(1000, 9)

In [27]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [28]:
df2.columns

Index(['Transaction ID', 'Date', 'Customer ID', 'Gender', 'Age',
       'Product Category', 'Quantity', 'Price per Unit', 'Total Amount'],
      dtype='object')

In [29]:
df2.head()
print(df2.tail())

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
995             996  2023-05-16     CUST996    Male   62         Clothing   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
995         1              50            50  
996         3              30            90  
997         4              25           100  
998         3              50           150  
999         4              30           120  


# **Transformación de Datos**
1. Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.
2. Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

In [30]:
# Para crear nuevas columnas con informacion valiosa.
# 1) Obtener la media del monto de las ventas
prom_amount = df2['Total Amount'].mean()
print(prom_amount)
# Calcular la diferencua entre la media y el Total Amount, para crear la nueva columna y tener la relación de la venta respecto del precio medio
df2["Dif_prom"] = df2["Total Amount"] - prom_amount
df2.head(10)

456.0


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Dif_prom
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,-306.0
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,544.0
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,-426.0
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,44.0
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,-356.0
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30,-426.0
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50,-406.0
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100,-356.0
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600,144.0
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200,-256.0


In [31]:
# 2.- Clasificar datos, Rango etario
# Registros con un Total Amount superior  800 --> "Categoria Ventas : Alta"
def clasificar_edad(edad: int) -> str:
  '''
  Clasificar por edad.
  '''
  if edad < 40 :
      return "Joven"
  elif edad <= 40:
      return "Adulto Joven"
  elif edad <=50:
      return "Adulto"
  else:
      return "Adulto Mayor"

df2["Claseedad"] = df2["Age"].apply(clasificar_edad)
df2.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Dif_prom,Claseedad
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,-306.0,Joven
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,544.0,Joven
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,-426.0,Adulto
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,44.0,Joven
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,-356.0,Joven
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30,-426.0,Adulto
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50,-406.0,Adulto
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100,-356.0,Joven
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600,144.0,Adulto Mayor
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200,-256.0,Adulto Mayor


# **Agrupación y Agregación**
1. Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
2. Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.

In [32]:
# 1. Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
# Agrupando por 'Gender' y Product Category y saber cuánto dinero invierten en ello
#Cuánto gastan hombres y mujeres en las categorias? En esteno hay grandes diferencias en los montos
df2.groupby(["Gender", "Product Category"])["Total Amount"].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Total Amount
Gender,Product Category,Unnamed: 2_level_1
Female,Beauty,74830
Female,Clothing,81275
Female,Electronics,76735
Male,Beauty,68685
Male,Clothing,74305
Male,Electronics,80170


In [33]:
# 2.- Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.
df2.groupby(["Product Category", "Gender"])["Total Amount"].agg(["sum", "mean", "std","min", "max","count"]).round(2)
#Mujes invierten mas en productos de belleza y ropa que los hombres
#hombres invierten mas en productos electrónicos que las mujeres

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean,std,min,max,count
Product Category,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Beauty,Female,74830,450.78,538.74,25,2000,166
Beauty,Male,68685,487.13,592.9,25,2000,141
Clothing,Female,81275,467.1,577.02,25,2000,174
Clothing,Male,74305,419.8,524.12,25,2000,177
Electronics,Female,76735,451.38,548.64,25,2000,170
Electronics,Male,80170,466.1,587.13,25,2000,172


# **Análisis Personalizado con apply**
1. Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
2. Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.

In [34]:
# 1 Apply.- Clasificar Ventas según rangos
# Registros con un Total Amount inferior a  300 --> "Categoria Ventas : Baja"
# Registros con un Total Amount inferior o igual a  800 --> "Categoria Ventas : Media"
# Registros con un Total Amount superior  800 --> "Categoria Ventas : Alta"
def clasificar_edad(tot: int) -> str:
  '''
  Clasificar Total_Amount.
  '''
  if tot < 300:
      return "Baja"
  elif tot <= 800:
      return "Media"
  else:
      return "Alta"

df2["Cat Ventas"] = df2["Total Amount"].apply(clasificar_edad)
df2.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Dif_prom,Claseedad,Cat Ventas
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,-306.0,Joven,Baja
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,544.0,Joven,Alta
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,-426.0,Adulto,Baja
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,44.0,Joven,Media
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,-356.0,Joven,Baja
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30,-426.0,Adulto,Baja
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50,-406.0,Adulto,Baja
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100,-356.0,Joven,Baja
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600,144.0,Adulto Mayor,Media
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200,-256.0,Adulto Mayor,Baja


In [35]:
# 2.- Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo
#Obtengo la mediana
media_amount = df2['Total Amount'].mean()
print(media_amount)


df2["desviacion_venta"] = df2['Total Amount'].apply(lambda x: x-media_amount)
df2.head(10)


456.0


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Dif_prom,Claseedad,Cat Ventas,desviacion_venta
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,-306.0,Joven,Baja,-306.0
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,544.0,Joven,Alta,544.0
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,-426.0,Adulto,Baja,-426.0
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,44.0,Joven,Media,44.0
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,-356.0,Joven,Baja,-356.0
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30,-426.0,Adulto,Baja,-426.0
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50,-406.0,Adulto,Baja,-406.0
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100,-356.0,Joven,Baja,-356.0
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600,144.0,Adulto Mayor,Media,144.0
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200,-256.0,Adulto Mayor,Baja,-256.0


# **Documentación**
1. Comentarios claros: Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
2. Código legible: Asegúrate de que el código sea legible y esté bien comentado.