Carga y Preprocesamiento de Datos:
Carga los datos del archivo CSV utilizando NumPy.
Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.


In [None]:
# Importamos librerias.
import numpy as np
import pandas as pd
from google.colab import drive # Importamos la libreria para montar Google Drive

# Montar Google Drive
drive.mount('/content/drive')

def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV utilizando Pandas
    datos = pd.read_csv(ruta_archivo)
    return datos

# Define la ruta del archivo fuera de la función
ruta_archivo =  "/content/drive/MyDrive/Colab Notebooks/BD/retail_sales_dataset.csv"

# Llama a la función para cargar los datos y asigna el resultado a la variable 'df'
df = cargar_datos(ruta_archivo)


df.info()


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [None]:
# Usamos lower y replace para limpiar.
df.columns = df.columns.str.lower().str.replace(" ", "_")

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   transaction_id    1000 non-null   int64 
 1   date              1000 non-null   object
 2   customer_id       1000 non-null   object
 3   gender            1000 non-null   object
 4   age               1000 non-null   int64 
 5   product_category  1000 non-null   object
 6   quantity          1000 non-null   int64 
 7   price_per_unit    1000 non-null   int64 
 8   total_amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [None]:
df.columns

Index(['transaction_id', 'date', 'customer_id', 'gender', 'age',
       'product_category', 'quantity', 'price_per_unit', 'total_amount'],
      dtype='object')

In [None]:
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


In [None]:
# Cambiar tipos de datos.
df["age"] = df["age"].astype(int)
df["quantity"] = df["quantity"].astype(int)
df["date"] = pd.to_datetime(df["date"])

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   transaction_id    1000 non-null   int64         
 1   date              1000 non-null   datetime64[ns]
 2   customer_id       1000 non-null   object        
 3   gender            1000 non-null   object        
 4   age               1000 non-null   int64         
 5   product_category  1000 non-null   object        
 6   quantity          1000 non-null   int64         
 7   price_per_unit    1000 non-null   int64         
 8   total_amount      1000 non-null   int64         
dtypes: datetime64[ns](1), int64(5), object(3)
memory usage: 70.4+ KB


In [34]:
#Revisar si hay duplicados
df.duplicated()

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
...,...
995,False
996,False
997,False
998,False


Exploración de Datos:
Calcula el total de ventas por categoría de producto.
Calcula el promedio de ventas diarias por categoría de producto.
Identifica las categorías de productos con mayores y menores ventas.

In [35]:
# Revisamos columnas.
df_totals = df.groupby("product_category")["total_amount"].sum().reset_index()
#df_totals = df_totals.sort_values("product_category")
print(df_totals)



  product_category  total_amount
0           Beauty        143515
1         Clothing        155580
2      Electronics        156905


In [38]:
#Calcula el total de ventas por categoría de producto.
ventas_diarias = df.groupby(["product_category", "date"])["total_amount"].mean().reset_index()

# Ordeno los resultados
ventas_diarias = ventas_diarias.sort_values(["product_category", "date"])

print(ventas_diarias)


    product_category       date  total_amount
0             Beauty 2023-01-01        1500.0
1             Beauty 2023-01-02          25.0
2             Beauty 2023-01-03         600.0
3             Beauty 2023-01-04         545.0
4             Beauty 2023-01-05          50.0
..               ...        ...           ...
650      Electronics 2023-12-27         600.0
651      Electronics 2023-12-28          37.5
652      Electronics 2023-12-29         100.0
653      Electronics 2023-12-31          50.0
654      Electronics 2024-01-01          30.0

[655 rows x 3 columns]


In [51]:
#PRomedio de ventas por categoría de productos con mayores ventas.
promedio_ventas = df.groupby("product_category")["total_amount"].mean().reset_index()

print(promedio_ventas.head())


  product_category  total_amount
0           Beauty    467.475570
1         Clothing    443.247863
2      Electronics    458.786550


In [47]:
#categorías de productos con mayores ventas.
rango_ventas_mayor = df.groupby("product_category")["total_amount"].sum().reset_index()
rango_ventas_mayor = rango_ventas_mayor.sort_values("total_amount", ascending=False)

print(rango_ventas_mayor.head(1))


  product_category  total_amount
2      Electronics        156905


In [48]:
#categoría de productos con menores ventas.
rango_ventas_menor = df.groupby("product_category")["total_amount"].sum().reset_index()
rango_ventas_menor = rango_ventas_menor.sort_values("total_amount", ascending=True)

print(rango_ventas_menor.head(1))


  product_category  total_amount
0           Beauty        143515


Manipulación de Datos:
Filtra los datos para mostrar solo las ventas de una categoría de producto específica.
Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.


In [60]:

df_filtrado = df[df["product_category"] == "Beauty"]

print(df_filtrado)


     transaction_id       date customer_id  gender  age product_category  \
0                 1 2023-11-24     CUST001    Male   34           Beauty   
4                 5 2023-05-06     CUST005    Male   30           Beauty   
5                 6 2023-04-25     CUST006  Female   45           Beauty   
11               12 2023-10-30     CUST012    Male   35           Beauty   
20               21 2023-01-14     CUST021  Female   50           Beauty   
..              ...        ...         ...     ...  ...              ...   
981             982 2023-12-19     CUST982  Female   46           Beauty   
989             990 2023-05-25     CUST990  Female   58           Beauty   
993             994 2023-12-18     CUST994  Female   51           Beauty   
996             997 2023-11-17     CUST997    Male   52           Beauty   
997             998 2023-10-29     CUST998  Female   23           Beauty   

     quantity  price_per_unit  total_amount  
0           3              50           1

In [54]:
df.groupby("product_category")["total_amount"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
product_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Beauty,307.0,467.47557,563.612788,25.0,75.0,120.0,900.0,2000.0
Clothing,351.0,443.247863,550.695917,25.0,60.0,120.0,600.0,2000.0
Electronics,342.0,458.78655,567.54015,25.0,60.0,150.0,900.0,2000.0
