**1. Configuración Inicial del Proyecto:**
- Crea un repositorio en GitHub para tu proyecto.
- Configura dos ramas en tu repositorio: main y development.
- Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.


**4. Manipulación de Datos:**
- Filtra los datos para mostrar solo las ventas de una categoría de producto específica.
- Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

2. Carga y Preprocesamiento de Datos:

- Carga los datos del archivo CSV utilizando NumPy.

In [32]:
# Usamos la biblioteca google para poder usar archivos en nuestro drive.
from google.colab import drive
# Este comando conecta colab con drive.
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [34]:
# Llamada a la bibliotecas numpy, pandas y matplotlib usando un "apodo".
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


In [56]:
def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV utilizando NumPy
    datos = pd.read_csv(ruta_archivo)
    return datos

if __name__ == "__main__":
    ruta_archivo = '/content/drive/MyDrive/BBDD/retail_sales_dataset.csv'
    datos = cargar_datos(ruta_archivo)
    print(datos)

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
0                 1  2023-11-24     CUST001    Male   34           Beauty   
1                 2  2023-02-27     CUST002  Female   26         Clothing   
2                 3  2023-01-13     CUST003    Male   50      Electronics   
3                 4  2023-05-21     CUST004    Male   37         Clothing   
4                 5  2023-05-06     CUST005    Male   30           Beauty   
..              ...         ...         ...     ...  ...              ...   
995             996  2023-05-16     CUST996    Male   62         Clothing   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
0           3              50

In [57]:
# Consultamos la Información general del df y se observa que los valores estan completos
datos.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


In [58]:
# Muestra las dimenciones del csv
datos.shape


(1000, 9)

In [60]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


- Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis

In [67]:
# Datos estadisticos de las columnas.
datos.describe()

Unnamed: 0,Transaction ID,Age,Quantity,Price per Unit,Total Amount
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,500.5,41.392,2.514,179.89,456.0
std,288.819436,13.68143,1.132734,189.681356,559.997632
min,1.0,18.0,1.0,25.0,25.0
25%,250.75,29.0,1.0,30.0,60.0
50%,500.5,42.0,3.0,50.0,135.0
75%,750.25,53.0,4.0,300.0,900.0
max,1000.0,64.0,4.0,500.0,2000.0


In [68]:
# Revisan los tipos de datos.
datos.dtypes

Unnamed: 0,0
Transaction ID,int64
Date,object
Customer ID,object
Gender,object
Age,int64
Product Category,object
Quantity,int64
Price per Unit,int64
Total Amount,int64


In [69]:
# Identificar valores nulos en todo el DataFrame
print(datos.isnull().sum())

Transaction ID      0
Date                0
Customer ID         0
Gender              0
Age                 0
Product Category    0
Quantity            0
Price per Unit      0
Total Amount        0
dtype: int64


In [70]:
# Revisar duplicados.
datos.duplicated().sum()

np.int64(0)

**3. Exploración de Datos:**
- Calcula el total de ventas por categoría de producto.

In [71]:
# Visualizamos el DataFrame con 10 líneaas.
datos.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


In [72]:
# Producto agrupados por categoria y total de ventas.
df_categ = datos.groupby("Product Category")["Total Amount"].sum()
df_categ

Unnamed: 0_level_0,Total Amount
Product Category,Unnamed: 1_level_1
Beauty,143515
Clothing,155580
Electronics,156905


- Calcula el promedio de ventas diarias por categoría de producto.

In [83]:
df_vdiarias = datos.groupby(["Date", "Product Category"])["Total Amount"].sum()
df_cant = datos.groupby("Product Category")["Quantity"].sum()
df_promedio = df_vdiarias / df_cant
df_promedio

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Date,Product Category,Unnamed: 2_level_1
2023-01-01,Beauty,1.945525
2023-01-01,Clothing,2.348993
2023-01-02,Beauty,0.032425
2023-01-02,Clothing,1.845638
2023-01-02,Electronics,0.106007
...,...,...
2023-12-29,Beauty,4.280156
2023-12-29,Electronics,0.117786
2023-12-31,Electronics,0.058893
2024-01-01,Beauty,1.945525


Identifica las categorías de productos con mayores y menores ventas.

In [97]:
# Cantidad de productos vendidos de menor a mayor
df_cant = datos.groupby("Product Category")["Quantity"].sum()
df_cant

Unnamed: 0_level_0,Quantity
Product Category,Unnamed: 1_level_1
Beauty,771
Clothing,894
Electronics,849
