#Análisis y predicción de ventas Parte 1 (Core)

####Pasos a seguir:
- **Carga y Preprocesamiento de Datos:**

 -Carga los datos del archivo CSV utilizando NumPy.

 -Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

**-Exploración de Datos:**

 - Calcula el total de ventas por categoría de producto.

 - Calcula el promedio de ventas diarias por categoría de producto.

 - Identifica las categorías de productos con mayores y menores ventas.

**-Manipulación de Datos:**

 - Filtra los datos para mostrar solo las ventas de una categoría de producto específica.

 - Realiza operaciones de suma, resta, multiplicación y división en los datos   para obtener estadísticas adicionales.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd

In [3]:
path = "/content/drive/MyDrive/BBDD_Bootcamp_DataScience_Skillnest/retail_sales_dataset.csv"
df = pd.read_csv(path)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [7]:
#cambiar tipo de dato columna date a datetime
df['Date'] = pd.to_datetime(df['Date'])

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Transaction ID    1000 non-null   int64         
 1   Date              1000 non-null   datetime64[ns]
 2   Customer ID       1000 non-null   object        
 3   Gender            1000 non-null   object        
 4   Age               1000 non-null   int64         
 5   Product Category  1000 non-null   object        
 6   Quantity          1000 non-null   int64         
 7   Price per Unit    1000 non-null   int64         
 8   Total Amount      1000 non-null   int64         
dtypes: datetime64[ns](1), int64(5), object(3)
memory usage: 70.4+ KB


In [11]:
df.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


In [13]:
#Total de Ventas por Categoría
df.groupby("Product Category")["Total Amount"].sum().round(2)

Unnamed: 0_level_0,Total Amount
Product Category,Unnamed: 1_level_1
Beauty,143515
Clothing,155580
Electronics,156905


In [15]:
#Promedio de ventas diarias por Categoría
df.groupby(["Date", "Product Category"])["Total Amount"].mean().round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,Total Amount
Date,Product Category,Unnamed: 2_level_1
2023-01-01,Beauty,1500.0
2023-01-01,Clothing,1050.0
2023-01-02,Beauty,25.0
2023-01-02,Clothing,825.0
2023-01-02,Electronics,90.0
...,...,...
2023-12-29,Beauty,1100.0
2023-12-29,Electronics,100.0
2023-12-31,Electronics,50.0
2024-01-01,Beauty,1500.0


In [21]:
#Categorias con mayor y menor venta
ventas = df.groupby("Product Category")["Total Amount"].sum().reset_index()
print(ventas[ventas["Total Amount"] == ventas["Total Amount"].max()])
print(ventas[ventas["Total Amount"] == ventas["Total Amount"].min()])

  Product Category  Total Amount
2      Electronics        156905
  Product Category  Total Amount
0           Beauty        143515


In [24]:
#Filtrar por 1 categoría
categoria = "Electronics"
total = df[df["Product Category"] == categoria]["Total Amount"].sum()
print(f"{categoria}: {total:.2f}")

Electronics: 156905.00


In [33]:
#Aplicar diversas operaciones
suma = df["Total Amount"].sum()
diferencia = df["Total Amount"].max() - df["Total Amount"].min()

# Multiplicación: multiplicar "Total Amount" por una constante (digamos 1.1 para incrementar un 10%)
multiplicacion = df["Total Amount"] * 1.1

division = suma / len(df)

print(f"Suma: {suma}")
print(f"Diferencia (max - min): {diferencia}")
print(multiplicacion.head())
#print(f"Multiplicación para incrementar en un 10%: {multiplicacion:.2f}")
print(f"División (suma / número de filas): {division:.2f}")

Suma: 456000
Diferencia (max - min): 1975
0     165.0
1    1100.0
2      33.0
3     550.0
4     110.0
Name: Total Amount, dtype: float64
División (suma / número de filas): 456.00
