In [5]:
import numpy as np
import pandas as pd

In [6]:
import numpy as np

def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV utilizando NumPy
    data = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=0, dtype=None, encoding=None)
    return data



if __name__ == "__main__":
    ruta_archivo = '../data/retail_sales_dataset.csv'
    data = cargar_datos(ruta_archivo)
    print(data)


[['Transaction ID' 'Date' 'Customer ID' ... 'Quantity' 'Price per Unit'
  'Total Amount']
 ['1' '2023-11-24' 'CUST001' ... '3' '50' '150']
 ['2' '2023-02-27' 'CUST002' ... '2' '500' '1000']
 ...
 ['998' '2023-10-29' 'CUST998' ... '4' '25' '100']
 ['999' '2023-12-05' 'CUST999' ... '3' '50' '150']
 ['1000' '2023-04-12' 'CUST1000' ... '4' '30' '120']]


In [7]:
print(data[0:10])  # Muestra las primeras 5 filas


[['Transaction ID' 'Date' 'Customer ID' 'Gender' 'Age' 'Product Category'
  'Quantity' 'Price per Unit' 'Total Amount']
 ['1' '2023-11-24' 'CUST001' 'Male' '34' 'Beauty' '3' '50' '150']
 ['2' '2023-02-27' 'CUST002' 'Female' '26' 'Clothing' '2' '500' '1000']
 ['3' '2023-01-13' 'CUST003' 'Male' '50' 'Electronics' '1' '30' '30']
 ['4' '2023-05-21' 'CUST004' 'Male' '37' 'Clothing' '1' '500' '500']
 ['5' '2023-05-06' 'CUST005' 'Male' '30' 'Beauty' '2' '50' '100']
 ['6' '2023-04-25' 'CUST006' 'Female' '45' 'Beauty' '1' '30' '30']
 ['7' '2023-03-13' 'CUST007' 'Male' '46' 'Clothing' '2' '25' '50']
 ['8' '2023-02-22' 'CUST008' 'Male' '30' 'Electronics' '4' '25' '100']
 ['9' '2023-12-13' 'CUST009' 'Male' '63' 'Electronics' '2' '300' '600']]


In [8]:
# Convertir a DataFrame de pandas
df = pd.DataFrame(data[1:], columns=data[0])  # Usa la primera fila como encabezados

# Verificar valores faltantes
valores_faltantes = df.isnull().sum()  # Usar la función de pandas para contar valores nulos
print("Valores faltantes por columna:")
print(valores_faltantes)

Valores faltantes por columna:
Transaction ID      0
Date                0
Customer ID         0
Gender              0
Age                 0
Product Category    0
Quantity            0
Price per Unit      0
Total Amount        0
dtype: int64


In [9]:
print(df.columns)

Index(['Transaction ID', 'Date', 'Customer ID', 'Gender', 'Age',
       'Product Category', 'Quantity', 'Price per Unit', 'Total Amount'],
      dtype='object')


In [10]:
df['Total Amount'] = pd.to_numeric(df['Total Amount'], errors='coerce')
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')



In [11]:
total_ventas_por_categoria = df.groupby('Product Category')['Total Amount'].sum()

print("Total de ventas por categoría:")
print(total_ventas_por_categoria)

Total de ventas por categoría:
Product Category
Beauty         143515
Clothing       155580
Electronics    156905
Name: Total Amount, dtype: int64


In [12]:
# Agrupar por categoría de producto y fecha
ventas_diarias_por_categoria = df.groupby(['Product Category', df['Date'].dt.date])['Total Amount'].sum()

# Calcular el promedio de ventas diarias por categoría de producto
promedio_ventas_diarias = ventas_diarias_por_categoria.groupby('Product Category').mean()

# Imprimir el promedio de ventas diarias
print("Promedio de ventas diarias por categoría:")
print(promedio_ventas_diarias)


Promedio de ventas diarias por categoría:
Product Category
Beauty         703.504902
Clothing       670.603448
Electronics    716.461187
Name: Total Amount, dtype: float64


In [13]:
# Categoría con mayores ventas diarias
categoria_mayores_ventas = promedio_ventas_diarias.idxmax()
mayores_ventas = promedio_ventas_diarias.max()

# Categoría con menores ventas diarias
categoria_menores_ventas = promedio_ventas_diarias.idxmin()
menores_ventas = promedio_ventas_diarias.min()

# Imprimir resultados
print(f"Categoría con mayores ventas diarias: {categoria_mayores_ventas} con un promedio de {mayores_ventas}")
print(f"Categoría con menores ventas diarias: {categoria_menores_ventas} con un promedio de {menores_ventas}")


Categoría con mayores ventas diarias: Electronics con un promedio de 716.4611872146119
Categoría con menores ventas diarias: Clothing con un promedio de 670.6034482758621


In [14]:
# Filtrar datos para la categoría 'Electronics'
categoria_especifica = 'Electronics'
df_filtrado = df[df['Product Category'] == categoria_especifica]

# Mostrar las primeras filas del DataFrame filtrado
print(df_filtrado.head())


   Transaction ID       Date Customer ID  Gender Age Product Category  \
2               3 2023-01-13     CUST003    Male  50      Electronics   
7               8 2023-02-22     CUST008    Male  30      Electronics   
8               9 2023-12-13     CUST009    Male  63      Electronics   
12             13 2023-08-05     CUST013    Male  22      Electronics   
14             15 2023-01-16     CUST015  Female  42      Electronics   

   Quantity Price per Unit  Total Amount  
2         1             30            30  
7         4             25           100  
8         2            300           600  
12        3            500          1500  
14        4            500          2000  


In [15]:
# Suma del total de ventas para la categoría filtrada
suma_total_ventas = df_filtrado['Total Amount'].sum()
print(f"Suma total de ventas para {categoria_especifica}: {suma_total_ventas}")


Suma total de ventas para Electronics: 156905


In [16]:
# Resta un valor fijo (por ejemplo, 10) a cada valor en la columna 'Total Amount'
df_filtrado['Ventas_Restadas'] = df_filtrado['Total Amount'] - 10
print(df_filtrado[['Total Amount', 'Ventas_Restadas']].head())


    Total Amount  Ventas_Restadas
2             30               20
7            100               90
8            600              590
12          1500             1490
14          2000             1990


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['Ventas_Restadas'] = df_filtrado['Total Amount'] - 10


In [17]:
# Multiplica las ventas por un factor (por ejemplo, multiplicar por 1.2 para obtener un incremento del 20%)
df_filtrado['Ventas_Multiplicadas'] = df_filtrado['Total Amount'] * 1.2
print(df_filtrado[['Total Amount', 'Ventas_Multiplicadas']].head())


    Total Amount  Ventas_Multiplicadas
2             30                  36.0
7            100                 120.0
8            600                 720.0
12          1500                1800.0
14          2000                2400.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['Ventas_Multiplicadas'] = df_filtrado['Total Amount'] * 1.2


In [18]:
# Divide el total de ventas entre un valor fijo (por ejemplo, dividir entre 100)
df_filtrado['Ventas_Divididas'] = df_filtrado['Total Amount'] / 100
print(df_filtrado[['Total Amount', 'Ventas_Divididas']].head())


    Total Amount  Ventas_Divididas
2             30               0.3
7            100               1.0
8            600               6.0
12          1500              15.0
14          2000              20.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['Ventas_Divididas'] = df_filtrado['Total Amount'] / 100


In [19]:
# Calcular el promedio de ventas para la categoría específica
promedio_ventas = df_filtrado['Total Amount'].mean()
print(f"Promedio de ventas para {categoria_especifica}: {promedio_ventas}")


Promedio de ventas para Electronics: 458.7865497076023


In [20]:
# Calcular la desviación estándar de las ventas
desviacion_ventas = df_filtrado['Total Amount'].std()
print(f"Desviación estándar de ventas para {categoria_especifica}: {desviacion_ventas}")


Desviación estándar de ventas para Electronics: 567.5401504215833


In [21]:
# Calcular el valor máximo y mínimo de ventas para la categoría específica
max_ventas = df_filtrado['Total Amount'].max()
min_ventas = df_filtrado['Total Amount'].min()
print(f"Máxima venta para {categoria_especifica}: {max_ventas}")
print(f"Mínima venta para {categoria_especifica}: {min_ventas}")


Máxima venta para Electronics: 2000
Mínima venta para Electronics: 25
