# Sales
Son datos sobre tiendas de Walmart en los Estados Unidos. 
El conjunto de datos contiene ventas semanales en dólares estadounidenses en varias tiendas. Cada tienda tiene un número de identificación y un tipo de tienda específico. 
Las ventas también están separadas por número de identificación del departamento. 
Junto con las ventas semanales, hay información sobre si fue una semana de feriado o no, la temperatura promedio durante la semana en esa ubicación, el precio promedio del combustible en dólares por litro esa semana y la tasa nacional de desempleo esa semana.

In [9]:
import pandas as pd
import numpy as np
sales = pd.read_csv('sales.csv')

In [3]:
# The head of the sales DataFrame
print(sales.head())

# The info about the sales DataFrame
print(sales.info())

# The mean of weekly_sales
print(sales["weekly_sales"].mean())

# The median of weekly_sales
print(sales["weekly_sales"].median())

   store type  department        date  weekly_sales  is_holiday   
0      1    A           1  2010-02-05      24924.50       False  \
1      1    A           1  2010-03-05      21827.90       False   
2      1    A           1  2010-04-02      57258.43       False   
3      1    A           1  2010-05-07      17413.94       False   
4      1    A           1  2010-06-04      17558.09       False   

   temperature_c  fuel_price_usd_per_l  unemployment  
0       5.727778              0.679451         8.106  
1       8.055556              0.693452         8.106  
2      16.816667              0.718284         7.808  
3      22.527778              0.748928         7.808  
4      27.050000              0.714586         7.808  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10774 entries, 0 to 10773
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   store                 10774 non-null  int64  
 1   t

Que rango de tiempo cubren los datos?

In [10]:
# The maximum of the date column
print(sales['date'].min())
print("to")
# The minimum of the date column
print(sales['date'].max())

2010-02-05
to
2012-10-26


Escribimos una función personalizada, "IQR" es la abreviatura de rango intercuartil, que es el percentil 75 menos el percentil 25. Es una alternativa a la desviación estándar que es útil si los datos contienen valores atípicos.

In [11]:
# IQR function
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)
    
# IQR of temperature_c, fuel_price_usd_per_l, & unemployment
print(sales[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg(iqr))

temperature_c           16.583333
fuel_price_usd_per_l     0.073176
unemployment             0.565000
dtype: float64


Las conclusiones extraídas son que las temperaturas muestran una variabilidad significativa, los precios del combustible tienen una dispersión relativamente baja y las tasas de desempleo presentan cierta variabilidad.

In [12]:
# IQR and median of temperature_c, fuel_price_usd_per_l, & unemployment
print(sales[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg([iqr,np.median]))

        temperature_c  fuel_price_usd_per_l  unemployment
iqr         16.583333              0.073176         0.565
median      16.966667              0.743381         8.099


Las conclusiones actualizadas son que las temperaturas presentan una dispersión moderada con una mediana cercana al valor del tercer cuartil, los precios del combustible tienen una dispersión relativamente baja con una mediana mayor a la mitad de los precios, y las tasas de desempleo también muestran una dispersión moderada con una mediana significativamente más baja que el tercer cuartil.

Quiero calcular la suma acumulada y el máximo acumulado de las ventas semanales de un departamento, lo que nos permitirá identificar cuáles fueron las ventas totales hasta ahora, así como cuáles fueron las ventas semanales más altas hasta ahora.

In [18]:
# Datos de ventas para el departamento 1 de la tienda 1
sales_1_1 = sales[(sales["department"] == 1) & (sales["store"] == 1)]

In [20]:
# sales_1_1 by date
sales_1_1 = sales_1_1.sort_values("date", ascending=True )

In [21]:
print(sales_1_1)

    store type  department        date  weekly_sales  is_holiday   
0       1    A           1  2010-02-05      24924.50       False  \
1       1    A           1  2010-03-05      21827.90       False   
2       1    A           1  2010-04-02      57258.43       False   
3       1    A           1  2010-05-07      17413.94       False   
4       1    A           1  2010-06-04      17558.09       False   
5       1    A           1  2010-07-02      16333.14       False   
6       1    A           1  2010-08-06      17508.41       False   
7       1    A           1  2010-09-03      16241.78       False   
8       1    A           1  2010-10-01      20094.19       False   
9       1    A           1  2010-11-05      34238.88       False   
10      1    A           1  2010-12-03      22517.56       False   
11      1    A           1  2011-01-07      15984.24       False   

    temperature_c  fuel_price_usd_per_l  unemployment  
0        5.727778              0.679451         8.106  
1  

In [22]:
# The cumulative sum of weekly_sales, add as cum_weekly_sales col
sales_1_1["cum_weekly_sales"] = sales_1_1["weekly_sales"].cumsum()

print(sales_1_1)

    store type  department        date  weekly_sales  is_holiday   
0       1    A           1  2010-02-05      24924.50       False  \
1       1    A           1  2010-03-05      21827.90       False   
2       1    A           1  2010-04-02      57258.43       False   
3       1    A           1  2010-05-07      17413.94       False   
4       1    A           1  2010-06-04      17558.09       False   
5       1    A           1  2010-07-02      16333.14       False   
6       1    A           1  2010-08-06      17508.41       False   
7       1    A           1  2010-09-03      16241.78       False   
8       1    A           1  2010-10-01      20094.19       False   
9       1    A           1  2010-11-05      34238.88       False   
10      1    A           1  2010-12-03      22517.56       False   
11      1    A           1  2011-01-07      15984.24       False   

    temperature_c  fuel_price_usd_per_l  unemployment  cum_weekly_sales  
0        5.727778              0.679451  

In [24]:
# The cumulative max of weekly_sales, add as cum_max_sales col
sales_1_1["cum_max_sales"] = sales_1_1["weekly_sales"].cummax()

In [25]:
print(sales_1_1[["date", "weekly_sales", "cum_weekly_sales", "cum_max_sales"]])

          date  weekly_sales  cum_weekly_sales  cum_max_sales
0   2010-02-05      24924.50          24924.50       24924.50
1   2010-03-05      21827.90          46752.40       24924.50
2   2010-04-02      57258.43         104010.83       57258.43
3   2010-05-07      17413.94         121424.77       57258.43
4   2010-06-04      17558.09         138982.86       57258.43
5   2010-07-02      16333.14         155316.00       57258.43
6   2010-08-06      17508.41         172824.41       57258.43
7   2010-09-03      16241.78         189066.19       57258.43
8   2010-10-01      20094.19         209160.38       57258.43
9   2010-11-05      34238.88         243399.26       57258.43
10  2010-12-03      22517.56         265916.82       57258.43
11  2011-01-07      15984.24         281901.06       57258.43
