# Sales
Son datos sobre tiendas de Walmart en los Estados Unidos. 
El conjunto de datos contiene ventas semanales en dólares estadounidenses en varias tiendas. Cada tienda tiene un número de identificación y un tipo de tienda específico. 
Las ventas también están separadas por número de identificación del departamento. 
Junto con las ventas semanales, hay información sobre si fue una semana de feriado o no, la temperatura promedio durante la semana en esa ubicación, el precio promedio del combustible en dólares por litro esa semana y la tasa nacional de desempleo esa semana.

In [1]:
import pandas as pd
import numpy as np
sales = pd.read_csv('sales.csv')

In [2]:
# The head of the sales DataFrame
print(sales.head())

# The info about the sales DataFrame
print(sales.info())

# The mean of weekly_sales
print(sales["weekly_sales"].mean())

# The median of weekly_sales
print(sales["weekly_sales"].median())

   store type  department        date  weekly_sales  is_holiday   
0      1    A           1  2010-02-05      24924.50       False  \
1      1    A           1  2010-03-05      21827.90       False   
2      1    A           1  2010-04-02      57258.43       False   
3      1    A           1  2010-05-07      17413.94       False   
4      1    A           1  2010-06-04      17558.09       False   

   temperature_c  fuel_price_usd_per_l  unemployment  
0       5.727778              0.679451         8.106  
1       8.055556              0.693452         8.106  
2      16.816667              0.718284         7.808  
3      22.527778              0.748928         7.808  
4      27.050000              0.714586         7.808  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10774 entries, 0 to 10773
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   store                 10774 non-null  int64  
 1   t

Que rango de tiempo cubren los datos?

In [3]:
# The maximum of the date column
print(sales['date'].min())
print("to")
# The minimum of the date column
print(sales['date'].max())

2010-02-05
to
2012-10-26


Escribimos una función personalizada, "IQR" es la abreviatura de rango intercuartil, que es el percentil 75 menos el percentil 25. Es una alternativa a la desviación estándar que es útil si los datos contienen valores atípicos.

In [4]:
# IQR function
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)
    
# IQR of temperature_c, fuel_price_usd_per_l, & unemployment
print(sales[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg(iqr))

temperature_c           16.583333
fuel_price_usd_per_l     0.073176
unemployment             0.565000
dtype: float64


Las conclusiones extraídas son que las temperaturas muestran una variabilidad significativa, los precios del combustible tienen una dispersión relativamente baja y las tasas de desempleo presentan cierta variabilidad.

In [5]:
# IQR and median of temperature_c, fuel_price_usd_per_l, & unemployment
print(sales[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg([iqr,np.median]))

        temperature_c  fuel_price_usd_per_l  unemployment
iqr         16.583333              0.073176         0.565
median      16.966667              0.743381         8.099


Las conclusiones actualizadas son que las temperaturas presentan una dispersión moderada con una mediana cercana al valor del tercer cuartil, los precios del combustible tienen una dispersión relativamente baja con una mediana mayor a la mitad de los precios, y las tasas de desempleo también muestran una dispersión moderada con una mediana significativamente más baja que el tercer cuartil.

Quiero calcular la suma acumulada y el máximo acumulado de las ventas semanales de un departamento, lo que nos permitirá identificar cuáles fueron las ventas totales hasta ahora, así como cuáles fueron las ventas semanales más altas hasta ahora.

In [6]:
# Datos de ventas para el departamento 1 de la tienda 1
sales_1_1 = sales[(sales["department"] == 1) & (sales["store"] == 1)]

In [7]:
# sales_1_1 by date
sales_1_1 = sales_1_1.sort_values("date", ascending=True )

In [8]:
print(sales_1_1)

    store type  department        date  weekly_sales  is_holiday   
0       1    A           1  2010-02-05      24924.50       False  \
1       1    A           1  2010-03-05      21827.90       False   
2       1    A           1  2010-04-02      57258.43       False   
3       1    A           1  2010-05-07      17413.94       False   
4       1    A           1  2010-06-04      17558.09       False   
5       1    A           1  2010-07-02      16333.14       False   
6       1    A           1  2010-08-06      17508.41       False   
7       1    A           1  2010-09-03      16241.78       False   
8       1    A           1  2010-10-01      20094.19       False   
9       1    A           1  2010-11-05      34238.88       False   
10      1    A           1  2010-12-03      22517.56       False   
11      1    A           1  2011-01-07      15984.24       False   

    temperature_c  fuel_price_usd_per_l  unemployment  
0        5.727778              0.679451         8.106  
1  

In [9]:
# The cumulative sum of weekly_sales, add as cum_weekly_sales col
sales_1_1["cum_weekly_sales"] = sales_1_1["weekly_sales"].cumsum()

print(sales_1_1)

    store type  department        date  weekly_sales  is_holiday   
0       1    A           1  2010-02-05      24924.50       False  \
1       1    A           1  2010-03-05      21827.90       False   
2       1    A           1  2010-04-02      57258.43       False   
3       1    A           1  2010-05-07      17413.94       False   
4       1    A           1  2010-06-04      17558.09       False   
5       1    A           1  2010-07-02      16333.14       False   
6       1    A           1  2010-08-06      17508.41       False   
7       1    A           1  2010-09-03      16241.78       False   
8       1    A           1  2010-10-01      20094.19       False   
9       1    A           1  2010-11-05      34238.88       False   
10      1    A           1  2010-12-03      22517.56       False   
11      1    A           1  2011-01-07      15984.24       False   

    temperature_c  fuel_price_usd_per_l  unemployment  cum_weekly_sales  
0        5.727778              0.679451  

In [10]:
# The cumulative max of weekly_sales, add as cum_max_sales col
sales_1_1["cum_max_sales"] = sales_1_1["weekly_sales"].cummax()

In [11]:
print(sales_1_1[["date", "weekly_sales", "cum_weekly_sales", "cum_max_sales"]])

          date  weekly_sales  cum_weekly_sales  cum_max_sales
0   2010-02-05      24924.50          24924.50       24924.50
1   2010-03-05      21827.90          46752.40       24924.50
2   2010-04-02      57258.43         104010.83       57258.43
3   2010-05-07      17413.94         121424.77       57258.43
4   2010-06-04      17558.09         138982.86       57258.43
5   2010-07-02      16333.14         155316.00       57258.43
6   2010-08-06      17508.41         172824.41       57258.43
7   2010-09-03      16241.78         189066.19       57258.43
8   2010-10-01      20094.19         209160.38       57258.43
9   2010-11-05      34238.88         243399.26       57258.43
10  2010-12-03      22517.56         265916.82       57258.43
11  2011-01-07      15984.24         281901.06       57258.43


A continuación voy a crear algunos DataFrames nuevos utilizando valores únicos, osea eliminando los duplicados...

In [12]:
store_types = sales.drop_duplicates(subset=["store", "type"])
print(store_types.info())

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, 0 to 9899
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   store                 12 non-null     int64  
 1   type                  12 non-null     object 
 2   department            12 non-null     int64  
 3   date                  12 non-null     object 
 4   weekly_sales          12 non-null     float64
 5   is_holiday            12 non-null     bool   
 6   temperature_c         12 non-null     float64
 7   fuel_price_usd_per_l  12 non-null     float64
 8   unemployment          12 non-null     float64
dtypes: bool(1), float64(4), int64(2), object(2)
memory usage: 876.0+ bytes
None


In [13]:
store_depts = sales.drop_duplicates(subset=["store", "department"])
print(store_depts.head())

    store type  department        date  weekly_sales  is_holiday   
0       1    A           1  2010-02-05      24924.50       False  \
12      1    A           2  2010-02-05      50605.27       False   
24      1    A           3  2010-02-05      13740.12       False   
36      1    A           4  2010-02-05      39954.04       False   
48      1    A           5  2010-02-05      32229.38       False   

    temperature_c  fuel_price_usd_per_l  unemployment  
0        5.727778              0.679451         8.106  
12       5.727778              0.679451         8.106  
24       5.727778              0.679451         8.106  
36       5.727778              0.679451         8.106  
48       5.727778              0.679451         8.106  


In [14]:
holiday_dates = sales[sales["is_holiday"] == True]
print(holiday_dates)

       store type  department        date  weekly_sales  is_holiday   
498        1    A          45  2010-09-10         11.47        True  \
691        1    A          77  2011-11-25       1431.00        True   
896        1    A          99  2011-11-25       2400.00        True   
1532       2    A          60  2010-09-10          8.80        True   
1587       2    A          77  2011-11-25       1431.00        True   
1793       2    A          99  2011-11-25       2850.00        True   
2297       4    A          45  2010-09-10          1.00        True   
2315       4    A          47  2010-02-12        498.00        True   
2320       4    A          47  2010-09-10        898.00        True   
2487       4    A          77  2011-11-25        954.00        True   
2492       4    A          78  2010-02-12          1.00        True   
3383       6    A          77  2011-11-25       1272.00        True   
3588       6    A          99  2011-11-25       1550.00        True   
4092  

In [15]:
holiday_dates = sales[sales["is_holiday"] == True].drop_duplicates(subset=["date"])
print(holiday_dates)

      store type  department        date  weekly_sales  is_holiday   
498       1    A          45  2010-09-10         11.47        True  \
691       1    A          77  2011-11-25       1431.00        True   
2315      4    A          47  2010-02-12        498.00        True   
6735     19    A          39  2012-09-07         13.41        True   
6810     19    A          47  2010-12-31       -449.00        True   
6815     19    A          47  2012-02-10         15.00        True   
6820     19    A          48  2011-09-09        197.00        True   

      temperature_c  fuel_price_usd_per_l  unemployment  
498       25.938889              0.677602         7.787  
691       15.633333              0.854861         7.866  
2315      -1.755556              0.679715         8.623  
6735      22.333333              1.076766         8.193  
6810      -1.861111              0.881278         8.067  
6815       0.338889              1.010723         7.943  
6820      20.155556              

In [16]:
# Count
# The number of stores of each type
store_counts = store_types["type"].value_counts()
print(store_counts)

type
A    11
B     1
Name: count, dtype: int64


In [17]:
# The proportion of stores of each type
store_props = store_types["type"].value_counts(normalize=True)
print(store_props)

type
A    0.916667
B    0.083333
Name: proportion, dtype: float64


In [18]:
# The number of each department number
dept_counts_sorted = store_depts["department"].value_counts(sort=True, ascending=False)
print(dept_counts_sorted)

department
1     12
55    12
72    12
71    12
67    12
      ..
37    10
48     8
50     6
39     4
43     2
Name: count, Length: 80, dtype: int64


In [19]:
# The proportion of departments of each number and sort
dept_props_sorted = store_depts["department"].value_counts(sort=True, ascending=False, normalize=True)
print(dept_props_sorted)

department
1     0.012917
55    0.012917
72    0.012917
71    0.012917
67    0.012917
        ...   
37    0.010764
48    0.008611
50    0.006459
39    0.004306
43    0.002153
Name: proportion, Length: 80, dtype: float64


Se distinguen tres tipos de tiendas: "supercentros", "tiendas de descuento" y "mercados de barrio", codificados en este conjunto de datos como tipo "A", "B" y "C". Calcularemos a continuación las ventas totales realizadas en cada tipo de tienda.

In [20]:
# Group by type; calc total weekly sales
sales_by_type = sales.groupby("type")["weekly_sales"].sum()

# Get proportion for each type
sales_propn_by_type = sales_by_type / sales["weekly_sales"].sum()
print(sales_propn_by_type)

type
A    0.909775
B    0.090225
Name: weekly_sales, dtype: float64


Las ventas difieren según el tipo de tienda dependiendo de si es una semana festiva o no?

In [21]:
# Group by type and is_holiday; calc total weekly sales
sales_by_type_is_holiday = sales.groupby(["type", "is_holiday"])["weekly_sales"].sum()
print(sales_by_type_is_holiday)

type  is_holiday
A     False         2.336927e+08
      True          2.360181e+04
B     False         2.317678e+07
      True          1.621410e+03
Name: weekly_sales, dtype: float64


Estos resultados indican que las ventas en las tiendas de tipo A son considerablemente más altas tanto en semanas festivas como en semanas no festivas en comparación con las tiendas de tipo B. Además, las ventas durante las semanas festivas en general son mucho más bajas en ambos tipos de tiendas en comparación con las semanas no festivas.

Estos datos sugieren que el tipo de tienda y si es una semana festiva o no tienen un impacto significativo en las ventas. Es importante tener en cuenta estos factores al realizar análisis y tomar decisiones relacionadas con las estrategias de venta y promociones en diferentes tipos de tiendas.

In [22]:
# For each store type, aggregate weekly_sales: get min, max, mean, and median
sales_stats = sales.groupby("type")["weekly_sales"].agg([np.min, np.max, np.mean, np.median])
print(sales_stats)

        amin       amax          mean    median
type                                           
A    -1098.0  293966.05  23674.667242  11943.92
B     -798.0  232558.51  25696.678370  13336.08


In [23]:
# For each store type, aggregate unemployment and fuel_price_usd_per_l: get min, max, mean, and median
unemp_fuel_stats = sales.groupby("type")[["unemployment", "fuel_price_usd_per_l"]].agg([np.min, np.max, np.mean, np.median])

print(unemp_fuel_stats)

     unemployment                         fuel_price_usd_per_l             
             amin   amax      mean median                 amin      amax   
type                                                                       
A           3.879  8.992  7.972611  8.067             0.664129  1.107410  \
B           7.170  9.765  9.279323  9.199             0.760023  1.107674   

                          
          mean    median  
type                      
A     0.744619  0.735455  
B     0.805858  0.803348  


Pivoting 

In [25]:
# Pivot for mean weekly_sales for each store type
mean_sales_by_type = sales.pivot_table(values="weekly_sales", index="type")

# Print mean_sales_by_type
print(mean_sales_by_type)

      weekly_sales
type              
A     23674.667242
B     25696.678370


In [26]:
mean_med_sales_by_type = sales.pivot_table(values="weekly_sales", index="type", aggfunc=[np.mean, np.median])
print(mean_med_sales_by_type)

              mean       median
      weekly_sales weekly_sales
type                           
A     23674.667242     11943.92
B     25696.678370     13336.08


In [27]:
# Pivot for mean weekly_sales by store type and holiday 
mean_sales_by_type_holiday = sales.pivot_table(values="weekly_sales", index="type", columns="is_holiday")
print(mean_sales_by_type_holiday)

is_holiday         False      True 
type                               
A           23768.583523  590.04525
B           25751.980533  810.70500


In [28]:
# Print mean weekly_sales by department and type; fill missing values with 0
print(sales.pivot_table(values="weekly_sales", index="department", columns="type", fill_value=0))

type                    A              B
department                              
1            30961.725379   44050.626667
2            67600.158788  112958.526667
3            17160.002955   30580.655000
4            44285.399091   51219.654167
5            34821.011364   63236.875000
...                   ...            ...
95          123933.787121   77082.102500
96           21367.042857    9528.538333
97           28471.266970    5828.873333
98           12875.423182     217.428333
99             379.123659       0.000000

[80 rows x 2 columns]


In [29]:
print(sales.pivot_table(values="weekly_sales", index="department", columns="type", fill_value=0, margins=True, margins_name="Total"))


type                   A              B         Total
department                                           
1           30961.725379   44050.626667  32052.467153
2           67600.158788  112958.526667  71380.022778
3           17160.002955   30580.655000  18278.390625
4           44285.399091   51219.654167  44863.253681
5           34821.011364   63236.875000  37189.000000
...                  ...            ...           ...
96          21367.042857    9528.538333  20337.607681
97          28471.266970    5828.873333  26584.400833
98          12875.423182     217.428333  11820.590278
99            379.123659       0.000000    379.123659
Total       23674.667242   25696.678370  23843.950149

[81 rows x 3 columns]
