# Aggregating DataFrames

En este notebook, se calcularan estadisticas de resumen en columnas del DataFrame y dominaras las estadisticas agrupadas y tablas dinamicas (pivot table)

## Estadisticas de Resumen

**Media y Mediana**

Las estadisticas resumidas son exactamente lo que parecen: resumen muchos números en una sola estadistica. Por ejemplo, la media, la mediana, el minimo, y la desviación tipica (Deviación estandar) son estadisticas de resumen. Calcular estadisticas de resumen te permite hacerte una mejor idea de tus datos, aunque sean muchos.

**Instrucciones**

- Explorar el nuevo DataFrame imprimiendo las primeras filas del DataFrame walmart_sales
- Imprimir información sobre las columnas 
- Imprimir la media de la columna weekly_sales
-- Imprimir la mediana de la columna weekly_sales

In [1]:
import pandas as pd

In [2]:
sales = pd.read_csv('./Datasets/walmart_sales.csv')
sales.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26-02-2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05-03-2010,1554806.68,0,46.5,2.625,211.350143,8.106


In [3]:
sales.shape # Tamaño del dataframe

(6435, 8)

In [4]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


In [5]:
sales.describe()

Unnamed: 0,Store,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
count,6435.0,6435.0,6435.0,6435.0,6435.0,6435.0,6435.0
mean,23.0,1046965.0,0.06993,60.663782,3.358607,171.578394,7.999151
std,12.988182,564366.6,0.255049,18.444933,0.45902,39.356712,1.875885
min,1.0,209986.2,0.0,-2.06,2.472,126.064,3.879
25%,12.0,553350.1,0.0,47.46,2.933,131.735,6.891
50%,23.0,960746.0,0.0,62.67,3.445,182.616521,7.874
75%,34.0,1420159.0,0.0,74.94,3.735,212.743293,8.622
max,45.0,3818686.0,1.0,100.14,4.468,227.232807,14.313


In [6]:
# Media de la columna Weekly_Sales
round(sales['Weekly_Sales'].mean(), 2)


np.float64(1046964.88)

In [7]:
# Mediana de la columna Weekly_Sales
sales['Weekly_Sales'].median()

np.float64(960746.04)

## Resumir Fechas

Las estadisticas sumarias tambien pueden calcularse sobre columnas de fecha que tengan valores con el tipo de dato datetime64. Algunas estaditicas de resumen como la media no tienen mucho sentido en las fechas, pero otras son extremadamente utiles como, por ejemplo, el minimo y el maximo, que te permiten ver que intervalo de tiempo abarcan tus datos.

**Instrucciones**

- Imprimir el maximo de la columna date
- Imprimir el minimode la columna date

In [8]:
#sales["Date2"] = sales["Date"].astype("datetime64[ns]")

In [9]:
sales['Date'].max()

'31-12-2010'

In [10]:
sales['Date'].min()

'01-04-2011'

## Función agg

Aunque pandas y numpy tienen muchas funciones, a veces puedes necesitar una función diferente para resumir los datos.

El método .agg() Permite aplicar tus propias funciones personalizadas a un DataFrame, así como aplicar funciones a mas de una columna de un DataFrame a la vez, haciendo que tus agragaciones sean muy eficientes.

`df['column'].agg(function)`

En la función personalizada para este ejercicio "IQR" es la abreviatura del rango intercuartilico, que es el percentil 75 menos el percentil 25. Es una alternativa a la desviación tipica (estandar) que resulta útil si tus datos contienen valores atípicos.

**Instrucciones**

1. Utiliza la función personaliza iqr definida por ti junto con el método .agg() para imprimir la IQR de la columna temperature_c de sales
2. Actualiza la selección de columnas para utilizar la función personalizada iqr con agg() para imprimir los IQR de las columnas temperature, fuel_price, unemployment, en orden.
3. Actualiza las llamadas a la función agg, para obtener el IQR y la median en ese orden

In [11]:
import numpy as np

def iqr (columna):
    return columna.quantile(0.75) - columna.quantile(0.25)

In [12]:
#imprimir IQR de la columna temperature

print(f'El IQR de Temperatura {sales['Temperature'].agg(iqr)}')

# Actualizar la impresión del IQR de temperature, Fuel_price, unemployment
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg(iqr))


El IQR de Temperatura 27.479999999999997
Temperature     27.480
Fuel_Price       0.802
Unemployment     1.731
dtype: float64


In [13]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median ]))

        Temperature  Fuel_Price  Unemployment
iqr           27.48       0.802         1.731
median        62.67       3.445         7.874


  print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median ]))
  print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median ]))
  print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median ]))


In [14]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, 'median' ]))

        Temperature  Fuel_Price  Unemployment
iqr           27.48       0.802         1.731
median        62.67       3.445         7.874


In [15]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, 'median', 'mean', 'max', 'min']))

        Temperature  Fuel_Price  Unemployment
iqr       27.480000    0.802000      1.731000
median    62.670000    3.445000      7.874000
mean      60.663782    3.358607      7.999151
max      100.140000    4.468000     14.313000
min       -2.060000    2.472000      3.879000


In [16]:
def convertirACentigrados ( faren ):
     return (faren - 32) / 1.8

In [17]:
temp_min = sales['Temperature'].min()
temp_max = sales['Temperature'].max()

In [18]:
print(f'La temperatura {temp_min} en Centigrados es {convertirACentigrados(temp_min)}')
print(f'La temperatura {temp_max} en Centigrados es {convertirACentigrados(temp_max)}')

La temperatura -2.06 en Centigrados es -18.922222222222224
La temperatura 100.14 en Centigrados es 37.855555555555554


In [19]:
print(sales[['Temperature']].agg(convertirACentigrados))

      Temperature
0        5.727778
1        3.616667
2        4.405556
3        8.127778
4        8.055556
...           ...
6430    18.266667
6431    18.272222
6432    12.483333
6433    13.594444
6434    14.916667

[6435 rows x 1 columns]


In [20]:
sales['Temperature_Celsious'] = sales[['Temperature']].agg(convertirACentigrados)

In [21]:
sales_sort = sales.sort_values(['Temperature', 'Temperature_Celsious'], ascending=[True, True])

In [22]:
sales_sort[['Temperature', 'Temperature_Celsious']]

Unnamed: 0,Temperature,Temperature_Celsious
910,-2.06,-18.922222
3626,5.54,-14.700000
2336,6.23,-14.316667
959,7.46,-13.633333
5628,9.51,-12.494444
...,...,...
3885,99.22,37.344444
5315,99.22,37.344444
4657,99.66,37.588889
4707,100.07,37.816667


## Estadísticas Acumuladas

Las estadísticas acumulativas también pueden ser útiles para hacer un seguimiento de las estadísticas resumidas a lo largo del tiempo. En este ejercicio, calcularás la suma acumulada y el máximo acumulado de las ventas semanales de un departamento, lo que te permitirá identificar cuáles han sido las ventas totales hasta el momento, así como cuáles han sido las ventas semanales más elevadas hasta el momento.

**Instrucciones**

- Ordena las filas de sales_1_1 por la columna date en orden ascendente.
- Obtén la suma acumulada de weekly_sales y añádelo como una nueva columna de sales_1_1 llamada cum_weekly_sales.
- Obtén el máximo acumulado de weekly_sales, y añádelo como una columna llamada cum_max_sales.
- Imprime las columnas date, weekly_sales, cum_weekly_sales, y cum_max_sales.



In [26]:
sales.columns

Index(['Store', 'Date', 'Weekly_Sales', 'Holiday_Flag', 'Temperature',
       'Fuel_Price', 'CPI', 'Unemployment', 'Temperature_Celsious'],
      dtype='object')

In [None]:
sales_1_1 = sales[sales['Store'] == 1]

# Ordenar sales_1_1 por fecha
sales_1_1 = sales_1_1.sort_values('Date', dayfirst=True)

# Obtenerla suma acumulativa de weekly_sales y agregar
# una columna llamada cum_weekly_sales 

sales_1_1['cum_weekly_sales'] = sales_1_1['Weekly_Sales'].cumsum()

In [28]:
sales_1_1[['Weekly_Sales', 'cum_weekly_sales']]

Unnamed: 0,Weekly_Sales,cum_weekly_sales
60,1495064.75,1.495065e+06
121,1624477.58,3.119542e+06
73,1488538.09,4.608080e+06
34,1453329.50,6.061410e+06
108,1688420.76,7.749831e+06
...,...,...
25,1371986.60,2.165614e+08
86,1394561.83,2.179559e+08
99,1497462.72,2.194534e+08
134,1582083.40,2.210355e+08


In [29]:
sales_1_1.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Temperature_Celsious,cum_weekly_sales
60,1,01-04-2011,1495064.75,0,59.17,3.524,214.837166,7.682,15.094444,1495064.75
121,1,01-06-2012,1624477.58,0,77.95,3.501,221.747214,7.143,25.527778,3119542.33
73,1,01-07-2011,1488538.09,0,85.55,3.524,215.184137,7.962,29.75,4608080.42
34,1,01-10-2010,1453329.5,0,71.89,2.603,211.671989,7.838,22.161111,6061409.92
108,1,02-03-2012,1688420.76,0,60.96,3.63,220.848045,7.348,16.088889,7749830.68


In [30]:
# Obtener el maximo acumulativo de weekly_sales y agregar 
# cum_max_sales

sales_1_1['cum_max_sales'] = sales_1_1['Weekly_Sales'].cummax()
sales_1_1.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Temperature_Celsious,cum_weekly_sales,cum_max_sales
60,1,01-04-2011,1495064.75,0,59.17,3.524,214.837166,7.682,15.094444,1495064.75,1495064.75
121,1,01-06-2012,1624477.58,0,77.95,3.501,221.747214,7.143,25.527778,3119542.33,1624477.58
73,1,01-07-2011,1488538.09,0,85.55,3.524,215.184137,7.962,29.75,4608080.42,1624477.58
34,1,01-10-2010,1453329.5,0,71.89,2.603,211.671989,7.838,22.161111,6061409.92,1624477.58
108,1,02-03-2012,1688420.76,0,60.96,3.63,220.848045,7.348,16.088889,7749830.68,1688420.76


In [32]:
# Mostrar las columnas calculadas
sales_1_1[['Date', 'Weekly_Sales', 'cum_weekly_sales', 'cum_max_sales' ]]

Unnamed: 0,Date,Weekly_Sales,cum_weekly_sales,cum_max_sales
60,01-04-2011,1495064.75,1.495065e+06,1495064.75
121,01-06-2012,1624477.58,3.119542e+06,1624477.58
73,01-07-2011,1488538.09,4.608080e+06,1624477.58
34,01-10-2010,1453329.50,6.061410e+06,1624477.58
108,02-03-2012,1688420.76,7.749831e+06,1688420.76
...,...,...,...,...
25,30-07-2010,1371986.60,2.165614e+08,2387950.20
86,30-09-2011,1394561.83,2.179559e+08,2387950.20
99,30-12-2011,1497462.72,2.194534e+08,2387950.20
134,31-08-2012,1582083.40,2.210355e+08,2387950.20


## Recuento

### Eliminar Duplicados  

Eliminar duplicados es una habilidad esencial para obtener recuentos precisos, porque a menudo no quieres contar lo mismo varias veces. En este ejercicio, crearás algunos DataFrames nuevos utilizando valores únicos de sales.

**Instrucciones**

- Elimina las filas de sales con pares duplicados de store y type y guárdalas como store_types e imprime la cabecera.
- Elimina las filas de sales con pares duplicados de store y department y guárdalas como store_depts e imprime la cabecera.
- Subconjunta las filas que sean semanas de vacaciones utilizando la columna is_holiday, y elimina las dates duplicadas, guardándolas como holiday_dates.
- Selecciona la columna date de holiday_dates, e imprímela.


In [35]:
import pandas as pd
sales_sub = pd.read_csv('./Datasets/sales_subset.csv', index_col=0)

In [36]:
sales_sub.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


In [37]:
sales_sub.shape

(10774, 9)

In [38]:
# Eliminar (drop) la combinación de duplicados de store/type
store_types = sales_sub.drop_duplicates( subset=['store', 'type'])
store_types.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
901,2,A,1,2010-02-05,35034.06,False,4.55,0.679451,8.324
1798,4,A,1,2010-02-05,38724.42,False,6.533333,0.686319,8.623
2699,6,A,1,2010-02-05,25619.0,False,4.683333,0.679451,7.259
3593,10,B,1,2010-02-05,40212.84,False,12.411111,0.782478,9.765


In [39]:
# Eliminar los duplicados de la combinación de store/department
store_depts = sales_sub.drop_duplicates(subset=['store','department'])
store_depts.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
12,1,A,2,2010-02-05,50605.27,False,5.727778,0.679451,8.106
24,1,A,3,2010-02-05,13740.12,False,5.727778,0.679451,8.106
36,1,A,4,2010-02-05,39954.04,False,5.727778,0.679451,8.106
48,1,A,5,2010-02-05,32229.38,False,5.727778,0.679451,8.106


In [41]:
sales_sub.columns

Index(['store', 'type', 'department', 'date', 'weekly_sales', 'is_holiday',
       'temperature_c', 'fuel_price_usd_per_l', 'unemployment'],
      dtype='object')

In [45]:
# Segmentar las filas donde el campo holiday_is es True y eliminar
# las fechas duplicadas 

holiday_dates = sales_sub[sales_sub['is_holiday'] == True].drop_duplicates(subset='date')
holiday_dates[['date']]

Unnamed: 0,date
498,2010-09-10
691,2011-11-25
2315,2010-02-12
6735,2012-09-07
6810,2010-12-31
6815,2012-02-10
6820,2011-09-09


### Contar variables categóricas

Contar es una forma estupenda de tener una visión general de tus datos y de detectar curiosidades que de otro modo no notarías. En este ejercicio, contarás el número de cada tipo de tienda y el número de cada número de departamento utilizando los DataFrames que creaste en el ejercicio anterior:
```
# Drop duplicate store/type combinations
store_types = sales.drop_duplicates(subset=["store", "type"])

# Drop duplicate store/department combinations
store_depts = sales.drop_duplicates(subset=["store", "department"])

```
Los DataFrames store_types y store_depts que creaste en el último ejercicio están disponibles, y pandas se importa como pd.

**Instrucciones**

- Cuenta el número de tiendas de cada tienda type en store_types.
- Cuenta la proporción de tiendas de cada tienda type en store_types.
- Cuenta el número de tiendas de cada department en store_depts, ordenando los recuentos en orden descendente.
- Cuenta la proporción de tiendas de cada department en store_depts, ordenando las proporciones en orden descendente.

In [47]:
store_types.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
901,2,A,1,2010-02-05,35034.06,False,4.55,0.679451,8.324
1798,4,A,1,2010-02-05,38724.42,False,6.533333,0.686319,8.623
2699,6,A,1,2010-02-05,25619.0,False,4.683333,0.679451,7.259
3593,10,B,1,2010-02-05,40212.84,False,12.411111,0.782478,9.765


In [48]:
store_types[['type']]

Unnamed: 0,type
0,A
901,A
1798,A
2699,A
3593,B
4495,A
5408,A
6293,A
7199,A
8109,A


In [46]:
# contar el número de tienda de cada tipo
store_counts = store_types['type'].value_counts()
store_counts



type
A    11
B     1
Name: count, dtype: int64

In [52]:
# Obtener la proporción de tiendas de cada tipo
store_props = store_types['type'].value_counts(normalize=True) * 100
store_props

type
A    91.666667
B     8.333333
Name: proportion, dtype: float64

In [54]:
# Contar el numero de tiendas por cada departamento y ordenado
dept_counts_sorted = store_depts['department'].value_counts(sort=True)
dept_counts_sorted


department
1     12
2     12
3     12
4     12
5     12
      ..
37    10
48     8
50     6
39     4
43     2
Name: count, Length: 80, dtype: int64

In [56]:
# Obtener la proporción de las tiendas en cada departamento y ordenadas
dept_props_sorted = store_depts['department'].value_counts( normalize=True,sort=True) * 100
dept_props_sorted

department
1     1.291712
2     1.291712
3     1.291712
4     1.291712
5     1.291712
        ...   
37    1.076426
48    0.861141
50    0.645856
39    0.430571
43    0.215285
Name: proportion, Length: 80, dtype: float64

## Estadísticas resumidas Agrupadas

### ¿Qué porcentaje de ventas se produjo en cada tipo de tienda?

Aunque .groupby() es útil, puedes calcular estadísticas de resumen agrupadas sin él.

Walmart distingue tres tipos de tiendas: "supercentros", "tiendas de descuento" y "mercados de barrio", codificados en este conjunto de datos como tipo "A", "B" y "C". En este ejercicio, calcularás las ventas totales realizadas en cada tipo de tienda, sin utilizar .groupby(). A continuación, puedes utilizar estas cifras para ver qué proporción de las ventas totales de Walmart se realizaron en cada tipo.

sales está disponible y pandas se importa como pd.

**Instrucciones**

- Calcula el total de weekly_sales en todo el conjunto de datos.
- Subconjunto para las tiendas type "A", y calcula sus ventas semanales totales.
- Haz lo mismo en las tiendas type "B" y type "C".
- Combina los resultados A/B/C en una lista, y divídela por sales_all para obtener la proporción de ventas por tipo.

In [57]:
# Calcular el total de ventas por semana
sales_all = sales_sub['weekly_sales'].sum()
sales_all

np.float64(256894718.89999998)

In [58]:
# Segmentar para los tipos A, calcular el total de ventas por semana
sales_A = sales_sub[sales_sub['type'] == 'A']['weekly_sales'].sum()
sales_A

np.float64(233716315.01)

In [59]:
# Segmentar para los tipos B, calcular el total de ventas por semana
sales_B = sales_sub[sales_sub['type'] == 'B']['weekly_sales'].sum()
sales_B

np.float64(23178403.89)

In [60]:
# Segmentar para los tipos C, calcular el total de ventas por semana
sales_C = sales_sub[sales_sub['type'] == 'C']['weekly_sales'].sum()
sales_C

np.float64(0.0)

In [62]:
# Obtener la proporción de cada tipo
sales_props_by_type = [sales_A, sales_B, sales_C] / sales_all * 100
sales_props_by_type

array([90.97746969,  9.02253031,  0.        ])