# Aggregating  DataFrames

En este notebook, se calcularan estadisticas de resumen en columnas del DataFrame y dominaras las estadisticas agrupadas y tablas dinamicas (pivot table)

## Estadisticas de Resumne

**Media y Mediana**

Las estadisticas resumidas son exactamente lo que parece: resumen muchus numeros en una sola estadistica. Por ejemplo, la media, la mediana, y el minimo, y la desviacion tipica (Desviacion estandar) son estadisticas de resumen. Calcular estadisticas de resumen te permite hacerte una mejor idea de tus datos, aunque sean muchos

**Instrucciones**

- Explorar el nuevo DataFrame imprimiendo las primeras Filas del DataFrame walmart_sales
- impimir informacion sobre las columnas
- Impirmir la media de la columna weekly_sales
- Imprimir la mediana de la columna weekly_sales

In [68]:
import pandas as pd

In [69]:
sales = pd.read_csv('./Data/walmart_sales.csv')

In [70]:
sales.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26-02-2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05-03-2010,1554806.68,0,46.5,2.625,211.350143,8.106


In [71]:
# Tamaño del DataFrame
sales.shape

(6435, 8)

In [72]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


In [73]:
sales.describe()

Unnamed: 0,Store,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
count,6435.0,6435.0,6435.0,6435.0,6435.0,6435.0,6435.0
mean,23.0,1046965.0,0.06993,60.663782,3.358607,171.578394,7.999151
std,12.988182,564366.6,0.255049,18.444933,0.45902,39.356712,1.875885
min,1.0,209986.2,0.0,-2.06,2.472,126.064,3.879
25%,12.0,553350.1,0.0,47.46,2.933,131.735,6.891
50%,23.0,960746.0,0.0,62.67,3.445,182.616521,7.874
75%,34.0,1420159.0,0.0,74.94,3.735,212.743293,8.622
max,45.0,3818686.0,1.0,100.14,4.468,227.232807,14.313


In [74]:
# Media de la columna Weekly_Sales
sales['Weekly_Sales'].mean()

np.float64(1046964.8775617715)

In [75]:
# Redondeado
round(sales['Weekly_Sales'].mean(),2)

np.float64(1046964.88)

In [76]:
# Mediana de la columna Weekly_Sales
sales['Weekly_Sales'].median()

np.float64(960746.04)

## Resumir Fechas

Las estadisticas sumatorias tambien pueden calcularse sobre columnas de fechas que tengan valores con el tipo de dato datetime64. Algunas estadisticas de resumen como la media no tienen mucho sentido en las fechas pero otras son extremadamente utiles como el minimo y el maximo, que te permiten ver que intervalo de tiempo abarcan tus datos.

**Instrucciones**

- Imprimir el maximo de la columna date
- Imprimir el minimo de la columna date
- 

In [77]:
sales["Date2"] = sales["Date"].astype("datetime64[ns]")

In [78]:
sales['Date'].max()

'31-12-2010'

In [79]:
sales['Date'].min()

'01-04-2011'

## Funciones agg

Aunque pandas y numpy tienen muchas funciones, a veces puedes necesitar una funcion diferente para resumir los datos

El metodo .add() Permite aplicar tus propias funciones personalizadas a un DataFrame, asi como aplicar funciones a mas de una columa de un DataFrame a la vez, haciendo que tus agregaciones sean muy eficientes.

```Python
df['colum'].agg(function)
```

En la funcion personalizada para este ejercicio "IQR" es la abreviatura del ranto intercuartilico, que es el precentil 75 menos el percentil 25. Es una alternativa a  la desviacion tipica (estandar) que resulta util si tus datos contienen valores atipicos

**Instrucciones**

1. Utiliza la funcion personalizada iqr definida por ti junto con el metodo .agg() para imprimir la iqr de la columan temperatura_c de sales
2. Actualiza la seleccion de columnas para utilizar la funcion personalizada iqr con .agg() para imprimir los IQR de las columnas temperature,fuel_price,unemployment, en orden
3. Actualiza las llamadas a la funcion agg, para obtener el IQR y la mediana en ese orden

In [80]:
# Metodo puede recibir parametros

In [81]:
import numpy as np


In [82]:

def iqr (columna):
    return columna.quantile(0.75) - columna.quantile(0.25)

sales['Temperature']


0       42.31
1       38.51
2       39.93
3       46.63
4       46.50
        ...  
6430    64.88
6431    64.89
6432    54.47
6433    56.47
6434    58.85
Name: Temperature, Length: 6435, dtype: float64

In [83]:
# Imprimir IQR de la columa temperature 
print(f'El IQR de Temperatura {sales['Temperature'].agg(iqr)}')

# Actualizar la impresion del IQR de temperature, Fuel_price, unemployment
print(sales[['Temperature','Fuel_Price','Unemployment']].agg(iqr))



El IQR de Temperatura 27.479999999999997
Temperature     27.480
Fuel_Price       0.802
Unemployment     1.731
dtype: float64


In [84]:

print(sales[['Temperature','Fuel_Price','Unemployment']].agg([iqr,np.median]))


        Temperature  Fuel_Price  Unemployment
iqr           27.48       0.802         1.731
median        62.67       3.445         7.874


  print(sales[['Temperature','Fuel_Price','Unemployment']].agg([iqr,np.median]))
  print(sales[['Temperature','Fuel_Price','Unemployment']].agg([iqr,np.median]))
  print(sales[['Temperature','Fuel_Price','Unemployment']].agg([iqr,np.median]))


In [85]:
print(sales[['Temperature','Fuel_Price','Unemployment']].agg([iqr,'median']))


        Temperature  Fuel_Price  Unemployment
iqr           27.48       0.802         1.731
median        62.67       3.445         7.874


In [86]:
print(sales[['Temperature','Fuel_Price','Unemployment']].agg([iqr,'median','mean','max','min']))


        Temperature  Fuel_Price  Unemployment
iqr       27.480000    0.802000      1.731000
median    62.670000    3.445000      7.874000
mean      60.663782    3.358607      7.999151
max      100.140000    4.468000     14.313000
min       -2.060000    2.472000      3.879000


In [87]:
def convertir_Fahrenheit_Celsius ( fahrenheit ):
    return (fahrenheit - 32) / 1.8

In [88]:
temp_min = sales['Temperature'].min()
temp_max = sales['Temperature'].max()

In [89]:
print(f'La tempertura {temp_min} en Centigrados es {convertir_Fahrenheit_Celsius(temp_min)}')

print(f'La tempertura {temp_max} en Centigrados es {convertir_Fahrenheit_Celsius(temp_max)}')


La tempertura -2.06 en Centigrados es -18.922222222222224
La tempertura 100.14 en Centigrados es 37.855555555555554


In [90]:
sales['Temperature_Celsious'] = sales[['Temperature']].agg(convertir_Fahrenheit_Celsius)

In [91]:
#sales_sort = sales.sort_values(['Temperature','Temperature_Celsious'],ascending=[False,False])

sales_sort = sales.sort_values(['Temperature','Temperature_Celsious'],ascending=[True,True])

In [92]:
sales_sort[['Temperature','Temperature_Celsious']]

Unnamed: 0,Temperature,Temperature_Celsious
910,-2.06,-18.922222
3626,5.54,-14.700000
2336,6.23,-14.316667
959,7.46,-13.633333
5628,9.51,-12.494444
...,...,...
3885,99.22,37.344444
5315,99.22,37.344444
4657,99.66,37.588889
4707,100.07,37.816667


## Estadísticas acumuladas

Las estadísticas acumulativas también pueden ser útiles para hacer un seguimiento de las estadísticas resumidas a lo largo del tiempo. En este ejercicio, calcularás la suma acumulada y el máximo acumulado de las ventas semanales de un departamento, lo que te permitirá identificar cuáles han sido las ventas totales hasta el momento, así como cuáles han sido las ventas semanales más elevadas hasta el momento.

**Instrucciones**

- Ordena las filas de sales_1_1 por la columna date en orden ascendente.
- Obtén la suma acumulada de weekly_sales y añádelo como una nueva columna de sales_1_1 llamada cum_weekly_sales.
- Obtén el máximo acumulado de weekly_sales, y añádelo como una columna llamada cum_max_sales.
- Imprime las columnas date, weekly_sales, cum_weekly_sales, y cum_max_sales.

In [93]:
#sales_1_1.shape

In [94]:
# Mostrar las que la store tenga sea 1
sales_1_1 =  sales[sales['Store']==1]

# Ordenar sales_1_1 por fecha
sales_1_1 = sales_1_1.sort_values('Date')
#sales_1_1 = sales_1_1.sort_values('Date',dayfirst=True)

# Obtener la suma acumulativa de weekly_sales y agregar una columna llamada cum_weekly_sales
sales_1_1['cum_Weekly_sales'] = sales_1_1['Weekly_Sales'].cumsum()

In [95]:
sales_1_1[['Weekly_Sales','cum_Weekly_sales']].head(5)

Unnamed: 0,Weekly_Sales,cum_Weekly_sales
60,1495064.75,1495064.75
121,1624477.58,3119542.33
73,1488538.09,4608080.42
34,1453329.5,6061409.92
108,1688420.76,7749830.68


In [96]:
sales_1_1.head(5)

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Date2,Temperature_Celsious,cum_Weekly_sales
60,1,01-04-2011,1495064.75,0,59.17,3.524,214.837166,7.682,2011-01-04,15.094444,1495064.75
121,1,01-06-2012,1624477.58,0,77.95,3.501,221.747214,7.143,2012-01-06,25.527778,3119542.33
73,1,01-07-2011,1488538.09,0,85.55,3.524,215.184137,7.962,2011-01-07,29.75,4608080.42
34,1,01-10-2010,1453329.5,0,71.89,2.603,211.671989,7.838,2010-01-10,22.161111,6061409.92
108,1,02-03-2012,1688420.76,0,60.96,3.63,220.848045,7.348,2012-02-03,16.088889,7749830.68


In [97]:
# Obtener el maximo acumulativo de weekly_sales y agregar la columna cum_max_sales

sales_1_1['cum_max_sales'] = sales_1_1['Weekly_Sales'].cummax()
sales_1_1.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Date2,Temperature_Celsious,cum_Weekly_sales,cum_max_sales
60,1,01-04-2011,1495064.75,0,59.17,3.524,214.837166,7.682,2011-01-04,15.094444,1495064.75,1495064.75
121,1,01-06-2012,1624477.58,0,77.95,3.501,221.747214,7.143,2012-01-06,25.527778,3119542.33,1624477.58
73,1,01-07-2011,1488538.09,0,85.55,3.524,215.184137,7.962,2011-01-07,29.75,4608080.42,1624477.58
34,1,01-10-2010,1453329.5,0,71.89,2.603,211.671989,7.838,2010-01-10,22.161111,6061409.92,1624477.58
108,1,02-03-2012,1688420.76,0,60.96,3.63,220.848045,7.348,2012-02-03,16.088889,7749830.68,1688420.76


In [98]:
# Mostrar las columnas calculadas
(sales_1_1[['Date','Weekly_Sales','cum_Weekly_sales','cum_max_sales']])

Unnamed: 0,Date,Weekly_Sales,cum_Weekly_sales,cum_max_sales
60,01-04-2011,1495064.75,1.495065e+06,1495064.75
121,01-06-2012,1624477.58,3.119542e+06,1624477.58
73,01-07-2011,1488538.09,4.608080e+06,1624477.58
34,01-10-2010,1453329.50,6.061410e+06,1624477.58
108,02-03-2012,1688420.76,7.749831e+06,1688420.76
...,...,...,...,...
25,30-07-2010,1371986.60,2.165614e+08,2387950.20
86,30-09-2011,1394561.83,2.179559e+08,2387950.20
99,30-12-2011,1497462.72,2.194534e+08,2387950.20
134,31-08-2012,1582083.40,2.210355e+08,2387950.20


## Recuento 

### Eliminar duplicados 

Eliminar duplicados es una habilidad esencial para obtener recuentos precisos, porque a menudo no quieres contar lo mismo varias veces. En este ejercicio, crearás algunos DataFrames nuevos utilizando valores únicos de sales.

**Instrucciones**

- Elimina las filas de sales con pares duplicados de store y type y guárdalas como store_types e imprime la cabecera.
- Elimina las filas de sales con pares duplicados de store y department y guárdalas como store_depts e imprime la cabecera.
- Subconjunta las filas que sean semanas de vacaciones utilizando la columna is_holiday, y elimina las dates duplicadas, guardándolas como holiday_dates.
- Selecciona la columna date de holiday_dates, e imprímela.

In [99]:
import pandas as pd 

sales_sub = pd.read_csv('./Data/sales_subset.csv',index_col=0)

In [100]:
sales_sub.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


In [101]:
sales_sub.shape

(10774, 9)

In [102]:
# Eliminar o hacer un drop a la combinacion de duplicados de store/type
store_types = sales_sub.drop_duplicates(subset=['store','type'])
store_types.head(5)

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
901,2,A,1,2010-02-05,35034.06,False,4.55,0.679451,8.324
1798,4,A,1,2010-02-05,38724.42,False,6.533333,0.686319,8.623
2699,6,A,1,2010-02-05,25619.0,False,4.683333,0.679451,7.259
3593,10,B,1,2010-02-05,40212.84,False,12.411111,0.782478,9.765


In [103]:
store_types.shape

(12, 9)

In [104]:
# Eliminar los duplicados de la combinacion de sotore/department

store_depts = sales_sub.drop_duplicates(subset=['store','department'])
store_depts.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
12,1,A,2,2010-02-05,50605.27,False,5.727778,0.679451,8.106
24,1,A,3,2010-02-05,13740.12,False,5.727778,0.679451,8.106
36,1,A,4,2010-02-05,39954.04,False,5.727778,0.679451,8.106
48,1,A,5,2010-02-05,32229.38,False,5.727778,0.679451,8.106


In [105]:
# Segmentar todas las filas donde el campo is_holiday sea True y eliminar los duplicados del campo Date en una sola linea y guardarlo en holiday_dates
holiday_dates = sales_sub[sales_sub['is_holiday']==True].drop_duplicates(subset = 'date')
holiday_dates[['date']]




Unnamed: 0,date
498,2010-09-10
691,2011-11-25
2315,2010-02-12
6735,2012-09-07
6810,2010-12-31
6815,2012-02-10
6820,2011-09-09


### Contar variables categóricas

Contar es una forma estupenda de tener una visión general de tus datos y de detectar curiosidades que de otro modo no notarías. En este ejercicio, contarás el número de cada tipo de tienda y el número de cada número de departamento utilizando los DataFrames que creaste en el ejercicio anterior:
```
# Drop duplicate store/type combinations
store_types = sales.drop_duplicates(subset=["store", "type"])

# Drop duplicate store/department combinations
store_depts = sales.drop_duplicates(subset=["store", "department"])

```
Los DataFrames store_types y store_depts que creaste en el último ejercicio están disponibles, y pandas se importa como pd.

**Instrucciones**

- Cuenta el número de tiendas de cada tienda type en store_types.
- Cuenta la proporción de tiendas de cada tienda type en store_types.
- Cuenta el número de tiendas de cada department en store_depts, ordenando los recuentos en orden descendente.
- Cuenta la proporción de tiendas de cada department en store_depts, ordenando las proporciones en orden descendente.


In [106]:
store_types.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
901,2,A,1,2010-02-05,35034.06,False,4.55,0.679451,8.324
1798,4,A,1,2010-02-05,38724.42,False,6.533333,0.686319,8.623
2699,6,A,1,2010-02-05,25619.0,False,4.683333,0.679451,7.259
3593,10,B,1,2010-02-05,40212.84,False,12.411111,0.782478,9.765


In [107]:
store_types[['type']]

Unnamed: 0,type
0,A
901,A
1798,A
2699,A
3593,B
4495,A
5408,A
6293,A
7199,A
8109,A


In [108]:
# Contar le numero de tiendas por cada type
store_counts = store_types['type'].value_counts()
store_counts

type
A    11
B     1
Name: count, dtype: int64

In [109]:
# Obtener la proporcion de tiendas de cada tipo
store_props = store_types['type'].value_counts(normalize=True) * 100
store_props

type
A    91.666667
B     8.333333
Name: proportion, dtype: float64

In [110]:
# Contar el numero de tiendas por cada departamento y ordenado
dept_counts_sorted = store_depts['department'].value_counts(sort=True)
dept_counts_sorted

department
1     12
2     12
3     12
4     12
5     12
      ..
37    10
48     8
50     6
39     4
43     2
Name: count, Length: 80, dtype: int64

In [111]:
# Obtener la proporcion de las tiendas en cada departamento y odenadas
dept_props_sorted = store_depts['department'].value_counts(normalize=True)


## Estadisticas resimidas agrupadas

### ¿Qué porcentaje de ventas se produjo en cada tipo de tienda?

Aunque .groupby() es útil, puedes calcular estadísticas de resumen agrupadas sin él.

Walmart distingue tres tipos de tiendas: "supercentros", "tiendas de descuento" y "mercados de barrio", codificados en este conjunto de datos como tipo "A", "B" y "C". En este ejercicio, calcularás las ventas totales realizadas en cada tipo de tienda, sin utilizar .groupby(). A continuación, puedes utilizar estas cifras para ver qué proporción de las ventas totales de Walmart se realizaron en cada tipo.

sales está disponible y pandas se importa como pd.

**Instrucciones**

- Calcula el total de weekly_sales en todo el conjunto de datos.
- Subconjunto para las tiendas type "A", y calcula sus ventas semanales totales.
- Haz lo mismo en las tiendas type "B" y type "C".
- Combina los resultados A/B/C en una lista, y divídela por sales_all para obtener la proporción de ventas por tipo.

In [112]:
# Calcular el total de ventas por semana
sale_all = sales_sub['weekly_sales'].sum()

In [113]:
sale_all

np.float64(256894718.89999998)

In [114]:
# Segmentar para los tipos A, calcular el total de ventas por semana 
sales_A = sales_sub[sales_sub['type']=='A']['weekly_sales'].sum()
sales_B = sales_sub[sales_sub['type']=='B']['weekly_sales'].sum()
sales_C = sales_sub[sales_sub['type']=='C']['weekly_sales'].sum()


In [115]:
sales_A

np.float64(233716315.01)

In [116]:
sales_B

np.float64(23178403.89)

In [117]:
sales_C

np.float64(0.0)

In [118]:
# Obtener la proporcion de cada tipo 
sales_props_by_type = [sales_A,sales_B,sales_C] /  sale_all * 100
sales_props_by_type

array([90.97746969,  9.02253031,  0.        ])

### Cálculos con .groupby()

El método .groupby() te facilita mucho la vida. En este ejercicio, realizarás los mismos cálculos que la última vez, excepto que utilizarás el método .groupby(). También realizarás cálculos sobre datos agrupados por dos variables para ver si las ventas difieren por tipo de tienda dependiendo de si es una semana festiva o no.

sales está disponible y pandas se carga como pd.

**Instrucciones**

- Agrupa sales por "type", toma la suma de "weekly_sales", y almacénala como sales_by_type.
- Calcula la proporción de ventas en cada tipo de tienda dividiendo por la suma de sales_by_type. Asignar a sales_propn_by_type.
- Agrupa sales por "type" y "is_holiday", toma la suma de weekly_sales, y almacénala como sales_by_type_is_holiday.

In [119]:
sales_new = pd.read_csv('./Data/sales_subset.csv',index_col=0)
# Agrupar por tipo: calcular el total de ventas semanales
sales_by_type = sales_new.groupby('type')['weekly_sales'].sum()

In [120]:
sales_by_type   

type
A    2.337163e+08
B    2.317840e+07
Name: weekly_sales, dtype: float64

In [121]:
# Obtener la proporcion de cada tipo
sales_by_type = sales_by_type / sum(sales_by_type) * 100
sales_by_type

type
A    90.97747
B     9.02253
Name: weekly_sales, dtype: float64

In [122]:
# Agrupar por type y por is_holiday: y calcular total de ventas semanales
sales_type_holiday = sales_sub.groupby(['type','is_holiday'])['weekly_sales'].sum()
sales_type_holiday


type  is_holiday
A     False         2.336927e+08
      True          2.360181e+04
B     False         2.317678e+07
      True          1.621410e+03
Name: weekly_sales, dtype: float64

In [123]:
sales_sub

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.50,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.90,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.050000,0.714586,7.808
...,...,...,...,...,...,...,...,...,...
10769,39,A,99,2011-12-09,895.00,False,9.644444,0.834256,7.716
10770,39,A,99,2012-02-03,350.00,False,15.938889,0.887619,7.244
10771,39,A,99,2012-06-08,450.00,False,27.288889,0.911922,6.989
10772,39,A,99,2012-07-13,0.06,False,25.644444,0.860145,6.623


### Múltiples resúmenes agrupados

Anteriormente en este capítulo, has visto que el método .agg() es útil para calcular múltiples estadísticos sobre múltiples variables. También funciona con datos agrupados. NumPy, que se importa como np, tiene muchas funciones estadísticas de resumen diferentes, entre las que se incluyen: np.min, np.max, np.mean, y np.median.

sales está disponible y pandas se importa como pd.

**Instrucciones**

- Importa numpy con el alias np.
- Obtén el mínimo, el máximo, la media y la mediana de weekly_sales para cada tipo de tienda utilizando .groupby() y .agg(). Guárdalo como . ¡Asegúrate de utilizar las funciones de numpy!
- Obtén el mínimo, el máximo, la media y la mediana de unemployment y fuel_price_usd_per_l para cada tipo de tienda. Guárdalo como unemp_fuel_stats.

In [124]:
# Para cada tipo de tienda, vamos a hacer una agregacion para weekle_sales: vamosa obtener min, max, la media 

sales_stats = sales_new.groupby('type')['weekly_sales'].agg([np.min,np.max,np.median,np.mean])
sales_stats

  sales_stats = sales_new.groupby('type')['weekly_sales'].agg([np.min,np.max,np.median,np.mean])
  sales_stats = sales_new.groupby('type')['weekly_sales'].agg([np.min,np.max,np.median,np.mean])
  sales_stats = sales_new.groupby('type')['weekly_sales'].agg([np.min,np.max,np.median,np.mean])
  sales_stats = sales_new.groupby('type')['weekly_sales'].agg([np.min,np.max,np.median,np.mean])


Unnamed: 0_level_0,min,max,median,mean
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,-1098.0,293966.05,11943.92,23674.667242
B,-798.0,232558.51,13336.08,25696.67837


In [125]:
# Para cada tipo de tienda, vamos a hacer una agregacion para weekle_sales: vamosa obtener min, max, la media 

sales_stats = sales_new.groupby('type')['weekly_sales'].agg(['min','max','median','mean'])
sales_stats

Unnamed: 0_level_0,min,max,median,mean
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,-1098.0,293966.05,11943.92,23674.667242
B,-798.0,232558.51,13336.08,25696.67837


In [126]:
# Para cada tipo de tienda, vamos a aplicar agregacion para los campos unemployment y fuel_price_usd_per: obtener min, max, mean y media

unemp_feul_stats = sales_new.groupby('type',)[['unemployment','fuel_price_usd_per_l']].agg(['min','max','median','mean'])
unemp_feul_stats

Unnamed: 0_level_0,unemployment,unemployment,unemployment,unemployment,fuel_price_usd_per_l,fuel_price_usd_per_l,fuel_price_usd_per_l,fuel_price_usd_per_l
Unnamed: 0_level_1,min,max,median,mean,min,max,median,mean
type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.879,8.992,8.067,7.972611,0.664129,1.10741,0.735455,0.744619
B,7.17,9.765,9.199,9.279323,0.760023,1.107674,0.803348,0.805858


## Pivot tables (Tablas Dinamicas)

### Pivotar sobre una variable

Las tablas dinámicas son la forma estándar de agregar datos en las hojas de cálculo.

En pandas, las tablas dinámicas son esencialmente otra forma de realizar cálculos agrupados. Es decir, el método .pivot_table() es una alternativa a .groupby().

En este ejercicio, realizarás cálculos utilizando .pivot_table() para reproducir los cálculos que realizaste en la lección anterior utilizando .groupby().

sales está disponible y pandas se importa como pd.

**Instrucciones**

- Obtén la media weekly_sales mediante type utilizando .pivot_table() y almacénala como mean_sales_by_type.
- Obtén la media y la mediana (utilizando funciones NumPy) de weekly_sales por type utilizando .pivot_table() y almacénalas como mean_med_sales_by_type.
- Obtén la media de weekly_sales mediante type y is_holiday mediante .pivot_table() y guárdala como mean_sales_by_type_holiday.

In [127]:
sales = pd.read_csv('./Data/sales_subset.csv', index_col=0)

In [128]:
sales.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


In [129]:
# Pivot
mean_sales_by_type = sales.pivot_table(values='weekly_sales',index='type')

In [130]:
mean_sales_by_type

Unnamed: 0_level_0,weekly_sales
type,Unnamed: 1_level_1
A,23674.667242
B,25696.67837


In [131]:
# Pivor de la media y mediana de weekly_sales por cada tipo de tienda
mean_med_sales_by_type = sales.pivot_table(values='weekly_sales',index='type',aggfunc=['mean','median'])

In [132]:
mean_med_sales_by_type

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,weekly_sales,weekly_sales
type,Unnamed: 1_level_2,Unnamed: 2_level_2
A,23674.667242,11943.92
B,25696.67837,13336.08


In [133]:
# Pivot para la media de weekly_sales por tipo de tienda y holiday
mean_sales_by_type_holiday = sales.pivot_table(values='weekly_sales',index='type',columns='is_holiday',aggfunc=['mean','median'])

In [134]:
mean_sales_by_type_holiday

Unnamed: 0_level_0,mean,mean,median,median
is_holiday,False,True,False,True
type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,23768.583523,590.04525,12028.955,37.5
B,25751.980533,810.705,13348.68,810.705


## Rellena los valores que faltan y suma valores con tablas dinámicas

El método .pivot_table() tiene varios argumentos útiles, como fill_value y margins.

**fill_value** sustituye los valores que faltan por un valor real (lo que se conoce como imputación). Con qué sustituir los valores ausentes es un tema lo suficientemente amplio como para tener su propio curso(Cómo tratar los datos ausentes en Python), pero lo más sencillo es sustituirlos por un valor ficticio.

**margins** es un atajo para cuando pivotas por dos variables, pero también quieres pivotar por cada una de esas variables por separado: da los totales de fila y columna del contenido de la tabla pivotante.

En este ejercicio, practicarás el uso de estos argumentos para mejorar tus habilidades con las tablas dinámicas, ¡lo que te ayudará a hacer números de forma más eficiente!

sales está disponible y pandas se importa como pd.

**Instrucciones**

1. Imprime la media weekly_sales por department y type, completando los valores que falten con 0.
2. Imprime la media weekly_sales por department y type, completando los valores que falten con 0 y sumando todas las filas y columnas.

In [135]:
sales.head()

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


In [139]:
# 1. Imprime la media weekly_sales por department y type, completando los valores que falten con 0.

sales.pivot_table(values='weekly_sales', index='department', columns='type',fill_value=0)

type,A,B
department,Unnamed: 1_level_1,Unnamed: 2_level_1
1,30961.725379,44050.626667
2,67600.158788,112958.526667
3,17160.002955,30580.655000
4,44285.399091,51219.654167
5,34821.011364,63236.875000
...,...,...
95,123933.787121,77082.102500
96,21367.042857,9528.538333
97,28471.266970,5828.873333
98,12875.423182,217.428333


In [141]:
# 2. Imprime la media weekly_sales por department y type, completando los valores que falten con 0 y sumando todas las filas y columnas.
sales.pivot_table(values='weekly_sales', index='department', columns='type',fill_value=0,margins=True)

type,A,B,All
department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,30961.725379,44050.626667,32052.467153
2,67600.158788,112958.526667,71380.022778
3,17160.002955,30580.655000,18278.390625
4,44285.399091,51219.654167,44863.253681
5,34821.011364,63236.875000,37189.000000
...,...,...,...
96,21367.042857,9528.538333,20337.607681
97,28471.266970,5828.873333,26584.400833
98,12875.423182,217.428333,11820.590278
99,379.123659,0.000000,379.123659
