## Media y mediana
Las estadísticas de resumen son exactamente lo que su nombre implica - resumen muchos números en una estadística. Por ejemplo, **media**, **mediana**, **mínimo**, **máximo** y **desviación estándar** son estadísticas de resumen. Calcular estadísticas de resumen te permite conocer mejor tus datos, incluso si hay muchos.

In [None]:
# Imprime el encabezado del DataFrame sales
print(sales.head())

# Imprime la información sobre el DataFrame sales
print(sales.info())

# Imprime la media de weekly_sales
print(sales["weekly_sales"].mean())

# Imprime la mediana de weekly_sales
print(sales["weekly_sales"].median())

```python
   store type  department       date  weekly_sales  is_holiday  temperature_c  fuel_price_usd_per_l  unemployment
0      1    A           1 2010-02-05      24924.50       False          5.728                 0.679         8.106
1      1    A           1 2010-03-05      21827.90       False          8.056                 0.693         8.106
2      1    A           1 2010-04-02      57258.43       False         16.817                 0.718         7.808
3      1    A           1 2010-05-07      17413.94       False         22.528                 0.749         7.808
4      1    A           1 2010-06-04      17558.09       False         27.050                 0.715         7.808

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10774 entries, 0 to 10773
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   store                 10774 non-null  int64         
 1   type                  10774 non-null  object        
 2   department            10774 non-null  int32         
 3   date                  10774 non-null  datetime64[ns]
 4   weekly_sales          10774 non-null  float64       
 5   is_holiday            10774 non-null  bool          
 6   temperature_c         10774 non-null  float64       
 7   fuel_price_usd_per_l  10774 non-null  float64       
 8   unemployment          10774 non-null  float64       
dtypes: bool(1), datetime64[ns](1), float64(4), int32(1), int64(1), object(1)
memory usage: 641.9+ KB
None

23843.95014850566

12049.064999999999

## Resumiendo fechas
Las estadísticas de resumen también se pueden calcular en columnas de fechas que tienen valores con el tipo de datos ```datetime64```. Algunas estadísticas de resumen, como la media, no tienen mucho sentido en las fechas, pero otras son súper útiles, por ejemplo, mínimo y máximo, que te permiten ver qué rango de tiempo cubren tus datos.

In [None]:
# Imprime el máximo de la columna date
print(sales["date"].max())

# Imprime el mínimo de la columna date
print(sales["date"].min())

```python
2012-10-26 00:00:00
2010-02-05 00:00:00

## Resúmenes eficientes
Si bien ```pandas``` y ```NumPy``` tienen toneladas de funciones, a veces, es posible que necesites una función diferente para resumir tus datos.

El método ```.agg()``` te permite aplicar tus propias funciones personalizadas a un ```DataFrame```, así como aplicar funciones a más de una columna de un ```DataFrame``` a la vez, haciendo que tus agregaciones sean super eficientes. Por ejemplo,
```python
df['column'].agg(function)
```
En la función personalizada para este ejercicio, ```"IQR"``` es la abreviatura de rango inter-cuartil, que es el percentil 75 menos el percentil 25. Es una alternativa a la desviación estándar que es útil si los datos contienen valores atípicos.

In [None]:
# Una función IQR personalizada
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)
    
# Imprime IQR de la columna temperature_c
print(sales["temperature_c"].agg(iqr))

```python
16.583333333333336

In [None]:
# Una función IQR personalizada
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

# Actualiza el código para imprimir IQR de temperature_c, fuel_price_usd_per_l y unemployment
print(sales[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg(iqr))

```python
temperature_c           16.583
fuel_price_usd_per_l     0.073
unemployment             0.565
dtype: float64

In [None]:
# Importa NumPy y crea una función IQR personalizada
import numpy as np
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

# Actualiza el código para imprimir IQR y np.median de temperature_c, fuel_price_usd_per_l, y unemployment
print(sales[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg([iqr, np.median]))

```python
        temperature_c  fuel_price_usd_per_l  unemployment
iqr            16.583                 0.073         0.565
median         16.967                 0.743         8.099

## Estadísticas acumuladas
Las estadísticas acumuladas también pueden ser útiles para dar seguimiento de las estadísticas de resumen a lo largo del tiempo. En este ejercicio, calcularás la suma acumulada y el máximo acumulativo de las ventas semanales de un departamento, lo que te permitirá identificar cuáles fueron las ventas totales hasta ahora, así como cuáles fueron las ventas semanales más altas hasta ahora.

Se ha creado para ti un DataFrame llamado ```sales_1_1```, que contiene los datos de ventas del departamento 1 de la tienda 1. 

In [None]:
# Ordena sales_1_1 por date
sales_1_1 = sales_1_1.sort_values("date")

# Obtén la suma acumulada de weekly_sales, y añádela como cum_weekly_sales
sales_1_1["cum_weekly_sales"] = sales_1_1["weekly_sales"].cumsum()

# Obtén el máximo acumulativo de weekly_sales y añádelo como cum_max_sales
sales_1_1["cum_max_sales"] = sales_1_1["weekly_sales"].cummax()

# Consulta las columnas que calculaste
print(sales_1_1[["date", "weekly_sales", "cum_weekly_sales", "cum_max_sales"]])

```python
         date  weekly_sales  cum_weekly_sales  cum_max_sales
0  2010-02-05      24924.50          24924.50       24924.50
1  2010-03-05      21827.90          46752.40       24924.50
2  2010-04-02      57258.43         104010.83       57258.43
3  2010-05-07      17413.94         121424.77       57258.43
4  2010-06-04      17558.09         138982.86       57258.43
5  2010-07-02      16333.14         155316.00       57258.43
6  2010-08-06      17508.41         172824.41       57258.43
7  2010-09-03      16241.78         189066.19       57258.43
8  2010-10-01      20094.19         209160.38       57258.43
9  2010-11-05      34238.88         243399.26       57258.43
10 2010-12-03      22517.56         265916.82       57258.43
11 2011-01-07      15984.24         281901.06       57258.43

## Eliminando duplicados
Eliminar duplicados es una habilidad esencial para obtener recuentos precisos porque, a menudo, no quieres contar lo mismo varias veces. En este ejercicio, crearás algunos DataFrames nuevos utilizando valores únicos de sales.

In [None]:
# Elimina combinaciones duplicadas de store/type
store_types = sales.drop_duplicates(subset=["store", "type"])
print(store_types.head())

# Elimina combinaciones duplicadas de store/department
store_depts = sales.drop_duplicates(subset=["store", "department"])
print(store_depts.head())

# Selecciona las filas donde is_holiday es True y elimina fechas duplicadas
holiday_dates = sales[sales["is_holiday"] == True].drop_duplicates(subset="date")

# Imprime la columna date de holiday_dates
print(holiday_dates["date"])

```python
      store type  department       date  weekly_sales  is_holiday  temperature_c  fuel_price_usd_per_l  unemployment
0         1    A           1 2010-02-05      24924.50       False          5.728                 0.679         8.106
901       2    A           1 2010-02-05      35034.06       False          4.550                 0.679         8.324
1798      4    A           1 2010-02-05      38724.42       False          6.533                 0.686         8.623
2699      6    A           1 2010-02-05      25619.00       False          4.683                 0.679         7.259
3593     10    B           1 2010-02-05      40212.84       False         12.411                 0.782         9.765

    store type  department       date  weekly_sales  is_holiday  temperature_c  fuel_price_usd_per_l  unemployment
0       1    A           1 2010-02-05      24924.50       False          5.728                 0.679         8.106
12      1    A           2 2010-02-05      50605.27       False          5.728                 0.679         8.106
24      1    A           3 2010-02-05      13740.12       False          5.728                 0.679         8.106
36      1    A           4 2010-02-05      39954.04       False          5.728                 0.679         8.106
48      1    A           5 2010-02-05      32229.38       False          5.728                 0.679         8.106

498    2010-09-10
691    2011-11-25
2315   2010-02-12
6735   2012-09-07
6810   2010-12-31
6815   2012-02-10
6820   2011-09-09

## Contando variables categóricas
Contar es una excelente manera de obtener una visión general de tus datos y detectar curiosidades que de otra manera no notarías. En este ejercicio, contarás el número de cada tipo de tienda y el número de cada departamento utilizando los DataFrames que creaste en el ejercicio anterior:
```python
# Elimina combinaciones duplicadas de store/type
store_types = sales.drop_duplicates(subset=["store", "type"])

# Elimina combinaciones duplicadas de store/department
store_depts = sales.drop_duplicates(subset=["store", "department"])


In [None]:
# Cuenta el número de tiendas de cada type
store_counts = store_types["type"].value_counts()
print(store_counts)

# Obtén la proporción de tiendas de cada type
store_props = store_types["type"].value_counts(normalize=True)
print(store_props)

# Cuenta el número de cada department y ordena
dept_counts_sorted = store_depts["department"].value_counts(sort=True)
print(dept_counts_sorted)

# Obtén la proporción de cada department y ordena
dept_props_sorted = store_depts["department"].value_counts(sort=True, normalize=True)
print(dept_props_sorted)

```python
A    11
B     1
Name: type, dtype: int64

A    0.917
B    0.083
Name: type, dtype: float64

1     12
55    12
72    12
71    12
67    12
      ..
37    10
48     8
50     6
39     4
43     2
Name: department, Length: 80, dtype: int64

1     0.013
55    0.013
72    0.013
71    0.013
67    0.013
      ...  
37    0.011
48    0.009
50    0.006
39    0.004
43    0.002
Name: department, Length: 80, dtype: float64

## ¿Qué porcentaje de las ventas ocurrió en cada tipo de tienda?
Aunque ```.groupby()``` es útil, puedes calcular estadísticas de resumen agrupadas sin él.

Walmart distingue tres tipos de tiendas: ```"supercenters"```, ```"discount stores,"``` y ```"neighborhood markets"```, codificados en este conjunto de datos como tipo ```"A"```, ```"B"``` y ```"C"```. En este ejercicio, calcularás las ventas totales de cada tipo de tienda, sin usar ```.groupby()```. Después, podremos utilizar estos números para ver qué proporción de las ventas totales de Walmart se realizaron en cada tipo de tienda.

In [None]:

# Selecciona las tiendas tipo A, calcula las ventas semanales totales
sales_A = sales[sales["type"] == "A"]["weekly_sales"].sum()

# Selecciona las tiendas tipo B, calcula las ventas semanales totales
sales_B = sales[sales["type"] == "B"]["weekly_sales"].sum()

# Selecciona las tiendas tipo C, calcula las ventas semanales totales
sales_C = sales[sales["type"] == "C"]["weekly_sales"].sum()

# Obtén la proporción de cada tipo
sales_propn_by_type = [sales_A, sales_B, sales_C] / sales_all
print(sales_propn_by_type)

```python
[0.9097747 0.0902253       nan]

## Cálculos con ```.groupby()```
El método ```.groupby()``` hace la vida mucho más fácil. En este ejercicio, realizarás los mismos cálculos de la última vez, excepto que usarás el método ```.groupby()```. También realizarás cálculos en datos agrupados por dos variables para ver si las ventas difieren según el tipo de tienda dependiendo de si es una semana de vacaciones o no.

In [None]:
# Agrupa por type; calcula la suma de weekly_sales
sales_by_type = sales.groupby("type")["weekly_sales"].sum()

# Obtén la proporción de cada tipo
sales_propn_by_type =  sales_by_type/ sum(sales_by_type)
print(sales_propn_by_type)

```python
type
A    0.91
B    0.09
Name: weekly_sales, dtype: float64
```

In [None]:
# Del paso anterior
sales_by_type = sales.groupby("type")["weekly_sales"].sum()

# Agrupa por type y por is_holiday; calcula el total de weekly_sales
sales_by_type_is_holiday = sales.groupby(["type", "is_holiday"])["weekly_sales"].sum()
print(sales_by_type_is_holiday)

```python
type  is_holiday
A     False         2.337e+08
      True          2.360e+04
B     False         2.318e+07
      True          1.621e+03
Name: weekly_sales, dtype: float64

## Resúmenes agrupados múltiples
Anteriormente en este capítulo, viste que el método ```.agg()``` es útil para calcular múltiples estadísticas sobre múltiples variables. También funciona con datos agrupados. ```NumPy```, que se importa como ```np```, tiene muchas funciones estadísticas de resumen diferentes, incluyendo: ```np.min```, ```np.max```, ```np.mean``` y ```np.median```.

In [None]:
# Importa numpy con el alias np
import numpy as np

# Para cada tipo de tienda, agrega weekly_sales: obtén min, max, media y mediana
sales_stats = sales.groupby("type")["weekly_sales"].agg([np.min, np.max, np.mean, np.median])

# Imprime sales_stats
print(sales_stats, "\n")

# Para cada tipo de tienda, agrega unemployment y fuel_price_usd_per_l: obtén mínimo, máximo, media y mediana
unemp_fuel_stats = sales.groupby("type")["unemployment", "fuel_price_usd_per_l"].agg([np.min, np.max, np.mean, np.median])

# Imprime unemp_fuel_stats
print(unemp_fuel_stats)

```python
        amin       amax       mean    median
type                                        
A    -1098.0  293966.05  23674.667  11943.92
B     -798.0  232558.51  25696.678  13336.08 

                  unemployment                           fuel_price_usd_per_l                     
             amin   amax   mean median                 amin   amax   mean median
type                                                                            
A           3.879  8.992  7.973  8.067                0.664  1.107  0.745  0.735
B           7.170  9.765  9.279  9.199                0.760  1.108  0.806  0.803

## Pivot en una variable
Las tablas dinámicas (pivot tables) son la forma estándar de agregar datos en hojas de cálculo.

En pandas, las tablas dinámicas son esencialmente otra forma de realizar cálculos agrupados. Es decir, el método ```.pivot_table()``` es una alternativa a ```.groupby()```.

En este ejercicio, realizarás cálculos usando ```.pivot_table()``` para replicar los cálculos que realizamos en la última lección usando .```groupby()```.

In [None]:
# Usa pivot_table para calcular la media de weekly_sales por tipo de tienda
mean_sales_by_type = sales.pivot_table(values = "weekly_sales", index = "type")

# Imprime mean_sales_by_type
print(mean_sales_by_type)

```python
      weekly_sales
type              
A        23674.667
B        25696.678

In [None]:
# Importa NumPy as np
import numpy as np

# Usa pivot_table para calcular la medias y mediana de weekly_sales para cada tipo de tienda
mean_med_sales_by_type = sales.pivot_table(values = "weekly_sales", index = "type", aggfunc = [np.mean, np.median])

# Imprime mean_med_sales_by_type
print(mean_med_sales_by_type)

```python
             mean       median
     weekly_sales weekly_sales
type                          
A       23674.667     11943.92
B       25696.678     13336.08

In [None]:
# Usa pivot_table para calcular la media de weekly_sales por type y por is_holiday 
mean_sales_by_type_holiday = sales.pivot_table(values = "weekly_sales", index = ["type", "is_holiday"])

# Imprime mean_sales_by_type_holiday
print(mean_sales_by_type_holiday)

```python
is_holiday      False     True
type                          
A           23768.584  590.045
B           25751.981  810.705

## Rellenando valores faltantes y sumando valores con tablas dinámicas
El método ```.pivot_table()``` tiene varios argumentos útiles, incluyendo ```fill_value``` y ```margins```.

```fill_value``` reemplaza los valores faltantes por un valor real (conocido como imputación). Con qué reemplazar los valores faltantes es un tema lo suficientemente grande como para tener su propio curso (Lidiando con datos faltantes en Python), pero lo más simple es sustituir por un valor ficticio.

```margins``` es un atajo para cuando agrupamos con dos variables, pero también queríamos agrupar por cada una de esas variables independientemente: nos da los totales de fila y columna de la tabla dinámica.

En este ejercicio, practicarás el uso de estos argumentos para mejorar tus habilidades con ```pivot_table```, ¡lo que te ayudará a hacer cálculos de manera más eficiente!

In [None]:
# Imprime la media de weekly_sales por department y type; rellena valores faltantes con 0
print(sales.pivot_table(values = "weekly_sales", index = "type", columns = "department", fill_value = 0))

```python
department      1           2          3          4          5   ...          95         96         97         98       99
type                                                                ...                                                      
A        30961.725   67600.159  17160.003  44285.399  34821.011  ...  123933.787  21367.043  28471.267  12875.423  379.124
B        44050.627  112958.527  30580.655  51219.654  63236.875  ...   77082.102   9528.538   5828.873    217.428    0.000

In [None]:
# Imprime la media de weekly_sales por department y type; rellena los valores faltantes con 0s; suma todas las filas y columnas
print(sales.pivot_table(values="weekly_sales", index="type", columns="department", margins = True, fill_value = 0))

```python
department          1           2          3          4          5  ...         96         97         98       99        All
type                                                                ...                                                     
A           30961.725   67600.159  17160.003  44285.399  34821.011  ...  21367.043  28471.267  12875.423  379.124  23674.667
B           44050.627  112958.527  30580.655  51219.654  63236.875  ...   9528.538   5828.873    217.428    0.000  25696.678
All         32052.467   71380.023  18278.391  44863.254  37189.000  ...  20337.608  26584.401  11820.590  379.124  23843.950