## Estadísticas resumidas

### Media y mediana

Las estadísticas resumidas son exactamente lo que su nombre indica: resumen muchos números en una sola estadística. Por ejemplo, la media, la mediana, el mínimo, el máximo y la desviación estándar son estadísticas resumidas. Calcular estadísticas resumidas te permite obtener una mejor comprensión de tus datos, incluso si hay una gran cantidad de ellos.

In [1]:
import pandas as pd

In [None]:
sales = pd.read_csv('../../../datasets/walmart.csv')
sales.head()


- Explora tu nuevo DataFrame imprimiendo las primeras filas del DataFrame `sales`.


In [None]:
sales.head()


- Imprime información sobre las columnas en `sales`.


In [None]:
print(sales.info())


- Imprime la media de la columna `weekly_sales`.


In [None]:

print(sales['weekly_sales'].mean())


- Imprime la mediana de la columna `weekly_sales`.

In [None]:

# Print the median of weekly_sales
print(sales['weekly_sales'].median())

- Imprime el valor máximo de la columna `date`.
- Imprime el valor mínimo de la columna `date`.

In [None]:
print(sales['date'].max())

print(sales['date'].min())

## **Resúmenes eficientes**

Aunque pandas y NumPy tienen muchas funciones, a veces puedes necesitar una función diferente para resumir tus datos.

El método `.agg()` te permite aplicar tus propias funciones personalizadas a un DataFrame, así como aplicar funciones a más de una columna a la vez, haciendo que tus agregaciones sean súper eficientes. Por ejemplo:

```python
df[‘columna’].agg(función)
```

En la función personalizada para este ejercicio, "IQR" es la abreviatura de rango intercuartílico, que es el percentil 75 menos el percentil 25. Es una alternativa a la desviación estándar que resulta útil si tus datos contienen valores atípicos.


- Usa la función personalizada `iqr` definida para ti junto con `.agg()` para imprimir el rango intercuartílico (IQR) de la columna `temperature_c` de `sales`.


In [None]:
# A custom IQR function
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)
    
print(sales['temperature_c'].agg(iqr))

- Actualiza la selección de columnas para usar la función personalizada `iqr` con `.agg()` e imprimir el IQR de `temperature_c`, `fuel_price_usd_per_l` y `unemployment`, en ese orden.


In [None]:
# A custom IQR function
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

print(sales[["temperature_c", 'fuel_price_usd_per_l', 'unemployment']].agg(iqr))

- Actualiza las funciones de agregación llamadas por `.agg()`: incluye `iqr` y `np.median` en ese orden.

In [None]:
# Import NumPy and create custom IQR function
import numpy as np
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

print(sales[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg([iqr, 'median']))

## **Estadísticas acumulativas**

Las estadísticas acumulativas también pueden ser útiles para realizar un seguimiento de los resúmenes estadísticos a lo largo del tiempo. En este ejercicio, calcularás la suma acumulativa y el máximo acumulativo de las ventas semanales de un departamento, lo que te permitirá identificar el total de ventas hasta el momento, así como las ventas semanales más altas hasta la fecha.

Se ha creado un DataFrame llamado `sales_1_1`, que contiene los datos de ventas del departamento 1 de la tienda 1. `pandas` está cargado como `pd`.

In [None]:
sales_1_1 = sales[(sales['department'] == 1) & (sales['store'] == 1)]
sales_1_1

- Ordena las filas de `sales_1_1` por la columna `date` en orden ascendente.  
- Calcula la suma acumulativa de `weekly_sales` y agrégala como una nueva columna en `sales_1_1` llamada `cum_weekly_sales`.  
- Calcula el máximo acumulativo de `weekly_sales` y agrégalo como una columna llamada `cum_max_sales`.  
- Imprime las columnas `date`, `weekly_sales`, `cum_weekly_sales` y `cum_max_sales`.  

In [None]:
sales_1_1 = sales_1_1.sort_values('date')

sales_1_1['cum_weekly_sales'] = sales_1_1['weekly_sales'].cumsum()

sales_1_1['cum_max_sales'] = sales_1_1['weekly_sales'].cummax()

print(sales_1_1[["date", "weekly_sales", "cum_weekly_sales", "cum_max_sales"]])

## **Conteo**

### Eliminación de duplicados

Eliminar duplicados es una habilidad esencial para obtener conteos precisos, ya que a menudo no quieres contar la misma cosa varias veces. En este ejercicio, crearás algunos nuevos DataFrames utilizando valores únicos de `sales`.

- Elimina las filas de `sales` con pares duplicados de `store` y `type`, guárdalas como `store_types` e imprime las primeras filas.  


In [None]:
store_types = sales.drop_duplicates(subset=['store', 'type'])
print(store_types.head())


- Elimina las filas de `sales` con pares duplicados de `store` y `department`, guárdalas como `store_depts` e imprime las primeras filas.  


In [None]:

store_depts = sales.drop_duplicates(subset=['store', 'department'])
print(store_depts.head())


- Filtra las filas que corresponden a semanas festivas utilizando la columna `is_holiday` y elimina las fechas duplicadas, guardando el resultado en `holiday_dates`.  
- Selecciona la columna `date` de `holiday_dates` e imprímela.  

In [None]:
holiday_dates = sales[sales['is_holiday']].drop_duplicates('date')

print(holiday_dates['date'])

## **Conteo de variables categóricas**

El conteo es una excelente manera de obtener una visión general de tus datos y detectar curiosidades que de otro modo podrían pasar desapercibidas. En este ejercicio, contarás el número de cada tipo de tienda y el número de cada departamento utilizando los DataFrames que creaste en el ejercicio anterior:

```python
# Eliminar combinaciones duplicadas de tienda/tipo
store_types = sales.drop_duplicates(subset=["store", "type"])

# Eliminar combinaciones duplicadas de tienda/departamento
store_depts = sales.drop_duplicates(subset=["store", "department"])

In [None]:
store_types

- Cuenta el número de tiendas de cada tipo en `store_types`.  


In [None]:
store_counts = store_types['type'].value_counts()
print(store_counts)


- Cuenta la proporción de tiendas de cada tipo en `store_types`.  


In [None]:
store_props = store_types['type'].value_counts(normalize=True)
print(store_props)

- Cuenta el número de departamentos diferentes en `store_depts`, ordenando los conteos en orden descendente.  


In [None]:
dept_counts_sorted = store_depts['department'].value_counts(sort=True)
print(dept_counts_sorted)

- Cuenta la proporción de departamentos diferentes en `store_depts`, ordenando las proporciones en orden descendente.  

In [None]:
dept_props_sorted = store_depts['department'].value_counts(sort=True, normalize=True)
print(dept_props_sorted)

## **Estadísticas resumidas agrupadas**

### ¿Qué porcentaje de las ventas ocurrió en cada tipo de tienda?

Aunque `.groupby()` es útil, puedes calcular estadísticas resumidas agrupadas sin usarlo.

Walmart distingue tres tipos de tiendas: "supercentros", "tiendas de descuento" y "mercados vecinales", codificados en este conjunto de datos como tipo "A", "B" y "C". En este ejercicio, calcularás las ventas totales realizadas en cada tipo de tienda sin utilizar `.groupby()`. Luego, podrás usar estos valores para determinar qué proporción de las ventas totales de Walmart se realizó en cada tipo.

- Calcula el total de `weekly_sales` en todo el conjunto de datos.  
- Filtra las tiendas de tipo `"A"` y calcula sus ventas semanales totales.  
- Repite el proceso para las tiendas de tipo `"B"` y `"C"`.  
- Combina los resultados de A/B/C en una lista y divídelos por `sales_all` para obtener la proporción de ventas por tipo.  

In [None]:
sales_all = sales["weekly_sales"].sum()

sales_A = sales[sales["type"] == "A"]["weekly_sales"].sum()

sales_B = sales[sales["type"] == "B"]["weekly_sales"].sum()

sales_C = sales[sales["type"] == "C"]["weekly_sales"].sum()

sales_propn_by_type = [sales_A, sales_B, sales_C] / sales_all
print(sales_propn_by_type)

### **Cálculos con `.groupby()`**

El método `.groupby()` facilita mucho el trabajo. En este ejercicio, realizarás los mismos cálculos que en el ejercicio anterior, pero esta vez utilizando `.groupby()`. Además, realizarás cálculos agrupando los datos por dos variables para analizar si las ventas varían según el tipo de tienda dependiendo de si es una semana festiva o no.

- Agrupa `sales` por `"type"`, calcula la suma de `"weekly_sales"` y guárdala en `sales_by_type`.  
- Calcula la proporción de ventas en cada tipo de tienda dividiendo por la suma de `sales_by_type`. Asigna el resultado a `sales_propn_by_type`.  

In [None]:
sales_by_type = sales.groupby("type")["weekly_sales"].sum()

sales_propn_by_type = sales_by_type / sum(sales_by_type)
print(sales_propn_by_type)

- Agrupa `sales` por `"type"` y `"is_holiday"`, calcula la suma de `weekly_sales` y guárdala en `sales_by_type_is_holiday`.  

In [None]:
sales_by_type_is_holiday = sales.groupby(["type", "is_holiday"])["weekly_sales"].sum()
print(sales_by_type_is_holiday)

### **Múltiples resúmenes agrupados**

Anteriormente, viste que el método `.agg()` es útil para calcular múltiples estadísticas en múltiples variables. También funciona con datos agrupados. NumPy, que está importado como `np`, tiene muchas funciones para calcular estadísticas resumidas, incluyendo: `np.min`, `np.max`, `np.mean` y `np.median`.

- Importa `numpy` con el alias `np`.  
- Obtén el mínimo, máximo, media y mediana de `weekly_sales` para cada tipo de tienda utilizando `.groupby()` y `.agg()`. Guarda esto en `sales_stats`. ¡Asegúrate de usar funciones de `numpy`!  


In [None]:
import numpy as np

sales_stats = sales.groupby("type")["weekly_sales"].agg(["min", "max", "mean", "median"])

print(sales_stats)


- Obtén el mínimo, máximo, media y mediana de `unemployment` y `fuel_price_usd_per_l` para cada tipo de tienda. Guarda esto en `unemp_fuel_stats`.  

In [None]:

unemp_fuel_stats = sales.groupby("type")[["unemployment","fuel_price_usd_per_l"]].agg(["min", "max", "mean", "median"])

print(unemp_fuel_stats)

## **Tablas dinámicas**

### **Pivotando sobre una variable**

Las tablas dinámicas son la forma estándar de agregar datos en hojas de cálculo.

En pandas, las tablas dinámicas son esencialmente otra forma de realizar cálculos agrupados. Es decir, el método `.pivot_table()` es una alternativa a `.groupby()`.

En este ejercicio, realizarás cálculos utilizando `.pivot_table()` para replicar los cálculos que realizaste en la lección anterior con `.groupby()`.


1. Obtén la media de `weekly_sales` por `type` usando `.pivot_table()` y guárdala como `mean_sales_by_type`.  

In [None]:
mean_sales_by_type = sales.pivot_table(values="weekly_sales", index="type")

print(mean_sales_by_type)

2. Obtén la media y la mediana (usando funciones de NumPy) de `weekly_sales` por `type` utilizando `.pivot_table()` y guárdala como `mean_med_sales_by_type`.  

In [None]:
mean_med_sales_by_type = sales.pivot_table(values="weekly_sales", index="type", aggfunc=[np.mean, np.median])

mean_med_sales_by_type

In [None]:
mean_med_sales_by_type = sales.pivot_table(values="weekly_sales", index="type", aggfunc=["mean", "median"])

mean_med_sales_by_type

3. Obtén la media de `weekly_sales` por `type` y `is_holiday` utilizando `.pivot_table()` y guárdala como `mean_sales_by_type_holiday`.  

In [None]:
mean_sales_by_type_holiday = sales.pivot_table(values="weekly_sales", index="type", columns="is_holiday")

mean_sales_by_type_holiday

## **Rellenar valores faltantes y sumar valores con tablas dinámicas**

El método `.pivot_table()` tiene varios argumentos útiles, incluyendo `fill_value` y `margins`.

- `fill_value` reemplaza los valores faltantes con un valor real (*imputación*). La decisión sobre qué valor usar para reemplazar los valores faltantes es un tema amplio que merece un sección entera, pero por ahora la forma más sencilla es sustituir un valor ficticio.  
- `margins` es un atajo útil cuando se pivota por dos variables, pero también se quiere calcular totales para cada una de ellas por separado: proporciona los totales de filas y columnas dentro del contenido de la tabla dinámica.  

En este ejercicio, practicarás el uso de estos argumentos para mejorar tus habilidades con las tablas dinámicas, lo que te ayudará a procesar datos de manera más eficiente.  


- Imprime la media de `weekly_sales` por `department` y `type`, rellenando cualquier valor faltante con `0`.  

In [None]:
print(sales.pivot_table(values="weekly_sales", index="department", columns="type", fill_value=0))

- Imprime la media de `weekly_sales` por `department` y `type`, rellenando cualquier valor faltante con `0` y sumando todas las filas y columnas.  

In [None]:
print(sales.pivot_table(values="weekly_sales", index="department", columns="type", fill_value=0, margins=True))