# Agregating Dataframes
En este notebook, se calcularán estadísticas de resumen en columnas del dataframe y dominarás las estadística agrupadas y tablas dinámicas (pivots tables)


## Estadísticas de Resumen 
Media y mediana 
Las estadísticas son exactamentes lo que parecen: resumen muchos números en una sola estadística. Por ejemplo, la media, la mediana, el mínimo, y la desviación típica (desviación estándar) son estadísticas de resumen. Calcular estadísticas de resumen. calcular estadísticas de resumen te permite hacette una mejor idea de tus datos, aunque sean muchos.

**Instrucciones**

- Explorar el nuevo dataframe imprimiendo las primeras filas del dataframe walmart_sales
- Imprimir información sobre las columnas
- Imprimir la media de la columna weekly_sales
- Imprimir la mediana de la columna weekly_sales


In [None]:
# Importación de librerias
import pandas as pd
sales = pd.read_csv('./datasets/walmart_sales.csv')


In [None]:
sales.info()

In [None]:
sales.describe()

In [None]:
sales.Weekly_Sales

In [None]:
sales['Weekly_Sales'].mean

In [None]:
# Sacar la mediana 
round(sales['Weekly_Sales'].mean(),2)


In [None]:
# Mediana de la collumna weekly_sales
sales['Weekly_Sales'].median()

## Resumir Fechas
Las estatísticas sumarias también pueden calcularse sobre columnas de fecha que tengan valores con el tipo de datos datetime64. Algunas estadística de resumen no tienen mucho sentido en las fechas, pero otras son extremadamente útiles, como por ejemplo el mínimo y el máximo, que te permiten ver que intervalo de tiempo abarcan tus datos.

**Instrucciones**
- Imprimir el máximo de la columna date
- Imprimir el mínimo de la columna date


In [None]:
sales['Date'].max()
sales["Date2"] = sales["Date"].astype("datetime64[ns]")

In [None]:
sales['Date2'].min()

# Funvión agg
Permite aplicar tus propias funciones personalizadas a un dataframe, asi como aplicar funciones a más de una columna de un dataframe a la vez, haciendo que tus agregaciones sean muy eficientes 

`df[column].agg(function)`

In [None]:
import numpy as np


In [None]:
# Función personalizada que calcula el IQR
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

# Imprimir IQR de la columna Temperatura 
print (sales['Temperature'].quantile(0.75))
print (sales['Temperature'].quantile(0.25))
print(sales['Temperature'].agg(iqr))
print(sales['Temperature'].agg(['mean', 'median', 'max', 'min']))


Aunque Pandas y Numpy tienen muchas funciones, a veces puedes necesitar una información diferente para resumir los datos. 

En la función personalizada para este ejercicio "IQR" es la abreviatura del rango intercuantilico, que es el percentil 75 menos el percentil 25. Es una alternatica a la desviación típica (estándar) que resulta útil si tus datos contienen valores atípicos.

**Instrucciones**
1. Utiliza la función personalizada IQR definida por ti junto con el método .agg() para imprimir la IQR de la columna temperatura_c de sales
2. Actualiza la selección de columnas para utilizar la función personalizada IQR con agg para imprimir los IQR de las columnas temperature, fuel_price, unemployed, en orden 
3. Actualiza las llamadas a la función agg() para obtener el rango intercuantilico y la media en ese orden.

In [None]:
import numpy as np

def IQR(columna):
    return columna.quantile(0.75) - columna.quantile(0.25)


In [None]:
# Imprimir IQR de la columna temperature
print(f'EL IQR de Temperatura {sales['Temperature'].agg(iqr)}')

# Actualizar la impresión del IQR de temperatura, Fuel_price, unemployment
print({sales[['Temperature', 'Fuel_Price', 'Unemployment']]}).agg(iqr)


In [None]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']]).agg(iqr, np.median)

In [None]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']]).agg(iqr, 'median')

In [None]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg(iqr, 'median', 'mean', 'max', 'min'))

In [None]:
def convertirCentrigrados (temperatura):
    return (faren -32) / 1.8

In [None]:
temp_min = sales['Temperature'].min()
temp_max = sales['Temperature'].max()
print(temp_min)


In [None]:
sales[sales['Temperature'].min(), sales['Temperature'].max()]
print(f'La temperatura {temp_min} en centigrados  convertirCentrigrados(temp_min)')
print(f'La temperatura {temp_max} en centigrados  convertirCentrigrados(temp_min)')

In [None]:
sales['Temperature_Celcius'] = sales[['Temperature']].agg(convertirCentrigrados)

sales['Temperature'].sort_values([])
sales[['Temperature', 'Temperature_Celcious']]


## Estadísticas acumuladas

Las estadísticas acumulativas también pueden ser útiles para hacer un seguimiento de las estadísticas resumidas a lo largo del tiempo. En este ejercicio, calcularás la suma acumulada y el máximo acumulado de las ventas semanales de un departamento, lo que te permitirá identificar cuáles han sido las ventas totales hasta el momento, así como cuáles han sido las ventas semanales más elevadas hasta el momento.

**Instrucciones**

- Ordena las filas de sales_1_1 por la columna date en orden ascendente.
- Obtén la suma acumulada de weekly_sales y añádelo como una nueva columna de sales_1_1 llamada cum_weekly_sales.
- Obtén el máximo acumulado de weekly_sales, y añádelo como una columna llamada cum_max_sales.
- Imprime las columnas date, weekly_sales, cum_weekly_sales, y cum_max_sales.