# Aggregating DataFrames

En este Notebook se calcularan estadisticas de resumen en columnas del DataFrame y dominaras las estadisticas agrupadas y tablas dinamicas (pivot table)

## Estadisticas de Resumen

**Media y mediana**

Las estadisticas resumidas son excatamente lo que parecen: resumen muchos numeros en una sola estadistica. Por ejemplo, la media, la mediana, el minimo, la desviación tipica (Desviación estandar) son estadisticas de resumen. Calculando estadisticas de resumen te permite hacerte una mejor idea de tus datos, aunque sean muchos.

**Instrucciones**

- Explorar el nuevo DataFrame imprimiendo las primeras filas del DataFrame Walmart_sales
- Imprime información sobre las columnas
- Imprimir la media de la columna weekly_sales
-- Imprimir la mediana de la columna weekly_sales

In [2]:
import pandas as pd

In [3]:
sales = pd.read_csv('./Data_Sets/walmart_sales.csv')
sales.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26-02-2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05-03-2010,1554806.68,0,46.5,2.625,211.350143,8.106


In [4]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


In [5]:
sales.describe()

Unnamed: 0,Store,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
count,6435.0,6435.0,6435.0,6435.0,6435.0,6435.0,6435.0
mean,23.0,1046965.0,0.06993,60.663782,3.358607,171.578394,7.999151
std,12.988182,564366.6,0.255049,18.444933,0.45902,39.356712,1.875885
min,1.0,209986.2,0.0,-2.06,2.472,126.064,3.879
25%,12.0,553350.1,0.0,47.46,2.933,131.735,6.891
50%,23.0,960746.0,0.0,62.67,3.445,182.616521,7.874
75%,34.0,1420159.0,0.0,74.94,3.735,212.743293,8.622
max,45.0,3818686.0,1.0,100.14,4.468,227.232807,14.313


In [6]:
# Media de la columna weekly_Sales
round(sales['Weekly_Sales'].mean(), 2)

np.float64(1046964.88)

In [7]:
# Mediana de la columna weekly_Sales

sales['Weekly_Sales'].median()

np.float64(960746.04)

## Resumir Fechas

Las estadisticas sumatorias tambien pueden calcularse sobre columnas de fecha que tengan valores con el tipo de datos datetime64. Algunas estadisticas de resumen como la media no tienen mucho sentido en las fechas pero otras son extremadamente utiles como por ejemplo el minimo y el maximo que te permiten ver intervalo de tiempo abarcan tus datos.

**Instrucciones**

- Imprimir el maximo de la columna date
- Imprimir el minimo de la columna date

In [8]:
sales["Date2"] = sales["Date"].astype("datetime64[ns]")

In [9]:
sales.info

<bound method DataFrame.info of       Store        Date  Weekly_Sales  Holiday_Flag  Temperature  Fuel_Price  \
0         1  05-02-2010    1643690.90             0        42.31       2.572   
1         1  12-02-2010    1641957.44             1        38.51       2.548   
2         1  19-02-2010    1611968.17             0        39.93       2.514   
3         1  26-02-2010    1409727.59             0        46.63       2.561   
4         1  05-03-2010    1554806.68             0        46.50       2.625   
...     ...         ...           ...           ...          ...         ...   
6430     45  28-09-2012     713173.95             0        64.88       3.997   
6431     45  05-10-2012     733455.07             0        64.89       3.985   
6432     45  12-10-2012     734464.36             0        54.47       4.000   
6433     45  19-10-2012     718125.53             0        56.47       3.969   
6434     45  26-10-2012     760281.43             0        58.85       3.882   

       

In [10]:
# Maximo

sales['Date'].max()

'31-12-2010'

In [11]:
# Minimo

sales['Date'].min()

'01-04-2011'

In [12]:
sales['Date2'].min()

Timestamp('2010-01-10 00:00:00')

In [13]:
sales['Date2'].max()

Timestamp('2012-12-10 00:00:00')

## Función agg

Permite aplicar tus propias funciones personalizadas a un DataFrame, así como aplicar funciones a más de una columna de un DataFrame a la vez, haciendo a tus agraciones sean muy eficientes.

`df['column'].agg(function)`

En la función personalizada para este ejercicio "IQR" es la abreviatura del rango intercuartilico, que es el percentil 75 menos el percentil 25. Es una alternativa a la desviación tipica (estandar) que resulta útil si tus datos contienen valores atípicos.

**Instrucciones**

1. Utiliza la función personalizada IQR definida por ti junto con con el metodo .agg() para imprimir la IQR de la columna temperatura_c de sales
2. Actualiza la selección de columnas para utilizar la función personaizada IQR con agg() para imprimir los IQR de las columnas temperature, fuel_price, unemployment, en orden.
3. Actualiza las llamadas a la función agg, para obtener el IQR y la mediana en ese orden.

In [14]:
import numpy as np

def iqr (columna):
    return columna.quantile(0.75) - columna.quantile(0.25)

In [22]:
# Imprimir el IQR de la columna temperature
 
print(f'El IQR de Temperatura {sales["Temperature"].agg(iqr)}')

# Actualizar la impreción del IQR de temperature, Fuel_price, unemployment
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg(iqr))

El IQR de Temperatura 27.479999999999997
Temperature     27.480
Fuel_Price       0.802
Unemployment     1.731
dtype: float64


In [23]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median]))

        Temperature  Fuel_Price  Unemployment
iqr           27.48       0.802         1.731
median        62.67       3.445         7.874


  print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median]))
  print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median]))
  print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median]))


In [24]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, 'median']))

        Temperature  Fuel_Price  Unemployment
iqr           27.48       0.802         1.731
median        62.67       3.445         7.874


In [25]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, 'median', 'mean', 'max', 'min']))

        Temperature  Fuel_Price  Unemployment
iqr       27.480000    0.802000      1.731000
median    62.670000    3.445000      7.874000
mean      60.663782    3.358607      7.999151
max      100.140000    4.468000     14.313000
min       -2.060000    2.472000      3.879000


In [26]:
def conevrtirACentigrados ( faren ):
    return (faren - 32) / 1.8

In [34]:
temp_min = sales['Temperature'].min()
temp_max = sales['Temperature'].max()

In [35]:
print(f'La temperatura {temp_min} en grados centigrados es {conevrtirACentigrados(temp_min)}')
print(f'La temperatura {temp_max} en grados centigrados es {conevrtirACentigrados(temp_max)}')

La temperatura -2.06 en grados centigrados es -18.922222222222224
La temperatura 100.14 en grados centigrados es 37.855555555555554


In [32]:
print(sales[['Temperature']].agg(conevrtirACentigrados))

      Temperature
0        5.727778
1        3.616667
2        4.405556
3        8.127778
4        8.055556
...           ...
6430    18.266667
6431    18.272222
6432    12.483333
6433    13.594444
6434    14.916667

[6435 rows x 1 columns]


In [36]:
sales['Temperature_Celsious'] = sales[['Temperature']].agg(conevrtirACentigrados)

In [45]:
sales_sort = sales.sort_values(['Temperature', 'Temperature_Celsious'], ascending=[True, False])

In [46]:
sales_sort[['Temperature', 'Temperature_Celsious']]

Unnamed: 0,Temperature,Temperature_Celsious
910,-2.06,-18.922222
3626,5.54,-14.700000
2336,6.23,-14.316667
959,7.46,-13.633333
5628,9.51,-12.494444
...,...,...
3885,99.22,37.344444
5315,99.22,37.344444
4657,99.66,37.588889
4707,100.07,37.816667


## Estadísticas Acumuladas

In [17]:
# Función personalizada que calcula el IQR

def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

# Imprimir el rango y el IQR de la columna temperatura

print(sales['Temperature'].quantile(0.75))
print(sales['Temperature'].quantile(0.25))

print(sales['Temperature'].agg(iqr))

print(sales['Temperature'].agg(['mean', 'median', 'max', 'min', iqr]))

74.94
47.46
27.479999999999997
mean       60.663782
median     62.670000
max       100.140000
min        -2.060000
iqr        27.480000
Name: Temperature, dtype: float64


In [18]:
def conevrtir (farenheit):
    return (farenheit - 32)/1.8

In [19]:
max_temperatura = sales['Temperature'].max()
min_temperatura = sales['Temperature'].min()

In [20]:
print(f'Los grados Celsious son: {conevrtir(max_temperatura)}')
print(f'Los grados Celsious son: {conevrtir(min_temperatura)}')

Los grados Celsious son: 37.855555555555554
Los grados Celsious son: -18.922222222222224
