# Aggregating DataFrame

En este notebook, se calcularan estadisticas de rsumen en columnas del DataFrmae y dominaras las estadisticas agrupadas y tablas dinamicas (pivot table)

## Estadisticas de Resumen

**Media y Mediana**

Las estadisticas resumidas son exactamenter lo que parece: resumen muchos numeros en una sola estadística. Por ejemplo, la media, la mediana, el minimo y la desviación típica (desviación estandar) son estadísticas de resumen. Calcular estadisticas de resumen te permite hacerte una mejor idea de tus datos aunque sean muchos.

**Instrucciones**

- Explorar el nuevo DataFrame imprimiendo las primeras filas del DataFrame walmart_sales

- Imprimir información sobre las columnas

- Imprimir la media de la columna weekly_sales

- Imprimir la mediana de la columna weekly_sales

In [2]:
import pandas as pd

In [3]:
sales = pd.read_csv('./dataset/walmart_sales.csv')

In [4]:
sales.shape # Tamaño del dataset

(6435, 8)

In [5]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


In [6]:
sales.describe()

Unnamed: 0,Store,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
count,6435.0,6435.0,6435.0,6435.0,6435.0,6435.0,6435.0
mean,23.0,1046965.0,0.06993,60.663782,3.358607,171.578394,7.999151
std,12.988182,564366.6,0.255049,18.444933,0.45902,39.356712,1.875885
min,1.0,209986.2,0.0,-2.06,2.472,126.064,3.879
25%,12.0,553350.1,0.0,47.46,2.933,131.735,6.891
50%,23.0,960746.0,0.0,62.67,3.445,182.616521,7.874
75%,34.0,1420159.0,0.0,74.94,3.735,212.743293,8.622
max,45.0,3818686.0,1.0,100.14,4.468,227.232807,14.313


In [7]:
# Media de la columna weekly_sales

sales['Weekly_Sales'].mean()

np.float64(1046964.8775617715)

In [8]:
# Meiana de la columna weekly_sales
sales['Weekly_Sales'].median()

np.float64(960746.04)

## Resumir fechas

Las estadisticas sumarias tambien pueden calcularse sobre columnas de fecha que tengan valores con el tipo de dato `datetime64`. Algunas estadisticas de resumen como la media no tienen mucho sentido en las fechas pero otrsas son extremadamente utiles como por ejemplo, el minimo y el maximo que te permiten ver que intervalo de tiempo avarcan tus datos.

**Instrucciones**

- Imprimir el numero  maximo de la columna date
- Imprimir el numero minimo de la columna date

In [9]:
# sales['Date2'] = pd.to_datetime(sales['Date'])
sales['Date2'] = sales['Date'].astype('datetime64[ns]')

In [10]:
sales['Date'].max()

'31-12-2010'

In [11]:
sales['Date'].min()

'01-04-2011'

## Función agg

Aunque pandas y numpy tiene muchas funciones, a veces puedes necesitar una función diferente para resumir los datos.

El método .agg() permite aplicar tus propias funciones personalizadas a un DataFrame, asi como aplicar funciones a mas de una columna de un DataFrame a la vez, haciendo que tus agregaciones sean muy eficientes.

`df['column'].agg(function)`

En la función personalizada para este ejercicio "IQR" del rango intercuartilico, que es el percentil 75 menos el percentil 25. Es una alternativa a la desviación tipica (estandar) que resulta útil si tus datos contienen valores atípicos.

**Instrucciones**

1. Utiliza la función personalizada iqr definida por ti junto con el método. agg() para imprimir la IQR de la columna temperature_c de sales

2.  Actualiza la selección de columnas para utilizar la función personalizada iqr con agg() para imprimir los IQR de las columnas temperature, fuel_price, unemployment, en orden.

3. Actualiza las llamadas a la función agg para obtener el rango IQR y la media en ese orden.

In [15]:
import numpy as np

In [None]:
def iqr (columna): 
    return columna.quantile(0.75) - columna.quantile(0.25)

# sales['Temperature']

In [16]:
#Imprimir IQR de la columna temperature 

print(f'El IQR de Temperatura{sales['Temperature'].agg(iqr)}')

El IQR de Temperatura27.479999999999997


In [17]:
#Actualizar la impresión del IQR de temperature, Fuel_price, unemployment
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg(iqr))

Temperature     27.480
Fuel_Price       0.802
Unemployment     1.731
dtype: float64


In [19]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median]))

        Temperature  Fuel_Price  Unemployment
iqr           27.48       0.802         1.731
median        62.67       3.445         7.874


  print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median]))
  print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median]))
  print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, np.median]))


In [20]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, 'median']))

        Temperature  Fuel_Price  Unemployment
iqr           27.48       0.802         1.731
median        62.67       3.445         7.874


In [21]:
print(sales[['Temperature', 'Fuel_Price', 'Unemployment']].agg([iqr, 'median', 'mean', 'max', 'min']))

        Temperature  Fuel_Price  Unemployment
iqr       27.480000    0.802000      1.731000
median    62.670000    3.445000      7.874000
mean      60.663782    3.358607      7.999151
max      100.140000    4.468000     14.313000
min       -2.060000    2.472000      3.879000


In [22]:
def convertirACentigrados (faren):
    return (faren -32) / 1.8

In [23]:
temp_min = sales['Temperature'].min()
temp_max = sales['Temperature'].max()

In [24]:
print(f'La temperatura {temp_min} en grados Centigrados es {convertirACentigrados(temp_min)}')
print(f'La temperatura {temp_max} en grados Centigrados es {convertirACentigrados(temp_max)}')

La temperatura -2.06 en grados Centigrados es -18.922222222222224
La temperatura 100.14 en grados Centigrados es 37.855555555555554


In [25]:
print(sales[['Temperature']].agg(convertirACentigrados))

      Temperature
0        5.727778
1        3.616667
2        4.405556
3        8.127778
4        8.055556
...           ...
6430    18.266667
6431    18.272222
6432    12.483333
6433    13.594444
6434    14.916667

[6435 rows x 1 columns]


In [27]:
sales['Temperature_Celsious'] = sales[['Temperature']].agg(convertirACentigrados)

In [28]:
sales_sort = sales.sort_values(['Temperature', 'Temperature_Celsious'], ascending = [True, True])

In [29]:
sales_sort[['Temperature', 'Temperature_Celsious']]

Unnamed: 0,Temperature,Temperature_Celsious
910,-2.06,-18.922222
3626,5.54,-14.700000
2336,6.23,-14.316667
959,7.46,-13.633333
5628,9.51,-12.494444
...,...,...
3885,99.22,37.344444
5315,99.22,37.344444
4657,99.66,37.588889
4707,100.07,37.816667


In [13]:
# Función personalizada que calcula el IQR

def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)

# Imprimir IQR de la columna temperatura
print(sales['Temperature'].quantile(0.75))
print(sales['Temperature'].quantile(0.25))
print(sales['Temperature'].agg(iqr))

print(sales['Temperature'].agg(['median', 'mean', 'max', 'min']))

74.94
47.46
27.479999999999997
median     62.670000
mean       60.663782
max       100.140000
min        -2.060000
Name: Temperature, dtype: float64


## Estadisticas Acumuladas

### Contar variables categóricas

Contar es una forma estupenda de tener una visión general de tus datos y de detectar curiosidades que de otro modo no notarías. En este ejercicio, contarás el número de cada tipo de tienda y el número de cada número de departamento utilizando los DataFrames que creaste en el ejercicio anterior:
```
# Drop duplicate store/type combinations
store_types = sales.drop_duplicates(subset=["store", "type"])

# Drop duplicate store/department combinations
store_depts = sales.drop_duplicates(subset=["store", "department"])

```
Los DataFrames store_types y store_depts que creaste en el último ejercicio están disponibles, y pandas se importa como pd.

**Instrucciones**

- Cuenta el número de tiendas de cada tienda type en store_types.
- Cuenta la proporción de tiendas de cada tienda type en store_types.
- Cuenta el número de tiendas de cada department en store_depts, ordenando los recuentos en orden descendente.
- Cuenta la proporción de tiendas de cada department en store_depts, ordenando las proporciones en orden descendente.

## Estadísticas resumidas agrupadas

### ¿Qué porcentaje de ventas se produjo en cada tipo de tienda?

Aunque .groupby() es útil, puedes calcular estadísticas de resumen agrupadas sin él.

Walmart distingue tres tipos de tiendas: "supercentros", "tiendas de descuento" y "mercados de barrio", codificados en este conjunto de datos como tipo "A", "B" y "C". En este ejercicio, calcularás las ventas totales realizadas en cada tipo de tienda, sin utilizar .groupby(). A continuación, puedes utilizar estas cifras para ver qué proporción de las ventas totales de Walmart se realizaron en cada tipo.

sales está disponible y pandas se importa como pd.

**Instrucciones**

- Calcula el total de weekly_sales en todo el conjunto de datos.
- Subconjunto para las tiendas type "A", y calcula sus ventas semanales totales.
- Haz lo mismo en las tiendas type "B" y type "C".
- Combina los resultados A/B/C en una lista, y divídela por sales_all para obtener la proporción de ventas por tipo.

In [None]:
mean_med_sales_by_type = sales.pilot_table 

In [None]:
# Pivot para la media de weekly_sales por tipo de tienda y holiday

mean_sales_by_type_holiday = sales.pivot_table(values='weekly_sales',index= 'type', columns='is_holiday', aggfunc=['mean', 'median', 'std'])

In [None]:
#Imprimir la media weekly_sales por department y type

sales.pivot_table(values='weekly_sales', index='department', columns='type', fill_value=0)

NameError: name 'sales' is not defined

In [None]:
sales.pivot_table(values='weekly_sales', index='department', columns='type', fill_value=0, margins=True)
