# Agrupaciones (group by) con Pandas

In [2]:
import pandas as pd
import numpy as np
from pathlib import Path
datapath = Path('../Estructura_de_Datos/house.csv')

In [3]:
data = pd.read_csv(datapath, sep=',')
data.head()

Unnamed: 0,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,sqft_above,sqft_basement,yr_built,yr_renovated,street,city,statezip,country
0,2014-05-02 00:00:00,313000.0,3.0,1.5,1340,7912,1.5,0,0,3,1340,0,1955,2005,18810 Densmore Ave N,Shoreline,WA 98133,USA
1,2014-05-02 00:00:00,2384000.0,5.0,2.5,3650,9050,2.0,0,4,5,3370,280,1921,0,709 W Blaine St,Seattle,WA 98119,USA
2,2014-05-02 00:00:00,342000.0,3.0,2.0,1930,11947,1.0,0,0,4,1930,0,1966,0,26206-26214 143rd Ave SE,Kent,WA 98042,USA
3,2014-05-02 00:00:00,420000.0,3.0,2.25,2000,8030,1.0,0,0,4,1000,1000,1963,0,857 170th Pl NE,Bellevue,WA 98008,USA
4,2014-05-02 00:00:00,550000.0,4.0,2.5,1940,10500,1.0,0,0,4,1140,800,1976,1992,9105 170th Ave NE,Redmond,WA 98052,USA


In [7]:
#La función grouoby() es una función que agrupa los datos en función de una columna o un conjunto de columnas.
#En este caso, agrupamos los datos en función de la columna 'bedrooms' y calculamos la media de los valores de las columnas 'price'.
data.groupby('bedrooms')['price'].mean().apply(lambda x: round(x, 3))

bedrooms
0.0    1195324.000
1.0     274076.316
2.0     391621.918
3.0     488613.022
4.0     635119.364
5.0     770185.989
6.0     817362.842
7.0    1049428.571
8.0    1155000.000
9.0     599999.000
Name: price, dtype: float64

In [14]:
#También podemos agrupar los datos en función de dos columnas y calcular la media de los valores de una columna.
#En este caso, agrupamos los datos en función de las columnas 'bedrooms' y 'sqft_living' y calculamos la media de los valores de la columna 'price'.
g = data.groupby(['bedrooms', 'sqft_living'])['price'].mean().apply(lambda x: round(x, 3))
g.reset_index()
# El reset_index() es una función que nos convierte el groupby en un dataframe. Antes observamos que el groupby era una serie.

Unnamed: 0,bedrooms,sqft_living,price
0,0.0,3064,1095000.0
1,0.0,4810,1295648.0
2,1.0,370,276000.0
3,1.0,380,245000.0
4,1.0,420,280000.0
...,...,...,...
1201,7.0,6630,1240000.0
1202,7.0,13540,2280000.0
1203,8.0,2790,340000.0
1204,8.0,4440,1970000.0


In [15]:
#También lo podemos hacer con el método to_frame(). La diferencia es que este método mantendrá el multiindex indicado 
#en el groupby. Al tener un multiindice le podemos hacer otro groupby en base a la posicion de los indices.
dfg = g.to_frame()
dfg 

Unnamed: 0_level_0,Unnamed: 1_level_0,price
bedrooms,sqft_living,Unnamed: 2_level_1
0.0,3064,1095000.0
0.0,4810,1295648.0
1.0,370,276000.0
1.0,380,245000.0
1.0,420,280000.0
...,...,...
7.0,6630,1240000.0
7.0,13540,2280000.0
8.0,2790,340000.0
8.0,4440,1970000.0


In [18]:
dfg.groupby(level = 0).median().apply(lambda  x: round(x, 3))
#En ese caso, agrupamos los datos en función del primer índice(posición 0) del multiíndice y calculamos la mediana de los valores de la columna 'price'.

Unnamed: 0_level_0,price
bedrooms,Unnamed: 1_level_1
0.0,1195324.0
1.0,260000.0
2.0,395541.071
3.0,489540.278
4.0,630000.0
5.0,615145.5
6.0,670000.0
7.0,711500.0
8.0,1155000.0
9.0,599999.0


In [20]:
#También podemos calculas metricas a varias columnas:
#Primero creamos un dataframe auxiliar:
h = data[['price', 'bathrooms', 'condition', 'waterfront']].apply(lambda x: round(x, 3))
h

Unnamed: 0,price,bathrooms,condition,waterfront
0,313000.000,1.50,3,0
1,2384000.000,2.50,5,0
2,342000.000,2.00,4,0
3,420000.000,2.25,4,0
4,550000.000,2.50,4,0
...,...,...,...,...
4595,308166.667,1.75,4,0
4596,534333.333,2.50,3,0
4597,416904.167,2.50,3,0
4598,203400.000,2.00,3,0


In [38]:
#Para calcular metricas distintas a varias columnas, utilizamos el método agg() y le pasamos 
#un diccionario con las columnas y las metricas que queremos calcular. Un diccionario es una estructura de datos que
#contiene pares de clave-valor. En este caso, la clave es el nombre de la columna y el valor es la métrica que queremos calcular.
#En este caso, calculamos la mediana de la columna 'price', la media de la columna 'waterfront' y la mediana de la columna 'bathrooms'.
agrupacion_condicion = h.groupby('condition').agg(
    {
       'price': ['median', 'max', 'min',],
       'waterfront': ['median', 'max', 'min',],
       'bathrooms': ['median', 'max', 'min',]
    }
)
agrupacion_condicion['price']['median'] #Podemos acceder a los valores de la columna 'price' y la métrica 'median' de la agrupación
# como si fuese un arbol de diccionarios.

condition
1    310000.0
2    250000.0
3    465000.0
4    440000.0
5    550000.0
Name: median, dtype: float64

In [49]:
#Si yo quisiera sacara la mediana de las casas que cuesten mas de 1 millon:
def mayor_millon_mediana(x):
    return np.median(x[x > 1000000])

In [58]:
data[['price', 'condition']].groupby('condition')['price'].apply(mayor_millon_mediana).apply(lambda x: round(x, 3))
#En este caso, agrupamos los datos en función de la columna 'condition' y calculamos la mediana 
#de los valores de la columna 'price' que sean mayores a 1 millón.
#Expliquemos el código:
#Primero, creamos una función llamada mayor_millon_mediana que recibe un argumento x.
#Dentro de la función, calculamos la mediana de los valores de x que sean mayores a 1 millón.
#Luego, seleccionamos las columnas 'price' y 'condition' del dataframe data y agrupamos los datos en función de la columna 'condition'.
#Después, aplicamos la función mayor_millon_mediana a los valores de la columna 'price' de cada grupo que se ha formado al 
#agrupar por la variable condition.
#Por último, redondeamos los valores obtenidos con la función apply() y la función lambda x: round(x, 3).
#Y obtenemos la mediana de los precios de las casas que cuestan más de 1 millón agrupadas por la condición de la casa.

  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)


condition
1          NaN
2    2555000.0
3    1285000.0
4    1330000.0
5    1355962.5
Name: price, dtype: float64