# groupby

## Ejemplo sencillo

Primero, importamos las librerías necesarias:

In [18]:
import pandas as pd

Luego, creamos un DataFrame con datos ficticios:

In [19]:
datos = {'ciudad': ['Bogotá', 'Bogotá', 'Cali', 'Cali', 'Medellín', 'Medellín'], 
         'año': [2015, 2016, 2015, 2016, 2015, 2016], 
         'poblacion': [7892000, 8034000, 2289000, 2332000, 2485000, 2569000]}
df = pd.DataFrame(data=datos)
df

Unnamed: 0,ciudad,año,poblacion
0,Bogotá,2015,7892000
1,Bogotá,2016,8034000
2,Cali,2015,2289000
3,Cali,2016,2332000
4,Medellín,2015,2485000
5,Medellín,2016,2569000


El DataFrame tiene tres columnas: "ciudad", "año" y "poblacion".

Ahora, agrupamos los datos por la columna "ciudad" y obtenemos la suma de la columna "poblacion":



In [22]:
df.groupby('ciudad')[['poblacion']].sum()

Unnamed: 0_level_0,poblacion
ciudad,Unnamed: 1_level_1
Bogotá,15926000
Cali,4621000
Medellín,5054000


También podemos agrupar por dos columnas, "ciudad" y "año", y obtener la media de la columna "poblacion":

In [23]:
df.groupby(['ciudad', 'año'])[['poblacion']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,poblacion
ciudad,año,Unnamed: 2_level_1
Bogotá,2015,7892000.0
Bogotá,2016,8034000.0
Cali,2015,2289000.0
Cali,2016,2332000.0
Medellín,2015,2485000.0
Medellín,2016,2569000.0


## Ejemplos más complejos

1. El conjunto de datos "[U.S. Congress](https://github.com/unitedstates/congress-legislators)" contiene información pública sobre los miembros históricos del Congreso y muestra varias capacidades fundamentales de .groupby().

2. El conjunto de datos de "[air quality](http://archive.ics.uci.edu/ml/datasets/Air+Quality)" contiene lecturas periódicas de sensores de gas. Esto le permitirá trabajar con datos flotantes y de series de tiempo.

In [42]:
# pandas_legislators.py

import pandas as pd

dtypes = {
    "first_name": "category",
    "gender": "category",
    "type": "category",
    "state": "category",
    "party": "category",
}
df = pd.read_csv(
    "db/groupby-data/legislators-historical.csv",
    dtype=dtypes,
    usecols=list(dtypes) + ["birthday", "last_name"],
    parse_dates=["birthday"],
)

El conjunto de datos contiene los nombres y apellidos de los miembros, fecha de nacimiento, género, tipo ("rep" para Cámara de Representantes o "sen" para el Senado), estado de EE. UU. y partido político. Puede usar df.tail() para ver las últimas filas del conjunto de datos:

In [32]:
df.tail()

Unnamed: 0,last_name,first_name,birthday,gender,type,state,party
11970,Garrett,Thomas,1972-03-27,M,rep,VA,Republican
11971,Handel,Karen,1962-04-18,F,rep,GA,Republican
11972,Jones,Brenda,1959-10-24,F,rep,MI,Democrat
11973,Marino,Tom,1952-08-15,M,rep,PA,Republican
11974,Jones,Walter,1943-02-10,M,rep,NC,Republican


In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11975 entries, 0 to 11974
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   last_name   11975 non-null  object        
 1   first_name  11975 non-null  category      
 2   birthday    11422 non-null  datetime64[ns]
 3   gender      11975 non-null  category      
 4   type        11975 non-null  category      
 5   state       11975 non-null  category      
 6   party       11741 non-null  category      
dtypes: category(5), datetime64[ns](1), object(1)
memory usage: 307.0+ KB


Usted llama a .groupby() y pasa el nombre de la columna por la que desea agrupar, que es "state". Luego, usa ["last_name"] para especificar las columnas en las que desea realizar la agregación real.

In [46]:
n_by_state = df.groupby("state")[["first_name"]].count()
n_by_state.head(10)

Unnamed: 0_level_0,first_name
state,Unnamed: 1_level_1
AK,16
AL,206
AR,117
AS,2
AZ,48
CA,361
CO,90
CT,240
DC,2
DE,97


Aquí hay un ejemplo de agrupación conjunta en dos columnas, que encuentra el recuento de miembros del Congreso desglosados ​​por estado y luego por género:

In [50]:
df.groupby(["state", "gender"])[["last_name"]].count().head(8)

Unnamed: 0_level_0,Unnamed: 1_level_0,last_name
state,gender,Unnamed: 2_level_1
AK,F,0
AK,M,16
AL,F,3
AL,M,203
AR,F,5
AR,M,112
AS,F,0
AS,M,2


In [None]:
# pandas_airqual.py

import pandas as pd

df = pd.read_csv(
    "groupby-data/airqual.csv",
    parse_dates=[["Date", "Time"]],
    na_values=[-200],
    usecols=["Date", "Time", "CO(GT)", "T", "RH", "AH"]
).rename(
    columns={
        "CO(GT)": "co",
        "Date_Time": "tstamp",
        "T": "temp_c",
        "RH": "rel_hum",
        "AH": "abs_hum",
    }
).set_index("tstamp")

## Otro ejemplo

In [56]:
import pandas as pd
import dateutil

# Load data from csv file
data = pd.read_csv(
    'db/groupby-data/phone_data.csv',
    dtype=dict.fromkeys(['item', 'month', 'network', 'network_type'], 'category')
)
# Convert date from string to date times
data['date'] = data['date'].apply(dateutil.parser.parse, dayfirst=True)

In [57]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 830 entries, 0 to 829
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   index         830 non-null    int64         
 1   date          830 non-null    datetime64[ns]
 2   duration      830 non-null    float64       
 3   item          830 non-null    category      
 4   month         830 non-null    category      
 5   network       830 non-null    category      
 6   network_type  830 non-null    category      
dtypes: category(4), datetime64[ns](1), float64(1), int64(1)
memory usage: 23.6 KB


¿Cuántas filas tiene el conjunto de datos?

In [58]:
data['item'].count()

830

¿Cuál fue la llamada telefónica / entrada de datos más larga?

In [59]:
data['duration'].max()

10528.0

¿Cuántos segundos de llamadas telefónicas se registran en total?

In [60]:
data['duration'][data['item'] == 'call'].sum()

92321.0

¿Cuántas entradas hay para cada mes?

In [61]:
data['month'].value_counts()

2014-11    230
2015-01    205
2014-12    157
2015-02    137
2015-03    101
Name: month, dtype: int64

Número de entradas de red únicas no nulas

In [62]:
data['network'].nunique()

9

Suma de las duraciones por mes

In [68]:
data['duration'][(data['item'] == 'call') & (data['month'] == '2014-11')].sum()

25547.0

In [67]:
data[data['item'] == 'call'].groupby('month')[['duration']].sum()

Unnamed: 0_level_0,duration
month,Unnamed: 1_level_1
2014-11,25547.0
2014-12,13561.0
2015-01,17070.0
2015-02,14416.0
2015-03,21727.0


Número de fechas/entradas en cada mes

In [69]:
data.groupby('month')['date'].count()

month
2014-11    230
2014-12    157
2015-01    205
2015-02    137
2015-03    101
Name: date, dtype: int64

¿Cuál es la suma de duraciones, solo para llamadas, a cada red?

In [82]:
data[data['item'] == 'call'].groupby('month')[['duration']].agg([pd.DataFrame.median, max, sum, pd.DataFrame.mean])

Unnamed: 0_level_0,duration,duration,duration,duration
Unnamed: 0_level_1,median,max,sum,mean
month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2014-11,48.0,1940.0,25547.0,238.757009
2014-12,55.0,2120.0,13561.0,171.658228
2015-01,55.5,1859.0,17070.0,193.977273
2015-02,89.0,1863.0,14416.0,215.164179
2015-03,107.0,10528.0,21727.0,462.276596


In [75]:
data[data['item'] == 'call'].groupby('month').agg(
    # Máximo de la columna de duración para cada grupo
    max_duration=('duration', max),
    # Mínimo de la columna de duración para cada grupo
    min_duration=('duration', min),
    # Suma de la columna de duración para cada grupo
    total_duration=('duration', sum),
    # Aplicar una lambda a la columna de fecha
    num_days=("date", lambda x: (max(x) - min(x)).days)    
)

Unnamed: 0_level_0,max_duration,min_duration,total_duration,num_days
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2014-11,1940.0,1.0,25547.0,28
2014-12,2120.0,2.0,13561.0,30
2015-01,1859.0,2.0,17070.0,30
2015-02,1863.0,1.0,14416.0,25
2015-03,10528.0,2.0,21727.0,19


In [76]:
data[data['item'] == 'call'].groupby('month').agg(
    max_duration=pd.NamedAgg(column='duration', aggfunc=max),
    min_duration=pd.NamedAgg(column='duration', aggfunc=min),
    total_duration=pd.NamedAgg(column='duration', aggfunc=sum),
    num_days=pd.NamedAgg(
        column="date", 
        aggfunc=lambda x: (max(x) - min(x)).days)    
)

Unnamed: 0_level_0,max_duration,min_duration,total_duration,num_days
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2014-11,1940.0,1.0,25547.0,28
2014-12,2120.0,2.0,13561.0,30
2015-01,1859.0,2.0,17070.0,30
2015-02,1863.0,1.0,14416.0,25
2015-03,10528.0,2.0,21727.0,19
