# groupby

## Ejemplo sencillo

Primero, importamos las librerías necesarias:

In [None]:
import pandas as pd
import numpy as np

Luego, creamos un DataFrame con datos ficticios:

In [None]:
datos = {'ciudad': ['Bogotá', 'Bogotá', 'Cali', 'Cali', 'Medellín', 'Medellín'], 
         'año': [2015, 2016, 2015, 2016, 2015, 2016], 
         'poblacion': [7892000, 8034000, 2289000, 2332000, 2485000, 2569000]}
df = pd.DataFrame(data=datos)
df

El DataFrame tiene tres columnas: "ciudad", "año" y "poblacion".

Ahora, agrupamos los datos por la columna "ciudad" y obtenemos la suma de la columna "poblacion":



In [None]:
df.groupby('ciudad')[['poblacion']].sum()

También podemos agrupar por dos columnas, "ciudad" y "año", y obtener la media de la columna "poblacion":

In [None]:
df.groupby(['ciudad', 'año'])[['poblacion']].mean()

## Ejemplos más complejos

1. El conjunto de datos "[U.S. Congress](https://github.com/unitedstates/congress-legislators)" contiene información pública sobre los miembros históricos del Congreso y muestra varias capacidades fundamentales de .groupby().

2. El conjunto de datos de "[air quality](http://archive.ics.uci.edu/ml/datasets/Air+Quality)" contiene lecturas periódicas de sensores de gas. Esto le permitirá trabajar con datos flotantes y de series de tiempo.

3. El conjunto de datos de "[news aggregator dataset](http://archive.ics.uci.edu/ml/datasets/News+Aggregator)" contiene metadatos sobre varios cientos de miles de artículos de noticias.

In [None]:
# pandas_legislators.py

import pandas as pd

dtypes = {
    "first_name": "category",
    "gender": "category",
    "type": "category",
    "state": "category",
    "party": "category",
}
df = pd.read_csv(
    "db/groupby-data/legislators-historical.csv",
    dtype=dtypes,
    usecols=list(dtypes) + ["birthday", "last_name"],
    parse_dates=["birthday"]
)

El conjunto de datos contiene los nombres y apellidos de los miembros, fecha de nacimiento, género, tipo ("rep" para Cámara de Representantes o "sen" para el Senado), estado de EE. UU. y partido político. Puede usar df.tail() para ver las últimas filas del conjunto de datos:

In [None]:
df.tail()

In [None]:
df.info()

Usted llama a .groupby() y pasa el nombre de la columna por la que desea agrupar, que es "state". Luego, usa ["last_name"] para especificar las columnas en las que desea realizar la agregación real.

In [None]:
n_by_state = df.groupby("state")["last_name"].count()
n_by_state.head(10)

Aquí hay un ejemplo de agrupación conjunta en dos columnas, que encuentra el recuento de miembros del Congreso desglosados ​​por estado y luego por género:

In [None]:
df.groupby(["state", "gender"])["last_name"].count()

In [None]:
# pandas_airqual.py

import pandas as pd

df = pd.read_csv(
    "groupby-data/airqual.csv",
    parse_dates=[["Date", "Time"]],
    na_values=[-200],
    usecols=["Date", "Time", "CO(GT)", "T", "RH", "AH"]
).rename(
    columns={
        "CO(GT)": "co",
        "Date_Time": "tstamp",
        "T": "temp_c",
        "RH": "rel_hum",
        "AH": "abs_hum",
    }
).set_index("tstamp")

In [None]:
# pandas_news.py

import pandas as pd

def parse_millisecond_timestamp(ts):
    """Convert ms since Unix epoch to UTC datetime instance."""
    return pd.to_datetime(ts, unit="ms")

df = pd.read_csv(
    "groupby-data/news.csv",
    sep="\t",
    header=None,
    index_col=0,
    names=["title", "url", "outlet", "category", "cluster", "host", "tstamp"],
    parse_dates=["tstamp"],
    date_parser=parse_millisecond_timestamp,
    dtype={
        "outlet": "category",
        "category": "category",
        "cluster": "category",
        "host": "category",
    },
)

## Volviendo a la FIFA WC

In [None]:
df = pd.read_csv('db/FIFA World Cup 1930-2022 All Match Dataset.csv', encoding_errors='replace')

In [None]:
df.iloc[762]

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 964 entries, 0 to 963
Data columns (total 37 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Key Id                     964 non-null    int64 
 1   Tournament Id              964 non-null    object
 2   tournament Name            964 non-null    object
 3   Match Id                   964 non-null    object
 4   Match Name                 964 non-null    object
 5   Stage Name                 964 non-null    object
 6   Group Name                 964 non-null    object
 7   Group Stage                964 non-null    int64 
 8   Knockout Stage             964 non-null    int64 
 9   Replayed                   964 non-null    int64 
 10  Replay                     964 non-null    int64 
 11  Match Date                 964 non-null    object
 12  Match Time                 964 non-null    object
 13  Stadium Id                 964 non-null    object
 14  Stadium Na