[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Métodos ```groupby()```.

*Pandas* cuenta con una funcionalidad  que permite agrupar los datos idénticos en una columna o un renglón de un *dataframe* .

Tanto las series como los dataframes de *Pandas* cuentan con un método ```groupby()```.

* El método ```pd.DataFrame.groupby()``` regresa un objeto ```pd.core.groupby.generic.DataFrameGroupBy```.
* El método ```pd.Series.groupby()``` regresa un objeto ```pd.core.groupby.generic.SeriesGroupBy```.

En este capítulo se explorará el método ```pd.DataFrame.groupby()```, asumiendo que el método```pd.Series.groupby()``` se comporta de forma similar.

In [None]:
import pandas as pd
from datetime import datetime

## El método ```pd.DataFrame.groupby()```.

El método regresa un objeto de tipo ```pd.core.groupby.generic.DataFrameGroupBy```.

```
df.groupby(by=<identificador>, axis=<eje>, group_keys=True)
```
Donde:

* ```identificador``` corresponde al identificador de la columna o índice en el que se realziará la agrupación.
* El argumento ```axis``` indicar;a el eje al que se aplicará el método. El valor por defecto es ```1```.
* El argumento ```group_keys``` le indica al método que use los valores  de agrupamiento como llaves. El valor por defecto es ```False```, pero se recomienda asignarle el valor ```True```.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

**Ejemplo:**

* La siguiente celda creará al dataframe ```facturas``` con la estructura de columnas:

    * ```'folio'```.
    * ```'sucursal'```.
    * ```'monto'```.
    * ```'fecha'```.
    * ```'cliente'```.

In [None]:
facturas = pd.DataFrame({'folio':(15234, 
                      15235, 
                      15236, 
                      15237, 
                      15238, 
                      15239, 
                      15240,
                      15241,
                      15242),
             'sucursal':('CDMX01',
                         'MTY01',
                         'CDMX02',
                         'CDMX02',
                         'MTY01',
                         'GDL01',
                         'CDMX02',
                         'MTY01',
                         'GDL01'),
             'monto':(1420.00,
                     1532.00,
                     890.00,
                     1300.00,
                     3121.47,
                     1100.5,
                     12230,
                     230.85,
                     1569),
             'fecha':(datetime(2019,3,11,17,24),
                     datetime(2019,3,24,14,46),
                     datetime(2019,3,25,17,58),
                     datetime(2019,3,27,13,11),
                     datetime(2019,3,31,10,25),
                     datetime(2019,4,1,18,32),
                     datetime(2019,4,3,11,43),
                     datetime(2019,4,4,16,55),
                     datetime(2019,4,5,12,59)),
            'cliente':(19234,
                       19232,
                       19235,
                       19233,
                       19236,
                       19237,
                       19232,
                       19233,
                       19232)
                        })

In [None]:
facturas

* La siguiente celda agrupará aquellos elementos en los que el valor de la columna ```facturas['cliente']``` sean iguales.

In [None]:
clientes = facturas.groupby("cliente", group_keys=True)

* El objeto ```clientes``` es de tipo ```pd.core.groupby.generic.DataFrameGroupBy```.

In [None]:
clientes

## Los objetos ```core.groupby.generic.DataFrameGroupBy```.

Los objetos ```core.groupby.generic.DataFrameGroupBy``` son iteradores que contienen a objetos de tipo ```tuple``` resultantes de la agrupación.

* El primer elemento de la tupla corresponde al valor que se agrupa.
* El segundo elemento de la tupla corresponde a un *dataframe* con los elementos agrupados.

Dichos objetos contiene diversos métodos capaces de procesar los datos de cada objeto ```tuple``` que contiene.

**Ejemplo:**

* La siguiente celda desplegará las tuplas contenidas en ```clientes```.

In [None]:
for item in clientes:
    print(f"""ciente: {item[0]}
 -------
{item[1]}
""")
    

* La siguiente celda creará un objeto tipo ```list``` llamado ```clientes_agrupados```  a patir del objeto ```cliente```.

In [None]:
clientes_agrupados = list(clientes)

In [None]:
clientes_agrupados

* La siguiente celda regresará al *datafame* que corresponde al segundo elemento de la tupla ```clientes_agrupados[0]```.

In [None]:
clientes_agrupados[0][1]

In [None]:
type(clientes_agrupados[0][1])

### Indexado de los objetos ```DataFrameGroupBy```.

Los objetos ```DataFrameGroupBy``` permiten el indexado de columnas propio de los *dataframes*.

```
<obj>[<id>]
```
Donde:

* ```<obj>``` es un objeto ```DataFrameGroupBy```.
* ```<id>``` es el identificador de una columna del *dataframe* original.

En caso de haber ingresado el parámetro ```group_keys=True````, es posible usar la siguiente sintaxis.

```
<obj>[[<id_1>, <id_2>, ... <id_n>]]
```
Donde:

* ```<obj>``` es un objeto ```DataFrameGroupBy```.
* ```<id_x>``` es el identificador de una columna del *dataframe* original.



**Ejemplo:**

* La siguiente celda regresará un listado de los elementos agrupados, pero sólo se incluirá a la columna ```'fecha'```.

In [None]:
for item in clientes['fecha']:
    print(f"""ciente: {item[0]}
 -------
{item[1]}
""")

* La siguiente celda regresará un listado de los elementos agrupados, pero sólo se incluirá a las columnas ```'fecha'``` y  ```monto```.

In [None]:
for item in clientes[['fecha', 'monto']]:
    print(f"""ciente: {item[0]}
 -------
{item[1]}
""")

### Atributos y métodos de ```DataFrameGroupBy```.

Los objetos ```core.groupby.generic.DataFrameGroupBy``` cuentan con una gran cantidad de atributo y métodos que permiten analizar y manipular los datos de las tuplas que contienen dichos objetos.

https://pandas.pydata.org/docs/reference/groupby.html

* Las siguientes celdas mostrarán algunos métodos y atributos de los objetos ```core.groupby.generic.DataFrameGroupBy```.

**Ejemplos:**

* La siguiente celda regresará al atributo ```clientes.indices```, el cual es un objeto de tipo ```dict``` donde las claves corresponden a cada valor de agrupación y los valores corresponden a un arreglo que enumera los índices en donde se encontró dicho valor de agrupación.

In [None]:
clientes.indices

* La siguiente celda regresará una serie en el que el índice corresponden a cada valor de agrupación y los valores corresponden al numero de elementos agrupados del objeto ```cliente```.

In [None]:
clientes.size()

* La siguiente celda regresará un *dataframe* en el que el índice corresponden a cada valor de agrupación y los valores corresponden a la media estadística de los valores agrupados de cada columna restante del *dataset* original de ```clientes```.
* El parámetro ```numeric_only=True``` le indica al método que aplique el cálculo sólo a aquellas columnas que contengan valores numéricos.

In [None]:
clientes.mean(numeric_only=True)

* La siguiente celda aplicará el método ```mean()``` a ```clientes['monto']```.

In [None]:
clientes['monto'].mean(numeric_only=True)

* La siguiente celda trazará un histograma a partir de los valores en la columna ```"monto"``` de cada elemento agrupado.

In [None]:
clientes.hist(column="monto")

* La siguiente celda aplicará una función que divida a cada valor entre ```1000```.

In [None]:
clientes['monto'].apply(func=lambda x: x / 100)

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2023.</p>