# Aggregation and Grouping

An essential piece of analysis of large data is efficient summarization: computing aggregations like ``sum()``, ``mean()``, ``median()``, ``min()``, and ``max()``, in which a single number gives insight into the nature of a potentially large dataset.
In this section, we'll explore aggregations in Pandas, from simple operations akin to what we've seen on NumPy arrays, to more sophisticated operations based on the concept of a ``groupby``.

---

Una parte esencial del análisis de datos grandes es el resumen eficiente: computar agregaciones como ``sum()``, ``mean()``,`` median()``, ``min()`` y ``max()``, en el que un solo número da una idea de la naturaleza de un potencial grande conjunto de datos. En esta sección, exploraremos agregaciones en Pandas, desde operaciones simples similares a las que hemos visto en matrices NumPy, hasta operaciones más sofisticadas basadas en el concepto de ``groupby``.

In [1]:
import numpy as np
import pandas as pd

#invitado especial
import seaborn as sns

## Planets Data

Here we will use the Planets dataset, available via the [Seaborn package](http://seaborn.pydata.org/).
It gives information on planets that astronomers have discovered around other stars (known as *extrasolar planets* or *exoplanets* for short). It can be downloaded with a simple Seaborn command:

---

Aquí usaremos el conjunto de datos Planets, disponible a través del paquete Seaborn. Proporciona información sobre planetas que los astrónomos han descubierto alrededor de otras estrellas (conocidos como planetas extrasolares o exoplanetas para abreviar). Se puede descargar con un simple comando de Seaborn:


In [2]:
planets = sns.load_dataset('planets')
planets

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


In [3]:
planets.shape

(1035, 6)

This has some details on the 1,000+ extrasolar planets discovered up to 2014.

## Simple Aggregation in Pandas

Earlier, we explored some of the data aggregations available for NumPy arrays.
As with a one-dimensional NumPy array, for a Pandas ``Series`` the aggregates return a single value:

---

Anteriormente, exploramos algunas de las agregaciones de datos disponibles para las matrices NumPy. Al igual que con una matriz NumPy unidimensional, para una serie Pandas, los agregados devuelven un solo valor:


In [6]:
rng = np.random.RandomState(1640)
ser = pd.Series(rng.rand(5))
ser

0    0.807048
1    0.842130
2    0.963582
3    0.124438
4    0.911407
dtype: float64

In [18]:
ser.values.sum()

3.6486044234717427

In [15]:
ser.sum()

3.6486044234717427

In [8]:
ser.mean()

0.5623850983416314

For a ``DataFrame``, by default the aggregates return results within each column:

In [10]:
df = pd.DataFrame({"A": rng.rand(5),
                  "B": rng.rand(5)})
df

Unnamed: 0,A,B
0,0.183405,0.611853
1,0.304242,0.139494
2,0.524756,0.292145
3,0.431945,0.366362
4,0.291229,0.45607


In [11]:
df.mean()

A    0.347115
B    0.373185
dtype: float64

By specifying the ``axis`` argument, you can instead aggregate within each row:

---

Al especificar el argumento del eje, puede agregar dentro de cada fila:


In [12]:
df.mean(axis = 'columns')

0    0.397629
1    0.221868
2    0.408451
3    0.399153
4    0.373650
dtype: float64

Pandas ``Series`` and ``DataFrame``s include all of the common aggregates mentioned for arrays; in addition, there is a convenience method ``describe()`` that computes several common aggregates for each column and returns the result.
Let's use this on the Planets data, for now dropping rows with missing values:

---

Pandas ``Series`` y ``DataFrames`` incluyen todos los agregados comunes mencionados para arreglos; Además, existe un método de conveniencia ``describe ()`` que calcula varios agregados comunes para cada columna y devuelve el resultado. Usemos esto en los datos de Planetas, por ahora descartando filas con valores faltantes:

In [None]:
# cuando trabajemos con funciones agregadas no hace falta a priori, quitar los datos que contengan nulos porque
# las funciones agregadas ya lo excluyen

In [25]:
planets.columns

Index(['method', 'number', 'orbital_period', 'mass', 'distance', 'year'], dtype='object')

In [12]:
planets.isnull().sum()

method              0
number              0
orbital_period     43
mass              522
distance          227
year                0
dtype: int64

In [3]:
planets.dropna().describe(include = 'all') # dropna()... por default elimina las FILAS con un valor nulo

Unnamed: 0,method,number,orbital_period,mass,distance,year
count,498,498.0,498.0,498.0,498.0,498.0
unique,2,,,,,
top,Radial Velocity,,,,,
freq,497,,,,,
mean,,1.73494,835.778671,2.50932,52.068213,2007.37751
std,,1.17572,1469.128259,3.636274,46.596041,4.167284
min,,1.0,1.3283,0.0036,1.35,1989.0
25%,,1.0,38.27225,0.2125,24.4975,2005.0
50%,,1.0,357.0,1.245,39.94,2009.0
75%,,2.0,999.6,2.8675,59.3325,2011.0


In [25]:
planets.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


This can be a useful way to begin understanding the overall properties of a dataset.
For example, we see in the ``year`` column that although exoplanets were discovered as far back as 1989, half of all known expolanets were not discovered until 2010 or after.
This is largely thanks to the *Kepler* mission, which is a space-based telescope specifically designed for finding eclipsing planets around other stars.

---

Esta puede ser una forma útil de comenzar a comprender las propiedades generales de un conjunto de datos. Por ejemplo, vemos en la columna del año que, aunque se descubrieron exoplanetas ya en 1989, la mitad de todos los expolanets conocidos no se descubrieron hasta 2010 o después. 

Esto se debe en gran parte a la misión Kepler, que es un telescopio espacial diseñado específicamente para encontrar planetas eclipsantes alrededor de otras estrellas.


The following table summarizes some other built-in Pandas aggregations:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

These are all methods of ``DataFrame`` and ``Series`` objects.

In [28]:
# describe evita los nan, pero ¿y las funciones agregadas? 
df = pd.DataFrame({'X': [1, 2, None, 3],
                   'Y': [4, 3, 3, 4],
                  'Z': [5,5,6,np.nan]})
print(df)
df.mean(skipna= True)

     X  Y    Z
0  1.0  4  5.0
1  2.0  3  5.0
2  NaN  3  6.0
3  3.0  4  NaN


X    2.000000
Y    3.500000
Z    5.333333
dtype: float64

In [31]:
df.mean(skipna= False)

X    NaN
Y    3.5
Z    NaN
dtype: float64

To go deeper into the data, however, simple aggregates are often not enough.
The next level of data summarization is the ``groupby`` operation, which allows you to quickly and efficiently compute aggregates on subsets of data.

---


Sin embargo, para profundizar en los datos, los agregados simples a menudo no son suficientes. El siguiente nivel de resumen de datos es la operación `` groupby``, que le permite calcular agregados de forma rápida y eficiente en subconjuntos de datos.


## GroupBy: Split, Apply, Combine

Simple aggregations can give you a flavor of your dataset, but often we would prefer to aggregate conditionally on some label or index: this is implemented in the so-called ``groupby`` operation.
The name "group by" comes from a command in the SQL database language, but it is perhaps more illuminative to think of it in the terms first coined by Hadley Wickham of Rstats fame: *split, apply, combine*.

---

Las agregaciones simples pueden darle una idea de su conjunto de datos, pero a menudo preferiríamos agregar condicionalmente en alguna etiqueta o índice: esto se implementa en la llamada operación ``groupby``. 

El nombre "agrupar por" proviene de un comando en el lenguaje de la base de datos SQL, pero quizás sea más ilustrativo pensar en él en los términos acuñados por primera vez por Hadley Wickham de la fama de Rstats: *split, apply, combine*.


### Split, apply, combine

A canonical example of this split-apply-combine operation, where the "apply" is a summation aggregation.

---

Un ejemplo canónico de esta operación dividir-aplicar-combinar, donde "aplicar" es una agregación de suma.


This makes clear what the ``groupby`` accomplishes:

- The *split* step involves breaking up and grouping a ``DataFrame`` depending on the value of the specified key.
- The *apply* step involves computing some function, usually an aggregate, transformation, or filtering, within the individual groups.
- The *combine* step merges the results of these operations into an output array.

---

Esto deja en claro lo que logra el ``groupby``:

- El paso de *split* implica dividir y agrupar un DataFrame según el valor de la clave especificada.
- El paso de *apply* implica calcular alguna función, generalmente un agregado, una transformación o un filtrado, dentro de los grupos individuales.
- El paso de *combine* fusiona los resultados de estas operaciones en una matriz de salida.

![](https://static.packt-cdn.com/products/9781783985128/graphics/5128OS_09_01.jpg)

While this could certainly be done manually using some combination of the masking, aggregation, commands cover earlier and merging, an important realization is that *the intermediate splits do not need to be explicitly instantiated*. Rather, the ``GroupBy`` can (often) do this in a single pass over the data, updating the sum, mean, count, min, or other aggregate for each group along the way.
The power of the ``GroupBy`` is that it abstracts away these steps: the user need not think about *how* the computation is done under the hood, but rather thinks about the *operation as a whole*.

As a concrete example, let's take a look at using Pandas for the computation shown in this diagram.
We'll start by creating the input ``DataFrame``:

---

Si bien esto ciertamente podría hacerse manualmente usando alguna combinación de enmascaramiento, agregación, comandos que cubren antes y fusionando, una comprensión importante es que las divisiones intermedias no necesitan ser instanciadas explícitamente. Más bien, GroupBy puede (a menudo) hacer esto en una sola pasada sobre los datos, actualizando la suma, la media, el recuento, el mínimo u otro agregado para cada grupo a lo largo del camino. El poder de GroupBy es que abstrae estos pasos: el usuario no necesita pensar en cómo se realiza el cálculo bajo el capó, sino que piensa en la operación como un todo.

Como ejemplo concreto, echemos un vistazo al uso de Pandas para el cálculo que se muestra en este diagrama. Comenzaremos creando el DataFrame de entrada:

In [33]:
df = pd.DataFrame({"key": ["A", "B", "C", "A", "B", "C", "A", "B", "C"],
                  "data": [0, 5, 10, 5, 10, 15, 10, 15, 20]})
df

Unnamed: 0,key,data
0,A,0
1,B,5
2,C,10
3,A,5
4,B,10
5,C,15
6,A,10
7,B,15
8,C,20


The most basic split-apply-combine operation can be computed with the ``groupby()`` method of ``DataFrame``s, passing the name of the desired key column:

---

La operación más básica de dividir-aplicar-combinar se puede calcular con el método groupby () de DataFrames, pasando el nombre de la columna de clave deseada:


In [34]:
df.groupby('key').min() #aqui le damos la función de agregación min()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,0
B,5
C,10


In [35]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001BAFD21A1F0>

Notice that what is returned is not a set of ``DataFrame``s, but a ``DataFrameGroupBy`` object.
This object is where the magic is: you can think of it as a special view of the ``DataFrame``, which is poised to dig into the groups but does no actual computation until the aggregation is applied.
This "lazy evaluation" approach means that common aggregates can be implemented very efficiently in a way that is almost transparent to the user.

To produce a result, we can apply an aggregate to this ``DataFrameGroupBy`` object, which will perform the appropriate apply/combine steps to produce the desired result:

---

Tenga en cuenta que lo que se devuelve no es un conjunto de DataFrames, sino un objeto DataFrameGroupBy. Este objeto es donde está la magia: puede pensar en él como una vista especial del DataFrame, que está preparado para profundizar en los grupos, pero no realiza ningún cálculo real hasta que se aplica la agregación. Este enfoque de "evaluación perezosa" significa que los agregados comunes se pueden implementar de manera muy eficiente y casi transparente para el usuario.

Para producir un resultado, podemos aplicar un agregado a este objeto DataFrameGroupBy, que realizará los pasos apropiados de aplicación / combinación para producir el resultado deseado:


In [36]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,15
B,30
C,45


The ``sum()`` method is just one possibility here; you can apply virtually any common Pandas or NumPy aggregation function, as well as virtually any valid ``DataFrame`` operation, as we will see in the following discussion.

---

El método sum () es solo una posibilidad aquí; puede aplicar virtualmente cualquier función de agregación Pandas o NumPy común, así como virtualmente cualquier operación válida de DataFrame, como veremos en la siguiente discusión.


### The GroupBy object

The ``GroupBy`` object is a very flexible abstraction.
In many ways, you can simply treat it as if it's a collection of ``DataFrame``s, and it does the difficult things under the hood. Let's see some examples using the Planets data.

---

El objeto GroupBy es una abstracción muy flexible. En muchos sentidos, puede simplemente tratarlo como si fuera una colección de DataFrames, y hace las cosas difíciles bajo el capó. Veamos algunos ejemplos usando los datos de Planetas.



In [34]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [39]:
planets.columns

Index(['method', 'number', 'orbital_period', 'mass', 'distance', 'year'], dtype='object')

#### Column indexing

The ``GroupBy`` object supports column indexing in the same way as the ``DataFrame``, and returns a modified ``GroupBy`` object.
For example:

---

El objeto GroupBy admite la indexación de columnas de la misma manera que el DataFrame y devuelve un objeto GroupBy modificado. Por ejemplo:


In [36]:
planets.method.unique()

array(['Radial Velocity', 'Imaging', 'Eclipse Timing Variations',
       'Transit', 'Astrometry', 'Transit Timing Variations',
       'Orbital Brightness Modulation', 'Microlensing', 'Pulsar Timing',
       'Pulsation Timing Variations'], dtype=object)

In [42]:
planets.groupby('method').median()

Unnamed: 0_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,1.0,631.18,,17.875,2011.5
Eclipse Timing Variations,2.0,4343.5,5.125,315.36,2010.0
Imaging,1.0,27500.0,,40.395,2009.0
Microlensing,1.0,3300.0,,3840.0,2010.0
Orbital Brightness Modulation,2.0,0.342887,,1180.0,2011.0
Pulsar Timing,3.0,66.5419,,1200.0,1994.0
Pulsation Timing Variations,1.0,1170.0,,,2007.0
Radial Velocity,1.0,360.2,1.26,40.445,2009.0
Transit,1.0,5.714932,1.47,341.0,2012.0
Transit Timing Variations,2.0,57.011,,855.0,2012.5


In [47]:
planets.groupby('method')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001BAFD2084C0>

In [40]:
planets.groupby('method')['orbital_period']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001BAFD17ED60>

Here we've selected a particular ``Series`` group from the original ``DataFrame`` group by reference to its column name.
As with the ``GroupBy`` object, no computation is done until we call some aggregate on the object:

---

Aquí hemos seleccionado un grupo de Series en particular del grupo DataFrame original por referencia a su nombre de columna. Al igual que con el objeto GroupBy, no se realiza ningún cálculo hasta que llamamos a algún agregado en el objeto:


In [41]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [49]:
#¿Es lo mismo? Parece, pero no
planets.groupby('method').median()['orbital_period']

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [51]:
%timeit planets.groupby('method')['orbital_period'].median()

%timeit planets.groupby('method').median()['orbital_period'] 

693 µs ± 3.57 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
1.94 ms ± 54.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


This gives an idea of the general scale of orbital periods (in days) that each method is sensitive to.

#### Iteration over groups

The ``GroupBy`` object supports direct iteration over the groups, returning each group as a ``Series`` or ``DataFrame``:

---

El objeto GroupBy admite la iteración directa sobre los grupos, devolviendo cada grupo como una serie o marco de datos:


In [57]:
planets[planets.method == "Astrometry"]

Unnamed: 0,method,number,orbital_period,mass,distance,year
113,Astrometry,1,246.36,,20.77,2013
537,Astrometry,1,1016.0,,14.98,2010


In [37]:
for (a, b) in planets.groupby('method'): 
    print("a: ", a)
    print("b: ", b)

a:  Astrometry
b:           method  number  orbital_period  mass  distance  year
113  Astrometry       1          246.36   NaN     20.77  2013
537  Astrometry       1         1016.00   NaN     14.98  2010
a:  Eclipse Timing Variations
b:                         method  number  orbital_period  mass  distance  year
32  Eclipse Timing Variations       1        10220.00  6.05       NaN  2009
37  Eclipse Timing Variations       2         5767.00   NaN    130.72  2008
38  Eclipse Timing Variations       2         3321.00   NaN    130.72  2008
39  Eclipse Timing Variations       2         5573.55   NaN    500.00  2010
40  Eclipse Timing Variations       2         2883.50   NaN    500.00  2010
41  Eclipse Timing Variations       1         2900.00   NaN       NaN  2011
42  Eclipse Timing Variations       1         4343.50  4.20       NaN  2012
43  Eclipse Timing Variations       2         5840.00   NaN       NaN  2011
44  Eclipse Timing Variations       2         1916.25   NaN       NaN  2011
a

In [43]:
for (method, group) in planets.groupby('method'):
    print("{0:50s} shape={1}".format(method, group.shape))

Astrometry                                         shape=(2, 6)
Eclipse Timing Variations                          shape=(9, 6)
Imaging                                            shape=(38, 6)
Microlensing                                       shape=(23, 6)
Orbital Brightness Modulation                      shape=(3, 6)
Pulsar Timing                                      shape=(5, 6)
Pulsation Timing Variations                        shape=(1, 6)
Radial Velocity                                    shape=(553, 6)
Transit                                            shape=(397, 6)
Transit Timing Variations                          shape=(4, 6)


This can be useful for doing certain things manually, though it is often much faster to use the built-in ``apply`` functionality, which we will discuss momentarily.

---

Esto puede ser útil para hacer ciertas cosas manualmente, aunque a menudo es mucho más rápido usar la funcionalidad de aplicación incorporada, que discutiremos en un momento.


#### Dispatch methods

Through some Python class magic, any method not explicitly implemented by the ``GroupBy`` object will be passed through and called on the groups, whether they are ``DataFrame`` or ``Series`` objects.
For example, you can use the ``describe()`` method of ``DataFrame``s to perform a set of aggregations that describe each group in the data:

---

A través de algo de magia de clase Python, cualquier método no implementado explícitamente por el objeto GroupBy se pasará y se llamará a los grupos, ya sean objetos DataFrame o Series. Por ejemplo, puede usar el método describe () de DataFrames para realizar un conjunto de agregaciones que describen cada grupo en los datos:

In [46]:
planets.groupby('method')['year'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


Looking at this table helps us to better understand the data: for example, the vast majority of planets have been discovered by the Radial Velocity and Transit methods, though the latter only became common (due to new, more accurate telescopes) in the last decade.
The newest methods seem to be Transit Timing Variation and Orbital Brightness Modulation, which were not used to discover a new planet until 2011.

This is just one example of the utility of dispatch methods.
Notice that they are applied *to each individual group*, and the results are then combined within ``GroupBy`` and returned.
Again, any valid ``DataFrame``/``Series`` method can be used on the corresponding ``GroupBy`` object, which allows for some very flexible and powerful operations!

---

Mirar esta tabla nos ayuda a comprender mejor los datos: por ejemplo, la gran mayoría de los planetas han sido descubiertos por los métodos de velocidad radial y tránsito, aunque este último solo se volvió común (debido a telescopios nuevos y más precisos) en la última década. . Los métodos más nuevos parecen ser la variación del tiempo de tránsito y la modulación del brillo orbital, que no se utilizaron para descubrir un nuevo planeta hasta 2011.

Este es solo un ejemplo de la utilidad de los métodos de envío. Observe que se aplican a cada grupo individual y, a continuación, los resultados se combinan dentro de GroupBy y se devuelven. Nuevamente, cualquier método DataFrame / Series válido se puede usar en el objeto GroupBy correspondiente, lo que permite algunas operaciones muy flexibles y potentes.

### Aggregate, filter, transform, apply

The preceding discussion focused on aggregation for the combine operation, but there are more options available.
In particular, ``GroupBy`` objects have ``aggregate()``, ``filter()``, ``transform()``, and ``apply()`` methods that efficiently implement a variety of useful operations before combining the grouped data.

For the purpose of the following subsections, we'll use this ``DataFrame``:

---

La discusión anterior se centró en la agregación para la operación de combinación, pero hay más opciones disponibles. En particular, los objetos GroupBy tienen métodos aggregate (), filter (), transform () y apply () que implementan de manera eficiente una variedad de operaciones útiles antes de combinar los datos agrupados.

Para el propósito de las siguientes subsecciones, usaremos este DataFrame:

In [48]:
rng1 = np.random.RandomState(0)
df_method = pd.DataFrame({"key": ["A", "B", "C", "A", "B", "C"],
                         "data1": range(6),
                         "data2": rng1.randint(0, 10, 6)})
df_method

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


#### Aggregation

We're now familiar with ``GroupBy`` aggregations with ``sum()``, ``median()``, and the like, but the ``aggregate()`` method allows for even more flexibility.
It can take a string, a function, or a list thereof, and compute all the aggregates at once.
Here is a quick example combining all these:

---

Ahora estamos familiarizados con las agregaciones de ``GroupBy`` con ``sum()``, ``median()`` y similares, pero el método ``aggregate()`` permite aún más flexibilidad. Puede tomar una cadena, una función o una lista de las mismas y calcular todos los agregados a la vez. Aquí hay un ejemplo rápido que combina todos estos:


In [64]:
df_method.groupby('key').sum()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,8
B,5,7
C,7,12


In [49]:
df_method.groupby('key').min()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,3
B,1,0
C,2,3


In [52]:
df_method.groupby('key').aggregate(['min', np.median, max])   # notar que se puede poner tanto como string como no string

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


In [53]:
df_method.groupby('key').aggregate('min')

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,3
B,1,0
C,2,3


Another useful pattern is to pass a dictionary mapping column names to operations to be applied on that column:

---

Otro patrón útil es pasar los nombres de columna de un mapeo de diccionario a las operaciones que se aplicarán en esa columna:


In [54]:
df_method.groupby('key').aggregate({"data1": np.prod, "data2": [min, "mean"]})

Unnamed: 0_level_0,data1,data2,data2
Unnamed: 0_level_1,prod,min,mean
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,0,3,4.0
B,4,0,3.5
C,10,3,6.0


#### Filtering

A filtering operation allows you to drop data based on the group properties.
For example, we might want to keep all groups in which the standard deviation is larger than some critical value:

---

Una operación de filtrado le permite eliminar datos según las propiedades del grupo. Por ejemplo, podríamos querer mantener todos los grupos en los que la desviación estándar es mayor que algún valor crítico:


In [55]:
def filter_func(x):
    return x['data2'].std() > 4

In [56]:
display(df_method, df_method.groupby('key').std(), df_method.groupby('key').filter(filter_func))

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.12132,1.414214
B,2.12132,4.949747
C,2.12132,4.242641


Unnamed: 0,key,data1,data2
1,B,1,0
2,C,2,3
4,B,4,7
5,C,5,9


The filter function should return a Boolean value specifying whether the group passes the filtering. Here because group A does not have a standard deviation greater than 4, it is dropped from the result.

---

La función de filtro debe devolver un valor booleano que especifique si el grupo pasa el filtrado. Aquí, debido a que el grupo A no tiene una desviación estándar mayor que 4, se elimina del resultado.


# Transformation

While aggregation must return a reduced version of the data, transformation can return some transformed version of the full data to recombine.
For such a transformation, the output is the same shape as the input.
A common example is to center the data by subtracting the group-wise mean:

---

Si bien la agregación debe devolver una versión reducida de los datos, la transformación puede devolver alguna versión transformada de los datos completos para recombinarlos. Para tal transformación, **la salida tiene la misma forma que la entrada**. Un ejemplo común es centrar los datos restando la media del grupo:


In [57]:
df_method

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [83]:
df_method.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


```python
#data 1
0 - (0+3/2 = 1.5) = -1.5
1 - (1+4/2 = 2.5) = -1.5
2 - (2+5/2 = 3.5) = -1.5
3 - 1.5 = 1.5
4 - 2.5 = 1.5
5 - 2.5 = 1.5
```

# The apply() method

The ``apply()`` method lets you apply an arbitrary function to the group results.
The function should take a ``DataFrame``, and return either a Pandas object (e.g., ``DataFrame``, ``Series``) or a scalar; the combine operation will be tailored to the type of output returned.

For example, here is an ``apply()`` that normalizes the first column by the sum of the second:

---

El método ``apply()`` le permite aplicar una función arbitraria a los resultados del grupo. La función debe tomar un DataFrame y devolver un objeto Pandas (por ejemplo, ``DataFrame``, ``Series``) o un escalar; la operación de combinación se adaptará al tipo de salida devuelta.

Por ejemplo, aquí hay un ``apply()`` que normaliza la primera columna por la suma de la segunda:

https://stackoverflow.com/questions/27517425/apply-vs-transform-on-a-group-object

In [61]:
def norm_by_data2(x):
    '''
    x es un dataframe
    '''
    x['data1'] /= x['data2'].sum()
    return x

In [71]:
df_method['data2'].sum()

27

In [58]:
df_method

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [73]:
df_method[df_method.key == "B"]

Unnamed: 0,key,data1,data2
1,B,1,0
4,B,4,7


In [74]:
df_method.groupby('key').apply(norm_by_data2)   # al valor de data1 le divide el valor de las suma de data 2 EN SU RESPECTIVA LETRA !!

Unnamed: 0,key,data1,data2
0,A,0.0,5
1,B,0.142857,0
2,C,0.166667,3
3,A,0.375,3
4,B,0.571429,7
5,C,0.416667,9


In [None]:
#4/df[df.key == "B"]["data2"].sum()

``apply()`` within a ``GroupBy`` is quite flexible: the only criterion is that the function takes a ``DataFrame`` and returns a Pandas object or scalar; what you do in the middle is up to you!

---

``apply()`` dentro de un ``GroupBy`` es bastante flexible: el único criterio es que la función toma un ``DataFrame`` y devuelve un objeto Pandas o escalar; ¡lo que hagas en el medio depende de ti!


### Specifying the split key

In the simple examples presented before, we split the ``DataFrame`` on a single column name.
This is just one of many options by which the groups can be defined, and we'll go through some other options for group specification here.


---

En los ejemplos simples presentados anteriormente, dividimos el DataFrame en un solo nombre de columna. Esta es solo una de las muchas opciones mediante las cuales se pueden definir los grupos, y veremos algunas otras opciones para la especificación de grupos aquí.


#### A list, array, series, or index providing the grouping keys

The key can be any series or list with a length matching that of the ``DataFrame``. For example:

---

#### Una lista, matriz, serie o índice que proporciona las claves de agrupación.

La clave puede ser cualquier serie o lista con una longitud que coincida con la del DataFrame. Por ejemplo:

In [95]:
df_method['key']

0    A
1    B
2    C
3    A
4    B
5    C
Name: key, dtype: object

In [96]:
#L2 = ["X", "Y", "Z", "X", "X", "Z"]

In [77]:
df_method

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [76]:
L = [0, 1, 0, 1, 2, 0]
print(df_method)
df_method.groupby(L).sum()

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9


Unnamed: 0,data1,data2
0,7,17
1,4,3
2,4,7


#### A dictionary or series mapping index to group

Another method is to provide a dictionary that maps index values to the group keys:

---

#### Un diccionario o un índice de asignación de series al grupo


Otro método es proporcionar un diccionario que asigne valores de índice a las claves de grupo:

In [78]:
df2 = df_method.set_index('key')
df2

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,0
C,2,3
A,3,3
B,4,7
C,5,9


In [79]:
mapping = {"A": "vowel", "B": "consonant", "C": "consonant"}

In [80]:
df2.groupby(mapping).sum()

Unnamed: 0,data1,data2
consonant,12,19
vowel,3,8


#### Any Python function

Similar to mapping, you can pass any Python function that will input the index value and output the group:

---

#### Cualquier función de Python

De manera similar al mapeo, puede pasar cualquier función de Python que ingrese el valor del índice y genere el grupo:

In [81]:
df2.index = ["A", "a", "b", "C", "a", "B"]

In [82]:
df2

Unnamed: 0,data1,data2
A,0,5
a,1,0
b,2,3
C,3,3
a,4,7
B,5,9


In [108]:
df2.groupby(str.lower).mean()

Unnamed: 0,data1,data2
a,1.666667,4
b,3.5,6
c,3.0,3


#### A list of valid keys

Further, any of the preceding key choices can be combined to group on a multi-index:

---

#### Una lista de claves válidas

Además, cualquiera de las opciones de clave anteriores se puede combinar para agrupar en un índice múltiple:

In [83]:
df_method= df_method.set_index("key")

In [84]:
df_method

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,0
C,2,3
A,3,3
B,4,7
C,5,9


In [None]:
mapping = {"A": "vowel", "B": "consonant", "C": "consonant"}

In [115]:
df_agrupado = df_method.groupby([mapping, str.lower]).mean()
df_agrupado

Unnamed: 0,Unnamed: 1,data1,data2
consonant,b,2.5,3.5
consonant,c,3.5,6.0
vowel,a,1.5,4.0


In [116]:
df_agrupado.index

MultiIndex([('consonant', 'b'),
            ('consonant', 'c'),
            (    'vowel', 'a')],
           )

### Grouping example

As an example of this, in a couple lines of Python code we can put all these together and count discovered planets by method and by decade:

---

### Ejemplo de agrupación

Como ejemplo de esto, en un par de líneas de código Python podemos juntar todo esto y contar los planetas descubiertos por método y por década:

In [85]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [86]:
planets['decade'] = (planets['year']//10) * 10

In [95]:
planets_metodo_decada = planets.groupby(['decade','method'])[['number', 'distance']].count()   # ESTO LO HICE YO
planets_metodo_decada

Unnamed: 0_level_0,Unnamed: 1_level_0,number,distance
decade,method,Unnamed: 2_level_1,Unnamed: 3_level_1
1980,Radial Velocity,1,1
1990,Pulsar Timing,3,0
1990,Radial Velocity,28,28
2000,Eclipse Timing Variations,3,2
2000,Imaging,20,16
2000,Microlensing,10,0
2000,Pulsar Timing,1,0
2000,Pulsation Timing Variations,1,0
2000,Radial Velocity,309,301
2000,Transit,62,44


In [120]:
planets

Unnamed: 0,method,number,orbital_period,mass,distance,year,decade
0,Radial Velocity,1,269.300000,7.10,77.40,2006,2000
1,Radial Velocity,1,874.774000,2.21,56.95,2008,2000
2,Radial Velocity,1,763.000000,2.60,19.84,2011,2010
3,Radial Velocity,1,326.030000,19.40,110.62,2007,2000
4,Radial Velocity,1,516.220000,10.50,119.47,2009,2000
...,...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006,2000
1031,Transit,1,2.615864,,148.00,2007,2000
1032,Transit,1,3.191524,,174.00,2007,2000
1033,Transit,1,4.125083,,293.00,2008,2000


In [93]:
planets.groupby(["decade", "method"])[["number", "distance"]].aggregate(['count', min])

Unnamed: 0_level_0,Unnamed: 1_level_0,number,number,distance,distance
Unnamed: 0_level_1,Unnamed: 1_level_1,count,min,count,min
decade,method,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1980,Radial Velocity,1,1,1,40.57
1990,Pulsar Timing,3,3,0,
1990,Radial Velocity,28,1,28,4.7
2000,Eclipse Timing Variations,3,1,2,130.72
2000,Imaging,20,1,16,7.69
2000,Microlensing,10,1,0,
2000,Pulsar Timing,1,1,0,
2000,Pulsation Timing Variations,1,1,0,
2000,Radial Velocity,309,1,301,3.22
2000,Transit,62,1,44,38.0
