

## **Contenido**

- <a href="#pan"> Operaciones sobre los datos en Pandas</a><br>
- <a href="#ope"> Operaciones entre DataFrames y Series</a><br>
- <a href="#agg"> Agregación y agrupamiento</a><br>
  - <a href="#gro"> Groupby</a><br>

<p><a name="pan"></a></p>

# **Operaciones sobre los datos en Pandas**

Una de las piezas esenciales de NumPy es la capacidad de realizar operaciones vectorizadas, tanto con aritmética básica (suma, resta, multiplicación, etc.) como con operaciones más sofisticadas (funciones trigonométricas, funciones exponenciales y logarítmicas, etc.). Pandas hereda gran parte de esta funcionalidad de NumPy.

Sin embargo, Pandas incluye un par de elementos útiles: para operaciones unarias como funciones de negación y trigonométricas, estas ufuncs conservarán etiquetas de índice y columna en la salida, y para operaciones binarias como suma y multiplicación, Pandas alineará automáticamente los índices. Debido a que Pandas está diseñado para funcionar con NumPy, cualquier ufunc de NumPy funcionará en objetos Pandas Series y DataFrame.

Comencemos por definir una serie y un DataFrame simples con los cuales demostrar esto:

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = [1, 4, 24, 5]

s = pd.Series(data)
s

Unnamed: 0,0
0,1
1,4
2,24
3,5


In [3]:
data = np.random.rand(3, 3)
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2
0,0.81257,0.845164,0.26561
1,0.05918,0.978056,0.891609
2,0.253347,0.0836,0.888097


**Preservando el índice**

Si aplicamos un ufunc de NumPy en cualquiera de estos objetos, el resultado será otro objeto de Pandas con los índices preservados:


In [4]:
np.exp(s)

Unnamed: 0,0
0,2.718282
1,54.59815
2,26489120000.0
3,148.4132


In [6]:
np.log(df)

Unnamed: 0,0,1,2
0,-0.207553,-0.168224,-1.325727
1,-2.827171,-0.022189,-0.114727
2,-1.372995,-2.481714,-0.118675


**Alineación del índice**


**Series**

Para operaciones binarias con dos objetos (Series o DataFrames), Pandas alineará los índices en el proceso de realizar la operación.


In [7]:
d_poblacion = {"Brasil":210147125, "Colombia": 50372424, "Argentina":44938712}

s_poblacion = pd.Series(d_poblacion)
s_poblacion

Unnamed: 0,0
Brasil,210147125
Colombia,50372424
Argentina,44938712


In [10]:
d_area = {"Brasil":8514877, "Colombia":1141748, "Peru": 2792600}

s_area = pd.Series(d_area)
s_area

Unnamed: 0,0
Brasil,8514877
Colombia,1141748
Peru,2792600


In [11]:
s_poblacion / s_area

Unnamed: 0,0
Argentina,
Brasil,24.679995
Colombia,44.118688
Peru,


Veamos qué sucede cuando dividimos estas series para calcular la densidad de población:

In [15]:
l_pob = s_poblacion.index.tolist()
for pob in l_pob:
  if pob not in s_area.index:
    print(f"{pob} no está en area")

Argentina no está en area


El arreglo resultante contiene la unión de los índices de los dos arreglos de entrada, que podrían determinarse utilizando la aritmética de conjuntos estándar de Python sobre estos índices:


Cualquier elemento para el que una serie u otra no tenga una entrada se marca con `NaN` ("Not a Number"), que es la forma en que Pandas marca los datos faltantes.

Esta coincidencia de índices se implementa de esta manera para cualquiera de las expresiones aritméticas integradas de Python; los valores faltantes se rellenan con `NaN` de forma predeterminada

In [16]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])

In [17]:
A + B

Unnamed: 0,0
0,
1,5.0
2,9.0
3,


Si no queremos incluir `NaN` en la salida, podemos utilizar la ufunc directamente. Por ejemplo, llamar a `A.add(B)` es equivalente a llamar a `A + B`, pero permite la especificación explícita opcional del valor de relleno para cualquier elemento en `A` o `B` que pueda faltar, mediante al kwarg `fill_value`:

In [19]:
print(A)
print(B)

0    2
1    4
2    6
dtype: int64
1    1
2    3
3    5
dtype: int64


In [18]:
A.add(B)

Unnamed: 0,0
0,
1,5.0
2,9.0
3,


In [21]:
A.add(B, fill_value=100)

Unnamed: 0,0
0,102.0
1,5.0
2,9.0
3,105.0


Note que este kwarg reemplaza `0` en los valores faltantes en las series, no directamente los `NaN` en la salida de la operación de suma.

**DataFrames**

Cuando se realizan operaciones en DataFrames se produce un tipo similar de alineación tanto para las columnas como para los índices:


In [26]:
data = np.random.rand(3, 3)
a = pd.DataFrame(data, columns = [f"col_{j}" for j in range(1, 4)])
a

Unnamed: 0,col_1,col_2,col_3
0,0.5481,0.316819,0.434657
1,0.007535,0.913106,0.823205
2,0.371468,0.853221,0.497302


In [27]:
data = np.random.rand(3, 3)
b = pd.DataFrame(data, columns = [f"col_{j}" for j in range(0, 3)])
b

Unnamed: 0,col_0,col_1,col_2
0,0.023864,0.115166,0.533273
1,0.827593,0.533763,0.884642
2,0.374453,0.820371,0.977709


In [28]:
a + b

Unnamed: 0,col_0,col_1,col_2,col_3
0,,0.663266,0.850092,
1,,0.541297,1.797748,
2,,1.191839,1.83093,


Observe que los índices están alineados correctamente independientemente de su orden en los dos objetos, y los índices del resultado están ordenados. Como con las series, podemos usar la ufunc asociada y utilizar el kwarg`fill_value`


In [30]:
a.add(b, fill_value= 32)

Unnamed: 0,col_0,col_1,col_2,col_3
0,32.023864,0.663266,0.850092,32.434657
1,32.827593,0.541297,1.797748,32.823205
2,32.374453,1.191839,1.83093,32.497302


<p><a name="ope"></a></p>

# **Operaciones entre DataFrame y Series**

Al realizar operaciones entre un DataFrame y una Serie, la alineación del índice y la columna se mantiene de manera similar. Las operaciones entre un DataFrame y una Serie son similares a las operaciones entre un arreglo de NumPy bidimensional y uno unidimensional.

La resta entre un un arreglo bidimensional y una de sus filas se aplica por filas. En Pandas, la convención opera de manera similar:

In [31]:
data = np.arange(9).reshape(3, 3)
df = pd.DataFrame(data, columns = ['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8


In [32]:
data = np.arange(3)
s = pd.Series(data, index = ['A', 'B', 'C'])
s

Unnamed: 0,0
A,0
B,1
C,2


In [33]:
df - s

Unnamed: 0,A,B,C
0,0,0,0
1,3,3,3
2,6,6,6


Si, en cambio, deseamos operar sobre las columnas, podemos especificar el eje explícitamente con el kwarg `axis`. Note que en este caso los índices de la fila deben coincidir con los índices del DataFrame, a diferencia del caso anterior en el que los índices de la Series coincidia con las columnas del DataFrame:


In [35]:
df.subtract(s, axis = 1)

Unnamed: 0,A,B,C
0,0,0,0
1,3,3,3
2,6,6,6


In [37]:
df.subtract(s, axis = 0)

Unnamed: 0,A,B,C
0,,,
1,,,
2,,,
A,,,
B,,,
C,,,


In [38]:
s.reset_index(drop=True, inplace=True)
s

Unnamed: 0,0
0,0
1,1
2,2


In [39]:
df.subtract(s, axis = 0)

Unnamed: 0,A,B,C
0,0,1,2
1,2,3,4
2,4,5,6


Estudiemos este tipo de operaciones utilizando un conjunto de datos real. En este caso utilizaremos el conjunto de datos `auto.csv` que contiene muestras de vehículos con una serie de características:

In [41]:
df = pd.read_csv("https://raw.githubusercontent.com/tomasate/Datos_Clases/main/Datos_1/auto.csv",)
df.head()

Unnamed: 0.1,Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas
0,0,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,...,9.0,111.0,5000.0,21,27,13495.0,11.190476,Medium,0,1
1,1,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,...,9.0,111.0,5000.0,21,27,16500.0,11.190476,Medium,0,1
2,2,1,122,alfa-romero,std,two,hatchback,rwd,front,94.5,...,9.0,154.0,5000.0,19,26,16500.0,12.368421,Medium,0,1
3,3,2,164,audi,std,four,sedan,fwd,front,99.8,...,10.0,102.0,5500.0,24,30,13950.0,9.791667,Medium,0,1
4,4,2,164,audi,std,four,sedan,4wd,front,99.4,...,8.0,115.0,5500.0,18,22,17450.0,13.055556,Medium,0,1


Para comenzar, note que la columna `Unnamed: 0` corresponde a la información del índice, por lo que es una columna que no debemos incluir en el conjunto de datos.

Con el método `drop` podemos eliminar una columna, una fila, o una combinación de ambas (mirar documentación del método). El método no es *in place* por lo que debemos utilizar el kwarg `inplace` para hacer el cambio efectivo sobre el DataFrame

In [42]:
df.drop(columns = ["Unnamed: 0"], inplace = True)
df.head()

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas
0,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,13495.0,11.190476,Medium,0,1
1,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,16500.0,11.190476,Medium,0,1
2,1,122,alfa-romero,std,two,hatchback,rwd,front,94.5,0.822681,...,9.0,154.0,5000.0,19,26,16500.0,12.368421,Medium,0,1
3,2,164,audi,std,four,sedan,fwd,front,99.8,0.84863,...,10.0,102.0,5500.0,24,30,13950.0,9.791667,Medium,0,1
4,2,164,audi,std,four,sedan,4wd,front,99.4,0.84863,...,8.0,115.0,5500.0,18,22,17450.0,13.055556,Medium,0,1


Otra opción es utilizar el kwarg `index_col` de la función `read_csv` con el cual definimos cuál será el índice del DataFrame:

In [43]:
df = pd.read_csv("https://raw.githubusercontent.com/tomasate/Datos_Clases/main/Datos_1/auto.csv", index_col='Unnamed: 0')
df.head()

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas
0,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,13495.0,11.190476,Medium,0,1
1,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,16500.0,11.190476,Medium,0,1
2,1,122,alfa-romero,std,two,hatchback,rwd,front,94.5,0.822681,...,9.0,154.0,5000.0,19,26,16500.0,12.368421,Medium,0,1
3,2,164,audi,std,four,sedan,fwd,front,99.8,0.84863,...,10.0,102.0,5500.0,24,30,13950.0,9.791667,Medium,0,1
4,2,164,audi,std,four,sedan,4wd,front,99.4,0.84863,...,8.0,115.0,5500.0,18,22,17450.0,13.055556,Medium,0,1


In [44]:
df.columns

Index(['symboling', 'normalized-losses', 'make', 'aspiration', 'num-of-doors',
       'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length',
       'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders',
       'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio',
       'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price',
       'city-L/100km', 'horsepower-binned', 'diesel', 'gas'],
      dtype='object')

In [46]:
df.shape

(201, 29)

Una vez eliminada esta columna, realicemos algunas operaciones útiles.

Por ejemplo, si quisieramos construir una nueva columna que nos muestre la relación *horsepower* / *price* podemos utilizar simplemente una operación vectorizada utilizando el operador asociado a la ufunc:

In [47]:
df['ratio'] = df['horsepower'] / df['price']

Para ordenar esta columna podemos utilizar el método `sort_values`. Con el kwarg `ascending` podemos controlar si el ordenamiento es ascendente o no:

In [48]:
df.ratio.sort_values()

Unnamed: 0,ratio
67,0.003892
63,0.003925
71,0.004053
65,0.004354
66,0.004365
...,...
22,0.012819
47,0.013090
76,0.013266
134,0.013482


In [49]:
df.ratio.sort_values(ascending = False)

Unnamed: 0,ratio
163,0.013729
134,0.013482
76,0.013266
47,0.013090
22,0.012819
...,...
66,0.004365
65,0.004354
71,0.004053
63,0.003925


Vemos que la observación con índice 163 contiene la mejor relación *horsepower* / *price*. Accedamos a esta observación, mirando por ejemplo la columna asociada a la constructora *make*:

In [50]:
df.loc[163, 'make']

'toyota'

In [51]:
df.iloc[163, 2]

'toyota'

En muchas ocaciones vamos a querer acceder a esta información, sin tener la necesidad de realizar una visualización para obtener el índice asociado a la observación con el valor mayor. Para este fin podemos utilizar el método `idxmax`:

In [52]:
id_max = df.ratio.idxmax()
id_max

163

In [53]:
df.loc[id_max, 'make']

'toyota'

Otra operación común que se aplica sobre los datos numéricos es el da la normalización de una variable (observe que el conjunto de datos ya contiene este tipo de datos numéricos). Podemos visualizar rápidamente una variable utilizando una operación vectorizada similar a la anterior. Hagamos esto para la variable `height`:

In [54]:
df.height.describe()

Unnamed: 0,height
count,201.0
mean,53.766667
std,2.447822
min,47.8
25%,52.0
50%,54.1
75%,55.5
max,59.8


In [56]:
(df.height / df.height.max()).describe()

Unnamed: 0,height
count,201.0
mean,0.899108
std,0.040933
min,0.799331
25%,0.869565
50%,0.904682
75%,0.928094
max,1.0


Otro tipo de operación común es la de asignar un valor numérico a una variable categórica de tipo `str`. Por ejemplo, si quisieramos modificar la variable `num-of-doors`



In [58]:
df['num-of-doors'].unique()

array(['two', 'four'], dtype=object)

Pasando de tener los valores "four" y "two" a 4 y 2, respectivamente, podemos utilizar la función nativa de Python `map(f, a)`. Esta toma una lista o arreglo `a` y le aplica alguna función `f` a cada uno de los elementos de `a` (similar a lo que hacen las ufuncs de NumPy).

Veamos un ejemplo: creemos el arreglo `[1, 2, 3, 4]` y apliquemos `map` pasando como argumento una función que devuelva el cuadrado de los elementos:

In [60]:
lista = [1, 2, 3, 4]
def f(x):
  return x**2

list(map(f, lista))

[1, 4, 9, 16]

Note que `map` no devuelve una lista sino un generador, por lo que utilizamos el constructor `list` para obtener una lista.

También podemos utilizar esta función para definir un mapeo de una variable a otra, mediante el uso de un diccionario, donde las claves representarán el valor que contiene el arreglo, y las claves los nuevos valores que les queremos dar.

En el caso de una serie, podemos utilizar `map` como un método del objeto



In [64]:
df['num-of-doors'].map({'four': 4, 'two': 2})#.value_counts()

Unnamed: 0,num-of-doors
0,2
1,2
2,2
3,4
4,4
...,...
196,4
197,4
198,4
199,4


Modifiquemos la variable en nuestro conjunto de datos:

In [65]:
df['num-of-doors'] = df['num-of-doors'].map({'four': 4, 'two': 2})

In [66]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas,ratio
0,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,111.0,5000.0,21,27,13495.0,11.190476,Medium,0,1,0.008225
1,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,111.0,5000.0,21,27,16500.0,11.190476,Medium,0,1,0.006727
2,1,122,alfa-romero,std,2,hatchback,rwd,front,94.5,0.822681,...,154.0,5000.0,19,26,16500.0,12.368421,Medium,0,1,0.009333
3,2,164,audi,std,4,sedan,fwd,front,99.8,0.84863,...,102.0,5500.0,24,30,13950.0,9.791667,Medium,0,1,0.007312
4,2,164,audi,std,4,sedan,4wd,front,99.4,0.84863,...,115.0,5500.0,18,22,17450.0,13.055556,Medium,0,1,0.00659


Más adelante veremos formas alternativas para realizar este tipo de operaciones de manera que las podamos incluir en un proceso más general.

<p><a name="agg"></a></p>

# **Agregaciones y agrupamiento**

Una parte esencial del análisis de grandes cantidades de datos es el cálculo de agregaciones como la suma, media, mediana, etc; que nos proporcionan un resumen estadístico de los datos. En esta sección, exploraremos agregaciones en Pandas.

En la sesión anterior vimos cómo aplicar funciones de agregación simples sobre los objetos de pandas, similares a las que hemos visto en los arreglos de NumPy. Veamos ahora algunas funcionalidades más complejas:



**Aggregate (agg)**:

Este método permite tener mucha más flexibilidad en las operaciones de agregación. Puede tomar una cadena de caracteres, una función o una lista de las mismas y calcular todos las agregaciones a la vez. Veamos algunos ejemplos:

In [68]:
df.price.aggregate(['mean', 'max', 'min'])

Unnamed: 0,price
mean,13207.129353
max,45400.0
min,5118.0


In [69]:
df.make.agg(['count', 'nunique'])

Unnamed: 0,make
count,201
nunique,22


También lo podemos aplicar sobre el dataframe completo y utilizar un diccionario para mapear qué funciones (valores) queremos aplicar a una columna particular (claves)

In [73]:
df.describe(include = 'object')

Unnamed: 0,make,aspiration,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system,horsepower-binned
count,201,201,201,201,201,201,201,201,200
unique,22,2,5,3,2,6,7,8,3
top,toyota,std,sedan,fwd,front,ohc,four,mpfi,Low
freq,32,165,94,118,198,145,157,92,115


In [78]:
df.agg({'price': ['count',
                  'mean'],
        'make': ['count', 'nunique']})

Unnamed: 0,price,make
count,201.0,201.0
mean,13207.129353,
nunique,,22.0


**Apply**

Este método nos permite aplicar una función arbitraria. La función debe tomar un DataFrame y devolver un objeto de Pandas o un número.

Por ejemplo, supongamos que queremos pasar de tener la variable continua *price* a una variable categórica que tome los valores *inf* y *sup* de acuerdo a un criterio particular. Podemos utilizar la media como criterio de separación:

In [79]:
def categoria(df, mean):
  if df.price >= mean:
    return 'sup'
  else:
    return 'inf'

In [82]:
media = df.price.mean()
df['cat_price'] = df.apply(categoria, args = [media], axis = 1)

In [83]:
df.cat_price.value_counts()

Unnamed: 0_level_0,count
cat_price,Unnamed: 1_level_1
inf,127
sup,74


Pasemos esta función al método indicando que queremos realizar la operación por filas:

Note que en la función que se construya para pasar al método `apply`, se pueden evaluar condiciones sobre múltiples columnas para realizar una operación, aunque esta sólo actúe sobre una de ellas. Más adelante veremos ejemplos donde esto pueda ser útil.

Este tipo de operación, aunque nos sirvió para ilustrar el método, se puede realizar fácilmente con la función `cut` de Pandas, la cual nos permite segmentar una variable (*price* en este caso) en ciertos *bins*, a los cuales podemos asociar de forma opcional una etiqueta mediante el kwarg `labels`.

Por ejemplo, realicemos la conversión anterior pero ahora incluyendo un tercer valor adicional `med`:

In [85]:
df.cat_price = pd.cut(df.price, bins = 3, labels = ['inf', 'med', 'sup'])

In [86]:
df.cat_price.value_counts()

Unnamed: 0_level_0,count
cat_price,Unnamed: 1_level_1
inf,171
med,18
sup,12


<p><a name="gro"></a></p>

## **GroupBy: dividir, aplicar y combinar**

Las agregaciones simples pueden darnos una idea del conjunto de datos, pero a menudo preferimos agregar condicionalmente sobre alguna etiqueta o índice: esto se implementa en la llamada operación *groupby*

El objeto GroupBy es una abstracción muy flexible. En muchos sentidos, podemos tratarlo como si fuera una colección de DataFrames, para los cuales se realizan una serie de operaciones complejas "por debajo".

En la siguiente figura se ilustra un ejemplo canónico de esta operación dividir-aplicar-combinar, donde "aplicar" hace referencia a la función de agregación *apply*:

![groupby](https://lewtun.github.io/dslectures/images/split-apply-combine.png)

* El paso de división implica dividir y agrupar un DataFrame según el valor de la clave especificada.
* El paso de aplicación implica calcular alguna función, generalmente una agregación, dentro de los grupos individuales.
* El paso de combinación fusiona los resultados de estas operaciones en un objeto (Serie o DataFrame) como salida.

Si bien esto ciertamente se podría hacer manualmente usando alguna combinación de las funcionalidades de enmascaramiento, agregación y fusión descritos anteriormente, lo importante es que las divisiones intermedias no necesitan ser instanciadas explícitamente. El poder de GroupBy es que abstrae estos pasos: el usuario no necesita pensar en cómo se realiza el cálculo "por debajo", sino que piensa en la operación como un todo.

Veamos un ejemplo concreto con el conjunto de datos que hemos cargado



In [87]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas,ratio,cat_price
0,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,5000.0,21,27,13495.0,11.190476,Medium,0,1,0.008225,inf
1,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,5000.0,21,27,16500.0,11.190476,Medium,0,1,0.006727,inf
2,1,122,alfa-romero,std,2,hatchback,rwd,front,94.5,0.822681,...,5000.0,19,26,16500.0,12.368421,Medium,0,1,0.009333,inf
3,2,164,audi,std,4,sedan,fwd,front,99.8,0.84863,...,5500.0,24,30,13950.0,9.791667,Medium,0,1,0.007312,inf
4,2,164,audi,std,4,sedan,4wd,front,99.4,0.84863,...,5500.0,18,22,17450.0,13.055556,Medium,0,1,0.00659,inf


Elijamos como clave de agrupación la variable `make`:

In [88]:
df.groupby('make')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x78311e198760>

Note que lo que se devuelve no es un conjunto de DataFrames, sino un objeto `DataFrameGroupBy`. Para producir un resultado, podemos aplicar un agregado a este objeto, que realizará los pasos apropiados de aplicación / combinación para producir el resultado deseado. Por ejemplo apliquemos la función de agregación `count`:


In [89]:
df.groupby('make').count()

Unnamed: 0_level_0,symboling,normalized-losses,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,...,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas,ratio,cat_price
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
alfa-romero,3,3,3,3,3,3,3,3,3,3,...,3,3,3,3,3,3,3,3,3,3
audi,6,6,6,6,6,6,6,6,6,6,...,6,6,6,6,6,6,6,6,6,6
bmw,8,8,8,8,8,8,8,8,8,8,...,8,8,8,8,8,8,8,8,8,8
chevrolet,3,3,3,3,3,3,3,3,3,3,...,3,3,3,3,3,3,3,3,3,3
dodge,9,9,9,9,9,9,9,9,9,9,...,9,9,9,9,9,9,9,9,9,9
honda,13,13,13,13,13,13,13,13,13,13,...,13,13,13,13,13,13,13,13,13,13
isuzu,2,2,2,2,2,2,2,2,2,2,...,2,2,2,2,2,2,2,2,2,2
jaguar,3,3,3,3,3,3,3,3,3,3,...,3,3,3,3,3,2,3,3,3,3
mazda,17,17,17,17,17,17,17,17,17,17,...,17,17,17,17,17,17,17,17,17,17
mercedes-benz,8,8,8,8,8,8,8,8,8,8,...,8,8,8,8,8,8,8,8,8,8


Note que obtenemos como salida cuántos elementos, por constructora, aparecen en cada columna. Obviamente todas las columnas tienen el mismo valor, por lo que podemos seleccionar alguna columna que queramos visualizar

In [91]:
type(df.groupby('make').symboling.count())

In [92]:
df.groupby('make')[['symboling']].count()

Unnamed: 0_level_0,symboling
make,Unnamed: 1_level_1
alfa-romero,3
audi,6
bmw,8
chevrolet,3
dodge,9
honda,13
isuzu,2
jaguar,3
mazda,17
mercedes-benz,8


Alternativamente podemos utilizar el método `size`:

In [93]:
df.groupby('make').size()

Unnamed: 0_level_0,0
make,Unnamed: 1_level_1
alfa-romero,3
audi,6
bmw,8
chevrolet,3
dodge,9
honda,13
isuzu,2
jaguar,3
mazda,17
mercedes-benz,8


Si ordenamos esta salida en forma descendente obtendremos la misma salida de la aplicación del método `value_counts` sobre la serie `df.make`:

In [97]:
df.groupby('make').size().sort_values(ascending=False)#.value_counts(ascending=False)

Unnamed: 0_level_0,0
make,Unnamed: 1_level_1
toyota,32
nissan,18
mazda,17
mitsubishi,13
honda,13
volkswagen,12
subaru,12
peugot,11
volvo,11
dodge,9


In [98]:
df.make.value_counts()

Unnamed: 0_level_0,count
make,Unnamed: 1_level_1
toyota,32
nissan,18
mazda,17
mitsubishi,13
honda,13
volkswagen,12
subaru,12
peugot,11
volvo,11
dodge,9


En este caso obviamente la mejor opción es utilizar el método `value_counts`, lo importante es ver la libertad que nos proporciona el `groupby` para agrupar y realizar operaciones sobre los datos.

Veamos algunos otros ejemplos:

In [99]:
# agrupar por constructora y obtener el precio máximo

df.groupby('make').price.max()

Unnamed: 0_level_0,price
make,Unnamed: 1_level_1
alfa-romero,16500.0
audi,23875.0
bmw,41315.0
chevrolet,6575.0
dodge,12964.0
honda,12945.0
isuzu,11048.0
jaguar,36000.0
mazda,18344.0
mercedes-benz,45400.0


In [100]:
# agrupar por constructora y obtener el mínimo y el máximo,
# ordenando por min

df.groupby('make').price.agg(['min', 'max']).sort_values('min')

Unnamed: 0_level_0,min,max
make,Unnamed: 1_level_1,Unnamed: 2_level_1
subaru,5118.0,11694.0
chevrolet,5151.0,6575.0
mazda,5195.0,18344.0
toyota,5348.0,17669.0
mitsubishi,5389.0,14869.0
honda,5399.0,12945.0
nissan,5499.0,19699.0
dodge,5572.0,12964.0
plymouth,5572.0,12764.0
isuzu,6785.0,11048.0


Incluyamos ahora otra función que nos mida la diferencia entre el precio máximo y el mínimo, y ordenemos de forma descendente respecto a esta columna:

In [101]:
def difference(s):
  return s.max() - s.min()

df.groupby('make').price.agg(['min', 'max', difference]).sort_values('difference', ascending = False)

Unnamed: 0_level_0,min,max,difference
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bmw,16430.0,41315.0,24885.0
mercedes-benz,25552.0,45400.0,19848.0
porsche,22018.0,37028.0,15010.0
nissan,5499.0,19699.0,14200.0
mazda,5195.0,18344.0,13149.0
toyota,5348.0,17669.0,12321.0
audi,13950.0,23875.0,9925.0
volvo,12940.0,22625.0,9685.0
mitsubishi,5389.0,14869.0,9480.0
honda,5399.0,12945.0,7546.0


Ahora, *groupby* nos permite agrupar por más de una clave. Agrupemos ahora por constructura y gasto de combustible en ciudad "city-mpg" *(miles per gallon)* para obtener los valores mínimos, máximos y su respectiva diferencia para los precios:

In [102]:
df.groupby(['make', 'city-mpg']).price.agg(['min', 'max', difference])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max,difference
make,city-mpg,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
alfa-romero,19,16500.0,16500.0,0.0
alfa-romero,21,13495.0,16500.0,3005.0
audi,17,23875.0,23875.0,0.0
audi,18,17450.0,17450.0,0.0
audi,19,15250.0,18920.0,3670.0
...,...,...,...,...
volvo,18,21485.0,21485.0,0.0
volvo,19,19045.0,22625.0,3580.0
volvo,23,12940.0,16845.0,3905.0
volvo,24,15985.0,16515.0,530.0


Note que en este caso hemos obtenido un DataFrame que contiene no un índice sino dos. Más adelante estudiaremos este tipo de estructuras.