<p><a name="pan"></a></p>

# **Operaciones sobre los datos en Pandas**

Una de las piezas esenciales de NumPy es la capacidad de realizar operaciones vectorizadas, tanto con aritmética básica (suma, resta, multiplicación, etc.) como con operaciones más sofisticadas (funciones trigonométricas, funciones exponenciales y logarítmicas, etc.). Pandas hereda gran parte de esta funcionalidad de NumPy.

Sin embargo, Pandas incluye un par de elementos útiles: para operaciones unarias como funciones de negación y trigonométricas, estas ufuncs conservarán etiquetas de índice y columna en la salida, y para operaciones binarias como suma y multiplicación, Pandas alineará automáticamente los índices. Debido a que Pandas está diseñado para funcionar con NumPy, cualquier ufunc de NumPy funcionará en objetos Pandas Series y DataFrame.

Comencemos por definir una serie y un DataFrame simples con los cuales demostrar esto:

In [None]:
import numpy as np
import pandas as pd

In [None]:
data = [1, 4, 16, 5]

s = pd.Series(data)
s

0     1
1     4
2    16
3     5
dtype: int64

In [None]:
data = np.random.rand(3, 3)

df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2
0,0.426311,0.251731,0.6966
1,0.535804,0.358136,0.943854
2,0.732814,0.85096,0.541673


**Preservando el índice**

Si aplicamos un ufunc de NumPy en cualquiera de estos objetos, el resultado será otro objeto de Pandas con los índices preservados:


In [None]:
np.exp(s)

0    2.718282e+00
1    5.459815e+01
2    8.886111e+06
3    1.484132e+02
dtype: float64

In [None]:
np.log(df)

Unnamed: 0,0,1,2
0,-0.852586,-1.379395,-0.361544
1,-0.623987,-1.026841,-0.057783
2,-0.310863,-0.16139,-0.613092


**Alineación del índice**


**Series**

Para operaciones binarias con dos objetos (Series o DataFrames), Pandas alineará los índices en el proceso de realizar la operación.


In [None]:
d_poblacion = {"Brasil":210147125, "Perú":44938712, "Colombia": 50372424}

s_poblacion = pd.Series(d_poblacion)
s_poblacion

Brasil      210147125
Perú         44938712
Colombia     50372424
dtype: int64

In [None]:
d_area = {"Brasil":8514877, "Colombia":1141748, "Argentina": 2792600}

s_area = pd.Series(d_area)
s_area

Brasil       8514877
Colombia     1141748
Argentina    2792600
dtype: int64

Veamos qué sucede cuando dividimos estas series para calcular la densidad de población:

In [None]:
s_poblacion/ s_area

Argentina          NaN
Brasil       24.679995
Colombia     44.118688
Perú               NaN
dtype: float64

El arreglo resultante contiene la unión de los índices de los dos arreglos de entrada, que podrían determinarse utilizando la aritmética de conjuntos estándar de Python sobre estos índices:


In [None]:
# intersección de los indices
s_poblacion.index.intersection(s_area.index)

Index(['Brasil', 'Colombia'], dtype='object')

In [None]:
# union de los indices
s_poblacion.index.union(s_area.index)

Index(['Argentina', 'Brasil', 'Colombia', 'Perú'], dtype='object')

Cualquier elemento para el que una serie u otra no tenga una entrada se marca con `NaN` ("Not a Number"), que es la forma en que Pandas marca los datos faltantes.

Esta coincidencia de índices se implementa de esta manera para cualquiera de las expresiones aritméticas integradas de Python; los valores faltantes se rellenan con `NaN` de forma predeterminada

In [None]:
A = pd.Series([2, 4, 6])
A

0    2
1    4
2    6
dtype: int64

In [None]:
B = pd.Series([1, 3, 5], index = [ 1, 2, 3])
B

1    1
2    3
3    5
dtype: int64

In [None]:
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

Si no queremos incluir `NaN` en la salida, podemos utilizar la ufunc directamente. Por ejemplo, llamar a `A.add(B)` es equivalente a llamar a `A + B`, pero permite la especificación explícita opcional del valor de relleno para cualquier elemento en `A` o `B` que pueda faltar, mediante al kwarg `fill_value`:

In [None]:
print(A, "\n\n",B)

0    2
1    4
2    6
dtype: int64 

 1    1
2    3
3    5
dtype: int64


In [None]:
A.add(B, fill_value = 10)

0    12.0
1     5.0
2     9.0
3    15.0
dtype: float64

Note que este kwarg reemplaza `0` en los valores faltantes en las series, no directamente los `NaN` en la salida de la operación de suma.

**DataFrames**

Cuando se realizan operaciones en DataFrames se produce un tipo similar de alineación tanto para las columnas como para los índices:


In [None]:
data = np.random.rand(3, 3)

a = pd.DataFrame(data, columns =  [f"col{i}" for i in range(3)])
a

Unnamed: 0,col0,col1,col2
0,0.642592,0.698958,0.635072
1,0.352887,0.559758,0.287967
2,0.572019,0.562149,0.500886


In [None]:
data = np.random.rand(3, 3)

b = pd.DataFrame(data, columns =  [f"col{i}" for i in range(1, 4)])
b

Unnamed: 0,col1,col2,col3
0,0.154594,0.911382,0.241166
1,0.211765,0.952335,0.142351
2,0.943912,0.049071,0.389118


In [None]:
a + b

Unnamed: 0,col0,col1,col2,col3
0,,0.853551,1.546454,
1,,0.771523,1.240302,
2,,1.506061,0.549957,


Observe que los índices están alineados correctamente independientemente de su orden en los dos objetos, y los índices del resultado están ordenados. Como con las series, podemos usar la ufunc asociada y utilizar el kwarg`fill_value`


In [None]:
a.add(b, fill_value = 1000)

Unnamed: 0,col0,col1,col2,col3
0,1000.642592,0.853551,1.546454,1000.241166
1,1000.352887,0.771523,1.240302,1000.142351
2,1000.572019,1.506061,0.549957,1000.389118


<p><a name="ope"></a></p>

# **Operaciones entre DataFrame y Series**

Al realizar operaciones entre un DataFrame y una Serie, la alineación del índice y la columna se mantiene de manera similar. Las operaciones entre un DataFrame y una Serie son similares a las operaciones entre un arreglo de NumPy bidimensional y uno unidimensional.

La resta entre un un arreglo bidimensional y una de sus filas se aplica por filas. En Pandas, la convención opera de manera similar:

In [None]:
data = np.arange(9).reshape(3, 3)

df = pd.DataFrame(data, columns = ["A", "B", 'C'])
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8


In [None]:
data = np.arange(3)

s = pd.Series(data, index =  ["A", "B", 'C'])
s

A    0
B    1
C    2
dtype: int32

In [None]:
df - s

Unnamed: 0,A,B,C
0,0,0,0
1,3,3,3
2,6,6,6


Si, en cambio, deseamos operar sobre las columnas, podemos especificar el eje explícitamente con el kwarg `axis`. Note que en este caso los índices de la fila deben coincidir con los índices del DataFrame, a diferencia del caso anterior en el que los índices de la Series coincidia con las columnas del DataFrame:


In [None]:
df.subtract(s, axis = 1)

Unnamed: 0,A,B,C
0,0,0,0
1,3,3,3
2,6,6,6


In [None]:
df.subtract(s, axis = 0)

Unnamed: 0,A,B,C
0,,,
1,,,
2,,,
A,,,
B,,,
C,,,


In [None]:
s.reset_index(drop = True, inplace = True)
df.subtract(s, axis = 0)

Unnamed: 0,A,B,C
0,0,1,2
1,2,3,4
2,4,5,6


Estudiemos este tipo de operaciones utilizando un conjunto de datos real. En este caso utilizaremos el conjunto de datos `auto.csv` que contiene muestras de vehículos con una serie de características:

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/tomasate/Datos_Clases/main/Datos_1/auto.csv")
#df = pd.read_csv("https://raw.githubusercontent.com/tomasate/Datos_Clases/main/Datos_1/adult.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas
0,0,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,...,9.0,111.0,5000.0,21,27,13495.0,11.190476,Medium,0,1
1,1,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,...,9.0,111.0,5000.0,21,27,16500.0,11.190476,Medium,0,1
2,2,1,122,alfa-romero,std,two,hatchback,rwd,front,94.5,...,9.0,154.0,5000.0,19,26,16500.0,12.368421,Medium,0,1
3,3,2,164,audi,std,four,sedan,fwd,front,99.8,...,10.0,102.0,5500.0,24,30,13950.0,9.791667,Medium,0,1
4,4,2,164,audi,std,four,sedan,4wd,front,99.4,...,8.0,115.0,5500.0,18,22,17450.0,13.055556,Medium,0,1


Para comenzar, note que la columna `Unnamed: 0` corresponde a la información del índice, por lo que es una columna que no debemos incluir en el conjunto de datos.

Con el método `drop` podemos eliminar una columna, una fila, o una combinación de ambas (mirar documentación del método). El método no es *in place* por lo que debemos utilizar el kwarg `inplace` para hacer el cambio efectivo sobre el DataFrame

In [None]:
df.drop(columns = ['Unnamed: 0'], inplace = True)
df

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas
0,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,13495.0,11.190476,Medium,0,1
1,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,16500.0,11.190476,Medium,0,1
2,1,122,alfa-romero,std,two,hatchback,rwd,front,94.5,0.822681,...,9.0,154.0,5000.0,19,26,16500.0,12.368421,Medium,0,1
3,2,164,audi,std,four,sedan,fwd,front,99.8,0.848630,...,10.0,102.0,5500.0,24,30,13950.0,9.791667,Medium,0,1
4,2,164,audi,std,four,sedan,4wd,front,99.4,0.848630,...,8.0,115.0,5500.0,18,22,17450.0,13.055556,Medium,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
196,-1,95,volvo,std,four,sedan,rwd,front,109.1,0.907256,...,9.5,114.0,5400.0,23,28,16845.0,10.217391,Medium,0,1
197,-1,95,volvo,turbo,four,sedan,rwd,front,109.1,0.907256,...,8.7,160.0,5300.0,19,25,19045.0,12.368421,High,0,1
198,-1,95,volvo,std,four,sedan,rwd,front,109.1,0.907256,...,8.8,134.0,5500.0,18,23,21485.0,13.055556,Medium,0,1
199,-1,95,volvo,turbo,four,sedan,rwd,front,109.1,0.907256,...,23.0,106.0,4800.0,26,27,22470.0,9.038462,Medium,1,0


Otra opción es utilizar el kwarg `index_col` de la función `read_csv` con el cual definimos cuál será el índice del DataFrame:

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/tomasate/Datos_Clases/main/Datos_1/auto.csv", index_col = 'Unnamed: 0')
df.head()

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas
0,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,13495.0,11.190476,Medium,0,1
1,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,16500.0,11.190476,Medium,0,1
2,1,122,alfa-romero,std,two,hatchback,rwd,front,94.5,0.822681,...,9.0,154.0,5000.0,19,26,16500.0,12.368421,Medium,0,1
3,2,164,audi,std,four,sedan,fwd,front,99.8,0.84863,...,10.0,102.0,5500.0,24,30,13950.0,9.791667,Medium,0,1
4,2,164,audi,std,four,sedan,4wd,front,99.4,0.84863,...,8.0,115.0,5500.0,18,22,17450.0,13.055556,Medium,0,1


Una vez eliminada esta columna, realicemos algunas operaciones útiles.

Por ejemplo, si quisieramos construir una nueva columna que nos muestre la relación *horsepower* / *price* podemos utilizar simplemente una operación vectorizada utilizando el operador asociado a la ufunc:

In [None]:
df.horsepower / df.price

0      0.008225
1      0.006727
2      0.009333
3      0.007312
4      0.006590
         ...   
196    0.006768
197    0.008401
198    0.006237
199    0.004717
200    0.005039
Length: 201, dtype: float64

In [None]:
df['ratio'] = df.horsepower / df.price
df

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas,ratio
0,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,111.0,5000.0,21,27,13495.0,11.190476,Medium,0,1,0.008225
1,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,111.0,5000.0,21,27,16500.0,11.190476,Medium,0,1,0.006727
2,1,122,alfa-romero,std,two,hatchback,rwd,front,94.5,0.822681,...,154.0,5000.0,19,26,16500.0,12.368421,Medium,0,1,0.009333
3,2,164,audi,std,four,sedan,fwd,front,99.8,0.848630,...,102.0,5500.0,24,30,13950.0,9.791667,Medium,0,1,0.007312
4,2,164,audi,std,four,sedan,4wd,front,99.4,0.848630,...,115.0,5500.0,18,22,17450.0,13.055556,Medium,0,1,0.006590
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
196,-1,95,volvo,std,four,sedan,rwd,front,109.1,0.907256,...,114.0,5400.0,23,28,16845.0,10.217391,Medium,0,1,0.006768
197,-1,95,volvo,turbo,four,sedan,rwd,front,109.1,0.907256,...,160.0,5300.0,19,25,19045.0,12.368421,High,0,1,0.008401
198,-1,95,volvo,std,four,sedan,rwd,front,109.1,0.907256,...,134.0,5500.0,18,23,21485.0,13.055556,Medium,0,1,0.006237
199,-1,95,volvo,turbo,four,sedan,rwd,front,109.1,0.907256,...,106.0,4800.0,26,27,22470.0,9.038462,Medium,1,0,0.004717


Para ordenar esta columna podemos utilizar el método `sort_values`. Con el kwarg `ascending` podemos controlar si el ordenamiento es ascendente o no:

In [None]:
df.ratio.sort_values(ascending = False)

163    0.013729
134    0.013482
76     0.013266
47     0.013090
22     0.012819
         ...   
66     0.004365
65     0.004354
71     0.004053
63     0.003925
67     0.003892
Name: ratio, Length: 201, dtype: float64

Vemos que la observación con índice 163 contiene la mejor relación *horsepower* / *price*. Accedamos a esta observación, mirando por ejemplo la columna asociada a la constructora *make*:

In [None]:
df.loc[163, 'make']

'toyota'

En muchas ocaciones vamos a querer acceder a esta información, sin tener la necesidad de realizar una visualización para obtener el índice asociado a la observación con el valor mayor. Para este fin podemos utilizar el método `idxmax`:

In [None]:
id_max = df.ratio.idxmax()
df.loc[id_max, 'make']

'toyota'

Otra operación común que se aplica sobre los datos numéricos es el da la normalización de una variable (observe que el conjunto de datos ya contiene este tipo de datos numéricos). Podemos visualizar rápidamente una variable utilizando una operación vectorizada similar a la anterior. Hagamos esto para la variable `height`:

In [None]:
df.height.describe()

count    201.000000
mean      53.766667
std        2.447822
min       47.800000
25%       52.000000
50%       54.100000
75%       55.500000
max       59.800000
Name: height, dtype: float64

In [None]:
df['height_new'] = df.height / df.height.max()

In [None]:
df.height_new.describe()

count    201.000000
mean       0.899108
std        0.040933
min        0.799331
25%        0.869565
50%        0.904682
75%        0.928094
max        1.000000
Name: height_new, dtype: float64

Otro tipo de operación común es la de asignar un valor numérico a una variable categórica de tipo `str`. Por ejemplo, si quisieramos modificar la variable `num-of-doors`



In [None]:
df['num-of-doors'].value_counts()

four    115
two      86
Name: num-of-doors, dtype: int64

Pasando de tener los valores "four" y "two" a 4 y 2, respectivamente, podemos utilizar la función nativa de Python `map(f, a)`. Esta toma una lista o arreglo `a` y le aplica alguna función `f` a cada uno de los elementos de `a` (similar a lo que hacen las ufuncs de NumPy).

Veamos un ejemplo: creemos el arreglo `[1, 2, 3, 4]` y apliquemos `map` pasando como argumento una función que devuelva el cuadrado de los elementos:

In [None]:
df['num-of-cylinders'].value_counts()

four      157
six        24
five       10
two         4
eight       4
three       1
twelve      1
Name: num-of-cylinders, dtype: int64

In [None]:
lista = [1, 2, 3, 4]

def f(x):
  return x ** 2

list(map(f, lista))

[1, 4, 9, 16]

Note que `map` no devuelve una lista sino un generador, por lo que utilizamos el constructor `list` para obtener una lista.

También podemos utilizar esta función para definir un mapeo de una variable a otra, mediante el uso de un diccionario, donde las claves representarán el valor que contiene el arreglo, y las claves los nuevos valores que les queremos dar.

En el caso de una serie, podemos utilizar `map` como un método del objeto



In [None]:
df['num-of-doors'].map({'four': 4, 'two': 2, '--': np.NaN})

0      2
1      2
2      2
3      4
4      4
      ..
196    4
197    4
198    4
199    4
200    4
Name: num-of-doors, Length: 201, dtype: int64

Modifiquemos la variable en nuestro conjunto de datos:

In [None]:
df['num-of-doors'] = df['num-of-doors'].map({'four': 4, 'two': 2})

In [None]:
df

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas,ratio,height_new
0,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,5000.0,21,27,13495.0,11.190476,Medium,0,1,0.008225,0.816054
1,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,5000.0,21,27,16500.0,11.190476,Medium,0,1,0.006727,0.816054
2,1,122,alfa-romero,std,2,hatchback,rwd,front,94.5,0.822681,...,5000.0,19,26,16500.0,12.368421,Medium,0,1,0.009333,0.876254
3,2,164,audi,std,4,sedan,fwd,front,99.8,0.848630,...,5500.0,24,30,13950.0,9.791667,Medium,0,1,0.007312,0.908027
4,2,164,audi,std,4,sedan,4wd,front,99.4,0.848630,...,5500.0,18,22,17450.0,13.055556,Medium,0,1,0.006590,0.908027
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
196,-1,95,volvo,std,4,sedan,rwd,front,109.1,0.907256,...,5400.0,23,28,16845.0,10.217391,Medium,0,1,0.006768,0.928094
197,-1,95,volvo,turbo,4,sedan,rwd,front,109.1,0.907256,...,5300.0,19,25,19045.0,12.368421,High,0,1,0.008401,0.928094
198,-1,95,volvo,std,4,sedan,rwd,front,109.1,0.907256,...,5500.0,18,23,21485.0,13.055556,Medium,0,1,0.006237,0.928094
199,-1,95,volvo,turbo,4,sedan,rwd,front,109.1,0.907256,...,4800.0,26,27,22470.0,9.038462,Medium,1,0,0.004717,0.928094


Más adelante veremos formas alternativas para realizar este tipo de operaciones de manera que las podamos incluir en un proceso más general.

<p><a name="agg"></a></p>

# **Agregaciones y agrupamiento**

Una parte esencial del análisis de grandes cantidades de datos es el cálculo de agregaciones como la suma, media, mediana, etc; que nos proporcionan un resumen estadístico de los datos. En esta sección, exploraremos agregaciones en Pandas.

En la sesión anterior vimos cómo aplicar funciones de agregación simples sobre los objetos de pandas, similares a las que hemos visto en los arreglos de NumPy. Veamos ahora algunas funcionalidades más complejas:



**Aggregate (agg)**:

Este método permite tener mucha más flexibilidad en las operaciones de agregación. Puede tomar una cadena de caracteres, una función o una lista de las mismas y calcular todos las agregaciones a la vez. Veamos algunos ejemplos:

In [None]:
# aplicando agg sobre una serie numerica
# para obtener la media, el maximo
# y el minimo

df.price.agg(['mean', max, np.min])

mean    13207.129353
max     45400.000000
min      5118.000000
Name: price, dtype: float64

In [None]:
# aplicando agg sobre una serie categorica
# para obtener el numero de elementos
# y el numero de valores unicos
df.make.aggregate(['count', 'nunique'])

count      201
nunique     22
Name: make, dtype: int64

También lo podemos aplicar sobre el dataframe completo y utilizar un diccionario para mapear qué funciones (valores) queremos aplicar a una columna particular (claves)

In [None]:
df.agg({'price': ['mean', max, 'count'],
        'make': ['count', 'nunique']})

Unnamed: 0,price,make
mean,13207.129353,
max,45400.0,
count,201.0,201.0
nunique,,22.0


**Apply**

Este método nos permite aplicar una función arbitraria. La función debe tomar un DataFrame y devolver un objeto de Pandas o un número.

Por ejemplo, supongamos que queremos pasar de tener la variable continua *price* a una variable categórica que tome los valores *inf* y *sup* de acuerdo a un criterio particular. Podemos utilizar la media como criterio de separación:

In [None]:
df

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas,ratio,height_new
0,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,5000.0,21,27,13495.0,11.190476,Medium,0,1,0.008225,0.816054
1,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,5000.0,21,27,16500.0,11.190476,Medium,0,1,0.006727,0.816054
2,1,122,alfa-romero,std,2,hatchback,rwd,front,94.5,0.822681,...,5000.0,19,26,16500.0,12.368421,Medium,0,1,0.009333,0.876254
3,2,164,audi,std,4,sedan,fwd,front,99.8,0.848630,...,5500.0,24,30,13950.0,9.791667,Medium,0,1,0.007312,0.908027
4,2,164,audi,std,4,sedan,4wd,front,99.4,0.848630,...,5500.0,18,22,17450.0,13.055556,Medium,0,1,0.006590,0.908027
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
196,-1,95,volvo,std,4,sedan,rwd,front,109.1,0.907256,...,5400.0,23,28,16845.0,10.217391,Medium,0,1,0.006768,0.928094
197,-1,95,volvo,turbo,4,sedan,rwd,front,109.1,0.907256,...,5300.0,19,25,19045.0,12.368421,High,0,1,0.008401,0.928094
198,-1,95,volvo,std,4,sedan,rwd,front,109.1,0.907256,...,5500.0,18,23,21485.0,13.055556,Medium,0,1,0.006237,0.928094
199,-1,95,volvo,turbo,4,sedan,rwd,front,109.1,0.907256,...,4800.0,26,27,22470.0,9.038462,Medium,1,0,0.004717,0.928094


In [None]:
df.price.describe()

count      201.000000
mean     13207.129353
std       7947.066342
min       5118.000000
25%       7775.000000
50%      10295.000000
75%      16500.000000
max      45400.000000
Name: price, dtype: float64

In [None]:
media = df.price.mean()

def categoria(raw, variable, mean):

  if raw.loc[variable] >= mean:
    return 'sup'
  else:
    return 'inf'

df.apply(categoria,
         axis = 1,
         args = ['price', media]).value_counts()

inf    127
sup     74
dtype: int64

Pasemos esta función al método indicando que queremos realizar la operación por filas:

In [None]:
df['cat_price'] =df.apply(categoria,
                          axis = 1,
                          args = ['price', media])

df.head()

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas,ratio,height_new,cat_price
0,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,21,27,13495.0,11.190476,Medium,0,1,0.008225,0.816054,sup
1,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,21,27,16500.0,11.190476,Medium,0,1,0.006727,0.816054,sup
2,1,122,alfa-romero,std,2,hatchback,rwd,front,94.5,0.822681,...,19,26,16500.0,12.368421,Medium,0,1,0.009333,0.876254,sup
3,2,164,audi,std,4,sedan,fwd,front,99.8,0.84863,...,24,30,13950.0,9.791667,Medium,0,1,0.007312,0.908027,sup
4,2,164,audi,std,4,sedan,4wd,front,99.4,0.84863,...,18,22,17450.0,13.055556,Medium,0,1,0.00659,0.908027,sup


Modifiquemos la variable en nuestro conjunto de datos:

In [None]:
pd.cut?

Note que en la función que se construya para pasar al método `apply`, se pueden evaluar condiciones sobre múltiples columnas para realizar una operación, aunque esta sólo actúe sobre una de ellas. Más adelante veremos ejemplos donde esto pueda ser útil.

Este tipo de operación, aunque nos sirvió para ilustrar el método, se puede realizar fácilmente con la función `cut` de Pandas, la cual nos permite segmentar una variable (*price* en este caso) en ciertos *bins*, a los cuales podemos asociar de forma opcional una etiqueta mediante el kwarg `labels`.

Por ejemplo, realicemos la conversión anterior pero ahora incluyendo un tercer valor adicional `med`:

In [None]:
pd.cut(df.price, bins = 3, labels = ['inf', 'med', 'sup'])

0      inf
1      inf
2      inf
3      inf
4      inf
      ... 
196    inf
197    med
198    med
199    med
200    med
Name: price, Length: 201, dtype: category
Categories (3, object): ['inf' < 'med' < 'sup']

Modifiquemos la variable en nuestro conjunto de datos:

In [None]:
df.cat_price = pd.cut(df.price, bins = 3, labels = ['inf', 'med', 'sup'])
df.cat_price.value_counts()

inf    171
med     18
sup     12
Name: cat_price, dtype: int64

<p><a name="gro"></a></p>

## **GroupBy: dividir, aplicar y combinar**

Las agregaciones simples pueden darnos una idea del conjunto de datos, pero a menudo preferimos agregar condicionalmente sobre alguna etiqueta o índice: esto se implementa en la llamada operación *groupby*

El objeto GroupBy es una abstracción muy flexible. En muchos sentidos, podemos tratarlo como si fuera una colección de DataFrames, para los cuales se realizan una serie de operaciones complejas "por debajo".

En la siguiente figura se ilustra un ejemplo canónico de esta operación dividir-aplicar-combinar, donde "aplicar" hace referencia a la función de agregación *apply*:

![groupby](https://lewtun.github.io/dslectures/images/split-apply-combine.png)

* El paso de división implica dividir y agrupar un DataFrame según el valor de la clave especificada.
* El paso de aplicación implica calcular alguna función, generalmente una agregación, dentro de los grupos individuales.
* El paso de combinación fusiona los resultados de estas operaciones en un objeto (Serie o DataFrame) como salida.

Si bien esto ciertamente se podría hacer manualmente usando alguna combinación de las funcionalidades de enmascaramiento, agregación y fusión descritos anteriormente, lo importante es que las divisiones intermedias no necesitan ser instanciadas explícitamente. El poder de GroupBy es que abstrae estos pasos: el usuario no necesita pensar en cómo se realiza el cálculo "por debajo", sino que piensa en la operación como un todo.

Veamos un ejemplo concreto con el conjunto de datos que hemos cargado



In [None]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas,ratio,height_new,cat_price
0,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,21,27,13495.0,11.190476,Medium,0,1,0.008225,0.816054,inf
1,3,122,alfa-romero,std,2,convertible,rwd,front,88.6,0.811148,...,21,27,16500.0,11.190476,Medium,0,1,0.006727,0.816054,inf
2,1,122,alfa-romero,std,2,hatchback,rwd,front,94.5,0.822681,...,19,26,16500.0,12.368421,Medium,0,1,0.009333,0.876254,inf
3,2,164,audi,std,4,sedan,fwd,front,99.8,0.84863,...,24,30,13950.0,9.791667,Medium,0,1,0.007312,0.908027,inf
4,2,164,audi,std,4,sedan,4wd,front,99.4,0.84863,...,18,22,17450.0,13.055556,Medium,0,1,0.00659,0.908027,inf


Elijamos como clave de agrupación la variable `make`:

In [None]:
gb = df.groupby('make')
gb

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7c4194320130>

Note que lo que se devuelve no es un conjunto de DataFrames, sino un objeto `DataFrameGroupBy`. Para producir un resultado, podemos aplicar un agregado a este objeto, que realizará los pasos apropiados de aplicación / combinación para producir el resultado deseado. Por ejemplo apliquemos la función de agregación `count`:


In [None]:
gb['price'].count()

make
alfa-romero       3
audi              6
bmw               8
chevrolet         3
dodge             9
honda            13
isuzu             2
jaguar            3
mazda            17
mercedes-benz     8
mercury           1
mitsubishi       13
nissan           18
peugot           11
plymouth          7
porsche           4
renault           2
saab              6
subaru           12
toyota           32
volkswagen       12
volvo            11
Name: price, dtype: int64

Note que obtenemos como salida cuántos elementos, por constructora, aparecen en cada columna. Obviamente todas las columnas tienen el mismo valor, por lo que podemos seleccionar alguna columna que queramos visualizar

In [None]:
df.groupby('make')[['price']].count()

Unnamed: 0_level_0,price
make,Unnamed: 1_level_1
alfa-romero,3
audi,6
bmw,8
chevrolet,3
dodge,9
honda,13
isuzu,2
jaguar,3
mazda,17
mercedes-benz,8


Alternativamente podemos utilizar el método `size`:

In [None]:
df.groupby('num-of-doors').size()

num-of-doors
2     86
4    115
dtype: int64

In [None]:
df[df.make != 'alfa-romero'].groupby('make').size().sort_values(ascending= False)

make
toyota           32
nissan           18
mazda            17
mitsubishi       13
honda            13
volkswagen       12
subaru           12
peugot           11
volvo            11
dodge             9
bmw               8
mercedes-benz     8
plymouth          7
saab              6
audi              6
porsche           4
jaguar            3
chevrolet         3
renault           2
isuzu             2
mercury           1
dtype: int64

In [None]:
df.groupby('make').size().sort_values(ascending= False).drop(index='alfa-romero')

make
toyota           32
nissan           18
mazda            17
mitsubishi       13
honda            13
volkswagen       12
subaru           12
peugot           11
volvo            11
dodge             9
mercedes-benz     8
bmw               8
plymouth          7
audi              6
saab              6
porsche           4
jaguar            3
chevrolet         3
isuzu             2
renault           2
mercury           1
dtype: int64

Si ordenamos esta salida en forma descendente obtendremos la misma salida de la aplicación del método `value_counts` sobre la serie `df.make`:

In [None]:
df.make.value_counts()

toyota           32
nissan           18
mazda            17
mitsubishi       13
honda            13
volkswagen       12
subaru           12
peugot           11
volvo            11
dodge             9
mercedes-benz     8
bmw               8
plymouth          7
audi              6
saab              6
porsche           4
jaguar            3
chevrolet         3
alfa-romero       3
isuzu             2
renault           2
mercury           1
Name: make, dtype: int64

En este caso obviamente la mejor opción es utilizar el método `value_counts`, lo importante es ver la libertad que nos proporciona el `groupby` para agrupar y realizar operaciones sobre los datos.

Veamos algunos otros ejemplos:

In [None]:
df.groupby('make').price.max()

make
alfa-romero      16500.0
audi             23875.0
bmw              41315.0
chevrolet         6575.0
dodge            12964.0
honda            12945.0
isuzu            11048.0
jaguar           36000.0
mazda            18344.0
mercedes-benz    45400.0
mercury          16503.0
mitsubishi       14869.0
nissan           19699.0
peugot           18150.0
plymouth         12764.0
porsche          37028.0
renault           9895.0
saab             18620.0
subaru           11694.0
toyota           17669.0
volkswagen       13845.0
volvo            22625.0
Name: price, dtype: float64

In [None]:
# agrupar por constructora y obtener el minimo y maximo precio
# ordenando la salida por la columna "min"
df.groupby('make').price.agg([min, max]).sort_values(by = 'min', ascending = False)

Unnamed: 0_level_0,min,max
make,Unnamed: 1_level_1,Unnamed: 2_level_1
jaguar,32250.0,36000.0
mercedes-benz,25552.0,45400.0
porsche,22018.0,37028.0
mercury,16503.0,16503.0
bmw,16430.0,41315.0
audi,13950.0,23875.0
alfa-romero,13495.0,16500.0
volvo,12940.0,22625.0
peugot,11900.0,18150.0
saab,11850.0,18620.0


Incluyamos ahora otra función que nos mida la diferencia entre el precio máximo y el mínimo, y ordenemos de forma descendente respecto a esta columna:

In [None]:
def diff(row):
  return row.max() - row.min()

df.groupby('make').price.agg([min, max, diff])\
                  .sort_values(by = 'diff', ascending = False)

Unnamed: 0_level_0,min,max,diff
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bmw,16430.0,41315.0,24885.0
mercedes-benz,25552.0,45400.0,19848.0
porsche,22018.0,37028.0,15010.0
nissan,5499.0,19699.0,14200.0
mazda,5195.0,18344.0,13149.0
toyota,5348.0,17669.0,12321.0
audi,13950.0,23875.0,9925.0
volvo,12940.0,22625.0,9685.0
mitsubishi,5389.0,14869.0,9480.0
honda,5399.0,12945.0,7546.0


Ahora, *groupby* nos permite agrupar por más de una clave. Agrupemos ahora por constructura y gasto de combustible en ciudad "city-mpg" *(miles per gallon)* para obtener los valores mínimos, máximos y su respectiva diferencia para los precios:

In [None]:

df2 = df.groupby(['make', 'city-mpg']).price.agg([min, max, diff])\
                                      .sort_values(by = 'diff', ascending = False)

In [None]:
df2.index

MultiIndex([(        'mazda', 31),
            (          'bmw', 16),
            (       'toyota', 24),
            (       'nissan', 17),
            ('mercedes-benz', 22),
            (       'nissan', 19),
            (       'peugot', 19),
            (       'peugot', 28),
            (      'porsche', 17),
            ('mercedes-benz', 14),
            (        'isuzu', 24),
            (        'volvo', 23),
            (       'toyota', 30),
            (       'subaru', 23),
            (         'audi', 19),
            (         'saab', 21),
            (        'volvo', 19),
            (       'toyota', 27),
            (       'jaguar', 15),
            (       'peugot', 25),
            (  'alfa-romero', 21),
            (       'subaru', 26),
            (        'mazda', 26),
            (       'nissan', 31),
            (        'mazda', 17),
            (        'honda', 27),
            (   'mitsubishi', 19),
            (       'subaru', 24),
            (   'vol

Note que en este caso hemos obtenido un DataFrame que contiene no un índice sino dos. Más adelante estudiaremos este tipo de estructuras.