# Funciones avanzadas en Pandas

## Objetivos

En este módulo veremos:

- Funciones avanzadas como eval, lookup y get.
- Setting y Resetting del índice de nuestro Data Frame
- Transformaciones múltiples utilizando el método de encadenamiento.

## Introducción

Pandas es una herramienta extremadamente importante para nosotros como científicos y analistas de datos. Llevar nuestras habilidades en Pandas al siguiente nivel nos ayudará a ser programadores más eficientes.

## Funciones avanzadas

### eval y query

La función eval nos permite evaluar las grandes expresiones booleanas o aritméticas de una vez.

En el siguiente ejemplo, generaremos dos Data Frames aleatorios con 10 filas y 3 columnas cada uno. Luego compararemos si uno es más pequeño que el otro. La función eval comprobará esta condición para cada celda.

In [2]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(10, 3), columns=['a', 'b', 'c'])
df2 = pd.DataFrame(np.random.randn(10, 3), columns=['a', 'b', 'c'])

pd.eval('df1 < df2')

Unnamed: 0,a,b,c
0,False,True,False
1,True,False,False
2,True,True,False
3,False,True,True
4,False,False,True
5,True,True,True
6,True,False,False
7,True,True,False
8,False,True,True
9,True,False,True


También podemos usar la función eval para realizar comparaciones dentro del Data Frame. Por ejemplo, podemos verificar si la segunda columna en df1 es mayor que 0.

In [3]:
df1.eval('b > 0')

0    False
1     True
2    False
3    False
4     True
5    False
6     True
7    False
8    False
9     True
dtype: bool

La función query() realizará una comparación dentro del propio Data Frame. Sin embargo, a diferencia de eval, devolverá solo las filas que cumplan la condición. Por ejemplo, podemos usar nuestro Data Frame df1 generado aleatoriamente y verificar si la segunda columna de df1 es mayor que cero.

In [4]:
df1.query('b > 0')

Unnamed: 0,a,b,c
0,-2.301549,0.802615,0.298562
4,-1.34054,1.147493,-0.155875
5,0.851467,1.086336,1.017497
6,0.31174,0.578231,0.040801
7,-0.122602,0.48068,1.787112
8,-0.948021,0.559901,-2.280701


### La función lookup

Puede haber casos donde queramos seleccionar un valor de una de las columnas basándonos en una lista lookup. Por ejemplo, tenemos un Data Frame donde las columnas son las estaciones del año y necesitamos coger un valor de una estación diferente para cada fila.

Este es un ejemplo de un Data Frame generado aleatoriamente con el porcentaje por estación para cada año en los últimos 10 años.

In [4]:
seasons = pd.DataFrame(np.random.random((10,4)), columns=['winter','spring','summer','autumn'])
seasons

Unnamed: 0,winter,spring,summer,autumn
0,0.113687,0.039048,0.852148,0.821722
1,0.230159,0.374036,0.815778,0.834377
2,0.161092,0.363339,0.592919,0.684928
3,0.464025,0.515839,0.462475,0.115399
4,0.090785,0.17507,0.462645,0.941934
5,0.96112,0.256693,0.988849,0.765263
6,0.16024,0.123029,0.361881,0.70603
7,0.912341,0.691081,0.31956,0.560534
8,0.882707,0.581916,0.887759,0.771831
9,0.266043,0.783628,0.645707,0.132898


In [6]:
lookup_list = ['summer','winter','spring','summer','autumn','winter','winter','spring','summer','summer']
seasons.lookup(seasons.index, lookup_list)

array([0.85214833, 0.23015853, 0.36333905, 0.46247531, 0.94193437,
       0.96111982, 0.16023962, 0.69108056, 0.88775888, 0.64570705])

### La función get

La función get() nos devuelve el resultado de una evaluación, similar al filtrado que vimos en anteriores sesiones. Por ejemplo, si quisiérmos devolver todas las filas donde la humedad en invierno es mayor del 50%, utuilizaríamos el siguiente código: 

In [10]:
seasons.get(seasons.winter > 0.5)

Unnamed: 0,winter,spring,summer,autumn
5,0.96112,0.256693,0.988849,0.765263
7,0.912341,0.691081,0.31956,0.560534
8,0.882707,0.581916,0.887759,0.771831


Esta función se puede utilizar también para seleccionar los valores de una columna. Es una alternativa a utilizar los corchetes en la selección de columnas.

In [11]:
seasons.get('winter')

0    0.113687
1    0.230159
2    0.161092
3    0.464025
4    0.090785
5    0.961120
6    0.160240
7    0.912341
8    0.882707
9    0.266043
Name: winter, dtype: float64

## Indexación y reindexación de Data Frames

Además de contener filas y columnas, cada Data Frame también contiene un índice. Si el índice no está definido de antemano, normalmente es el número de fila. A diferencia de otros Data Frames (por ejemplo, Data Frames de R), Pandas realiza muchas acciones utilizando el índice. Dado que el índice se utiliza con frecuencia, necesitaremos aprender a usarlo y modificarlo.

Vamos a ver el data set auto-mpg del repositorio ML de UCI.

In [24]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data'
cols = ['mpg','cylinders','displacement','horsepower','weight','acceleration',
        'model_year','origin','car_name']
auto = pd.read_csv(url, sep='\\s+', names=cols)
auto.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,car_name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


Echamos un ojo a la configuración del índice y a sus valores.

In [20]:
auto.index

RangeIndex(start=0, stop=398, step=1)

In [21]:
auto.index.values

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
       156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168,
       169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 18

By default, the index is a range index starting at zero, stopping at 398 with a step of 1. We can assign a new range index to our data.

Por defecto, el índice será un Range que empieza desde 0 y termina en 398 con una separación de a 1. Podemos asignar un nuevo RangeIndex a nuestros datos utilizando RangeIndex().

In [15]:
from pandas import RangeIndex

auto.index = RangeIndex(start=0, stop=398 * 2, step=2)
auto.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,car_name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
2,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
4,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
6,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
8,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


También podemos asignar una columna como índice.

In [16]:
auto.index = auto['car_name']
auto.head()

Unnamed: 0_level_0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,car_name
car_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
chevrolet chevelle malibu,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
buick skylark 320,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
plymouth satellite,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
amc rebel sst,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
ford torino,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


Sin embargo, es más común sustituir el índice por una columna directamente utilizando la función set_index(). Ojo con el parámetro inplace, aparecerá en muchas funciones y es muy útil para decidir si queremos que se reflejen los cambios y que se sutituya en el marco original. 

In [22]:
auto.set_index('car_name', inplace = True)
auto.head()

Unnamed: 0_level_0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin
car_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
chevrolet chevelle malibu,18.0,8,307.0,130.0,3504.0,12.0,70,1
buick skylark 320,15.0,8,350.0,165.0,3693.0,11.5,70,1
plymouth satellite,18.0,8,318.0,150.0,3436.0,11.0,70,1
amc rebel sst,16.0,8,304.0,150.0,3433.0,12.0,70,1
ford torino,17.0,8,302.0,140.0,3449.0,10.5,70,1


### Índice multicolumnas

Muchas veces, no tendremos valores únicos en una columna. Sin embargo, una combinación de varias columnas puede producir un identificador casi único para cada fila. En el caso de nuestros datos mpg, el nombre del coche no es un identificador único. Sin embargo, la combinación de la columna car_name y la columna model_year produce un identificador único para cada fila. 

Podemos fijar ambas columnas como un índice pasándolas a set_index() como una lista. Primero, vamos a asegurarnos de que esta combinación sea única. Haremos esto observando la función value_counts para la combinación de las dos columnas.

In [25]:
(auto.car_name + auto.model_year.map(str)).value_counts()

plymouth reliant81                     2
ford pinto75                           2
saab 99gle78                           1
ford f10876                            1
chevrolet chevelle malibu classic74    1
mercedes-benz 240d80                   1
honda civic 1500 gl80                  1
datsun b21074                          1
chrysler new yorker brougham73         1
volkswagen dasher77                    1
ford gran torino74                     1
pontiac phoenix lj78                   1
ford fairmont (auto)78                 1
amc hornet70                           1
volkswagen super beetle73              1
amc concord dl 679                     1
ford fiesta78                          1
dodge coronet custom (sw)74            1
plymouth 'cuda 34070                   1
audi fox74                             1
amc rebel sst70                        1
amc gremlin70                          1
chevrolet chevelle malibu classic76    1
mazda glc 481                          1
bmw 200270      

Vemos que hay dos valores duplicados. Vamos a cargarnos los duplicados.

In [26]:
auto.drop_duplicates(subset=['car_name', 'model_year'], inplace=True)

In [27]:
auto.set_index(['car_name', 'model_year'], inplace=True)
auto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,cylinders,displacement,horsepower,weight,acceleration,origin
car_name,model_year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
chevrolet chevelle malibu,70,18.0,8,307.0,130.0,3504.0,12.0,1
buick skylark 320,70,15.0,8,350.0,165.0,3693.0,11.5,1
plymouth satellite,70,18.0,8,318.0,150.0,3436.0,11.0,1
amc rebel sst,70,16.0,8,304.0,150.0,3433.0,12.0,1
ford torino,70,17.0,8,302.0,140.0,3449.0,10.5,1


### La función reindex

Otra función que podemos utilizar para cambiar el índice es reindex(). Esta función difiere de set_index() en que insertará filas vacías para todas las filas que no existen actualmente en el índice.

Previamente, hemos fijado el índice para que sean las columnas car_name y model_year. Si agregamos otro nombre de coche al índice, agregará una fila de NaN a nuestros datos.

In [29]:
new_index = [('fiat punto', 71)] + list(auto.index)
auto_reindexed = auto.reindex(new_index)
auto_reindexed.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,cylinders,displacement,horsepower,weight,acceleration,origin
car_name,model_year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
fiat punto,71,,,,,,,
chevrolet chevelle malibu,70,18.0,8.0,307.0,130.0,3504.0,12.0,1.0
buick skylark 320,70,15.0,8.0,350.0,165.0,3693.0,11.5,1.0
plymouth satellite,70,18.0,8.0,318.0,150.0,3436.0,11.0,1.0
amc rebel sst,70,16.0,8.0,304.0,150.0,3433.0,12.0,1.0


### Encadenamiento de operaciones

Nos permite realizar múltiples operaciones secuenciales a la vez.

Vamos a ver algunas funciones importantes implementándolas en un conjunto de datos. Usaremos el conjunto de datos KickStarter de Kaggle.

In [35]:
ks = pd.read_csv('Data/ks-projects-201801.csv')
ks.head()

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real
0,1000002330,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,1000.0,2015-08-11 12:12:28,0.0,failed,0,GB,0.0,0.0,1533.95
1,1000003930,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.0,2017-09-02 04:43:57,2421.0,failed,15,US,100.0,2421.0,30000.0
2,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.0,2013-01-12 00:20:50,220.0,failed,3,US,220.0,220.0,45000.0
3,1000007540,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,5000.0,2012-03-17 03:24:11,1.0,failed,1,US,1.0,1.0,5000.0
4,1000011046,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,19500.0,2015-07-04 08:35:03,1283.0,canceled,14,US,1283.0,1283.0,19500.0


Primero echamos un ojo a los valores perdidos.

In [31]:
ks.isna().sum()

ID                     0
name                   4
category               0
main_category          0
currency               0
deadline               0
goal                   0
launched               0
pledged                0
state                  0
backers                0
country                0
usd pledged         3797
usd_pledged_real       0
usd_goal_real          0
dtype: int64

Vemos que la columna usd_pledged tiene muchos valores perdidos. Optaremos por eliminar esta columna ya que hay información similar en la columna usd_pledged_real.

Vamos a echar un ojo a la columna country.

In [32]:
ks.country.value_counts()

US      292627
GB       33672
CA       14756
AU        7839
DE        4171
N,0"      3797
FR        2939
IT        2878
NL        2868
ES        2276
SE        1757
MX        1752
NZ        1447
DK        1113
IE         811
CH         761
NO         708
HK         618
BE         617
AT         597
SG         555
LU          62
JP          40
Name: country, dtype: int64

Ojo con los valores de country. Tendremos que sustituir los 'N,0"' por Unknown. 

Normalmente, haríamos estos dos pasos por separado seguidos por la función head() para asegurarnos de que nuestras transformaciones fueron exitosas.

In [33]:
ks.drop(columns=['usd pledged'], inplace=True)
ks.replace('N,0"', 'Unknown', inplace=True)
ks.head()

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd_pledged_real,usd_goal_real
0,1000002330,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,1000.0,2015-08-11 12:12:28,0.0,failed,0,GB,0.0,1533.95
1,1000003930,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.0,2017-09-02 04:43:57,2421.0,failed,15,US,2421.0,30000.0
2,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.0,2013-01-12 00:20:50,220.0,failed,3,US,220.0,45000.0
3,1000007540,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,5000.0,2012-03-17 03:24:11,1.0,failed,1,US,1.0,5000.0
4,1000011046,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,19500.0,2015-07-04 08:35:03,1283.0,canceled,14,US,1283.0,19500.0


Sin embargo, podemos encadenar estas dos operaciones para hacerlas de una.

In [36]:
ks.drop(columns=['usd pledged']).replace('N,0"', 'Unknown')

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd_pledged_real,usd_goal_real
0,1000002330,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,1000.0,2015-08-11 12:12:28,0.00,failed,0,GB,0.00,1533.95
1,1000003930,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.0,2017-09-02 04:43:57,2421.00,failed,15,US,2421.00,30000.00
2,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.0,2013-01-12 00:20:50,220.00,failed,3,US,220.00,45000.00
3,1000007540,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,5000.0,2012-03-17 03:24:11,1.00,failed,1,US,1.00,5000.00
4,1000011046,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,19500.0,2015-07-04 08:35:03,1283.00,canceled,14,US,1283.00,19500.00
5,1000014025,Monarch Espresso Bar,Restaurants,Food,USD,2016-04-01,50000.0,2016-02-26 13:38:27,52375.00,successful,224,US,52375.00,50000.00
6,1000023410,Support Solar Roasted Coffee & Green Energy! ...,Food,Food,USD,2014-12-21,1000.0,2014-12-01 18:30:44,1205.00,successful,16,US,1205.00,1000.00
7,1000030581,Chaser Strips. Our Strips make Shots their B*tch!,Drinks,Food,USD,2016-03-17,25000.0,2016-02-01 20:05:12,453.00,failed,40,US,453.00,25000.00
8,1000034518,SPIN - Premium Retractable In-Ear Headphones w...,Product Design,Design,USD,2014-05-29,125000.0,2014-04-24 18:14:43,8233.00,canceled,58,US,8233.00,125000.00
9,100004195,STUDIO IN THE SKY - A Documentary Feature Film...,Documentary,Film & Video,USD,2014-08-10,65000.0,2014-07-11 21:55:48,6240.57,canceled,43,US,6240.57,65000.00


### La función assign()

Esta función nos permite crear nuevas columnas o modificar existentes.

Por ejemplo, nos gustaría crear una columna llamada dollar_per_backer que calcula el de dollars prestados (usd_pledged_real) dividido por el número de backers. Una segunda columna mostrará la duración del proyecto calculando la diferencia entre el deadline y la fecha de lanzamiento.

In [37]:
ks.assign(dollar_per_backer = ks.usd_pledged_real / ks.backers,
      duration = pd.to_datetime(ks.deadline) - pd.to_datetime(ks.launched)
      ).head()

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real,dollar_per_backer,duration
0,1000002330,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,1000.0,2015-08-11 12:12:28,0.0,failed,0,GB,0.0,0.0,1533.95,,58 days 11:47:32
1,1000003930,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.0,2017-09-02 04:43:57,2421.0,failed,15,US,100.0,2421.0,30000.0,161.4,59 days 19:16:03
2,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.0,2013-01-12 00:20:50,220.0,failed,3,US,220.0,220.0,45000.0,73.333333,44 days 23:39:10
3,1000007540,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,5000.0,2012-03-17 03:24:11,1.0,failed,1,US,1.0,1.0,5000.0,1.0,29 days 20:35:49
4,1000011046,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,19500.0,2015-07-04 08:35:03,1283.0,canceled,14,US,1283.0,1283.0,19500.0,91.642857,55 days 15:24:57
