## Ejemplo 4: `apply`

### 1. Objetivos:
    - Usar `apply` para aplicar funciones a `Series` y `DataFrames`
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('../../Datasets/new_york_times_bestsellers-dirty.csv', index_col=0)

df.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1212883200000,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1212883200000,7,4,3,26.95


+ Supongamos que queremos calcular el numero de años que ha estado en la lista de los mejores vendidos
+ Yo cuento con la fecha en la que entró a dicha lista
+ Mi objetivo es crear una nueva columna que contenga el número de años que ha estado en la lista de los mejores vendidos

+ Podemos aplicar funciones a nuestras `Series` con el método `apply`:

In [5]:
# Primero, construiré una función que calcule el número
# de años desde una fecha hasta hoy
def years_since_bestseller(value):
    
    # primero, tomo el input y lo convierto en fecha hecha
    # y derecha
    as_datetime = pd.to_datetime(value, unit='ms')
    # obtengo la fecha del día de hoy
    today = pd.to_datetime('today')
    # hago la diferencia del hoy con la fecha en cuestión
    # y cuento los días... eso se hace restando las fechas
    # y aplicando el metodo 'days' cuenta los días entre
    # esas dos fechas
    difference_in_days = (today - as_datetime).days
    #finalmente, convierto esos días en años
    in_years = difference_in_days / 365
    
    return in_years

In [6]:
df['published_date.numberLong'].apply(years_since_bestseller)

0       15.175342
1       15.175342
2       15.175342
3       15.175342
5       15.175342
          ...    
3027    10.265753
3028    10.265753
3029    10.265753
3030    10.265753
3031    10.265753
Name: published_date.numberLong, Length: 2266, dtype: float64

O supongamos, que queremos el porcentaje del tiempo desde su publicación, que ha estado en la lista de los mejores vendidos

In [7]:
# Creo mi propia función que haga el cálculo
# teneemos el número de semanas en la lista
def weeks_on_list_percentage_of_maximum(value, max_weeks_on_list):
    
    # calculamos la propoción de semanas en las que
    # ha estado en la lista
    percentage = value * 100 / max_weeks_on_list
    # le damos formato de porcentaje
    as_string = f'{percentage:.2f}%'
    
    return as_string

In [9]:
# y vamos a aplicar ... con cuidado
# pues esta función tiene dos argumentos
df['weeks_on_list.numberInt'].apply(weeks_on_list_percentage_of_maximum, args=(df['weeks_on_list.numberInt'].max(),))

0       2.78%
1       1.85%
2       0.93%
3       0.93%
5       2.78%
        ...  
3027    1.85%
3028    4.63%
3029    1.85%
3030    0.93%
3031    7.41%
Name: weeks_on_list.numberInt, Length: 2266, dtype: object

Veremos cómo usar `apply` en `DataFrames` en un módulo posterior, ya que este dataset no se presta mucho para eso.