## Ejemplo 4: `apply`

### 1. Objetivos:
    - Usar `apply` para aplicar funciones a `Series` y `DataFrames`
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd
import numpy as np

Para éste ejemplo también usamos el archivo `new_york_times_bestsellers-dirty.csv` porque vamos a aplicar una tranformación diferente a los mismos datos:

In [2]:
df = pd.read_csv('../../Datasets/new_york_times_bestsellers-dirty.csv', index_col=0)
df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


Podemos aplicar funciones con uno o más parámetros a nuestras `Series` con el método `apply`, así que vamos a convertir la fecha de la columna `published_date.numberLong` que está dado en milisegundos en formato Epoc o Timestamp a sólo tener el año de publicación, recuerda usar:

`pd.to_datetime(-valor-, unit="ms")`

In [5]:
def anio_de_publicacion(valor): # valor estaría en ms, usar pandas si usamos pandas
        """ obtener el año desde la fecha epoc """
        fecha = pd.to_datetime(valor, unit="ms")
        return fecha.year

In [6]:
df['published_date.numberLong'].apply(anio_de_publicacion)

0       2008
1       2008
2       2008
3       2008
5       2008
        ... 
3027    2013
3028    2013
3029    2013
3030    2013
3031    2013
Name: published_date.numberLong, Length: 2266, dtype: int64

O esta otra, obtener la semanas en listas, pero en porcentaje en base al máximo, en este caso necesitamos pasar un valor adiciona a la función y se realiza de la forma:

`df[-columna-].apply(-función-, args=(-máximo de la columna-, ...) )`

primero creamos nuestra función:

In [14]:
def semanas_en_porcentaje(valor, maximo):
    """ Regresar el porcentaje en relación a maximo """
    porcentaje = valor / maximo * 100
    return f"{porcentaje:.2f} %"

Y lo aplicamos a la columna `weeks_on_list.numberInt`, pero también necesitamos el valor máximo de esta columna, que lo podemos obtener con `serie.max()`, entonces la función `apply()` queda como sigue:

In [15]:
df['weeks_on_list.numberInt'].apply(semanas_en_porcentaje, args = (df['weeks_on_list.numberInt'].max(),) )

0       2.78 %
1       1.85 %
2       0.93 %
3       0.93 %
5       2.78 %
         ...  
3027    1.85 %
3028    4.63 %
3029    1.85 %
3030    0.93 %
3031    7.41 %
Name: weeks_on_list.numberInt, Length: 2266, dtype: object

---
---

## Reto 4: Apply

### 1. Objetivos:
    - Practicar el uso del método `apply` para obtener columnas nuevas a partir de columnas existentes
    
### 2. Desarrollo:

#### a) Obteniendo columnas nuevas a partir de existentes

Vamos a trabajar con el dataset que guardaste de tu Reto anterior. Esta vez tu Reto es el siguiente:

1. Crea una función que reciba un valor (en este caso el diámetro en metros de un objeto espacial) y regrese la proporción de ese valor en comparación con el diámetro de la Tierra. El diámetro de la Tierra es de 12,742 km. Así que el diámetro de un objeto que mida 10000 metros corresponde a un valor de 0.00078 en proporción al diámetro de la Tierra.
2. Usa la columna 'estimated_diameter.meters.estimated_diameter_max', aplícale la función usando `apply` y crea una nueva columna llamada `proportion_of_max_diameter_to_earth` que deberá de ser de tipo `float64` y deberá contener valores entre 0 y 1 ya que es una proporción.
3. Asigna el resultado a la variable `df_reto_4`.
4. Guarda tu conjunto de datos en un archivo .csv.

In [16]:
df_reto_4 = pd.read_csv("../Ejemplo-03/objetos_cercanos_3.csv", index_col=0)
df_reto_4.head(3)

Unnamed: 0,Unnamed: 0.1,Unnamed: 0.1.1,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description,id,name,relative_velocity.kilometers_per_minute
0,0,0,2154652-154652 (2004 EP20),0,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,Earth,16.142864,58114.308667,Near Earth asteroid orbits similar to that of ...,2154652,154652 (2004 EP20),968.571811
1,1,1,3153509-(2003 HM),1,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,Earth,12.351044,44463.757734,Near Earth asteroid orbits which cross the Ear...,3153509,(2003 HM),741.062629
2,2,2,3516633-(2010 HA),0,44.11182,98.637028,1995-01-07,1995-01-07 02:47:00,Earth,6.220435,,Near Earth asteroid orbits similar to that of ...,3516633,(2010 HA),


In [23]:
def proporcion_vs_tierra(valor):
    """ Regresa la proporción de valor con respecto a la Tierra """
    proporcion = valor / 12742000
    
    return proporcion

In [24]:
df_reto_4["proportion_of_max_diameter_to_earth"] = df_reto_4["estimated_diameter.meters.estimated_diameter_max"].apply(proporcion_vs_tierra)
df_reto_4[[ "proportion_of_max_diameter_to_earth", "estimated_diameter.meters.estimated_diameter_max" ] ]


Unnamed: 0,proportion_of_max_diameter_to_earth,estimated_diameter.meters.estimated_diameter_max
0,0.000085,1081.533507
1,0.000017,215.794305
2,0.000008,98.637028
3,0.000008,103.285648
4,0.000004,49.435619
...,...,...
328,0.000077,986.370281
329,0.000077,986.370281
330,0.000028,358.129403
331,0.000074,941.976306


In [26]:
# guarda en el archivo objetos_cercanos_4.csv
df_reto_4.to_csv("objetos_cercanos_4.csv")

La celda de validación nuevamente te ayudará a darte pautas para saber si tus resultados van por buen camino!

In [27]:
def revisar_aplicacion(df):
    
    assert 'proportion_of_max_diameter_to_earth' in df, 'No existe una columna llamada "proportion_of_max_diameter_to_earth" en el DataFrame'
    assert df['proportion_of_max_diameter_to_earth'].equals(df['estimated_diameter.meters.estimated_diameter_max'] / 12742000), 'La transformacion no fue realizada adecuadamente'
    
    print(f'La transformación y creación de una nueva columna fue realizada exitosamente!')

revisar_aplicacion(df_reto_4)

La transformación y creación de una nueva columna fue realizada exitosamente!
