## Ejemplo 4: `apply`

### 1. Objetivos:
    - Usar `apply` para aplicar funciones a `Series` y `DataFrames`
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('new_york_times_bestsellers-dirty.csv', index_col=0)
df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


Podemos aplicar funciones a nuestras `Series` con el método `apply`, así que vamos a convertir la fecha de la columna `published_date.numberLong` que está dado en milisegundos en formato Epoc o Timestamp a sólo tener el año de publicación, recuerda usar:

`pd.to_datetime(-valor-, unit="ms")`

In [8]:
import datetime

fecha_1 = datetime.date.today()
fecha_1.weekday()

3

In [9]:
def anio_de_publicacion(valor):
    """ obtener el año desde la fecha epoc """
    fecha = pd.to_datetime(valor, unit='ms')
    return fecha.year

In [10]:
df['published_date.numberLong'].apply(anio_de_publicacion)

0       2008
1       2008
2       2008
3       2008
5       2008
        ... 
3027    2013
3028    2013
3029    2013
3030    2013
3031    2013
Name: published_date.numberLong, Length: 2266, dtype: int64

O esta otra, obtener la semanas en listas, pero en porcentaje en base al máximo, en este caso necesitamos pasar un valor adiciona a la función y se realiza de la forma:

`df[-columna-].apply(-función-, args=(-máximo de la columna-, ...) )`

In [11]:
def semanas_en_porcentaje(valor, maximo):
    """ Regresar el porcentaje en relación a maximo """
    porcentaje = valor / maximo * 100
    return f"{porcentaje:.0f}%"

In [13]:
df['weeks_on_list.numberInt'].apply(semanas_en_porcentaje, args= ( df['weeks_on_list.numberInt'].max(), ) ) # args es en tupla

0       3%
1       2%
2       1%
3       1%
5       3%
        ..
3027    2%
3028    5%
3029    2%
3030    1%
3031    7%
Name: weeks_on_list.numberInt, Length: 2266, dtype: object

Veremos cómo usar `apply` en `DataFrames` en un módulo posterior, ya que este dataset no se presta mucho para eso.

---
---

## Reto 4: Apply

### 1. Objetivos:
    - Practicar el uso del método `apply` para obtener columnas nuevas a partir de columnas existentes
    
---
    
### 2. Desarrollo:

#### a) Obteniendo columnas nuevas a partir de existentes

Vamos a trabajar con el dataset que guardaste de tu Reto anterior. Esta vez tu Reto es el siguiente:

1. Crea una función que reciba un valor (en este caso el diámetro en metros de un objeto espacial) y regrese la proporción de ese valor en comparación con el diámetro de la Tierra. El diámetro de la Tierra es de 12,742 km. Así que el diámetro de un objeto que mida 10000 metros corresponde a un valor de 0.00078 en proporción al diámetro de la Tierra.
2. Usa la columna 'estimated_diameter.meters.estimated_diameter_max', aplícale la función usando `apply` y crea una nueva columna llamada `proportion_of_max_diameter_to_earth`.
3. Asigna el resultado a la variable `df_reto_4`.
4. Guarda tu conjunto de datos en un archivo .csv.

In [2]:
import pandas as pd

In [3]:
df_reto_4 = pd.read_csv('near_earth_objects-jan_feb_1995-reto_3.csv', index_col=0)
df_reto_4.head(3)

Unnamed: 0,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description,id,name,relative_velocity.kilometers_per_minute
0,2154652-154652 (2004 EP20),0,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,Earth,16.142864,58114.308667,Near Earth asteroid orbits similar to that of ...,2154652,154652 (2004 EP20),968.571811
1,3153509-(2003 HM),1,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,Earth,12.351044,44463.757734,Near Earth asteroid orbits which cross the Ear...,3153509,(2003 HM),741.062629
2,3837644-(2019 AY3),0,46.190746,103.285648,1995-01-07,1995-01-07 21:25:00,Earth,22.478615,80923.015021,Near Earth asteroid orbits similar to that of ...,3837644,(2019 AY3),1348.716917


In [4]:
df_reto_4.dtypes

id_name                                              object
is_potentially_hazardous_asteroid                     int64
estimated_diameter.meters.estimated_diameter_min    float64
estimated_diameter.meters.estimated_diameter_max    float64
close_approach_date                                  object
epoch_date_close_approach                            object
orbiting_body                                        object
relative_velocity.kilometers_per_second             float64
relative_velocity.kilometers_per_hour               float64
orbit_class_description                              object
id                                                    int64
name                                                 object
relative_velocity.kilometers_per_minute             float64
dtype: object

In [13]:
def proporcion_vs_tierra(valor):
    """ Regresa la proporción de valor con respecto a la Tierra """
    proporcion = valor/12742000
    
    return proporcion

In [14]:
df_reto_4["proportion_of_max_diameter_to_earth"] = df_reto_4['estimated_diameter.meters.estimated_diameter_max'].apply(proporcion_vs_tierra)
df_reto_4["proportion_of_max_diameter_to_earth"]

0      0.000085
1      0.000017
2      0.000008
3      0.000004
4      0.000028
         ...   
296    0.000085
297    0.000077
298    0.000077
299    0.000028
300    0.000074
Name: proportion_of_max_diameter_to_earth, Length: 301, dtype: float64

In [16]:
# guarda en el archivo objetos_cercanos_4.csv
df_reto_4.to_csv('near_earth_objects-jan_feb_1995-reto_4.csv')