## Ejemplo 4: `apply`

### 1. Objetivos:
    - Usar `apply` para aplicar funciones a `Series` y `DataFrames`
 
---
    
### 2. Desarrollo:

In [2]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('../Datasets/new_york_times_bestsellers-dirty.csv', index_col=0, sep=",")
df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


In [None]:
pd.read_csv("signos.csv", sep="$")

In [3]:
import datetime

In [5]:
fechatiempo = datetime.datetime.today()
fechatiempo

datetime.datetime(2020, 10, 14, 20, 25, 15, 643415)

In [11]:
fechatiempo.second

15

Podemos aplicar funciones a nuestras `Series` con el método `apply`, así que vamos a convertir la fecha de la columna `published_date.numberLong` que está dado en milisegundos en formato Epoc o Timestamp a sólo tener el año de publicación, recuerda usar:

`pd.to_datetime(-valor-, unit="ms")`

In [26]:
def anio_de_publicacion(valor):
    """ obtener el año desde la fecha epoc """
    fechatiempo = pd.to_datetime(valor, unit="ms")
    meses = {
        1: "Ene",
        2: "Feb",
        3: "Mar",
        4: "Abr",
        5: "May",
        6: "Jun",
        7: "Jul",
        8: "Aug",
        9: "Sep",
        10: "Oct",
        11: "Nov",
        12: "Dic"
    }
    return meses[fechatiempo.month]

In [31]:
import calendar

# calendar.mdays

fechatiempo

datetime.datetime(2020, 10, 14, 20, 25, 15, 643415)

In [27]:
df['published_date.numberLong'].apply(anio_de_publicacion)

0       Jun
1       Jun
2       Jun
3       Jun
5       Jun
       ... 
3027    May
3028    May
3029    May
3030    May
3031    May
Name: published_date.numberLong, Length: 2266, dtype: object

O esta otra, obtener la semanas en listas, pero en porcentaje en base al máximo, en este caso necesitamos pasar un valor adiciona a la función y se realiza de la forma:

`df[-columna-].apply(-función-, args=(-máximo de la columna-, ...) )`

In [48]:
def semanas_en_porcentaje(valor, maximo):
    """ Regresar el porcentaje en relación a maximo """
    porcentaje = valor / maximo * 100
    return f"{porcentaje:.0f}%"

In [33]:
l = [1,2,3,4,5]
t = (1,2,3,4,5)
print(l)
print(t)

[1, 2, 3, 4, 5]
(1, 2, 3, 4, 5)


In [34]:
[1]

[1]

In [38]:
(1,)

(1,)

In [39]:
df['weeks_on_list.numberInt'].max()

108

In [None]:
help(df['weeks_on_list.numberInt'].apply)

In [None]:
df['weeks_on_list.numberInt'].map?

In [49]:
df['weeks_on_list.numberInt'].apply(
    semanas_en_porcentaje,
    args= (df['weeks_on_list.numberInt'].max(),) )

0       3%
1       2%
2       1%
3       1%
5       3%
        ..
3027    2%
3028    5%
3029    2%
3030    1%
3031    7%
Name: weeks_on_list.numberInt, Length: 2266, dtype: object

Veremos cómo usar `apply` en `DataFrames` en un módulo posterior, ya que este dataset no se presta mucho para eso.

---
---

## Reto 4: Apply

### 1. Objetivos:
    - Practicar el uso del método `apply` para obtener columnas nuevas a partir de columnas existentes
    
---
    
### 2. Desarrollo:

#### a) Obteniendo columnas nuevas a partir de existentes

Vamos a trabajar con el dataset que guardaste de tu Reto anterior. Esta vez tu Reto es el siguiente:

1. Crea una función que reciba un valor (en este caso el diámetro en metros de un objeto espacial) y regrese la proporción de ese valor en comparación con el diámetro de la Tierra. El diámetro de la Tierra es de 12,742 km. Así que el diámetro de un objeto que mida 10000 metros corresponde a un valor de 0.00078 en proporción al diámetro de la Tierra.
2. Usa la columna 'estimated_diameter.meters.estimated_diameter_max', aplícale la función usando `apply` y crea una nueva columna llamada `proportion_of_max_diameter_to_earth`.
3. Asigna el resultado a la variable `df_reto_4`.
4. Guarda tu conjunto de datos en un archivo .csv.

In [None]:
import pandas as pd

In [None]:
df_reto_4 = pd.read_csv("../Ejemplo-03/objetos_cercanos_3.csv", index_col=0)
df_reto_4.head(3)

In [None]:
def proporcion_vs_tierra(valor):
    """ Regresa la proporción de valor con respecto a la Tierra """
    ...
    
    return proporcion

In [None]:
df_reto_4["proportion_of_max_diameter_to_earth"] = ...
df_reto_4["proportion_of_max_diameter_to_earth"]

In [None]:
# guarda en el archivo objetos_cercanos_4.csv