## Ejemplo 3: `map`

### 1. Objetivos:
    - Usar `map` para convertir datos usando un `diccionario` o una `función``
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd

Nuevemente puedes usar el archivo `new_york_times_bestsellers-dirty.csv` para usar los datos sin procesar:

In [2]:
df = pd.read_csv("../../Datasets/new_york_times_bestsellers-dirty.csv" , index_col=0)

df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


Para imprimir todos los elementos únicos en la columna `rank.numberInt` se usa la siguiente función:

`dataframe[-columna-].unique()`

In [3]:
df["rank.numberInt"].unique()

array(['2', '3', '4', '5', '7', '8', '9', '10', '12', '13', '14',
       'No Rank', '6', '11', '15', '1', '16'], dtype=object)

Digamos que queremos transformar los datos de nuestra columna 'rank.numberInt' para que esté dado por letras, no por números.

Sabemos que hay un valor 'No Rank' en esa columna, así que nuestro diccionario de conversión podría verse así:

In [5]:
int_a_letra = {
    '1': 'a',
    '2': 'b',
    '3': 'c',
    '4': 'd',
    '5': 'e',
    '6': 'f',
    '7': 'g',
    '8': 'h',
    '9': 'i',
    '10': 'j',
    '11': 'k',
    '12': 'l',
    '13': 'm',
    '14': 'n',
    '15': 'o',
    '16': 'p',
    'No Rank': 'z'
}

Lo aplicamos usando `map` y podemos aplicar `head()` al mismo tiempo para cortar resultados:

`dataframe[-columna-].map(-diccionario-)`

In [6]:
df["rank.numberInt"].map(int_a_letra)

0       b
1       c
2       d
3       e
5       g
       ..
3027    h
3028    i
3029    k
3030    m
3031    n
Name: rank.numberInt, Length: 2266, dtype: object

Y como sabemos, también podemos usar una función para `map`, por ejemplo para realizar una correspondencia entre el precio de un libro y su representación en `string`:

In [7]:
def numero_a_pesos_mn(valor):
    """ convierte de float a pesos en el formato de moneda nacional """
    return f"$ {valor} M.N."

In [8]:
df['price.numberDouble'].map(numero_a_pesos_mn).head(20)

0     $ 25.99 M.N.
1     $ 24.95 M.N.
2     $ 22.95 M.N.
3     $ 24.95 M.N.
5     $ 26.95 M.N.
6     $ 21.99 M.N.
7     $ 27.95 M.N.
8     $ 26.99 M.N.
9     $ 26.95 M.N.
10    $ 23.95 M.N.
11    $ 24.95 M.N.
13    $ 25.99 M.N.
14    $ 24.95 M.N.
16    $ 25.95 M.N.
17    $ 22.95 M.N.
18    $ 24.95 M.N.
19    $ 26.95 M.N.
20    $ 24.95 M.N.
21    $ 26.95 M.N.
22    $ 27.95 M.N.
Name: price.numberDouble, dtype: object

Lo único que tienes que pensar al usar `map` es: "¿Este dato tiene una correspondencia con otro dato que pueda representar con un diccionario o una función?". Y listo.

---
---

## Reto 3: Map

### 1. Objetivos:
    - Practicar el uso del método `map` para mapear un dato a otro dato que le corresponde.
    
---
    
### 2. Desarrollo:

#### a) Booleanos a numéricos

Vamos a trabajar sobre el dataset que guardaste en el Reto anterior. Esta vez tu Reto es muy sencillo:

1. La columna `is_potentially_hazardous_asteroid` tiene valores `booleanos`. Crea un diccionario de mapeo donde hagas un correspondencia de cada valor `booleano` con su equivalente numérico y transforma esa columna.
2. Usa una función para mapear la columna `relative_velocity.kilometers_per_hour` a una nueva columna llamada `relative_velocity.kilometers_per_minute`, que contenga la velocidad del objeto en kilómetros por minuto.
3. Guarda tu `DataFrame` resultante en la variable `df_reto_3`.
4. Guarda tu resultado en un archivo .csv.

In [9]:
import pandas as pd

In [23]:
df_reto_3 = pd.read_csv("../Ejemplo-02/objetos_cercanos_2.csv", index_col=0)
df_reto_3.head(3)

Unnamed: 0,Unnamed: 0.1,Unnamed: 0.1.1,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description,id,name
0,0,0,2154652-154652 (2004 EP20),False,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,Earth,16.142864,58114.308667,Near Earth asteroid orbits similar to that of ...,2154652,154652 (2004 EP20)
1,1,1,3153509-(2003 HM),True,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,Earth,12.351044,44463.757734,Near Earth asteroid orbits which cross the Ear...,3153509,(2003 HM)
2,2,2,3516633-(2010 HA),False,44.11182,98.637028,1995-01-07,1995-01-07 02:47:00,Earth,6.220435,,Near Earth asteroid orbits similar to that of ...,3516633,(2010 HA)


In [24]:
# analiza
df_reto_3["is_potentially_hazardous_asteroid"].unique()

array([False,  True])

In [25]:
df_reto_3.dtypes

Unnamed: 0.1                                          int64
Unnamed: 0.1.1                                        int64
id_name                                              object
is_potentially_hazardous_asteroid                      bool
estimated_diameter.meters.estimated_diameter_min    float64
estimated_diameter.meters.estimated_diameter_max    float64
close_approach_date                                  object
epoch_date_close_approach                            object
orbiting_body                                        object
relative_velocity.kilometers_per_second             float64
relative_velocity.kilometers_per_hour               float64
orbit_class_description                              object
id                                                    int64
name                                                 object
dtype: object

In [26]:
# mapea
bool_to_int ={
    True: 1,
    False: 0,
}
df_reto_3["is_potentially_hazardous_asteroid"] = df_reto_3["is_potentially_hazardous_asteroid"].map(bool_to_int)

In [27]:
# analiza
def hora_a_minuto(hora):
    """ Convierte la cantidad de horas a minutos """
    return hora / 60

df_reto_3["relative_velocity.kilometers_per_hour"].map(hora_a_minuto)

0       968.571811
1       741.062629
2              NaN
3      1348.716917
4       299.921473
          ...     
328     970.823503
329     906.368411
330    1220.590392
331    1783.945551
332            NaN
Name: relative_velocity.kilometers_per_hour, Length: 333, dtype: float64

In [28]:
# transforma usando función

df_reto_3["relative_velocity.kilometers_per_minute"] = df_reto_3["relative_velocity.kilometers_per_hour"].map(hora_a_minuto)

df_reto_3["relative_velocity.kilometers_per_minute"]

0       968.571811
1       741.062629
2              NaN
3      1348.716917
4       299.921473
          ...     
328     970.823503
329     906.368411
330    1220.590392
331    1783.945551
332            NaN
Name: relative_velocity.kilometers_per_minute, Length: 333, dtype: float64

In [21]:
df_reto_3

Unnamed: 0,Unnamed: 0.1,Unnamed: 0.1.1,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description,id,name,relative_velocity.kilometers_per_minute
0,0,0,2154652-154652 (2004 EP20),0,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,Earth,16.142864,58114.308667,Near Earth asteroid orbits similar to that of ...,2154652,154652 (2004 EP20),3.486859e+06
1,1,1,3153509-(2003 HM),1,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,Earth,12.351044,44463.757734,Near Earth asteroid orbits which cross the Ear...,3153509,(2003 HM),2.667825e+06
2,2,2,3516633-(2010 HA),0,44.111820,98.637028,1995-01-07,1995-01-07 02:47:00,Earth,6.220435,,Near Earth asteroid orbits similar to that of ...,3516633,(2010 HA),
3,3,3,3837644-(2019 AY3),0,46.190746,103.285648,1995-01-07,1995-01-07 21:25:00,Earth,22.478615,80923.015021,Near Earth asteroid orbits similar to that of ...,3837644,(2019 AY3),4.855381e+06
4,4,4,3843493-(2019 PY),0,22.108281,49.435619,1995-01-07,1995-01-07 02:45:00,Earth,4.998691,17995.288355,Near Earth asteroid orbits similar to that of ...,3843493,(2019 PY),1.079717e+06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
328,328,328,2267136-267136 (2000 EF104),0,441.118200,986.370281,1995-02-21,1995-02-21 04:17:00,Earth,16.180392,58249.410194,Near Earth asteroid orbits similar to that of ...,2267136,267136 (2000 EF104),3.494965e+06
329,329,329,3360486-(2006 WE4),0,441.118200,986.370281,1995-02-21,1995-02-21 15:44:00,Earth,15.106140,54382.104639,Near Earth asteroid orbits which cross the Ear...,3360486,(2006 WE4),3.262926e+06
330,330,330,3656919-(2014 BG3),0,160.160338,358.129403,1995-02-21,1995-02-21 12:08:00,Earth,20.343173,73235.423517,An asteroid orbit contained entirely within th...,3656919,(2014 BG3),4.394125e+06
331,331,331,3803762-(2018 GY4),0,421.264611,941.976306,1995-02-21,1995-02-21 12:54:00,Earth,29.732426,107036.733058,Near Earth asteroid orbits similar to that of ...,3803762,(2018 GY4),6.422204e+06


In [30]:
# guarda resultado al archivo objetos_cercanos_3.csv
df_reto_3.to_csv("objetos_cercanos_3.csv")

A continuación la celda de validación que en este caso sólo te ayuda a corroborar si estás realizando bien parte del proceso, compara tus resultados con tu Ingenier@ de Datos de confianza y si coinciden envía tus resultados

In [29]:
def revisar_resultados(df):
    
    import pandas as np
    import pandas.api.types as pdtypes
    
    assert pdtypes.is_int64_dtype(df['is_potentially_hazardous_asteroid']), 'La columna "is_potentially_hazardous_asteroid" no ha sido transformada a tipo numerico'
    assert len(df['is_potentially_hazardous_asteroid'].unique()) == 2, 'Hubo un error con la correspondencia de valores booleanos a numéricos. Hay más de dos valores posibles en la columna resultante'
    assert df['relative_velocity.kilometers_per_minute'].equals(df['relative_velocity.kilometers_per_hour'] / 60), 'La conversión de kilometros por hora a kilómetros por minuto no fue realizada correctamente'
    
    print(f'Todos los procesos fueron realizados exitosamente!')

revisar_resultados(df_reto_3)

Todos los procesos fueron realizados exitosamente!
