## Ejemplo 3: `map`

### 1. Objetivos:
    - Usar `map` para convertir datos usando un `diccionario` o una `función``
 
---
    
### 2. Desarrollo:

In [None]:
import pandas as pd

Nuevemente puedes usar el archivo `new_york_times_bestsellers-dirty.csv` para usar los datos sin procesar:

In [None]:
df = pd.read_csv("../../Datasets/new_york_times_bestsellers-dirty.csv" , index_col=0)

df.head(3)

Para imprimir todos los elementos únicos en la columna `rank.numberInt` se usa la siguiente función:

`dataframe[-columna-].unique()`

In [None]:
...

Digamos que queremos transformar los datos de nuestra columna 'rank.numberInt' para que esté dado por letras, no por números.

Sabemos que hay un valor 'No Rank' en esa columna, así que nuestro diccionario de conversión podría verse así:

In [None]:
int_a_letra = {
    '1': 'a',
    '2': 'b',
    '3': 'c',
    '4': 'd',
    '5': 'e',
    '6': 'f',
    '7': 'g',
    '8': 'h',
    '9': 'i',
    '10': 'j',
    '11': 'k',
    '12': 'l',
    '13': 'm',
    '14': 'n',
    '15': 'o',
    '16': 'p',
    'No Rank': 'z'
}

Lo aplicamos usando `map` y podemos aplicar `head()` al mismo tiempo para cortar resultados:

`dataframe[-columna-].map(-diccionario-)`

In [None]:
...

Y como sabemos, también podemos usar una función para `map`, por ejemplo para realizar una correspondencia entre el precio de un libro y su representación en `string`:

In [None]:
def numero_a_pesos_mn(valor):
    """ convierte de float a pesos en el formato de moneda nacional """
    pass

In [None]:
df['price.numberDouble'].map(-función-).head(20)

Lo único que tienes que pensar al usar `map` es: "¿Este dato tiene una correspondencia con otro dato que pueda representar con un diccionario o una función?". Y listo.

---
---

## Reto 3: Map

### 1. Objetivos:
    - Practicar el uso del método `map` para mapear un dato a otro dato que le corresponde.
    
---
    
### 2. Desarrollo:

#### a) Booleanos a numéricos

Vamos a trabajar sobre el dataset que guardaste en el Reto anterior. Esta vez tu Reto es muy sencillo:

1. La columna `is_potentially_hazardous_asteroid` tiene valores `booleanos`. Crea un diccionario de mapeo donde hagas un correspondencia de cada valor `booleano` con su equivalente numérico y transforma esa columna.
2. Usa una función para mapear la columna `relative_velocity.kilometers_per_hour` a una nueva columna llamada `relative_velocity.kilometers_per_minute`, que contenga la velocidad del objeto en kilómetros por minuto.
3. Guarda tu `DataFrame` resultante en la variable `df_reto_3`.
4. Guarda tu resultado en un archivo .csv.

In [1]:
import pandas as pd

In [2]:
df_reto_3 = pd.read_csv("near_earth_objects-jan_feb_1995-reto_2.csv", index_col=0)
df_reto_3.head(3)

Unnamed: 0,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description,id,name
0,False,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,Earth,16.142864,58114.308667,Near Earth asteroid orbits similar to that of ...,2154652,154652 (2004 EP20)
1,True,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,Earth,12.351044,44463.757734,Near Earth asteroid orbits which cross the Ear...,3153509,(2003 HM)
2,False,46.190746,103.285648,1995-01-07,1995-01-07 21:25:00,Earth,22.478615,80923.015021,Near Earth asteroid orbits similar to that of ...,3837644,(2019 AY3)


In [3]:
# analiza
df_reto_3["is_potentially_hazardous_asteroid"].unique()

array([False,  True])

In [8]:
# mapea
diccionario = {
    True: 1,
    False: 0
}

df_reto_3["is_potentially_hazardous_asteroid"] = df_reto_3["is_potentially_hazardous_asteroid"].map(diccionario)
df_reto_3.head()

Unnamed: 0,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description,id,name
0,0,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,Earth,16.142864,58114.308667,Near Earth asteroid orbits similar to that of ...,2154652,154652 (2004 EP20)
1,1,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,Earth,12.351044,44463.757734,Near Earth asteroid orbits which cross the Ear...,3153509,(2003 HM)
2,0,46.190746,103.285648,1995-01-07,1995-01-07 21:25:00,Earth,22.478615,80923.015021,Near Earth asteroid orbits similar to that of ...,3837644,(2019 AY3)
3,0,22.108281,49.435619,1995-01-07,1995-01-07 02:45:00,Earth,4.998691,17995.288355,Near Earth asteroid orbits similar to that of ...,3843493,(2019 PY)
4,0,160.160338,358.129403,1995-01-08,1995-01-08 12:46:00,Earth,7.465089,26874.321682,An asteroid orbit contained entirely within th...,3765015,(2016 WR48)


In [None]:
# analiza -> km/h -> km/h 60 min/ 60 min -> (km / h)(h / 60 min) -> km /min * 1 / 60

In [11]:
# transforma usando función
df_reto_3["relative_velocity.kilometers_per_minute"] = \
    df_reto_3["relative_velocity.kilometers_per_hour"].map(lambda kh: kh/60)
df_reto_3["relative_velocity.kilometers_per_minute"]

0       968.571811
1       741.062629
2      1348.716917
3       299.921473
4       447.905361
          ...     
296     928.485664
297     970.823503
298     906.368411
299    1220.590392
300    1783.945551
Name: relative_velocity.kilometers_per_minute, Length: 301, dtype: float64

In [12]:
df_reto_3.to_csv("near_earth_objects-jan_feb_1995-reto_3.csv")

A continuación la celda de validación que en este caso sólo te ayuda a corroborar si estás realizando bien parte del proceso, compara tus resultados con tu Ingenier@ de Datos de confianza y si coinciden envía tus resultados

In [13]:
def revisar_resultados(df):
    
    import pandas as np
    import pandas.api.types as pdtypes
    
    assert pdtypes.is_int64_dtype(df['is_potentially_hazardous_asteroid']), 'La columna "is_potentially_hazardous_asteroid" no ha sido transformada a tipo numerico'
    assert len(df['is_potentially_hazardous_asteroid'].unique()) == 2, 'Hubo un error con la correspondencia de valores booleanos a numéricos. Hay más de dos valores posibles en la columna resultante'
    assert df['relative_velocity.kilometers_per_minute'].equals(df['relative_velocity.kilometers_per_hour'] / 60), 'La conversión de kilometros por hora a kilómetros por minuto no fue realizada correctamente'
    
    print(f'Todos los procesos fueron realizados exitosamente!')

revisar_resultados(df_reto_3)

Todos los procesos fueron realizados exitosamente!


  assert pdtypes.is_int64_dtype(df['is_potentially_hazardous_asteroid']), 'La columna "is_potentially_hazardous_asteroid" no ha sido transformada a tipo numerico'


In [17]:
import numpy as np

np.power(2, 56, dtype=np.int64)

72057594037927936

In [20]:
2** 128

340282366920938463463374607431768211456

In [21]:
np.power(2, 128, dtype=np.object_)

340282366920938463463374607431768211456

In [22]:
np.int64(2)

2