<a href="https://colab.research.google.com/github/earandir/DataAnalysis/blob/main/Modulo03/Sesion07/M03S07R01casting.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Reto 1: Casting

### 1. Objetivos:
    - Aplicar diversas técnicas de casting a un dataset nuevo
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd
import numpy as np


In [2]:
from google.colab import drive
from google.colab import files
drive.mount('/content/drive')

data = '/content/drive/MyDrive/DataAnalysis/Datasets/new_york_times_bestsellers-dirty.csv'

Mounted at /content/drive


---
---

#### a) Transformando tipos de datos

Vamos a trabajar con una versión un poco modificada del dataset que creaste en la sesión pasada. Si bien recuerdas, al final de la sesión pasada automatizamos un programa de Python para obtener un `DataFrame` con todos los objetos que orbitaron cerca de la Tierra en Enero y Febrero de 1995. Para construir este dataset, usamos el API gratuito que ofrece la [NASA](https://api.nasa.gov/).

Me tomé la libertad de modificar un poco dicho dataset para que pudiera ser utilizado más efectivamente para los fines de esta sesión. Encontrarás la versión modificada en la ruta '../../Datasets/near_earth_objects-jan_feb_1995-dirty.csv'. Todos los Retos de esta sesión los harás con ese conjunto de datos.

Te recomiendo que al finalizar cada reto guardes la nueva versión modificada de tu dataset bajo un nombre que indique el reto realizado (por ejemplo, 'near_earth_objects-jan_feb_1995-reto_1.csv'), para que puedas ir trabajando incrementalmente a través de los retos y no tengas que repetir procesos. Puedes guardar conjuntos de datos en formato `csv` usando el método `DataFrame.to_csv('ruta')`.

Tu primer Reto consistirá en seguir los siguientes pasos:

1. Lee el dataset y crea un `DataFrame` con él.

In [3]:
data = '/content/drive/MyDrive/DataAnalysis/Datasets/near_earth_objects-jan_feb_1995-dirty.csv'
df_reto_1 = pd.read_csv(data, index_col=0)
df_reto_1.head(3)

Unnamed: 0,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description
0,2154652-154652 (2004 EP20),False,483.676488,1081.533507,1995-01-07,789467580000,earth,16.142864,58114.3086669449,Near-Earth-asteroid-orbits-similar-to-that-o...
1,3153509-(2003 HM),True,96.506147,215.794305,1995-01-07,789491340000,earth,12.351044,44463.7577343496,Near-Earth-asteroid-orbits-which-cross-the-E...
2,3516633-(2010 HA),False,44.11182,98.637028,1995-01-07,789446820000,earth,6.220435,Unknown,Near-Earth-asteroid-orbits-similar-to-that-o...


2. Realiza una pequeña exploración para familiarizarte con él.

In [4]:
df_reto_1.dtypes

id_name                                              object
is_potentially_hazardous_asteroid                      bool
estimated_diameter.meters.estimated_diameter_min    float64
estimated_diameter.meters.estimated_diameter_max    float64
close_approach_date                                  object
epoch_date_close_approach                             int64
orbiting_body                                        object
relative_velocity.kilometers_per_second             float64
relative_velocity.kilometers_per_hour                object
orbit_class_description                              object
dtype: object

3. Convierte la columna `relative_velocity.kilometers_per_hour` de `object` a `float64` y elimina `NaNs`:

In [5]:
df_reto_1['relative_velocity.kilometers_per_hour'].replace('Unknown', np.nan, inplace=True)

In [6]:
df_reto_1.dropna(inplace=True)

In [7]:
df_reto_1['relative_velocity.kilometers_per_hour'] = df_reto_1['relative_velocity.kilometers_per_hour'].astype('float64')

In [8]:
df_reto_1.dtypes

id_name                                              object
is_potentially_hazardous_asteroid                      bool
estimated_diameter.meters.estimated_diameter_min    float64
estimated_diameter.meters.estimated_diameter_max    float64
close_approach_date                                  object
epoch_date_close_approach                             int64
orbiting_body                                        object
relative_velocity.kilometers_per_second             float64
relative_velocity.kilometers_per_hour               float64
orbit_class_description                              object
dtype: object

4. Convierte la columna `close_approach_date` a tipo de dato `datetime64[ms]` usando el método `astype` y un diccionario de conversión.

In [9]:
conver_dict = {'close_approach_date':'datetime64[ns]'}
df_reto_1 = df_reto_1.astype(conver_dict)     

df_reto_1.dtypes

id_name                                                     object
is_potentially_hazardous_asteroid                             bool
estimated_diameter.meters.estimated_diameter_min           float64
estimated_diameter.meters.estimated_diameter_max           float64
close_approach_date                                 datetime64[ns]
epoch_date_close_approach                                    int64
orbiting_body                                               object
relative_velocity.kilometers_per_second                    float64
relative_velocity.kilometers_per_hour                      float64
orbit_class_description                                     object
dtype: object

5. Convierte la columna `epoch_date_close_approach` a tipo de dato `datetime64[ms]` usando el método `to_datetime`:

In [10]:
df_reto_1['epoch_date_close_approach'] = pd.to_datetime(df_reto_1['epoch_date_close_approach'], unit='ms')
df_reto_1.dtypes

id_name                                                     object
is_potentially_hazardous_asteroid                             bool
estimated_diameter.meters.estimated_diameter_min           float64
estimated_diameter.meters.estimated_diameter_max           float64
close_approach_date                                 datetime64[ns]
epoch_date_close_approach                           datetime64[ns]
orbiting_body                                               object
relative_velocity.kilometers_per_second                    float64
relative_velocity.kilometers_per_hour                      float64
orbit_class_description                                     object
dtype: object

6. Reinicia los índices con `df.reset_index(drop=True)`:

In [11]:
df_reto_1.reset_index(drop=True)

df_reto_1.head()

Unnamed: 0,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description
0,2154652-154652 (2004 EP20),False,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,earth,16.142864,58114.308667,Near-Earth-asteroid-orbits-similar-to-that-o...
1,3153509-(2003 HM),True,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,earth,12.351044,44463.757734,Near-Earth-asteroid-orbits-which-cross-the-E...
3,3837644-(2019 AY3),False,46.190746,103.285648,1995-01-07,1995-01-07 21:25:00,earth,22.478615,80923.015021,Near-Earth-asteroid-orbits-similar-to-that-o...
4,3843493-(2019 PY),False,22.108281,49.435619,1995-01-07,1995-01-07 02:45:00,earth,4.998691,17995.288355,Near-Earth-asteroid-orbits-similar-to-that-of...
5,3765015-(2016 WR48),False,160.160338,358.129403,1995-01-08,1995-01-08 12:46:00,earth,7.465089,26874.321682,An-asteroid-orbit-contained-entirely-within-t...


7. Guarda tu resultado en un archivo .csv.

In [12]:
path = '/content/drive/MyDrive/DataAnalysis/new_york_times_bestsellers-clean.csv'
df_reto_1.to_csv(path)

En este caso, la celda de validación sólo verifica que los tipos de datos de las columnas de tu DataFrame sean las correctas, si tienes alguna duda de tu resultado pregunta a quién más confianza le tengas!!

In [13]:
def checar_conversiones(df):
    
    import pandas as pd
    import pandas.api.types as ptypes
    
    assert ptypes.is_float_dtype(df['relative_velocity.kilometers_per_hour']), 'Cuidado... La columna `relative_velocity.kilometers_per_hour` no es de tipo `float64`'
    assert ptypes.is_datetime64_any_dtype(df['close_approach_date']), 'Cuidado... La columna `close_approach_date` no es de tipo `datetime64[ns]`'
    assert ptypes.is_datetime64_any_dtype(df['epoch_date_close_approach']), 'Cuidado... La columna `epoch_date_close_approach` no es de tipo `datetime64[ns]'
    
    print(f'¡Éxito! ¡Todas tus conversiones fueron realizadas adecuadamente!')

checar_conversiones(df_reto_1)

¡Éxito! ¡Todas tus conversiones fueron realizadas adecuadamente!
