## Ejemplo 1: Casting

### 1. Objetivos:
    - Aprender a usar `astype`
    - Aprender a lidiar con errores usando `to_numeric`
    - Aprender a convertir `strings` e `ints` a `datetime`
 
---
    
### 2. Desarrollo:

In [None]:
import pandas as pd

Vamos a trabajar con el conjunto de datos `new_york_times_bestsellers-dirty.csv` que está en la carpeta `DataFrames`, sería conveniente que revisar el contenido del archivo antes de importarlo como un `DataFrame`:

In [None]:
df = pd.read_csv(
    '../../Datasets/new_york_times_bestsellers-dirty.csv',
    index_col=0)
df.head()

Observa que el archivo CSV ya incluye una columna con el índice para cada fila, así que ha sido necesario usar `index_col=0` para indicarle a Pandas que no agrege un nuevo índice.

Tenemos aquí un dataset donde no todos los tipos de datos han sido deducidos correctamente, así que primero vamos a obtener los tipos de datos asignados por Pandas para cada conlumna con:

`dataframe.dtypes`

In [None]:
# tu código

Específicamente, tenemos dos columnas con fechas (`bestsellers_date.numberLong` y `published_date.numberLong`)  que tienen tipos `object` e `int64`. También tenemos una columna `rank.numberInt` que no tiene el tipo de dato adecuado.

Podemos usar el método `astype` para pasarle a nuestro `DataFrame` un `diccionario` de conversión. Por ejemplo, vamos a convertir nuestras dos columnas de fechas usando un `diccionario` de conversión. El tipo de dato que usamos para manejar fechas es el llamado `datetime`. Este tipo de dato nos permite manipular fechas y horarios muy eficientemente.

In [None]:
diccionario_de_conversion = {
    # indica las columnas y los tipos de datos
    "bestsellers_date.numberLong":"datetime64[ns]",
    "published_date.numberLong":"datetime64[ns]",
}

Se aplica el diccionario de conversión usando la forma:

`dataframe.astype(-diccionario-)`

In [None]:
temp = ...
temp.head()

Se examinan nuevamente los tipos de las columnas con `df.dtypes`:

In [None]:
# tu código

Como puedes ver, nuestras columnas han sido transformadas. Pero parece que hay un problema, puesto que hay muchísima diferencia de años entre la columna `bestsellers_date` y la columna `published_date`. Esto se debe a que `published_date` está en formato 'milisegundos desde La Época (la medianoche UTC del 1 de enero de 1970)' y `pandas` asume por default que estamos lidiando con nanosegundos.

Para evitar este problema vamos a usar el método `pd.to_datetime` para convertir `published_date` en la forma:

`pd.to_datatime(-serie-, unit="ms")`

- `-serie-` es la columna del dataframe a convertir
- `unit="ms"` para convertir desde milisegundos

In [None]:
pd.to_datetime(-serie-, unit="ms")

Ahora remplacemos los valores de la columna `published_date` con las nuevas fechas: 

In [None]:
temp["published_date.numberLong"] = ...
temp.head()

`to_datetime` nos permite especificar las unidades para que la conversión se realice con éxito.

Vamos ahora qué pasa si queremos convertir `rank.numberInt` usando `astype` en la forma:

`dataframe[-columna-].astype(-nuevo tipo de dato-)`

In [None]:
# tu código

No podemos hacerlo porque hay unos valores tipo `string` que no pueden ser convertidos a `int`. Para esto usamos el método `to_numeric`, que nos permite indicar que cuando un error sea encontrado, debe de ser sustituido por un `NaN` en la forma:

`pd.to_numeric(-columna-, errors="coerce")`

In [None]:
# tu código

Vamos a reasignar el resultado al `DataFrame` original:

In [None]:
temp['rank.numberInt'] = ...
temp.head()

Ahora, para convertilo a tipo `int` podemos eliminar los `NaNs` con `df.dropna(axis=0)` y luego usar `-columna-.astype(int)`:

In [None]:
temp =  # elimina filas con NaNs
temp["rank.numberInt"] =   # conveirte de float a int la columna
temp.head()

Y se examina nuevamente los tipos de cada columna con `df.dtypes`:

In [None]:
# tu código

¡Listo!

---
---

## Reto 1: Casting

### 1. Objetivos:
    - Aplicar diversas técnicas de casting a un dataset nuevo
 
---
    
### 2. Desarrollo:

#### a) Transformando tipos de datos

Vamos a trabajar con una versión un poco modificada del dataset que creaste en la sesión pasada. Si bien recuerdas, al final de la sesión pasada automatizamos un programa de Python para obtener un `DataFrame` con todos los objetos que orbitaron cerca de la Tierra en Enero y Febrero de 1995. Para construir este dataset, usamos el API gratuito que ofrece la [NASA](https://api.nasa.gov/).

Me tomé la libertad de modificar un poco dicho dataset para que pudiera ser utilizado más efectivamente para los fines de esta sesión. Encontrarás la versión modificada en la ruta '../../Datasets/near_earth_objects-jan_feb_1995-dirty.csv'. Todos los Retos de esta sesión los harás con ese conjunto de datos.

Te recomiendo que al finalizar cada reto guardes la nueva versión modificada de tu dataset bajo un nombre que indique el reto realizado (por ejemplo, 'near_earth_objects-jan_feb_1995-reto_1.csv'), para que puedas ir trabajando incrementalmente a través de los retos y no tengas que repetir procesos. Puedes guardar conjuntos de datos en formato `csv` usando el método `DataFrame.to_csv('ruta')`.

Tu primer Reto consistirá en seguir los siguientes pasos:

1. Lee el dataset y crea un `DataFrame` con él.
2. Realiza una pequeña exploración para familiarizarte con él.
3. Convierte la columna `relative_velocity.kilometers_per_hour` de `object` a `float64`.
4. Convierte la columna `close_approach_date` a tipo de dato `datetime64[ms]` usando el método `astype` y un diccionario de conversión.
5. Convierte la columna `epoch_date_close_approach` a tipo de dato `datetime64[ms]` usando el método `to_datetime`.
6. Asigna el `DataFrame` resultante a la variable `df_reto_1`.
7. Guarda tu resultado en un archivo .csv.

In [None]:
import pandas as pd

In [None]:
df_reto_1 = ...
df_reto_1.head(3)

In [None]:
# explora

In [None]:
# convierte columna relative_velocity.kilometers_per_hour de object a float64
# elimina NaNs

In [None]:
# reinicia los índices usando df.reset_index(drop=True)
df_reto_1 = ...
df_reto_1

In [None]:
# convierte columna close_approach_date a datetime64
...
df_reto_1.dtypes

In [None]:
# convierte columna epoch_date_close_approach a datetime64
...
df_reto_1.dtypes

In [None]:
# guarda tu resultado en el archivo "objetos_cercanos_1.csv"