## Ejemplo 1: Casting

### 1. Objetivos:
    - Aprender a usar `astype`
    - Aprender a lidiar con errores usando `to_numeric`
    - Aprender a convertir `strings` e `ints` a `datetime`
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd

Vamos a trabajar con el conjunto de datos `new_york_times_bestsellers-dirty.csv` que está en la carpeta `DataFrames`, sería conveniente que revisar el contenido del archivo antes de importarlo como un `DataFrame`:

In [2]:
df = pd.read_csv(
    'new_york_times_bestsellers-dirty.csv',
    index_col=0)
df.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24 00:00:00,1212883200000,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24 00:00:00,1212883200000,7,4,3,26.95


Observa que el archivo CSV ya incluye una columna con el índice para cada fila, así que ha sido necesario usar `index_col=0` para indicarle a Pandas que no agrege un nuevo índice.

Tenemos aquí un dataset donde no todos los tipos de datos han sido deducidos correctamente, así que primero vamos a obtener los tipos de datos asignados por Pandas para cada conlumna con:

`dataframe.dtypes`

In [3]:
# tu código
df.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                  object
rank_last_week.numberInt         int64
weeks_on_list.numberInt          int64
price.numberDouble             float64
dtype: object

Específicamente, tenemos dos columnas con fechas (`bestsellers_date.numberLong` y `published_date.numberLong`)  que tienen tipos `object` e `int64`. También tenemos una columna `rank.numberInt` que no tiene el tipo de dato adecuado.

Podemos usar el método `astype` para pasarle a nuestro `DataFrame` un `diccionario` de conversión. Por ejemplo, vamos a convertir nuestras dos columnas de fechas usando un `diccionario` de conversión. El tipo de dato que usamos para manejar fechas es el llamado `datetime`. Este tipo de dato nos permite manipular fechas y horarios muy eficientemente.

In [4]:
diccionario_de_conversion = {
    # indica las columnas y los tipos de datos
    "bestsellers_date.numberLong":"datetime64[ns]",
    "published_date.numberLong":"datetime64[ns]",
}

Se aplica el diccionario de conversión usando la forma:

`dataframe.astype(-diccionario-)`

In [5]:
temp = df.astype(diccionario_de_conversion)
temp.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24,1970-01-01 00:20:12.883200,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24,1970-01-01 00:20:12.883200,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24,1970-01-01 00:20:12.883200,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24,1970-01-01 00:20:12.883200,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24,1970-01-01 00:20:12.883200,7,4,3,26.95


Se examinan nuevamente los tipos de las columnas con `df.dtypes`:

In [6]:
# tu código
temp.dtypes

amazon_product_url                     object
author                                 object
description                            object
publisher                              object
title                                  object
oid                                    object
bestsellers_date.numberLong    datetime64[ns]
published_date.numberLong      datetime64[ns]
rank.numberInt                         object
rank_last_week.numberInt                int64
weeks_on_list.numberInt                 int64
price.numberDouble                    float64
dtype: object

Como puedes ver, nuestras columnas han sido transformadas. Pero parece que hay un problema, puesto que hay muchísima diferencia de años entre la columna `bestsellers_date` y la columna `published_date`. Esto se debe a que `published_date` está en formato 'milisegundos desde La Época (la medianoche UTC del 1 de enero de 1970)' y `pandas` asume por default que estamos lidiando con nanosegundos.

Para evitar este problema vamos a usar el método `pd.to_datetime` para convertir `published_date` en la forma:

`pd.to_datatime(-serie-, unit="ms")`

- `-serie-` es la columna del dataframe a convertir
- `unit="ms"` para convertir desde milisegundos

In [10]:
pd.to_datetime(df['published_date.numberLong'], unit="ms")

0      2008-06-08
1      2008-06-08
2      2008-06-08
3      2008-06-08
5      2008-06-08
          ...    
3027   2013-05-05
3028   2013-05-05
3029   2013-05-05
3030   2013-05-05
3031   2013-05-05
Name: published_date.numberLong, Length: 2266, dtype: datetime64[ns]

Ahora remplacemos los valores de la columna `published_date` con las nuevas fechas: 

In [11]:
temp["published_date.numberLong"] = pd.to_datetime(df['published_date.numberLong'], unit="ms")
temp.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24,2008-06-08,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24,2008-06-08,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24,2008-06-08,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24,2008-06-08,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24,2008-06-08,7,4,3,26.95


`to_datetime` nos permite especificar las unidades para que la conversión se realice con éxito.

Vamos ahora qué pasa si queremos convertir `rank.numberInt` usando `astype` en la forma:

`dataframe[-columna-].astype(-nuevo tipo de dato-)`

In [13]:
# tu código
temp['rank.numberInt'].astype('int64')

ValueError: invalid literal for int() with base 10: 'No Rank'

No podemos hacerlo porque hay unos valores tipo `string` que no pueden ser convertidos a `int`. Para esto usamos el método `to_numeric`, que nos permite indicar que cuando un error sea encontrado, debe de ser sustituido por un `NaN` en la forma:

`pd.to_numeric(-columna-, errors="coerce")`

In [14]:
# tu código
pd.to_numeric(temp['rank.numberInt'], errors = 'coerce')

0        2.0
1        3.0
2        4.0
3        5.0
5        7.0
        ... 
3027     8.0
3028     9.0
3029    11.0
3030    13.0
3031    14.0
Name: rank.numberInt, Length: 2266, dtype: float64

Vamos a reasignar el resultado al `DataFrame` original:

In [15]:
temp['rank.numberInt'] = pd.to_numeric(temp['rank.numberInt'], errors = 'coerce')
temp.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24,2008-06-08,2.0,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24,2008-06-08,3.0,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24,2008-06-08,4.0,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24,2008-06-08,5.0,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24,2008-06-08,7.0,4,3,26.95


Ahora, para convertilo a tipo `int` podemos eliminar los `NaNs` con `df.dropna(axis=0)` y luego usar `-columna-.astype(int)`:

In [16]:
temp =  temp.dropna() # elimina filas con NaNs
temp["rank.numberInt"] = temp["rank.numberInt"].astype('int64')  # conveirte de float a int la columna
temp.head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24,2008-06-08,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24,2008-06-08,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24,2008-06-08,4,0,1,22.95
3,http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,Descr: An aging porn queens aims to cap her ca...,Doubleday,SNUFF,5b4aa4ead3089013507db18f,2008-05-24,2008-06-08,5,0,1,24.95
5,http://www.amazon.com/Phantom-Prey-John-Sandfo...,John Sandford,Descr: The Minneapolis detective Lucas Davenpo...,Putnam,PHANTOM PREY,5b4aa4ead3089013507db191,2008-05-24,2008-06-08,7,4,3,26.95


Y se examina nuevamente los tipos de cada columna con `df.dtypes`:

In [17]:
# tu código
temp.dtypes

amazon_product_url                     object
author                                 object
description                            object
publisher                              object
title                                  object
oid                                    object
bestsellers_date.numberLong    datetime64[ns]
published_date.numberLong      datetime64[ns]
rank.numberInt                          int64
rank_last_week.numberInt                int64
weeks_on_list.numberInt                 int64
price.numberDouble                    float64
dtype: object

¡Listo!

---
---

## Reto 1: Casting

### 1. Objetivos:
    - Aplicar diversas técnicas de casting a un dataset nuevo
 
---
    
### 2. Desarrollo:

#### a) Transformando tipos de datos

Vamos a trabajar con una versión un poco modificada del dataset que creaste en la sesión pasada. Si bien recuerdas, al final de la sesión pasada automatizamos un programa de Python para obtener un `DataFrame` con todos los objetos que orbitaron cerca de la Tierra en Enero y Febrero de 1995. Para construir este dataset, usamos el API gratuito que ofrece la [NASA](https://api.nasa.gov/).

Me tomé la libertad de modificar un poco dicho dataset para que pudiera ser utilizado más efectivamente para los fines de esta sesión. Encontrarás la versión modificada en la ruta '../../Datasets/near_earth_objects-jan_feb_1995-dirty.csv'. Todos los Retos de esta sesión los harás con ese conjunto de datos.

Te recomiendo que al finalizar cada reto guardes la nueva versión modificada de tu dataset bajo un nombre que indique el reto realizado (por ejemplo, 'near_earth_objects-jan_feb_1995-reto_1.csv'), para que puedas ir trabajando incrementalmente a través de los retos y no tengas que repetir procesos. Puedes guardar conjuntos de datos en formato `csv` usando el método `DataFrame.to_csv('ruta')`.

Tu primer Reto consistirá en seguir los siguientes pasos:

1. Lee el dataset y crea un `DataFrame` con él.
2. Realiza una pequeña exploración para familiarizarte con él.
3. Convierte la columna `relative_velocity.kilometers_per_hour` de `object` a `float64`.
4. Convierte la columna `close_approach_date` a tipo de dato `datetime64[ms]` usando el método `astype` y un diccionario de conversión.
5. Convierte la columna `epoch_date_close_approach` a tipo de dato `datetime64[ms]` usando el método `to_datetime`.
6. Asigna el `DataFrame` resultante a la variable `df_reto_1`.
7. Guarda tu resultado en un archivo .csv.

In [1]:
import pandas as pd

In [19]:
df_reto_1 = pd.read_csv('near_earth_objects-jan_feb_1995-dirty.csv')
df_reto_1.shape

(333, 11)

In [20]:
# explora
df_reto_1.dtypes

Unnamed: 0                                            int64
id_name                                              object
is_potentially_hazardous_asteroid                      bool
estimated_diameter.meters.estimated_diameter_min    float64
estimated_diameter.meters.estimated_diameter_max    float64
close_approach_date                                  object
epoch_date_close_approach                             int64
orbiting_body                                        object
relative_velocity.kilometers_per_second             float64
relative_velocity.kilometers_per_hour                object
orbit_class_description                              object
dtype: object

In [21]:
# convierte columna relative_velocity.kilometers_per_hour de object a float64
df_reto_1['relative_velocity.kilometers_per_hour'] = pd.to_numeric(df_reto_1['relative_velocity.kilometers_per_hour'], errors = 'coerce')
# elimina NaNs
df_reto_1 = df_reto_1.dropna()

In [22]:
# reinicia los índices usando df.reset_index(drop=True)
df_reto_1 = df_reto_1.reset_index(drop=True)
df_reto_1

Unnamed: 0.1,Unnamed: 0,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description
0,0,2154652-154652 (2004 EP20),False,483.676488,1081.533507,1995-01-07,789467580000,earth,16.142864,58114.308667,Near-Earth-asteroid-orbits-similar-to-that-o...
1,1,3153509-(2003 HM),True,96.506147,215.794305,1995-01-07,789491340000,earth,12.351044,44463.757734,Near-Earth-asteroid-orbits-which-cross-the-E...
2,3,3837644-(2019 AY3),False,46.190746,103.285648,1995-01-07,789513900000,earth,22.478615,80923.015021,Near-Earth-asteroid-orbits-similar-to-that-o...
3,4,3843493-(2019 PY),False,22.108281,49.435619,1995-01-07,789446700000,earth,4.998691,17995.288355,Near-Earth-asteroid-orbits-similar-to-that-of...
4,5,3765015-(2016 WR48),False,160.160338,358.129403,1995-01-08,789569160000,earth,7.465089,26874.321682,An-asteroid-orbit-contained-entirely-within-t...
...,...,...,...,...,...,...,...,...,...,...,...
296,327,2311554-311554 (2006 BQ147),False,483.676488,1081.533507,1995-02-21,793387740000,earth,15.474761,55709.139812,Near-Earth-asteroid-orbits-similar-to-that-of...
297,328,2267136-267136 (2000 EF104),False,441.118200,986.370281,1995-02-21,793340220000,earth,16.180392,58249.410194,Near-Earth-asteroid-orbits-similar-to-that-o...
298,329,3360486-(2006 WE4),False,441.118200,986.370281,1995-02-21,793381440000,earth,15.106140,54382.104639,Near-Earth-asteroid-orbits-which-cross-the-E...
299,330,3656919-(2014 BG3),False,160.160338,358.129403,1995-02-21,793368480000,earth,20.343173,73235.423517,An-asteroid-orbit-contained-entirely-within-t...


In [23]:
# convierte columna close_approach_date a datetime64
df_reto_1['close_approach_date']= df_reto_1['close_approach_date'].astype('datetime64')
df_reto_1.dtypes

Unnamed: 0                                                   int64
id_name                                                     object
is_potentially_hazardous_asteroid                             bool
estimated_diameter.meters.estimated_diameter_min           float64
estimated_diameter.meters.estimated_diameter_max           float64
close_approach_date                                 datetime64[ns]
epoch_date_close_approach                                    int64
orbiting_body                                               object
relative_velocity.kilometers_per_second                    float64
relative_velocity.kilometers_per_hour                      float64
orbit_class_description                                     object
dtype: object

In [27]:
# convierte columna epoch_date_close_approach a datetime64
df_reto_1['epoch_date_close_approach']=pd.to_datetime(df_reto_1['epoch_date_close_approach'], unit='ms')
df_reto_1.dtypes

Unnamed: 0                                                   int64
id_name                                                     object
is_potentially_hazardous_asteroid                             bool
estimated_diameter.meters.estimated_diameter_min           float64
estimated_diameter.meters.estimated_diameter_max           float64
close_approach_date                                 datetime64[ns]
epoch_date_close_approach                           datetime64[ns]
orbiting_body                                               object
relative_velocity.kilometers_per_second                    float64
relative_velocity.kilometers_per_hour                      float64
orbit_class_description                                     object
dtype: object

In [28]:
# guarda tu resultado en el archivo "objetos_cercanos_1.csv"
df_reto_1.to_csv('near_earth_objects-jan_feb_1995-reto_1.csv')