## Ejemplo 1: Casting

### 1. Objetivos:
    - Aprender a usar `astype`
    - Aprender a lidiar con errores usando `to_numeric`
    - Aprender a convertir `strings` e `ints` a `datetime`
 
---
    
### 2. Desarrollo:

In [None]:
import pandas as pd

Vamos a trabajar con el conjunto de datos `new_york_times_bestsellers-dirty.csv` que está en la carpeta `DataFrames`, sería conveniente revisar el contenido del archivo antes de importarlo como un `DataFrame` y observa como existe una columna que puede ser usada como índice, así que ahora leeremos el archivo usando la función `read_csv()` de la siguiente forma:

`pd.read_csv(-nombre de archivo-, index_col=-número de columna que se usará como índice-)`

en este caso es la columna `0`:

In [None]:
...

df.head()

Tenemos aquí un dataset donde no todos los tipos de datos han sido deducidos correctamente, así que primero vamos a obtener los tipos de datos asignados por Pandas para cada conlumna con:

`dataframe.dtypes`

In [None]:
...

Específicamente, tenemos dos columnas con fechas (`bestsellers_date.numberLong` y `published_date.numberLong`)  que tienen tipos `object` e `int64`. También tenemos una columna `rank.numberInt` que no tiene el tipo de dato adecuado.

Podemos usar el método `astype` para pasarle a nuestro `DataFrame` un `diccionario` de conversión. Por ejemplo, vamos a convertir nuestras dos columnas de fechas usando un `diccionario` de conversión. El tipo de dato que usamos para manejar fechas es el llamado `datetime`. Este tipo de dato nos permite manipular fechas y horarios muy eficientemente.

In [None]:
diccionario_de_conversion = {
    "bestsellers_date.numberLong":"datetime64[ns]",
    "published_date.numberLong":"datetime64[ns]",
}

Bueno, hagamos una disertación sobre como funcionan las fechas en Python, primero para usar fechas hay que hacer uso del módulo `datetime` (Pandas lo usa en automático), luego a partir de este módulo existen los tipos de datos `datetime`, `date` y `time` para manejar fechas-hora, fechas y horas en Python.

Por ejemplo, vamos a crear tres variables, con la fecha-hora, la fecha y la hora actual usando las funciones `datetinme.datetime.today()`, `datetinme.date.today()` y `datetinme.datetime.today().time()`.

In [3]:
import datetime

hoy = datetime.datetime.today()
fecha = datetime.date.today()
tiempo = datetime.datetime.today().time()

print(hoy, type(hoy))
print(fecha, type(fecha))
print(tiempo, type(tiempo))

2023-10-17 08:26:50.438860 <class 'datetime.datetime'>
2023-10-17 <class 'datetime.date'>
08:26:50.439051 <class 'datetime.time'>


Y también podemos acceder a los atributos de cada uno de estos tipos de datos como son **año**, **mes**, **día**, **hora**, **minuto**, **segundo** entre otros, vamos a imprimir lo siguiente:

- Año y hora usando la variable `hoy`
- La fecha en formato México usando la variable `fecha` y una `f-string`
- La hora con horas, minutos y segundos usando la variable `hora` con la función `hora.strftime(-formato-)` [más info ...](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes)

In [8]:
import datetime

# t = datetime.datetime.today().time()
# t.strftime()

print(hoy.year, hoy.hour)
print(fecha, f"{fecha.day}-{fecha.month}-{fecha.year}")
print(tiempo.strftime("%H:%M:%S") )

2023 8
2023-10-17 17-10-2023
08:26:50


Entonces, regresando a nuestro dataframe, aplicamos el diccionario de conversión usando la forma:

`dataframe.astype(-diccionario-)`

In [None]:
...

df_1.head()

Se examinan nuevamente los tipos de las columnas con `df.dtypes`:

In [None]:
...

Como puedes ver, nuestras columnas han sido transformadas. Pero parece que hay un problema, puesto que hay muchísima diferencia de años entre la columna `bestsellers_date` y la columna `published_date`. Esto se debe a que `published_date` está en formato 'milisegundos desde La Época (la medianoche UTC del 1 de enero de 1970)' y `pandas` asume por default que estamos lidiando con nanosegundos.

Vamos a resolverlo de dos formas, la matemática (no entrar en pánico) y la forma **pandesca**, para la primera hay que saber que en unidades de medida existe los segundos, milisegundos (o la milesima parte), los microsegundos (o la millonésima parte) y los nanosegundos (o la mil millonésima parte), otra forma de verlo es que la siguiente:

- 1 seg = 1 x 1000 milisegundos
- 1 seg = 1 x 1000 000 microsegundos
- 1 seg = 1 x 1000 000 000 nanosegundos

así que si queremos pasar de milisegundos a nanosegundos hay que multiplicar por un millón (1 000 000) la columna de `published_date` y luego se aplica la función `df.astype()`:

In [None]:
df_2 = df.copy()
df_2["published_date.numberLong"] = ...

df_2.astype(diccionario_de_conversion).head(3)

Genial las fechas ya están mucho mejor, ahora la forma usando **Pandas** es por medio de la función `pd.to_datetime` en la forma:

`pd.to_datatime(-serie-, unit="ns")`

- `-serie-` es la columna del dataframe a convertir
- `unit="ns"` indicamos las unidades de nuestros datos, en este caso usaremos ms = milisegundos

In [None]:
...

Ahora remplacemos los valores de la columna `published_date` con las nuevas fechas: 

In [None]:
df_1["published_date.numberLong"] = ...

df_1.head(3)

Muy bien, las fechas ya son manejables por Python ahora, vamos a corroborar los tipos en el dataframe usando `df.dtypes`:

In [None]:
...

La columna `rank.numberInt` aparece como **object**, pero contiene datos de tipo entero, así que vamos a realizar la conversión usando `astype` en la forma:

`dataframe[-columna-].astype(-nuevo tipo de dato-)`

In [None]:
...

No podemos hacerlo porque hay unos valores tipo `string` que no pueden ser convertidos a `int`. Para esto usamos el método `to_numeric`, que nos permite indicar que cuando un error sea encontrado, debe de ser sustituido por un `NaN` en la forma:

`pd.to_numeric(-columna-, errors="coerce")`

In [None]:
...

Vamos a reasignar el resultado al `DataFrame` original:

In [None]:
df_1['rank.numberInt'] = ...

df_1.head(3)

Ahora, para convertilo a tipo `int` podemos eliminar los `NaNs` con `df.dropna(axis=0)` y luego usar `-columna-.astype(int)`:

In [None]:
df_1 = ...
df_1["rank.numberInt"] = ...

df_1.head(3)

Y se examina nuevamente los tipos de cada columna con `df.dtypes`:

In [None]:
...

¡Listo!

---
---

## Reto 1: Casting

### 1. Objetivos:
    - Aplicar diversas técnicas de casting a un dataset nuevo
 
---
    
### 2. Desarrollo:

#### a) Transformando tipos de datos

Vamos a trabajar con una versión un poco modificada del dataset que creaste en la sesión pasada. Si bien recuerdas, al final de la sesión pasada automatizamos un programa de Python para obtener un `DataFrame` con todos los objetos que orbitaron cerca de la Tierra en Enero y Febrero de 1995. Para construir este dataset, usamos el API gratuito que ofrece la [NASA](https://api.nasa.gov/).

Me tomé la libertad de modificar un poco dicho dataset para que pudiera ser utilizado más efectivamente para los fines de esta sesión. Encontrarás la versión modificada en la ruta '../../Datasets/near_earth_objects-jan_feb_1995-dirty.csv'. Todos los Retos de esta sesión los harás con ese conjunto de datos.

Te recomiendo que al finalizar cada reto guardes la nueva versión modificada de tu dataset bajo un nombre que indique el reto realizado (por ejemplo, 'near_earth_objects-jan_feb_1995-reto_1.csv'), para que puedas ir trabajando incrementalmente a través de los retos y no tengas que repetir procesos. Puedes guardar conjuntos de datos en formato `csv` usando el método `DataFrame.to_csv('ruta')`.

Tu primer Reto consistirá en seguir los siguientes pasos:

1. Lee el dataset y crea un `DataFrame` con él.

In [10]:
import pandas as pd

df_reto_1 = pd.read_csv("../Datasets/near_earth_objects-jan_feb_1995-dirty.csv",
                        index_col=0)
df_reto_1.head(3)

Unnamed: 0,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description
0,2154652-154652 (2004 EP20),False,483.676488,1081.533507,1995-01-07,789467580000,earth,16.142864,58114.3086669449,Near-Earth-asteroid-orbits-similar-to-that-o...
1,3153509-(2003 HM),True,96.506147,215.794305,1995-01-07,789491340000,earth,12.351044,44463.7577343496,Near-Earth-asteroid-orbits-which-cross-the-E...
2,3516633-(2010 HA),False,44.11182,98.637028,1995-01-07,789446820000,earth,6.220435,Unknown,Near-Earth-asteroid-orbits-similar-to-that-o...


2. Realiza una pequeña exploración para familiarizarte con él.

In [11]:
df_reto_1.shape

(333, 10)

In [12]:
df_reto_1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 333 entries, 0 to 332
Data columns (total 10 columns):
 #   Column                                            Non-Null Count  Dtype  
---  ------                                            --------------  -----  
 0   id_name                                           333 non-null    object 
 1   is_potentially_hazardous_asteroid                 333 non-null    bool   
 2   estimated_diameter.meters.estimated_diameter_min  333 non-null    float64
 3   estimated_diameter.meters.estimated_diameter_max  333 non-null    float64
 4   close_approach_date                               333 non-null    object 
 5   epoch_date_close_approach                         333 non-null    int64  
 6   orbiting_body                                     333 non-null    object 
 7   relative_velocity.kilometers_per_second           333 non-null    float64
 8   relative_velocity.kilometers_per_hour             333 non-null    object 
 9   orbit_class_description   

In [13]:
df_reto_1.keys()

Index(['id_name', 'is_potentially_hazardous_asteroid',
       'estimated_diameter.meters.estimated_diameter_min',
       'estimated_diameter.meters.estimated_diameter_max',
       'close_approach_date', 'epoch_date_close_approach', 'orbiting_body',
       'relative_velocity.kilometers_per_second',
       'relative_velocity.kilometers_per_hour', 'orbit_class_description'],
      dtype='object')

In [14]:
df_reto_1.dtypes

id_name                                              object
is_potentially_hazardous_asteroid                      bool
estimated_diameter.meters.estimated_diameter_min    float64
estimated_diameter.meters.estimated_diameter_max    float64
close_approach_date                                  object
epoch_date_close_approach                             int64
orbiting_body                                        object
relative_velocity.kilometers_per_second             float64
relative_velocity.kilometers_per_hour                object
orbit_class_description                              object
dtype: object

3. Convierte la columna `relative_velocity.kilometers_per_hour` de `object` a `float64` y elimina `NaNs`:

In [15]:
df_reto_1.isna().sum()

id_name                                             0
is_potentially_hazardous_asteroid                   0
estimated_diameter.meters.estimated_diameter_min    0
estimated_diameter.meters.estimated_diameter_max    0
close_approach_date                                 0
epoch_date_close_approach                           0
orbiting_body                                       0
relative_velocity.kilometers_per_second             0
relative_velocity.kilometers_per_hour               0
orbit_class_description                             0
dtype: int64

In [17]:
df_reto_1["relative_velocity.kilometers_per_hour"] = \
    pd.to_numeric(df_reto_1["relative_velocity.kilometers_per_hour"], errors="coerce")
df_reto_1.dtypes

id_name                                              object
is_potentially_hazardous_asteroid                      bool
estimated_diameter.meters.estimated_diameter_min    float64
estimated_diameter.meters.estimated_diameter_max    float64
close_approach_date                                  object
epoch_date_close_approach                             int64
orbiting_body                                        object
relative_velocity.kilometers_per_second             float64
relative_velocity.kilometers_per_hour               float64
orbit_class_description                              object
dtype: object

In [18]:
df_reto_1.isna().sum()

id_name                                              0
is_potentially_hazardous_asteroid                    0
estimated_diameter.meters.estimated_diameter_min     0
estimated_diameter.meters.estimated_diameter_max     0
close_approach_date                                  0
epoch_date_close_approach                            0
orbiting_body                                        0
relative_velocity.kilometers_per_second              0
relative_velocity.kilometers_per_hour               32
orbit_class_description                              0
dtype: int64

In [19]:
df_reto_1 = df_reto_1.dropna().reset_index(drop=True)
df_reto_1

Unnamed: 0,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description
0,2154652-154652 (2004 EP20),False,483.676488,1081.533507,1995-01-07,789467580000,earth,16.142864,58114.308667,Near-Earth-asteroid-orbits-similar-to-that-o...
1,3153509-(2003 HM),True,96.506147,215.794305,1995-01-07,789491340000,earth,12.351044,44463.757734,Near-Earth-asteroid-orbits-which-cross-the-E...
2,3837644-(2019 AY3),False,46.190746,103.285648,1995-01-07,789513900000,earth,22.478615,80923.015021,Near-Earth-asteroid-orbits-similar-to-that-o...
3,3843493-(2019 PY),False,22.108281,49.435619,1995-01-07,789446700000,earth,4.998691,17995.288355,Near-Earth-asteroid-orbits-similar-to-that-of...
4,3765015-(2016 WR48),False,160.160338,358.129403,1995-01-08,789569160000,earth,7.465089,26874.321682,An-asteroid-orbit-contained-entirely-within-t...
...,...,...,...,...,...,...,...,...,...,...
296,2311554-311554 (2006 BQ147),False,483.676488,1081.533507,1995-02-21,793387740000,earth,15.474761,55709.139812,Near-Earth-asteroid-orbits-similar-to-that-of...
297,2267136-267136 (2000 EF104),False,441.118200,986.370281,1995-02-21,793340220000,earth,16.180392,58249.410194,Near-Earth-asteroid-orbits-similar-to-that-o...
298,3360486-(2006 WE4),False,441.118200,986.370281,1995-02-21,793381440000,earth,15.106140,54382.104639,Near-Earth-asteroid-orbits-which-cross-the-E...
299,3656919-(2014 BG3),False,160.160338,358.129403,1995-02-21,793368480000,earth,20.343173,73235.423517,An-asteroid-orbit-contained-entirely-within-t...


In [20]:
df_reto_1.isna().sum()

id_name                                             0
is_potentially_hazardous_asteroid                   0
estimated_diameter.meters.estimated_diameter_min    0
estimated_diameter.meters.estimated_diameter_max    0
close_approach_date                                 0
epoch_date_close_approach                           0
orbiting_body                                       0
relative_velocity.kilometers_per_second             0
relative_velocity.kilometers_per_hour               0
orbit_class_description                             0
dtype: int64

4. Convierte la columna `close_approach_date` a tipo de dato `datetime64[ms]` usando el método `astype` y un diccionario de conversión.

In [22]:
str_to_date = {
    "close_approach_date":"datetime64[ns]",
}
df_reto_1 = df_reto_1.astype(str_to_date)
df_reto_1.dtypes

id_name                                                     object
is_potentially_hazardous_asteroid                             bool
estimated_diameter.meters.estimated_diameter_min           float64
estimated_diameter.meters.estimated_diameter_max           float64
close_approach_date                                 datetime64[ns]
epoch_date_close_approach                                    int64
orbiting_body                                               object
relative_velocity.kilometers_per_second                    float64
relative_velocity.kilometers_per_hour                      float64
orbit_class_description                                     object
dtype: object

In [None]:
...

df_reto_1.dtypes

5. Convierte la columna `epoch_date_close_approach` a tipo de dato `datetime64[ms]` usando el método `to_datetime`:

In [23]:
df_reto_1["epoch_date_close_approach"] = pd.to_datetime(
    df_reto_1["epoch_date_close_approach"], unit="ms")
df_reto_1.dtypes

id_name                                                     object
is_potentially_hazardous_asteroid                             bool
estimated_diameter.meters.estimated_diameter_min           float64
estimated_diameter.meters.estimated_diameter_max           float64
close_approach_date                                 datetime64[ns]
epoch_date_close_approach                           datetime64[ns]
orbiting_body                                               object
relative_velocity.kilometers_per_second                    float64
relative_velocity.kilometers_per_hour                      float64
orbit_class_description                                     object
dtype: object

In [24]:
df_reto_1.head()

Unnamed: 0,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description
0,2154652-154652 (2004 EP20),False,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,earth,16.142864,58114.308667,Near-Earth-asteroid-orbits-similar-to-that-o...
1,3153509-(2003 HM),True,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,earth,12.351044,44463.757734,Near-Earth-asteroid-orbits-which-cross-the-E...
2,3837644-(2019 AY3),False,46.190746,103.285648,1995-01-07,1995-01-07 21:25:00,earth,22.478615,80923.015021,Near-Earth-asteroid-orbits-similar-to-that-o...
3,3843493-(2019 PY),False,22.108281,49.435619,1995-01-07,1995-01-07 02:45:00,earth,4.998691,17995.288355,Near-Earth-asteroid-orbits-similar-to-that-of...
4,3765015-(2016 WR48),False,160.160338,358.129403,1995-01-08,1995-01-08 12:46:00,earth,7.465089,26874.321682,An-asteroid-orbit-contained-entirely-within-t...


6. Reinicia los índices con `df.reset_index(drop=True)`:

In [25]:
df_reto_1

Unnamed: 0,id_name,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description
0,2154652-154652 (2004 EP20),False,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,earth,16.142864,58114.308667,Near-Earth-asteroid-orbits-similar-to-that-o...
1,3153509-(2003 HM),True,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,earth,12.351044,44463.757734,Near-Earth-asteroid-orbits-which-cross-the-E...
2,3837644-(2019 AY3),False,46.190746,103.285648,1995-01-07,1995-01-07 21:25:00,earth,22.478615,80923.015021,Near-Earth-asteroid-orbits-similar-to-that-o...
3,3843493-(2019 PY),False,22.108281,49.435619,1995-01-07,1995-01-07 02:45:00,earth,4.998691,17995.288355,Near-Earth-asteroid-orbits-similar-to-that-of...
4,3765015-(2016 WR48),False,160.160338,358.129403,1995-01-08,1995-01-08 12:46:00,earth,7.465089,26874.321682,An-asteroid-orbit-contained-entirely-within-t...
...,...,...,...,...,...,...,...,...,...,...
296,2311554-311554 (2006 BQ147),False,483.676488,1081.533507,1995-02-21,1995-02-21 17:29:00,earth,15.474761,55709.139812,Near-Earth-asteroid-orbits-similar-to-that-of...
297,2267136-267136 (2000 EF104),False,441.118200,986.370281,1995-02-21,1995-02-21 04:17:00,earth,16.180392,58249.410194,Near-Earth-asteroid-orbits-similar-to-that-o...
298,3360486-(2006 WE4),False,441.118200,986.370281,1995-02-21,1995-02-21 15:44:00,earth,15.106140,54382.104639,Near-Earth-asteroid-orbits-which-cross-the-E...
299,3656919-(2014 BG3),False,160.160338,358.129403,1995-02-21,1995-02-21 12:08:00,earth,20.343173,73235.423517,An-asteroid-orbit-contained-entirely-within-t...


7. Guarda tu resultado en un archivo .csv.

In [26]:
df_reto_1.to_csv('near_earth_objects-jan_feb_1995-reto_1.csv')

En este caso, la celda de validación sólo verifica que los tipos de datos de las columnas de tu DataFrame sean las correctas, si tienes alguna duda de tu resultado pregunta a quién más confianza le tengas!!

In [27]:
def checar_conversiones(df):
    
    import pandas as pd
    import pandas.api.types as ptypes
    
    assert ptypes.is_float_dtype(df['relative_velocity.kilometers_per_hour']), 'Cuidado... La columna `relative_velocity.kilometers_per_hour` no es de tipo `float64`'
    assert ptypes.is_datetime64_any_dtype(df['close_approach_date']), 'Cuidado... La columna `close_approach_date` no es de tipo `datetime64[ns]`'
    assert ptypes.is_datetime64_any_dtype(df['epoch_date_close_approach']), 'Cuidado... La columna `epoch_date_close_approach` no es de tipo `datetime64[ns]'
    
    print(f'¡Éxito! ¡Todas tus conversiones fueron realizadas adecuadamente!')

checar_conversiones(df_reto_1)

¡Éxito! ¡Todas tus conversiones fueron realizadas adecuadamente!
