# Transformando datos de tiempo

In [48]:
import pandas as pd
import numpy as np
dt_data = pd.read_json('data/inmuebles_disponibles.json')

dt_data.head()

Unnamed: 0,id,fecha,lugar_disponible,precio
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


In [49]:
dt_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   id                365000 non-null  int64 
 1   fecha             365000 non-null  object
 2   lugar_disponible  365000 non-null  bool  
 3   precio            270547 non-null  object
dtypes: bool(1), int64(1), object(2)
memory usage: 11.5+ MB


In [50]:
dt_data["fecha"] = pd.to_datetime(dt_data["fecha"])

In [51]:
dt_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   id                365000 non-null  int64         
 1   fecha             365000 non-null  datetime64[ns]
 2   lugar_disponible  365000 non-null  bool          
 3   precio            270547 non-null  object        
dtypes: bool(1), datetime64[ns](1), int64(1), object(1)
memory usage: 11.5+ MB


# Manipulando datos de tiempo

In [52]:
dt_data.head()

Unnamed: 0,id,fecha,lugar_disponible,precio
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


Se buscará encontrar cuántos inmuebles habían disponible por mes

In [53]:
# Para agrupar por año y mes, cambiando el formato
# dt -> datetime
dt_data["fecha"].dt.strftime('%Y-%m')

0         2016-01
1         2016-01
2         2016-01
3         2016-01
4         2016-01
           ...   
364995    2016-12
364996    2016-12
364997    2016-12
364998    2017-01
364999    2017-01
Name: fecha, Length: 365000, dtype: object

In [54]:
# Sumará los valores en True (porque False es 0), se podrá contar la cantidad de veces que hay un 'lugar_disponible' por mes
subset = dt_data.groupby(dt_data["fecha"].dt.strftime("%Y-%m"))['lugar_disponible'].sum()

In [55]:
subset

fecha
2016-01    16543
2016-02    20128
2016-03    23357
2016-04    22597
2016-05    23842
2016-06    23651
2016-07    22329
2016-08    22529
2016-09    22471
2016-10    23765
2016-11    23352
2016-12    24409
2017-01     1574
Name: lugar_disponible, dtype: int64

# Desafío

En esta clase, aprendimos cómo manipular datos temporales usando datetime. Entendimos cómo transformar una columna a fecha y hora y luego manipular estos datos. Aun así, no todos los datos del conjunto inmuebles_disponibles.json fueron tratados.

Durante las clases de este curso, descubrimos cómo transformar y trabajar con valores numéricos, por ejemplo, eliminando valores numéricos dentro de un texto y transformándolos en un tipo numérico, como int64 o float64.

Sabiendo esto, en esta actividad te propongo transformar los datos de la columna precio del conjunto de datos inmuebles_disponibles.json al tipo numérico float64. Recordando que, antes de hacer esto, debes llenar los valores vacíos de la columna con un valor. Una sugerencia: reemplazar con el string '0.0'.

No dudes en seguir los mismos pasos dados en clase o, si lo prefieres, realizar otras mejoras, como eliminar algunos caracteres o palabras vacías. En el apartado “Opinión del instructor” encontrarás una posible resolución para esta actividad.

In [56]:
dt_data["precio"]

0            None
1            None
2            None
3            None
4            None
           ...   
364995    $140.00
364996    $140.00
364997    $140.00
364998    $140.00
364999       None
Name: precio, Length: 365000, dtype: object

In [57]:
# reemplazar valores vacíos con string '0.0'
dt_data["precio"].fillna('0.0', inplace=True)

In [60]:
# eliminar $
dt_data["precio"] = dt_data["precio"].apply(lambda x: x.replace('$', '').replace(',',''))

In [61]:
dt_data["precio"] = dt_data["precio"].astype(np.float64)

In [62]:
dt_data["precio"]

0           0.0
1           0.0
2           0.0
3           0.0
4           0.0
          ...  
364995    140.0
364996    140.0
364997    140.0
364998    140.0
364999      0.0
Name: precio, Length: 365000, dtype: float64