# 1. INICIO

Nuestro punto de partida son los Data Sets provistos por [Buenos Aires Data](https://data.buenosaires.gob.ar/dataset/bicicletas-publicas), los cuales tienen caracteristicas similares, pero presentan algunas discrepancias que dificultan hacer un análisis para todos los años, por lo que nuestros objetivos serán:

- Definir el nombre generico para las columnas.
- Definir las columnas compatibles.
- Unificar los data sets en un **NetCDF**

In [1]:
from localpacks.data import get_data

#### 1.1  Importamos nuestros datasets

In [None]:
#Rango de 2010 al 2018
df_2010 = get_data(year=2010)
df_2011 = get_data(year=2011)
df_2012 = get_data(year=2012)
df_2013 = get_data(year=2013)
df_2014 = get_data(year=2014)
df_2015 = get_data(year=2015)
df_2016 = get_data(year=2016)
df_2017 = get_data(year=2017)
df_2018 = get_data(year=2018) #Aun no esta completo fecha_actual: 13/12/2018

In [None]:
#observamos las columnas de cada data frame
df_2010.columns.values

#### 1.2 Extraemos las columnas y las vaciamos en un dict

In [None]:
#columnas iniciales
columns = {'2010' : ['PERIODO', 'ORIGENFECHA', 'ORIGENESTACIONID', 'ORIGENNOMBRE',
       'DESTINOFECHA', 'DESTINOESTACIONID', 'DESTINONOMBRE', 'TIEMPOUSO'],

           '2011' : ['PERIODO', 'ORIGENFECHA', 'ORIGENESTACIONID', 'NOMBREORIGEN',
       'DESTINOFECHA', 'DESTINOESTACIONID', 'NOMBREDESTINO', 'TIEMPOUSO'],
           
           '2012' : ['PERIODO', 'ORIGENFECHA', 'ORIGENESTACIONID', 'ORIGENNOMBRE',
       'DESTINOFECHA', 'DESTINOESTACIONID', 'DESTINONOMBRE', 'TIEMPOUSO'],
           
           '2013' : ['ID', 'NOMBRE_ORIGEN', 'ORIGEN_FECHA', 'DESTINO_ESTACION',
       'DESTINO_FECHA'],
           
           '2014' : ['ID', 'NOMBRE_ORIGEN', 'ORIGEN_FECHA', 'DESTINO_ESTACION',
       'DESTINO_FECHA'],
           
           '2015' : ['periodo', 'genero', 'fecha_hora_retiro', 'origen_estacion',
       'nombre_origen', 'destino_estacion', 'nombre_destino', 'tiempo_uso'],
           
           '2016' : ['periodo', 'genero', 'fecha_hora_retiro', 'origen_estacion',
       'nombre_origen', 'destino_estacion', 'nombre_destino', 'tiempo_uso'],
           
           '2017' : ['periodo', 'genero', 'fecha_hora_retiro', 'origen_estacion',
       'nombre_origen', 'destino_estacion', 'nombre_destino', 'tiempo_uso']
           
           '2018' : ['id_usuario', 'bici_fecha_hora_retiro', 'bici_tiempo_uso', 
                     'bici_nombre_estacion_origen', 'bici_estacion_origen',
                     'bici_nombre_estacion_destino', 'bici_estacion_destino',
                     'bici_sexo', 'bici_edad']
          }

Con el analisis de los nombres de cada columna, definimos las siguientes convenciones:

#### 1.3 Definicion de nombres

2010 al 2012 | 2013 al 2014 | 2015 al 2017 | 2018
------------ | ------------- | ------------ | -------------
periodo | -- | periodo | --
-- | usuario_id | -- | usuario_id
origen_fecha, origen_id, origen_nombre | origen_fecha, origen_id, origen_nombre | origen_fecha, origen_id, origen_nombre | origen_fecha, origen_id, origen_nombre
destino_fecha, destino_id, destino_nombre| destino_fecha, destino_id, destino_nombre | destino_id, destino_nombre | destino_id, destino_nombre
tiempo_uso | -- | tiempo_uso | tiempo_uso
-- | -- | -- | usario_edad
-- | -- | usuario_genero | usuario_genero


En la tabla anterior dejamos claro el nombre que utilizaremos para las columnas comunes y no comunes.

#### 1.4 Formato de integración

2010 al 2012 | 2013 al 2014 | 2015 al 2017 | 2018
------------ | ------------- | ------------ | -------------
-- | usuario_id | -- | usuario_id
fecha_uso | fecha_uso | fecha_uso | fecha_uso 
origen_id, origen_nombre | origen_id, origen_nombre | origen_id, origen_nombre | origen_id, origen_nombre
destino_id, destino_nombre| destino_id, destino_nombre | destino_id, destino_nombre | destino_id, destino_nombre
tiempo_uso | tiempo_uso | tiempo_uso | tiempo_uso
-- | -- | -- | usario_edad
-- | -- | usuario_genero | usuario_genero


Consideraciones:

- La columna **periodo** se elimina, y pasa a ser un metadato.
- La columna **origen fecha** se cambia a **fecha_uso** y pasa a ser el **index**
- La culumna **destino fecha** si existe se elimina y se deriva el **tiempo_uso**

Formatos:

- **usuario_id:**  integer, discreto, ordinal.
- **fecha_uso:** date_time, discreto, ordinal.
- **origen_id:** integer, discreto, ordinal (one_to_one with origen_nombre)
- **nombre_id:** string, discreto, ordinal (one_to_one with origen_id)
- **destino_id:**  integer, discreto, ordinal (one_to_one with destino_nombre)
- **destino_id:**  string, discreto, ordinal (one_to_one with destino_id)
- **tiempo_uso:** time_delta, continuo, ordinal.
- **usuario_edad:** integer, discreto, ordinal.
- **usuario_genero:** string.

# 2. AJUSTES

#### 2.1 Data Frame 2010

In [3]:
df_2010 = get_data(year = 2010, apply_format=True)

In [5]:
df_2010.head(3)

Unnamed: 0_level_0,origen_id,origen_nombre,destino_id,destino_nombre,tiempo_uso(s)
ORIGENFECHA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010-12-30 19:39:00,6,DERECHO,3,RETIRO,420.0
2010-12-30 19:34:00,5,ADUANA,3,RETIRO,780.0
2010-12-30 19:10:00,7,PLAZA ROMA,3,RETIRO,420.0
