# 1. INICIO

Nuestro punto de partida son los Data Sets provistos por [Buenos Aires Data](https://data.buenosaires.gob.ar/dataset/bicicletas-publicas), los cuales tienen caracteristicas similares, pero presentan algunas discrepancias que dificultan hacer un análisis para todos los años, por lo que nuestros objetivos serán:

- Definir el nombre generico para las columnas.
- Definir las columnas compatibles.
- Unificar los data sets en un **NetCDF**

In [1]:
from localpacks.data import get_data

#### 1.1  Importamos nuestros datasets

In [None]:
#Rango de 2010 al 2018
df_2010 = get_data(year=2010)
df_2011 = get_data(year=2011)
df_2012 = get_data(year=2012)
df_2013 = get_data(year=2013)
df_2014 = get_data(year=2014)
df_2015 = get_data(year=2015)
df_2016 = get_data(year=2016)
df_2017 = get_data(year=2017)
df_2018 = get_data(year=2018) #Aun no esta completo fecha_actual: 13/12/2018

In [None]:
#observamos las columnas de cada data frame
df_2010.columns.values

#### 1.2 Extraemos las columnas y las vaciamos en un dict

In [None]:
#columnas iniciales
columns = {'2010' : ['PERIODO', 'ORIGENFECHA', 'ORIGENESTACIONID', 'ORIGENNOMBRE',
       'DESTINOFECHA', 'DESTINOESTACIONID', 'DESTINONOMBRE', 'TIEMPOUSO'],

           '2011' : ['PERIODO', 'ORIGENFECHA', 'ORIGENESTACIONID', 'NOMBREORIGEN',
       'DESTINOFECHA', 'DESTINOESTACIONID', 'NOMBREDESTINO', 'TIEMPOUSO'],
           
           '2012' : ['PERIODO', 'ORIGENFECHA', 'ORIGENESTACIONID', 'ORIGENNOMBRE',
       'DESTINOFECHA', 'DESTINOESTACIONID', 'DESTINONOMBRE', 'TIEMPOUSO'],
           
           '2013' : ['ID', 'NOMBRE_ORIGEN', 'ORIGEN_FECHA', 'DESTINO_ESTACION',
       'DESTINO_FECHA'],
           
           '2014' : ['ID', 'NOMBRE_ORIGEN', 'ORIGEN_FECHA', 'DESTINO_ESTACION',
       'DESTINO_FECHA'],
           
           '2015' : ['periodo', 'genero', 'fecha_hora_retiro', 'origen_estacion',
       'nombre_origen', 'destino_estacion', 'nombre_destino', 'tiempo_uso'],
           
           '2016' : ['periodo', 'genero', 'fecha_hora_retiro', 'origen_estacion',
       'nombre_origen', 'destino_estacion', 'nombre_destino', 'tiempo_uso'],
           
           '2017' : ['periodo', 'genero', 'fecha_hora_retiro', 'origen_estacion',
       'nombre_origen', 'destino_estacion', 'nombre_destino', 'tiempo_uso'],
           
           '2018' : ['id_usuario', 'bici_fecha_hora_retiro', 'bici_tiempo_uso', 
                     'bici_nombre_estacion_origen', 'bici_estacion_origen',
                     'bici_nombre_estacion_destino', 'bici_estacion_destino',
                     'bici_sexo', 'bici_edad']
          }

Con el analisis de los nombres de cada columna, definimos las siguientes convenciones:

#### 1.3 Definicion de nombres

2010 al 2012 | 2013 al 2014 | 2015 al 2017 | 2018
------------ | ------------- | ------------ | -------------
periodo | -- | periodo | --
-- | usuario_id | -- | usuario_id
origen_fecha, origen_id, origen_nombre | origen_fecha, origen_id, origen_nombre | origen_fecha, origen_id, origen_nombre | origen_fecha, origen_id, origen_nombre
destino_fecha, destino_id, destino_nombre| destino_fecha, destino_id, destino_nombre | destino_id, destino_nombre | destino_id, destino_nombre
tiempo_uso | -- | tiempo_uso | tiempo_uso
-- | -- | -- | usario_edad
-- | -- | usuario_genero | usuario_genero


En la tabla anterior dejamos claro el nombre que utilizaremos para las columnas comunes y no comunes.

#### 1.4 Formato de integración

2010 al 2012 | 2013 al 2014 | 2015 al 2017 | 2018
------------ | ------------- | ------------ | -------------
-- | usuario_id | -- | usuario_id
fecha_uso | fecha_uso | fecha_uso | fecha_uso 
origen_id, origen_nombre | origen_id, origen_nombre | origen_id, origen_nombre | origen_id, origen_nombre
destino_id, destino_nombre| destino_id, destino_nombre | destino_id, destino_nombre | destino_id, destino_nombre
tiempo_uso | tiempo_uso | tiempo_uso | tiempo_uso
-- | -- | -- | usario_edad
-- | -- | usuario_genero | usuario_genero


Consideraciones:

- La columna **periodo** se elimina, y pasa a ser un metadato.
- La columna **origen fecha** se cambia a **fecha_uso** y pasa a ser el **index**
- La culumna **destino fecha** si existe se elimina y se deriva el **tiempo_uso**

Formatos:

- **usuario_id:**  integer, discreto, ordinal.
- **fecha_uso:** date_time, discreto, ordinal.
- **origen_id:** integer, discreto, ordinal (one_to_one with origen_nombre)
- **nombre_id:** string, discreto, ordinal (one_to_one with origen_id)
- **destino_id:**  integer, discreto, ordinal (one_to_one with destino_nombre)
- **destino_id:**  string, discreto, ordinal (one_to_one with destino_id)
- **tiempo_uso:** time_delta, continuo, ordinal.
- **usuario_edad:** integer, discreto, ordinal.
- **usuario_genero:** string.

# 2. AJUSTES

#### 2.1 Data Frame 2010

In [None]:
df_2010_raw = get_data(year = 2010, apply_format=False)
df_2010 = get_data(year = 2010, apply_format=True)

In [None]:
df_2010_raw.head(3)

In [None]:
df_2010.head(3)

#### 2.2 Data Frame 2011

In [None]:
df_2011_raw = get_data(year = 2011, apply_format=False)
df_2011 = get_data(year = 2011, apply_format=True)

In [None]:
df_2011_raw.head(3)

In [None]:
df_2011.head(3)

#### 2.2 Data Frame 2012

In [None]:
df_2012_raw = get_data(year = 2012, apply_format=False)

In [None]:
#df_2012 = get_data(year = 2012, apply_format=True)

#### 2.3 Data Frame 2013

In [2]:
df_2013_raw = get_data(year = 2013, apply_format=False)
df_2013 = get_data(year = 2013, apply_format=True)

In [3]:
df_2013_raw.head(3)

Unnamed: 0,ID,NOMBRE_ORIGEN,ORIGEN_FECHA,DESTINO_ESTACION,DESTINO_FECHA
0,36680,ONCE,2013-01-02 07:49:52.937,PARQUE PATRICIOS,2013-01-02 08:11:36.670
1,68894,ONCE,2013-01-02 07:52:11.530,PZA. ROMA,2013-01-02 08:23:01.123
2,69014,PLAZA ALMAGRO,2013-01-02 07:53:56.140,PLAZA VICENTE LOPEZ,2013-01-02 08:25:04.297


In [4]:
df_2013.head(3)

Unnamed: 0_level_0,usuario_id,origen_nombre,destino_nombre,tiempo_uso(s)
ORIGEN_FECHA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013-01-02 07:49:52.937,36680,ONCE,PARQUE PATRICIOS,1303
2013-01-02 07:52:11.530,68894,ONCE,PZA. ROMA,1849
2013-01-02 07:53:56.140,69014,PLAZA ALMAGRO,PLAZA VICENTE LOPEZ,1868


#### 2.3 Data Frame 2014

In [5]:
df_2014_raw = get_data(year = 2014, apply_format=False)
df_2014 = get_data(year = 2014, apply_format=True)

In [6]:
df_2014_raw.head(3)

Unnamed: 0,ID,NOMBRE_ORIGEN,ORIGEN_FECHA,DESTINO_ESTACION,DESTINO_FECHA
0,36680,ONCE,2014-01-02 08:03:44.437,SUIPACHA,2014-01-02 08:20:50.903
1,36680,SUIPACHA,2014-01-02 08:33:59.873,ALSINA,2014-01-02 08:45:23.983
2,91345,CONGRESO,2014-01-02 08:43:09.263,CONGRESO,2014-01-02 09:30:12.043


In [7]:
df_2014.head(3)

Unnamed: 0_level_0,usuario_id,origen_nombre,destino_nombre,tiempo_uso(s)
ORIGEN_FECHA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2014-01-02 08:03:44.437,36680,ONCE,SUIPACHA,1026
2014-01-02 08:33:59.873,36680,SUIPACHA,ALSINA,684
2014-01-02 08:43:09.263,91345,CONGRESO,CONGRESO,2822
