# 1. INICIO

Nuestro punto de partida son los Data Sets provistos por [Buenos Aires Data](https://data.buenosaires.gob.ar/dataset/bicicletas-publicas), los cuales tienen caracteristicas similares, pero presentan algunas discrepancias que dificultan hacer un análisis para todos los años, por lo que nuestros objetivos serán:

- Definir el nombre generico para las columnas.
- Definir las columnas compatibles.
- Unificar los data sets en un **NetCDF**

In [None]:
from localpacks.data import get_data

#### 1.1  Importamos nuestros datasets

In [None]:
#Rango de 2010 al 2018
df_2010 = get_data(year=2010)
df_2011 = get_data(year=2011)
df_2012 = get_data(year=2012)
df_2013 = get_data(year=2013)
df_2014 = get_data(year=2014)
df_2015 = get_data(year=2015)
df_2016 = get_data(year=2016)
df_2017 = get_data(year=2017)
df_2018 = get_data(year=2018) #Aun no esta completo fecha_actual: 13/12/2018

In [None]:
#observamos las columnas de cada data frame
df_2010.columns.values
#df_2011.columns.values
#df_2012.columns.values
#df_2013.columns.values
#df_2014.columns.values
#df_2015.columns.values
#df_2016.columns.values
#df_2017.columns.values
#df_2018.columns.values

#### 1.2 Extraemos las columnas y las vaciamos en un dict

In [None]:
#columnas iniciales
columns = {'2010' : ['PERIODO', 'ORIGENFECHA', 'ORIGENESTACIONID', 'ORIGENNOMBRE',
       'DESTINOFECHA', 'DESTINOESTACIONID', 'DESTINONOMBRE', 'TIEMPOUSO'],

           '2011' : ['PERIODO', 'ORIGENFECHA', 'ORIGENESTACIONID', 'NOMBREORIGEN',
       'DESTINOFECHA', 'DESTINOESTACIONID', 'NOMBREDESTINO', 'TIEMPOUSO'],
           
           '2012' : ['PERIODO', 'ORIGENFECHA', 'ORIGENESTACIONID', 'ORIGENNOMBRE',
       'DESTINOFECHA', 'DESTINOESTACIONID', 'DESTINONOMBRE', 'TIEMPOUSO'],
           
           '2013' : ['ID', 'NOMBRE_ORIGEN', 'ORIGEN_FECHA', 'DESTINO_ESTACION',
       'DESTINO_FECHA'],
           
           '2014' : ['ID', 'NOMBRE_ORIGEN', 'ORIGEN_FECHA', 'DESTINO_ESTACION',
       'DESTINO_FECHA'],
           
           '2015' : ['periodo', 'genero', 'fecha_hora_retiro', 'origen_estacion',
       'nombre_origen', 'destino_estacion', 'nombre_destino', 'tiempo_uso'],
           
           '2016' : ['periodo', 'genero', 'fecha_hora_retiro', 'origen_estacion',
       'nombre_origen', 'destino_estacion', 'nombre_destino', 'tiempo_uso'],
           
           '2017' : ['periodo', 'genero', 'fecha_hora_retiro', 'origen_estacion',
       'nombre_origen', 'destino_estacion', 'nombre_destino', 'tiempo_uso'],
           
           '2018' : ['id_usuario', 'bici_fecha_hora_retiro', 'bici_tiempo_uso', 
                     'bici_nombre_estacion_origen', 'bici_estacion_origen',
                     'bici_nombre_estacion_destino', 'bici_estacion_destino',
                     'bici_sexo', 'bici_edad']
          }

Con el analisis de los nombres de cada columna, definimos las siguientes convenciones:

#### 1.3 Definicion de nombres

2010 al 2012 | 2013 al 2014 | 2015 al 2017 | 2018
------------ | ------------- | ------------ | -------------
periodo | -- | periodo | --
-- | usuario_id | -- | usuario_id
origen_fecha, origen_id, origen_nombre | origen_fecha, origen_id, origen_nombre | origen_fecha, origen_id, origen_nombre | origen_fecha, origen_id, origen_nombre
destino_fecha, destino_id, destino_nombre| destino_fecha, destino_id, destino_nombre | destino_id, destino_nombre | destino_id, destino_nombre
tiempo_uso | -- | tiempo_uso | tiempo_uso
-- | -- | -- | usario_edad
-- | -- | usuario_genero | usuario_genero


En la tabla anterior dejamos claro el nombre que utilizaremos para las columnas comunes y no comunes.

#### 1.4 Formato de integración

2010 al 2012 | 2013 al 2014 | 2015 al 2017 | 2018
------------ | ------------- | ------------ | -------------
-- | usuario_id | -- | usuario_id
fecha_uso | fecha_uso | fecha_uso | fecha_uso 
origen_id, origen_nombre | origen_id, origen_nombre | origen_id, origen_nombre | origen_id, origen_nombre
destino_id, destino_nombre| destino_id, destino_nombre | destino_id, destino_nombre | destino_id, destino_nombre
tiempo_uso | tiempo_uso | tiempo_uso | tiempo_uso
-- | -- | -- | usario_edad
-- | -- | usuario_genero | usuario_genero


Consideraciones:

- La columna **periodo** se elimina, y pasa a ser un metadato.
- La columna **origen fecha** se cambia a **fecha_uso** y pasa a ser el **index**
- La culumna **destino fecha** si existe se elimina y se deriva el **tiempo_uso**

Formatos:

- **usuario_id:**  integer, discreto, ordinal.
- **fecha_uso:** date_time, discreto, ordinal.
- **origen_id:** integer, discreto, ordinal (one_to_one with origen_nombre)
- **nombre_id:** string, discreto, ordinal (one_to_one with origen_id)
- **destino_id:**  integer, discreto, ordinal (one_to_one with destino_nombre)
- **destino_id:**  string, discreto, ordinal (one_to_one with destino_id)
- **tiempo_uso:** time_delta, continuo, ordinal.
- **usuario_edad:** integer, discreto, ordinal.
- **usuario_genero:** string.

# 2. AJUSTES

#### 2.1 Data Frame 2010

In [None]:
df_2010_raw = get_data(year = 2010, apply_format=False)
df_2010 = get_data(year = 2010, apply_format=True)

In [None]:
df_2010_raw.head(3)

In [None]:
df_2010.head(3)

#### 2.2 Data Frame 2011

In [None]:
df_2011_raw = get_data(year = 2011, apply_format=False)
df_2011 = get_data(year = 2011, apply_format=True)

In [None]:
df_2011_raw.head(3)

In [None]:
df_2011.head(3)

#### 2.2 Data Frame 2012

In [None]:
df_2012_raw = get_data(year = 2012, apply_format=False)

In [None]:
df_2012_raw.head(3)

In [None]:
df_2012 = get_data(year = 2012, apply_format=True)

In [None]:
df_2012.head(3)

#### 2.3 Data Frame 2013

In [None]:
df_2013_raw = get_data(year = 2013, apply_format=False)
df_2013 = get_data(year = 2013, apply_format=True)

In [None]:
df_2013_raw.head(3)

In [None]:
df_2013.head(3)

#### 2.3 Data Frame 2014

In [None]:
df_2014_raw = get_data(year = 2014, apply_format=False)
df_2014 = get_data(year = 2014, apply_format=True)

In [None]:
df_2014_raw.head(3)

In [None]:
df_2014.head(3)

#### 2.4 Data Frame 2015

In [None]:
df_2015_raw = get_data(year = 2015, apply_format=False)
df_2015 = get_data(year = 2015, apply_format=True)

In [None]:
df_2015_raw.head(3)

In [None]:
df_2015.head(3)

#### 2.5 Data Frame 2016

In [None]:
df_2016_raw = get_data(year = 2016, apply_format=False)
df_2016 = get_data(year = 2016, apply_format=True)

In [None]:
df_2016_raw.head(3)

In [None]:
df_2016.head(3)

#### 2.6 Data Frame 2017

In [None]:
df_2017_raw = get_data(year=2017, apply_format=False)
df_2017 = get_data(year=2017, apply_format=True)

In [None]:
df_2017_raw.head(3)

In [None]:
df_2017.head(3)

#### 2.7 Data Frame 2018

In [1]:
from localpacks.data import get_data

In [5]:
df_2018_raw = get_data(year=2018, apply_format=False)
df_2018 = get_data(year=2018, apply_format=True)

In [6]:
df_2018_raw.head(3)

Unnamed: 0,id_usuario,bici_fecha_hora_retiro,bici_tiempo_uso,bici_nombre_estacion_origen,bici_estacion_origen,bici_nombre_estacion_destino,bici_estacion_destino,bici_sexo,bici_edad
0,5453,2018-01-01 00:08:05,00:19:53,Uruguay,45,Virrey Cevallos,183,M,45
1,673,2018-01-01 00:18:05,00:26:19,Posadas,189,Guardia Vieja,110,M,61
2,179119,2018-01-01 00:20:14,00:27:39,Hospital Rivadavia,50,Padilla,31,F,52


In [3]:
df_2018.head(3)

Unnamed: 0_level_0,usuario_id,origen_nombre,origen_id,destino_nombre,destino_id,usuario_genero,usario_edad,tiempo_uso(s)
bici_fecha_hora_retiro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-01 00:08:05,5453,Uruguay,45,Virrey Cevallos,183,M,45,1193
2018-01-01 00:18:05,673,Posadas,189,Guardia Vieja,110,M,61,1579
2018-01-01 00:20:14,179119,Hospital Rivadavia,50,Padilla,31,F,52,1659
