## ETL Coordenadas Movimientos Bicimad

In [None]:
import pandas as pd
import geopandas as gpd
from geopandas import GeoDataFrame
from shapely.geometry import Point, LineString
from sqlalchemy import create_engine

Hago una prueba con uno de los archivos para ver como funciona (tengo la información separada en varios csv). 

Más adelante en el documento se realiza lo mismo para todos los archivos restantes.

In [None]:
data = pd.read_csv("C:/Users/Xseed/Desktop/Bicimad/Coordenadas/2017/1.csv", sep=';', encoding = 'utf-8')

Borro columnas

In [None]:
data.copy = data.copy()
del(data.copy['1'])

Las coordenadas deberian ser acordes a la ubicación de Madrid aunque se considera un margen importante
Se encuentran coordenadas en el óceano (que se asumen como erróneas) y otras en Francia y otros países que puede que no sean un error pero que a los efectos del análisis no vamos a tener en cuenta y por lo tanto se van a ignorar.

**Latitud**

Entre 40.0 y 40.90

**Longitud**

Entre -3.10 y -4.30

In [None]:
data.copy = data.copy[(data.copy.latitude < 40.90) & (data.copy.latitude > 40.00)] 

In [None]:
data.copy = data.copy[(data.copy.longitude < -3.10) & (data.copy.longitude > -4.30)] 

Limpio dirección y me quedo tambien con el zipcode para guardar después

In [None]:
def get_clean_address(address):
    try:
        values = address.split(',')
        zipCode = values[0]
        clean_address = values[4]
    except:
        zipCode = None
        clean_address = None   
    return zipCode, clean_address

In [None]:

data.copy['zip_code'] = [get_clean_address(address)[0] for address in data.copy['address']]
data.copy['address'] = [get_clean_address(address)[1] for address in data.copy['address']]


Agrego geometry para POSTGIS Point

In [None]:
data.copy['geometry'] = list(zip(data.copy.longitude, data.copy.latitude))
data.copy['geometry'] = data.copy['geometry'].apply(Point)
crs = {'init': 'epsg:4326'}
data.copy = gpd.GeoDataFrame(data.copy, crs=crs, geometry='geometry')
data.copy.head()

## Guardo en BD

Tabla bike_movement_coordinates

Por linea de comando se dividieron los archivos en archivos más pequeños (aproximadamaente 400 mil filas cada uno)

Para el año 2017 se tienen 37 archivos y se procesan a continuación.

In [None]:
engine = create_engine('postgres://xseed:LosTilos114@postgre-sqltest.cpdeokpzufj1.us-west-2.rds.amazonaws.com:5432/postgres',use_batch_mode=True)

for number in range(1,38):
    data = pd.read_csv("C:/Users/Xseed/Desktop/Bicimad/Coordenadas/2017/" + str(number) + ".csv", sep=';', encoding = 'utf-8')
    data.copy = data.copy()
    del(data.copy['1'])
    data.copy = data.copy[(data.copy.latitude < 40.90) & (data.copy.latitude > 40.00)] 
    data.copy = data.copy[(data.copy.longitude < -3.10) & (data.copy.longitude > -4.30)] 
    data.copy['zip_code'] = [get_clean_address(address)[0] for address in data.copy['address']]
    data.copy['address'] = [get_clean_address(address)[1] for address in data.copy['address']]
    data.copy.to_sql('bike_movement_coordinates', engine, if_exists='append',index=False)

Se procesan ahora los del año 2018, a los que también se dividieron en archivos más pequeños que los procesados al inicio.
Comando:

``for filename in *.csv; do split -l 1000000 $filename $filename.;done``  _Para dividirlos en archivos de 1 millón de lineas_

In [None]:
#Se procesan archivos del 2018
engine = create_engine('postgres://xseed:LosTilos114@postgre-sqltest.cpdeokpzufj1.us-west-2.rds.amazonaws.com:5432/postgres',use_batch_mode=True)

for number in range(1,32):
    data = pd.read_csv("C:/Users/Xseed/Desktop/Bicimad/Coordenadas/2018/" + str(number) + ".csv", sep=';', encoding = 'utf-8')
    data.copy = data.copy()
    del(data.copy['1'])
    data.copy = data.copy[(data.copy.latitude < 40.90) & (data.copy.latitude > 40.00)] 
    data.copy = data.copy[(data.copy.longitude < -3.10) & (data.copy.longitude > -4.30)] 
    data.copy['zip_code'] = [get_clean_address(address)[0] for address in data.copy['address']]
    data.copy['address'] = [get_clean_address(address)[1] for address in data.copy['address']]
    data.copy.to_sql('bike_movement_coordinates', engine, if_exists='append',index=False)

**La conversión de latitud y longitud al formato POINT de POSTGIS** que es el que vamos a necesitar, se realiza directamente en la base de datos, ya que no fue posible hacerlo desde aquí con la librería utilizada para insertar en la base de datos.

Para esto se utilizó el siguiente comando:

```
alter table bike_movement_coordinates add column geom geometry(Point, 4326);
UPDATE bike_movement_coordinates
set geom=st_SetSrid(ST_MakePoint(longitude, latitude), 4326);
```

**Pruebo las coordenadas de algun movimiento para verificar que estén bien en la bd (id_movimiento = '5b60e26c2f384332a0c693f4')**

In [None]:
import geopandas as gpd
import folium
import psycopg2
conn = psycopg2.connect("host='postgre-sqltest.cpdeokpzufj1.us-west-2.rds.amazonaws.com' port=5432 dbname='postgres' user=xseed password=LosTilos114")

In [None]:
query = '''
select geom geometry
from bike_movement_coordinates
where oid_bike_movement = '5b60e26c2f384332a0c693f4' '''

# Extraemos los datos de la base de datos
crs = {'init': 'epsg:4326'}
dat = gpd.GeoDataFrame.from_postgis(query, conn, crs=crs, geom_col='geometry')

# Pintamos el resultado
m = folium.Map(location=[40.4, -3.7], zoom_start=13) # centro mapa en donde quiero con el zoom que quiero
folium.GeoJson(dat).add_to(m) #Pinto informacion geografica que tengo en la tabla.
m

## Genero LINEString en base a la lista de puntos para guardar la ruta en esa geometria

Se realiza en base de datos con la siguiente instruccion:
```
INSERT INTO bike_movement_route_line(id_bike_movement, geom)
SELECT mov.oid_bike_movement, ST_MakeLine(mov.geom ORDER BY id) As newgeom
FROM bike_movement_coordinates As mov
GROUP BY mov.oid_bike_movement;

```

**Eliminamos las "rutas" con menos de 3 puntos del gps registrados ya que creemos no nos dan demasiada información para ser utilizada en el trazado de rutas mas usadas** . Lo hicimos en la base de datos con el siguiente comando:

```

delete from bike_movement_route_line where oid_bike_movement in(
SELECT oid_bike_movement
FROM bike_movement_route_line
group by oid_bike_movement
having sum(ST_NPoints(geom)) <= 3);

```

Se prueba que coincida la linea con los puntos mostrados antes.

In [None]:
query = '''
select geom geometry from bike_movement_route_line
inner join bike_movement bm on bike_movement_route_line.oid_bike_movement = bm.oid
where  bm.unplug_hourtime <= '2017-04-02' 
LIMIT 100;
'''

# Extraemos los datos de la base de datos
crs = {'init': 'epsg:4326'}
dat = gpd.GeoDataFrame.from_postgis(query, conn, crs=crs, geom_col='geometry')

# Pintamos el resultado
m = folium.Map(location=[40.4, -3.7], zoom_start=13) # centro mapa en donde quiero con el zoom que quiero
folium.GeoJson(dat).add_to(m) #Pinto informacion geografica que tengo en la tabla.
m