# **DATA WRANGLING ITINERARIOS**
This file attemps to gather, collect, and transform the movements raw dataset from the source attached below in order to analyse the data avilable and proceed with it. Data collected dates July 2019 to December 2019 (pre-covid). The following processes will be dealt with:

1. Reading the .json files and transforming variables
2. Data exploration
3. Reshaping data
4. Filtering data

<u>Source</u>: https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=d67921bb86e64610VgnVCM2000001f4a900aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default

<u>Folder</u>: Datos de uso entre julio y diciembre de 2019

#### **LIBRARIES**

In [None]:
import pandas as pd 
import json
import plotly.graph_objects as go
import plotly.express as px
import numpy as np
from datetime import datetime, timedelta
from plotly.subplots import make_subplots

### **1. READ DATA and VARIABLE TRANSFORMATION**
**Dataset**: 2019XX_movements.json (X stands for the month number)    

**Description**: Dataset of the use of the electric bicycle service of the Madrid City Council.

**Dataframe size**: Observations froom july to december total 1,862,981 timestamps are colected with information on 9 variables. 

**Variables**:
- **_id**: Identificador del movimiento.
- **user_day_code**: Código del usuario. Para una misma fecha, todos los movimientos de un mismo usuario, tendrán el mismo código, con el fin de poder realizar estudios estadísticos de las tendencias diarias de los usuarios.
- **idunplug_station**: Número de la estación de la que se desengancha la bicicleta.
- **idunplug_base**: Número de la base de la que se desengancha la bicicleta.
- **idplug_station**: Número de la estación en la que se engancha la bicicleta.
- **idplug_base**: Número de la base en la que se engancha la bicicleta.
- **unplug_hourTime**: Franja horaria en la que se realiza el desenganche de la bicicleta. Se facilita la hora de inicio del movimiento, sin la información de minutos y segundos. Todos los movimientos iniciados durante la misma hora, tendrán el mismo dato de inicio.
- **travel_time**: Tiempo total en segundos, entre el desenganche y el enganche de la bicicleta.
- **track**: Detalle del trayecto realizado por la bicicleta entre la estación de partida y la de destino, en formato GeoJSON. Si existe, contendrá un elemento "FeatureCollection" que a su vez contendrá un elemento "Features" de tipo lista. Cada elemento de dicha lista consistirá en la información de un punto del trayecto y tendrá el siguiente formato:
    * **geometry**: Indica la posición de la bicicleta y contiene:
        - **type**: Tipo de la posición. Su valor siempre será "Point".
        - **coordinates**: Coordenadas de longitud y latitud de la posición.
    * **type**: tipo de elemento. Su valor siempre será "Feature".
    * **properties**: Indica las propiedades adicionales de la posición y contiene:
        - **var**: Texto con la dirección de la posición.
        - **speed**: Velocidad de la bicicleta en el momento de generarse el dato.
        - **secondsfromstart**: Segundos transcurridos desde el desenganche de la bicicleta hasta el momento de generarse el dato. Por cuestiones de anonimato, se facilitan tiempos relativos en lugar de marcas de tiempo.
- **user_type**: Número que indica el tipo de usuario que ha realizado el movimiento. Sus posibles valores son:
    - 0: No se ha podido determinar el tipo de usuario
    - 1: Usuario anual (poseedor de un pase anual)
    - 2: Usuario ocasional
    - 3: Trabajador de la empresa
- **ageRange**: Número que indica el rango de edad del usuario que ha realizado el movimiento. Sus posibles valores son:
    - 0: No se ha podido determinar el rango de edad del usuario
    - 1: El usuario tiene entre 0 y 16 años
    - 2: El usuario tiene entre 17 y 18 años
    - 3: El usuario tiene entre 19 y 26 años
    - 4: El usuario tiene entre 27 y 40 años
    - 5: El usuario tiene entre 41 y 65 años
    - 6: El usuario tiene 66 años o más
- **zip_code**: Texto que indica el código postal del usuario que ha realizado el movimiento. 

In [None]:
itinerarios_list = ["201907", "201908", "201909", "201910", "201911", "201912"]

itinerarios = pd.DataFrame()

for i in itinerarios_list:
    data = []
    with open('../Data/Itinerarios/'+i+'_movements.json','r') as f:
        for line in f:
            data.append(json.loads(line))

    df_i = pd.json_normalize(
        data, 
        meta=['_id']
    )
    # Convert _id to format date
    df_i["unplug_hourTime"] = pd.to_datetime(df_i["unplug_hourTime"])
    # Dorp column id of the base
    itinerarios = pd.concat( [itinerarios, df_i.drop(columns=["user_day_code", "_id.$oid"])], ignore_index=True, axis=0)

itinerarios.head()

In [None]:
itinerarios.shape

**Variables type check**:

In [None]:
itinerarios.dtypes

Convert variables user_type, age_range, idplug_station, idunplug_station, idunplug_base and idplug_base to categorical

In [None]:
itinerarios['user_type'] = itinerarios['user_type'].apply(str)
itinerarios['ageRange'] = itinerarios['ageRange'].apply(str)
itinerarios['idplug_station']=itinerarios['idplug_station'].astype('str')
itinerarios['idunplug_station']=itinerarios['idunplug_station'].astype('str')
itinerarios['idunplug_base']=itinerarios['idunplug_base'].astype('str')
itinerarios['idplug_base']=itinerarios['idplug_base'].astype('str')

Create variable **return_date** by adding up the unplug_houtTime and the travel_time 

In [None]:
itinerarios["return_date"] = itinerarios["unplug_hourTime"] + pd.to_timedelta(itinerarios["travel_time"]/1440,'d')

### **2. Exploring Data and Reshaping it**

**user_type**: 93% of users are anual, 6% are employees and a 1% occasional

In [None]:
count_type = itinerarios["user_type"].value_counts()/itinerarios.shape[0]
labels_type = count_type.index
fig = px.bar(itinerarios, x=count_type , y=labels_type, orientation='h', text=round(count_type,2) , title = "<b>Distribución del tipo de usuario</b>")
fig.show()

Most user have no determined **age**. 
- Strangely most of users who are between 0-16 years old are employees.
- Users with a defined age are mainly 27-65 years old. This is the active population. 
- Occasional users are undefined

In [None]:
count_ages = itinerarios["ageRange"].value_counts().sort_index()
labels_ages = count_ages.index

colors = ["#0C4B76", "#1A6691", "#6BA79D", "#558C6C", "#EE860B"]
fig = go.Figure()

for i in range (4):
    fig.add_trace(go.Bar(
        y=labels_ages,
        x=itinerarios[itinerarios["user_type"] == str(i)]["ageRange"].value_counts().sort_index() ,
        name=i,
        orientation='h',
        marker=dict(
            color=colors[i],
            line=dict(color=colors[i], width=3)
        )
    ))

fig.update_layout(barmode='stack', title = "<b>Age Distribution</b> by type of user")
fig.show()

**Travel time**: has many outliers. We explore this variable further.
- There are users who don't return the bike within the same day
- There are negative travel_times. This is considered as an error
- 50% of the movements are returned in the range 7h30min and 17h30min
- Most of the bikes that are returned 

In [None]:
itinerarios.describe()

In [None]:
fig = px.histogram(itinerarios[(itinerarios["travel_time"] <2880) & (itinerarios["travel_time"] > 0) ], x="travel_time", title = "<b>Distribución de la duración del alquiler</b> limitando el tiempo entre 0 y 2 días")
fig.update_traces(marker_color = "#0C4B76")
fig.show()

To further explore variable **travel_time** we proceed to check what happens with bikes that are not returned before the data collection period. Are they lost?

In [None]:
itinerarios["lost"] = np.where((pd.to_datetime(itinerarios["return_date"]).dt.tz_localize(None) > pd.to_datetime('20200101')) & (pd.to_datetime(itinerarios["unplug_hourTime"]).dt.tz_localize(None) < pd.to_datetime('20191231')) & (itinerarios["user_type"] != '3'), True, False) 
itinerarios["lost"].value_counts()

In [None]:
itinerarios[itinerarios["lost"]==True]

As it has just been demosntrated they are returned, they are not lost. 

In [None]:
itinerarios = itinerarios.drop(columns="lost")

Create variable **status**:
- **error**: travel time < 0
- **change_bike**: travel time is >0 & <5 mins and the plug and unplug station is the same one
- **repaired**: travel time is > 1 day and user type is an employee of BiciMAD (3)
- **long_rental**: Rental > 1 day. Travel time > 1 day and user type is 1 or 2 (normal and occasional users)
- **short_rental**: Rental < 1 day.travel time >5 & < 1 day

In [None]:
# lo dejo por si finalmente queremos incluir la variable lost
#conditions = [
#    (itinerarios['travel_time'] < 0 ),
#    ((itinerarios['travel_time'] >= 0) & (itinerarios['travel_time'] < 5)) | ((itinerarios['travel_time'] >= 0) & (itinerarios['travel_time'] < 5) & (itinerarios['idplug_station'] == itinerarios['idunplug_station'])),
#    (itinerarios['travel_time'] >= 5) & (itinerarios['travel_time'] <= 1440),
#    (itinerarios['travel_time'] > 1440) & (itinerarios['user_type'] == '3'),
#    (itinerarios['travel_time'] > 1440) & (itinerarios['lost'] == False) & (itinerarios['user_type'] != '3') , # >1 day rental
#    (itinerarios['lost'] == True) #lost
#]
#conditions = [
#    (itinerarios['travel_time'] < 0 ),
#    ((itinerarios['travel_time'] >= 0) & (itinerarios['travel_time'] < 5)) | ((itinerarios['travel_time'] >= 0) & (itinerarios['travel_time'] < 5) & (itinerarios['idplug_station'] == itinerarios['idunplug_station'])),
#    (itinerarios['travel_time'] >= 5) & (itinerarios['travel_time'] <= 1440),
#    (itinerarios['travel_time'] > 1440) & (itinerarios['user_type'] == '3'),
#    (itinerarios['travel_time'] > 1440) & (itinerarios['lost'] == False) & (itinerarios['user_type'] != '3') , # >1 day rental
#    (itinerarios['lost'] == True) #lost
#]
#values = ['error', 'change_bike', 'successful', 'repaired', '>1_day_rental', 'lost']

conditions = [
    (itinerarios['travel_time'] < 0 ),
    ((itinerarios['travel_time'] >= 0) & (itinerarios['travel_time'] < 5)) | ((itinerarios['travel_time'] >= 0) & (itinerarios['travel_time'] < 5) & (itinerarios['idplug_station'] == itinerarios['idunplug_station'])),
    (itinerarios['travel_time'] >= 5) & (itinerarios['travel_time'] <= 1440),
    (itinerarios['travel_time'] > 1440) & (itinerarios['user_type'] == '3'),
    (itinerarios['travel_time'] > 1440) & (itinerarios['user_type'] != '3')
]
values = ['error', 'change_bike', 'short_rental', 'repaired', 'long_rental']
itinerarios["status"] =  np.select(conditions, values) 
itinerarios.head()

In [None]:
itinerarios["status"].value_counts()

In [None]:
colors = ["#0C4B76", "#1A6691", "#6BA79D", "#558C6C", "#EE860B"]

fig = go.Figure()

for i in range (4):
    fig.add_trace(go.Bar(
        x=itinerarios[itinerarios["user_type"] == str(i)]["status"].value_counts().sort_index() ,
        y=itinerarios[itinerarios["user_type"] == str(i)]["status"].value_counts().sort_index().index,
        orientation='h',
        marker=dict(
            color=colors[i],
            line=dict(color=colors[i], width=3)
        )
    ))

fig.update_layout(barmode='stack', title = "<b>Número de movimientos por estado</b> y tipo de usuario")
fig.show()

In [None]:
fig = make_subplots(rows=3, cols=2)
fig.add_trace(
    go.Box(x=itinerarios[itinerarios["status"] == "short_rental"]["travel_time"], y=itinerarios[itinerarios["status"] == "short_rental"]["user_type"], name="Short Rental"), 
    row=1, col=1)
fig.add_trace(
    go.Box(x=itinerarios[itinerarios["status"] == "long_rental"]["travel_time"], y=itinerarios[itinerarios["status"] == "long_rental"]["user_type"], name="Long Rental"), 
    row=1, col=2)
fig.add_trace(
    go.Box(x=itinerarios[itinerarios["status"] == "error"]["travel_time"], y=itinerarios[itinerarios["status"] == "error"]["user_type"], name="Error"), 
    row=2, col=1)
fig.add_trace(
    go.Box(x=itinerarios[itinerarios["status"] == "change_bike"]["travel_time"], y=itinerarios[itinerarios["status"] == "change_bike"]["user_type"], name="Change Bike"), 
    row=2, col=2)
fig.add_trace(
    go.Box(x=itinerarios[itinerarios["status"] == "repaired"]["travel_time"], y=itinerarios[itinerarios["status"] == "repaired"]["user_type"], name="Repaired"), 
    row=3, col=1)
fig.update_traces(orientation='h')
fig.update_layout(title_text="<b>Distribución de tipos de usuario</b> por estado")
fig.show()

Create variable with the number of the plug and unplug station: **Origen_destino**

In [None]:
itinerarios['Origen_destino']=itinerarios.apply(lambda x: x.idunplug_station+'-'+x.idplug_station, axis=1)

In [None]:
itinerarios.groupby('Origen_destino')['travel_time'].agg(['count', 'mean', 'max', 'min']).sort_values('count', ascending=False)

#### Save data to CSV

In [None]:
itinerarios.to_csv('../Data/Itinerarios/itinerarios.csv')

### **3. Reshape data**
#### Join bases and itinerarios dataframes


In [None]:


bases= pd.read_csv("../Data/Bases/bases.csv")

Get the **plug** and **unplug** station data

In [None]:
cols_bases=['Número', 'Distrito', 'Barrio','Número de Plazas', 'Latitud', 'Longitud']
cols_salida=[palabra+'_Salida' for palabra in cols_bases]
cols_llegada=[palabra+'_Llegada' for palabra in cols_bases]

bases['Número']=bases['Número'].astype('str')

# Left join itinerarios and bases. Vbles idunplug_station and Número
itinerarios_bases0=pd.merge(itinerarios, bases[cols_bases], how='left', left_on='idunplug_station', right_on='Número')
itinerarios_bases0.rename(columns=dict(zip(cols_bases, cols_salida)), inplace=True)

# Left join itinerarios and bases. Vbles idplug_station and Número
itinerarios_bases=pd.merge(itinerarios_bases0, bases[cols_bases], how='left', left_on='idplug_station', right_on='Número')
itinerarios_bases.rename(columns=dict(zip(cols_bases, cols_llegada)), inplace=True)

itinerarios_bases.head()

There are many NAs resulting from the join because of the Number of Station not being the same. We delete them. 

In [None]:
itinerarios_bases.isna().sum()

In [None]:
a=itinerarios_bases[itinerarios_bases['Número_Salida'].isna()].idunplug_station.value_counts()
for i in a.index: 
    print("-"+str(i)+"-")

In [None]:
itinerarios_bases.drop(itinerarios_bases[itinerarios_bases['Número_Salida'].isna()].index, inplace=True)
itinerarios_bases.drop(itinerarios_bases[itinerarios_bases['Número_Llegada'].isna()].index, inplace=True)
itinerarios_bases.isna().sum()

In [None]:
itinerarios_bases.head()

In [None]:
itinerarios_bases.to_csv('../Data/Itinerarios/itinerarios_bases.csv')

In [None]:
itinerarios_bases=pd.read_csv('../Data/Itinerarios/itinerarios_bases.csv')

itinerarios_bases.dtypes.index

In [None]:
itinerarios_bases.dtypes

In [None]:
cols_int = itinerarios_bases.select_dtypes([np.integer]).columns
cols_int
for i in cols_int: 
    itinerarios_bases[i]=pd.to_numeric(itinerarios_bases[i], downcast='integer')

cols_float = itinerarios_bases.select_dtypes([np.float]).columns
for i in cols_float:
    itinerarios_bases[i]=pd.to_numeric(itinerarios_bases[i], downcast='float')
itinerarios_bases.dtypes


In [None]:
itinerarios_bases.drop(columns='Unnamed: 0', axis=1, inplace=True)
itinerarios_bases['zip_code']=itinerarios_bases['zip_code'].astype(str)
itinerarios_bases.to_parquet('../Data/Itinerarios/itinerarios_bases.parquet')

In [None]:
itinerarios_bases=pd.read_parquet('../Data/Itinerarios/itinerarios_bases.parquet')



In [None]:
itinerarios_bases[itinerarios_bases['user_type'].isin([]) ]

In [None]:
data = [[6, -10]]
  
# Create the pandas DataFrame
df = pd.DataFrame(data, columns=['lat', 'lon'])

fig=px.scatter_mapbox(df,lon='lon', lat='lat' ,width = 500, height = 400)

fig.update_layout(
        title='Rutas más concurridas',
        autosize=True,
        hovermode='closest',
        showlegend=True,
        width = 500,
        height = 500,
        mapbox=dict(
            bearing=0,
            center=dict(
                lat=40.425,
                lon=-3.69
            ),
            zoom=11.3,
            style= 'carto-positron' # 'open-street-map'
            
            )
        )
fig.show()


In [None]:
import sys
print(sys.executable)

In [None]:
itinerarios["travel_time_D"] = itinerarios["travel_time"]/1440
itinerarios["travel_time_D"].astype('timedelta64[D]')
itinerarios["travel_time_D"]= pd.to_timedelta(itinerarios["travel_time_D"],'d')
itinerarios["return_date"] = itinerarios["unplug_hourTime"] + itinerarios["travel_time_D"]
itinerarios.tail()