# **Análisis de redes sobre los viajes en bicicleta de alquiler en la ciudad de Madrid**

Este notebook explica el trabajo de preprocesamiento y preparación de los datos para generar la visualización de redes.

Para llevar a cabo esta tarea de manera práctica hemos seleccionado conjuntos de datos estadisticos correspondientes a series anuales pertenecientes al [servicio de alquiler de bicicletas BICIMAD](https://opendata.emtmadrid.es/Datos-estaticos/Datos-generales-(1))

Antes de generar la visualización de los datos, tenemos que realizar una serie de tareas de preprocesamiento. A continuación, te explicamos cómo lo hacemos.

Los pasos que se seguirán para preparar los datos son los siguientes:

1.   Instalación de librerías y carga de los conjuntos de datos
2.   Análisis Exploratorio de los Datos (EDA)
3.   Generación de tablas preprocesas

## 1. Instalación de librerías y carga de los conjuntos de datos

Lo primero que debemos hacer es importar y cargar las librerías que utilizaremos en el preprocesamiento de los datos.

*    [pandas](https://pandas.pydata.org/) es una librería de Python especializada en el manejo y análisis de estructuras de datos.

*   [datetime](https://docs.python.org/3/library/datetime.html) es una librería de Python proporciona clases y funciones para manipular fechas, horas y duraciones de tiempo de manera eficiente y conveniente.

*    [gitpython](https://gitpython.readthedocs.io/en/stable/) es una librería de Python que permite interactuar con el sistema de control de versiones Git.

In [None]:
# Instalación y carga de librerías
!pip install gitpython

import pandas as pd
import datetime
import git
import warnings
warnings.filterwarnings("ignore")
pd.set_option("display.max_rows", None)

Collecting gitpython
  Downloading GitPython-3.1.32-py3-none-any.whl (188 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m188.5/188.5 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting gitdb<5,>=4.0.1 (from gitpython)
  Downloading gitdb-4.0.10-py3-none-any.whl (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.7/62.7 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting smmap<6,>=3.0.1 (from gitdb<5,>=4.0.1->gitpython)
  Downloading smmap-5.0.0-py3-none-any.whl (24 kB)
Installing collected packages: smmap, gitdb, gitpython
Successfully installed gitdb-4.0.10 gitpython-3.1.32 smmap-5.0.0


Una vez instaladas e importadas las librerías que utilizaremos, cargamos los conjuntos de datos y comprobamos que se han importado correctamente.

In [None]:
# Clonamos el repositorio de github con los conjuntos de datos originales en el entorno de Google Colaboratory
git.Repo.clone_from("https://github.com/datosgobes/Laboratorio-de-Datos.git", "Laboratorio de datos")

# Carga de los conjuntos de datos con las estadísticas correspondientes a cada uno de los meses del año 2022
df_01 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_01.csv", sep=",", encoding="UTF8")
df_02 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_02.csv", sep=",", encoding="UTF8")
df_03 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_03.csv", sep=",", encoding="UTF8")
df_04 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_04.csv", sep=",", encoding="UTF8")
df_05 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_05.csv", sep=",", encoding="UTF8")
df_06 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_06.csv", sep=",", encoding="UTF8")
df_07 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_07.csv", sep=",", encoding="UTF8")
df_08 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_08.csv", sep=",", encoding="UTF8")
df_09 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_09.csv", sep=",", encoding="UTF8")
df_10 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_10.csv", sep=",", encoding="UTF8")
df_11 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_11.csv", sep=",", encoding="UTF8")
df_12 = pd.read_csv("/content/Laboratorio de datos/Visualizaciones/Analisis_redes_BiciMAD/Datos_origen/viajes_22_12.csv", sep=",", encoding="UTF8")

# Imprimimos en pantalla las primeras filas de uno de los conjuntos de datos
df_01.head()


Unnamed: 0,trip_minutes,unlock_date,unlock_station_name,lock_station_name
0,16.28,2022-01-01T00:02:20,Avenida de los Toreros,Plaza de la Independencia
1,7.1,2022-01-01T00:07:53,Antonio Maura,Manuel Silvela
2,0.48,2022-01-01T00:09:21,Puerta del Ángel Caído,Puerta del Ángel Caído
3,6.62,2022-01-01T00:09:52,Marqués de Zafra,Parque Roma
4,8.07,2022-01-01T00:09:57,Jaime el Conquistador,Jesús y María


## 2. Análisis Exploratorio de Datos

Realizamos un análisis exploratorio de los datos donde, por un lado, buscamos detectar anomalías y por otro lado, obtener información de los conjuntos de datos que estamos utilizando.

In [None]:
# Generamos una lista con las tablas de datos generadas en el apartado anterior a las que realizaremos el EDA
lista_df = [df_01, df_02, df_03, df_04,df_05,df_06,df_07,df_08, df_09, df_10, df_11, df_12]

# Mediante un bucle "for" imprimimos en pantalla la principal información de cada tabla de datos que se encuentra en la lista
for i, df in enumerate(lista_df):
    # Generamos una variable con el nombre de la tabla de datos
    tabla_nombre = f"df_{2011 + i}"
    # Imprimimos en pantalla el nombre de la tabla de datos e información de cada una de ellas
    print("Nombre de la tabla de datos:", tabla_nombre)
    print(df.info())

Nombre de la tabla de datos: df_2011
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244760 entries, 0 to 244759
Data columns (total 4 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   trip_minutes         244760 non-null  float64
 1   unlock_date          244760 non-null  object 
 2   unlock_station_name  242890 non-null  object 
 3   lock_station_name    242453 non-null  object 
dtypes: float64(1), object(3)
memory usage: 7.5+ MB
None
Nombre de la tabla de datos: df_2012
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 280375 entries, 0 to 280374
Data columns (total 4 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   trip_minutes         280375 non-null  float64
 1   unlock_date          280375 non-null  object 
 2   unlock_station_name  278836 non-null  object 
 3   lock_station_name    278440 non-null  object 
dtypes: float64(1), object(3)
memory 

Revisando la información mostrada en pantalla anteriormente, hemos localizado los siguientes errores/incoherencias en los conjuntos de datos que deben de ser solucionados.

*   Eliminamos los registros superiores a 2h de viaje.
*   Eliminamos los registros en los que la estación de inicio y de final del trayecto sea la misma.
*   Eliminamos las variables que no nos interesan para el análisis.
*   Renombramos las estaciones para que sea más coherente su identificador.


In [None]:
# Creamos una función para proceder a la limpieza y adecuación de los conjuntos de datos importados
def limpieza_datos (df):
  # Eliminamos las entradas de los viajes que han durado más de 2h
  df = df[df["trip_minutes"] <= 120]
  # Si la estación de origen y la estación de destino es la misma, eliminar el registro
  df = df[df["unlock_station_name"] != df["lock_station_name"]]
  # Nos quedamos con las columnas que nos interesan
  df = df[["unlock_station_name", "lock_station_name", "unlock_date"]]
  # Eliminamos los números de las estaciones
  df['unlock_station_name'] = df['unlock_station_name'].str.replace('\d+\s*\-\s*', '')
  df['lock_station_name'] = df['lock_station_name'].str.replace('\d+\s*\-\s*', '')
  # Eliminamos los registros en los que el formato de fecha se encuentre mal introducido
  df['unlock_date'] = pd.to_datetime(df['unlock_date'], format='%Y-%m-%dT%H:%M:%S', errors='coerce')
  df= df.dropna(subset=['unlock_date'])
  # Devolvemos la tabla de datos
  return df

# Hacemos llamada a la funcion anterior para cada uno de los conjuntos de datos originales cargados
df_01_limpio = limpieza_datos(df_01)
df_02_limpio = limpieza_datos(df_02)
df_03_limpio = limpieza_datos(df_03)
df_04_limpio = limpieza_datos(df_04)
df_05_limpio = limpieza_datos(df_05)
df_06_limpio = limpieza_datos(df_06)
df_07_limpio = limpieza_datos(df_07)
df_08_limpio = limpieza_datos(df_08)
df_09_limpio = limpieza_datos(df_09)
df_10_limpio = limpieza_datos(df_10)
df_11_limpio = limpieza_datos(df_11)
df_12_limpio = limpieza_datos(df_12)


## 3. Generación de tablas preprocesadas

Una vez cargados los conjuntos de datos y realizado el análisis exploratorio de datos (EDA), procederemos a obtener las tablas de datos preprocesados con la estructura y formato adecuados para alimentar la herramienta de visualización que utilizaremos en las visualizaciones.

En primer lugar, juntamos todas las tablas de datos en una denominada "df_concatenado"

In [None]:
# Concatenar los dataframes verticalmente
df_concatenado = pd.concat([df_01_limpio, df_02_limpio, df_03_limpio, df_04_limpio, df_05_limpio, df_06_limpio, df_07_limpio,
                            df_08_limpio, df_09_limpio, df_10_limpio, df_11_limpio, df_12_limpio], axis=0)
df_concatenado.reset_index(drop=True, inplace=True)

Dentro de la tabla de datos unificada, buscamos obtener cuál es la hora con mayor número de viajes ralizados.

In [None]:
# Buscamos cual es la hora con mayor afluencia
df_concatenado["unlock_hour"] = df_concatenado["unlock_date"].dt.hour
df_concatenado["unlock_hour"].value_counts().head()

19    237123
18    228843
14    212128
20    209727
15    187842
Name: unlock_hour, dtype: int64

Una vez observado que la hora con mayor afluencia de viajes realizados es entre las 19:00 y las 20:00, modificamos la tabla de datos para quedarnos con las entradas registradas en esta hora.

In [None]:
# Nos quedamos solo con los viajes en la hora punta, a las 19
df_final = df_concatenado[df_concatenado["unlock_hour"] == 19]
df_final.head()

Unnamed: 0,unlock_station_name,lock_station_name,unlock_date,unlock_hour
2449,San Hermenegildo,Metro Tetuán,2022-01-01 19:00:15,19
2450,Ventura Rodríguez,General Álvarez de Castro,2022-01-01 19:00:28,19
2451,Plaza de San Miguel,Huertas,2022-01-01 19:00:40,19
2452,Retiro-Ibiza,Plaza de Santa Ana,2022-01-01 19:00:48,19
2453,Facultad Derecho,Ciudad Universitaria 2,2022-01-01 19:01:04,19


Con la finalidad de analizar las estaciones con mayor número de conexiones, eliminamos aquellos registros entre estaciones en el que el número de viajes sea inferior a tres veces la media de todas las estaciones.

In [None]:
# Calculamos la media de viajes iguales (origen-fin)
df_conteo = df_final.groupby(["unlock_station_name", "lock_station_name"]).size().reset_index(name="weight")
media_viajes = df_conteo["weight"].mean()
print(media_viajes)

# Combinamos los datos del conteo con el dataset final
df_final = pd.merge(df_final, df_conteo, on=["unlock_station_name","lock_station_name"], how="left")

# Nos quedamos con los que el conteo sea mayor a tres veces media
df_final = df_final[df_final["weight"] >= 3*media_viajes]
df_final.head()

5.153681310270932


Unnamed: 0,unlock_station_name,lock_station_name,unlock_date,unlock_hour,weight
13,Jesús y María,Plaza de Juan Pujol,2022-01-01 19:02:51,19,39.0
15,Carlos Cambronero,Paseo de la Florida,2022-01-01 19:03:29,19,20.0
21,Puerta de Madrid,Plaza de la Independencia,2022-01-01 19:05:19,19,27.0
25,Puerta de Madrid,Plaza de la Independencia,2022-01-01 19:07:07,19,27.0
27,Juan Bravo 50,Antonio Maura,2022-01-01 19:08:04,19,49.0


Por último, modificamos el nombre de las columnas, eliminamos las que no nos interesan y guardamos la tabla de datos final en un archivo .csv

In [None]:
# Modificamos el nombre de las columnas
df_final = df_final.rename(columns={"unlock_station_name": "source", "lock_station_name": "target"})

In [None]:
# Eliminamos las columnas "unlock_date", "unlock_hour" y "weight"
df_final = df_final.drop("unlock_date", axis=1)
df_final = df_final.drop("unlock_hour", axis=1)
df_final = df_final.drop("weight", axis=1)

In [None]:
# Guardamos la tabla de datos
df_final.to_csv("Análisis_redes_Gephi.csv", index=False)