# Proyecto Fin de Máster - Máster en Big Data y Business Analytics V Edición
# Big Data International Campus - Universidad Europea Miguel de Cervantes

### *Eliasib Jesús García Martín*
---

# 1. Introducción

El propósito de este proyecto es el de crear un producto de datos que sigan las metodologías de análisis de datos que se han impartido a lo largo de este máster. 

Para ello, se ha propuesto como conjunto de datos (en adelante, dataset) sobre los que aplicar dicho análisis el conjunto sobre datos de uso de un sistema de alquiler de bicicletas en el área de la Bahía de San Francisco (SF Bay Area Bike Share - https://www.kaggle.com/benhamner/sf-bay-area-bike-share).

En cuanto al análisis a realizar, se centrará en desarrollar, utilizando las metodologías más adecuadas, los siguientes puntos clave:
* Investigar la influencia del tiempo atmosférico en los viajes en bicicletas registrados en el dataset.
* Reconocer gracias un modelo de clasificación patrones en las rutas que realizan los usuarios, en función de las estaciones de origen y de destino en viajes realizados en horarios similares.

# 2. Carga de los datos y análisis descriptivo

El dataset sobre el que se basa este proyecto está compuesto por cuatro registros de datos, en forma de ficheros CSV (Comma Separated Values). La información contenida en estos cuatro ficheros está interrelacionada, por lo que la unión de todos ellos conforma el conjunto completo de los datos.

Los ficheros de los que se compone el dataset son:
* **station.csv:** En este fichero se listan las estaciones donde los usuarios pueden alquilar y/o depositar las bicicletas. Las columas para cada registro son:
    * **id** - Identificador del registro
    * **name** -  Nombre de la estación
    * **lat** - Latitud de la ubicación de la estación
    * **lon** - Longitud de la ubicación de la estación
    * **dock_count** - Número de plazas de bicicletas que puede alojar la estación
    * **city** - Ciudad donde se encuentra la estación
    * **installation_date** - Fecha de instalación de la estación


* **weather.csv:** En este fichero se listan los datos del tiempo atmosférico registrados diariamente. Las columnas para cada registro son:
    * **date** - Fecha del registro
    * **max_temperature_f** - Temperatura máxima en grados Fahrenheit
    * **mean_temperature_f** - Temperatura media en grados Fahrenheit
    * **min_temperature_f** - Temperatura mínima en grados Fahrenheit
    * **max_dew_point_f** - Temperatura máxima de rocío en grados Fahrenheit
    * **mean_dew_point_f** - Temperatura media de rocío en grados Fahrenheit
    * **min_dew_point_f** - Temperatura mínima de rocío en grados Fahrenheit
    * **max_humidity** - Humedad máxima
    * **mean_humidity** - Humedad media
    * **min_humidity** - Humedad mínima
    * **max_sea_level_pressure_inches** - Presión atmosférica máxima a nivel del mar en pulgadas de mercurio
    * **mean_sea_level_pressure_inches** - Presión atmosférica media a nivel del mar en pulgadas de mercurio
    * **min_sea_level_pressure_inches** - Presión atmosférica mínima a nivel del mar en pulgadas de mercurio
    * **max_visibility_miles** - Visibilidad máxima en millas
    * **mean_visibility_miles** - Visibilidad media en millas
    * **min_visibility_miles** - Visibilidad mínima en millas
    * **max_wind_speed_mph** - Velocidad máxima del viento en millas por hora
    * **mean_wind_speed_mph** - Velocidad media del viento en millas por hora
    * **min_wind_speed_mph** - Velocidad mínima del viento en millas por hora
    * **precipitation_inches** - Precipitaciones en pulgadas
    * **cloud_cover** - Nubosidad en octas
    * **events** - Eventos atmosféricos (lluvia, niebla, tormenta...)
    * **wind_dir_degrees** - Dirección del viento en grados
    * **zip_code** - Código postal de la localización del registro


* **trip.csv:** En este fichero se listan los viajes en bicicleta registrados. Las columnas para cada registro son:
    * **id** - Identificador del registro
    * **duration** - Duración del viaje en segundos
    * **start_date** - Fecha y hora de inicio del viaje
    * **start_station_name** - Nombre de la estación donde se inició el viaje
    * **start_station_id** - Identificador de la estación donde se inició el viaje
    * **end_date** - Fecha y hora de finalización del viaje
    * **end_station_name** - Nombre de la estación donde se finalizó el viaje
    * **end_station_id** - Identificador de la estación donde se finalizó el viaje
    * **bike_id** - Identificador de la bicicleta utilizada para el viaje


* **status.csv:** En este fichero se listan registros por minuto del estado de las estaciones. Las columnas para cada registro son:
    * **station_id** - Identificador de la estación a la que se refiere el registro
    * **bikes_available** - Número de bicicletas disponibles
    * **docks_available** - Número de plazas de estacionamiento para bicicletas disponibles
    * **time** - Fecha y hora del registro
    


Puesto que el dataset se encuentra alojado en Kaggle, debemos descargar los ficheros CSV que lo componen, pero para ello se requiere la creación de una cuenta gratuita en Kaggle. Una vez se ha accedido a la plataforma, se puede descargar el dataset comprimido en formato zip a través de este enlace: https://www.kaggle.com/benhamner/sf-bay-area-bike-share/downloads/sf-bay-area-bike-share.zip

Una vez obtenido el fichero zip, para poder trabajar con los datos desde este notebook, se debe descomprimir los ficheros CSV bajo una carpeta `data/` relativa a la ruta donde se encuentre este notebook.

También debe tenerse en cuenta que para la carga de datos se utiliza el paquete Pandas, por lo que debe estar instalado para que el siguiente código se ejecute correctamente.

In [2]:
import pandas as pd

# Se cargan los ficheros CSV como DataFrames de Pandas
station_df = pd.read_csv('data/station.csv')
weather_df = pd.read_csv('data/weather.csv')
trip_df = pd.read_csv('data/trip.csv')
status_df = pd.read_csv('data/status.csv')

La librería Pandas también facilita bastante el análisis descriptivo de los datos, con funciones que calculan y muestran de manera ordenada valiosa información sobre los DataFrames. Un ejemplo es la función `.describe()`, gracias a la cual pueden verse tabulados valores como el máximo, el mínimo, la media o la desviación típica, entre otros, de las variables numéricas de los DataFrames.

In [6]:
# Describing station DataFrame
station_df.describe()

Unnamed: 0,id,lat,long,dock_count
count,70.0,70.0,70.0,70.0
mean,43.0,37.590243,-122.218416,17.657143
std,24.166092,0.203473,0.209446,4.010442
min,2.0,37.329732,-122.418954,11.0
25%,24.25,37.389483,-122.400601,15.0
50%,43.5,37.631163,-122.312123,15.0
75%,63.75,37.788123,-122.078009,19.0
max,84.0,37.80477,-121.877349,27.0


Como información relevante en el caso de las estaciones, se observa que con las latitudes y longitudes máximas y mínimas podríamos por ejemplo encuadrar en un mapa el área donde se situan la totalidad de las estaciones registradas. También puede ser útil conocer el número medio de plazas para bicicletas que hay en las estaciones, aunque habría que revisar si la desviación estándar es muy elevada, en cuyo caso la media no sería un valor muy significativo.

In [7]:
# Describing weather DataFrame
weather_df.describe()

Unnamed: 0,max_temperature_f,mean_temperature_f,min_temperature_f,max_dew_point_f,mean_dew_point_f,min_dew_point_f,max_humidity,mean_humidity,min_humidity,max_sea_level_pressure_inches,...,min_sea_level_pressure_inches,max_visibility_miles,mean_visibility_miles,min_visibility_miles,max_wind_Speed_mph,mean_wind_speed_mph,max_gust_speed_mph,cloud_cover,wind_dir_degrees,zip_code
count,3661.0,3661.0,3661.0,3611.0,3611.0,3611.0,3611.0,3611.0,3611.0,3664.0,...,3664.0,3652.0,3652.0,3652.0,3664.0,3664.0,2766.0,3664.0,3664.0,3665.0
mean,70.580989,61.348812,51.947282,53.14982,48.794794,44.30684,85.446968,67.256993,46.458045,30.074997,...,29.965835,10.555312,9.822015,8.229737,16.398472,5.962063,22.299349,2.784389,266.605895,94325.0
std,8.385572,7.234397,7.441444,6.885449,7.822281,9.355432,9.226972,10.945591,14.434784,0.134492,...,0.133476,2.193828,1.469894,2.862132,7.787588,3.340603,9.618813,2.276401,102.047645,404.615212
min,44.0,38.0,25.0,20.0,13.0,2.0,24.0,24.0,4.0,29.5,...,28.98,5.0,4.0,0.0,0.0,0.0,6.0,0.0,0.0,94041.0
25%,64.0,56.0,47.0,49.0,44.0,39.0,82.0,62.0,37.0,29.98,...,29.88,10.0,10.0,7.0,13.0,3.0,17.0,1.0,254.0,94063.0
50%,70.0,61.0,53.0,54.0,49.0,46.0,86.0,68.0,48.0,30.06,...,29.95,10.0,10.0,10.0,16.0,6.0,22.0,3.0,297.0,94107.0
75%,77.0,67.0,58.0,58.0,55.0,52.0,93.0,74.0,56.0,30.17,...,30.05,10.0,10.0,10.0,20.0,8.0,25.0,5.0,330.0,94301.0
max,102.0,84.0,75.0,68.0,65.0,63.0,100.0,96.0,93.0,30.65,...,30.37,20.0,20.0,20.0,128.0,23.0,114.0,8.0,2772.0,95113.0


En el caso de las temperaturas registradas, la propia estructura de los datos ya separaba la mayoría de su información por valores máximos, medios y mínimos, pero la aplicación de la función `.describe()` sobre este DataFrame también arroja nuevo datos interesantes, cómo cuáles fueron los valores de temperatura, humedad, presión atmosférica, velocidad del viento etc. máximos y mínimos alcanzados durante el tiempo que se registraron datos. También podemos comprobar gracias al cálculo de la desviación estándar y a su pequeño valor que el componente con menor variación en los registros fue el de la presión atmosférica.

In [8]:
# Describing trip DataFrame
trip_df.describe()

Unnamed: 0,id,duration,start_station_id,end_station_id,bike_id
count,669959.0,669959.0,669959.0,669959.0,669959.0
mean,460382.009899,1107.95,57.851876,57.837438,427.58762
std,264584.458487,22255.44,17.112474,17.200142,153.450988
min,4069.0,60.0,2.0,2.0,9.0
25%,231082.5,344.0,50.0,50.0,334.0
50%,459274.0,517.0,62.0,62.0,440.0
75%,692601.0,755.0,70.0,70.0,546.0
max,913460.0,17270400.0,84.0,84.0,878.0


En el caso de los viajes registrados, la única variable no categórica, y por tanto de la que podemos extraer información con la función `.describe()`, es la duración de los viajes en segundos, y resulta algo incómodo ver valores con exponentes. Por ello, se puede aplicar una transformación sobre los datos para obtener estos valores de duración en minutos y facilitar la observación de los valores de esta variable.

In [10]:
# Adding a new column to trip DataFrame, calculating per each 'duration' value its equivalence in minutes.
trip_df['duration_minutes'] = trip_df['duration'] / 60.0

# Describing trip DataFrame
trip_df.describe()

Unnamed: 0,id,duration,start_station_id,end_station_id,bike_id,duration_minutes
count,669959.0,669959.0,669959.0,669959.0,669959.0,669959.0
mean,460382.009899,1107.95,57.851876,57.837438,427.58762,18.465831
std,264584.458487,22255.44,17.112474,17.200142,153.450988,370.92395
min,4069.0,60.0,2.0,2.0,9.0,1.0
25%,231082.5,344.0,50.0,50.0,334.0,5.733333
50%,459274.0,517.0,62.0,62.0,440.0,8.616667
75%,692601.0,755.0,70.0,70.0,546.0,12.583333
max,913460.0,17270400.0,84.0,84.0,878.0,287840.0


Tras añadir una nueva columna con la duración de los viajes expresados en minutos, se ha clarificado la información sobre la duración de los viajes registrados, aunque por ejemplo, el valor tan elevado de la desviación estándar indica que la media no es un buen valor sobre el que apoyarse. Otro dato llamativo es que el viaje de mayor duración se ha extendido por 287840 minutos, lo que a la conversión suponen más de seis meses y medio.

In [11]:
# Describing status DataFrame
status_df.describe()

Unnamed: 0,station_id,bikes_available,docks_available
count,71984430.0,71984430.0,71984430.0
mean,42.53149,8.394812,9.284729
std,23.76117,3.993586,4.175442
min,2.0,0.0,0.0
25%,24.0,6.0,6.0
50%,42.0,8.0,9.0
75%,63.0,11.0,12.0
max,84.0,27.0,27.0


Por último, en cuanto al estado de las estaciones, a nivel descriptivo los datos recogidos no aportan mucha información relevante, pero ha de comprenderse que el valor de los datos recogidos en este DataFrame radica en su variación en el tiempo, y no en los valores de los datos por sí solos.