
# PROYECTO FINAL Data Science CoderHouse 🧑🏾‍

## Problema y Objetivos de la investigación ​🧠

### Nos proponemos otorgarle a nuestro cliente un modelo de predicción sobre el tiempo de recorrido por usuario entre la estación de origen y la de destino, clasificandolo como **viaje corto o viaje largo.**

##### Además, este modelo será útil para responder lo siguiente:
##### ​✔️​¿Cuáles son las estaciones más utilizadas?
##### ​✔️​¿Qué rasgos tienen los clientes habituales? Edad, Sexo.

#### Los datos fueron recolectadas de la pagina del gobierno de la ciudad, el link de dicha fuente es el siguiente:
#### https://data.buenosaires.gob.ar/dataset/bicicletas-publicas

##### Fecha de publicación10 de Mayo de 2021 - Fecha de actualización10 de Diciembre de 2021
***
***
***

### ☑️ Trabajo inicial para la creación del Dataset / Data Adquisition
***

#### 👉 Las siguientes líneas de código son las que realizamos para la adquisición de los datos y la creación del dataset que usaremos.
#### 👉 Los archivos están disponibles en los siguientes en el siguiente link:

https://data.buenosaires.gob.ar/dataset/bicicletas-publicas¶

### Adjuntamos ademas el dataset final en csv en el siguiente paso.
***

#### El proceso para la creación del dataset final, consto de varios pasos realizados en Python:
* Se cargaron los datasets de Usuarios desde el 2015 al 2020.
* Se cargaron los dataset de recorridos desde el 2018 al 2020.
* Se normalizaron todos los datos de las tablas, para luego unirlos y generar el dataset a utilizar.


In [None]:
import pandas as pd
from datetime import timedelta

#### Primero se recolecto la informacion sobre los usuarios creados de Ecobici desde 2015 a 2020
#### Se cargaron los usuarios de 2020 y se procesan los datos para normarlizarlos con los demas años.


In [None]:
usuarios2020 = pd.read_csv("usuarios_ecobici_2020.csv", sep=",")
usuarios2020 = usuarios2020.drop(['fecha_alta', 'hora_alta'], axis=1)
usuarios2020 = usuarios2020.query("genero_usuario != 'OTRO'")
usuarios2020 = usuarios2020.dropna()
usuarios2020['edad_usuario'] = usuarios2020['edad_usuario'].astype(int)

#### Se cargaron los usuarios de 2019 y se procesan los datos para normarlizarlos con los demas años.


In [None]:
usuarios2019 = pd.read_csv("usuarios_ecobici_2019.csv", sep=",")
usuarios2019 = usuarios2019.drop(['fecha_alta', 'hora_alta'], axis=1)
usuarios2019 = usuarios2019.query("genero_usuario != 'OTHER'")
usuarios2019 = usuarios2019.dropna()
usuarios2019['edad_usuario'] = usuarios2019['edad_usuario'].astype(int)
usuarios2019['genero_usuario'] = usuarios2019['genero_usuario'].replace("MALE", "M", regex = True)
usuarios2019['genero_usuario'] = usuarios2019['genero_usuario'].replace("FEM", "F", regex = True)

#### Se cargaron los usuarios de 2018 y se procesan los datos para normarlizarlos con los demas años.


In [None]:
usuarios2018 = pd.read_csv("usuarios-ecobici-2018.csv", sep=",")
usuarios2018 = usuarios2018.drop(['fecha_alta', 'hora_alta'], axis=1)
usuarios2018 = usuarios2018.query("usuario_sexo != 'O'")
usuarios2018 = usuarios2018.set_axis(['id_usuario', 'genero_usuario' , 'edad_usuario'], axis=1)

#### Se cargaron los usuarios de 2015 a 2017 y se procesan los datos para normarlizarlos con los demas años.


In [None]:
usuarios2017 = pd.read_csv("usuarios-ecobici-2017.csv", sep=",")
usuarios2017 = usuarios2017.drop(['fecha_alta', 'hora_alta'], axis=1)
usuarios2016 = pd.read_csv("usuarios-ecobici-2016.csv", sep=",")
usuarios2016 = usuarios2016.drop(['fecha_alta', 'hora_alta'], axis=1)
usuarios2015 = pd.read_csv("usuarios-ecobici-2015.csv", sep=",")
usuarios2015 = usuarios2015.drop(['fecha_alta', 'hora_alta'], axis=1)

#### Se contatenan los usuarios creados de 2015 a 2017


In [None]:
users2015a2017 = pd.concat([usuarios2015,usuarios2016,usuarios2017])
users2015a2017 = users2015a2017.dropna()
users2015a2017 = users2015a2017.drop_duplicates(subset=['usuario_id'])

#### Se contatenan los usuarios creados de 2018 a 2020


In [None]:
users2018a2020 = pd.concat([usuarios2018,usuarios2019,usuarios2020])
users2018a2020 = users2018a2020.dropna()
users2018a2020 = users2018a2020.drop_duplicates(subset=['id_usuario'])

#### Se normaliza y se genera un unico dataset de 2015 a 2020, el cual se guarda en un csv para ser utilizado luego


In [None]:
users2015a2017 = users2015a2017.set_axis(['id_usuario', 'genero_usuario' , 'edad_usuario'], axis=1)
users2015a2020 = pd.concat([users2015a2017,users2018a2020])
users2015a2020 = users2015a2020.drop_duplicates(subset=['id_usuario'])
users2015a2020 = users2015a2020.set_index('id_usuario')
users2015a2020.to_csv('usuarios_ecobici.csv', sep=",")

#### Una vez realizado el dataset de usuarios se recolecto la informacion sobre los recorridos de 2018 a 2020, a la cual se le suma la informacion de los usuarios creada anteriormente

#### Se cargaron los recorridos de 2019 y se procesan los datos para normarlizarlos con los demas años.


In [None]:
eco2019 = pd.read_csv("recorridos-realizados-2019.csv", sep=",")
eco2019 = eco2019.drop(['id_recorrido', 'duracion_recorrido', 'direccion_estacion_origen', 'long_estacion_origen','lat_estacion_origen', 'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'modelo_bicicleta'], axis=1)
eco2019 = eco2019.dropna()
eco2019['id_usuario'] = eco2019['id_usuario'].str.rstrip('BAEcobici')
eco2019['id_usuario'] = eco2019['id_usuario'].astype('int')
eco2019['id_estacion_origen'] = eco2019['id_estacion_origen'].str.rstrip('BAEcobici')
eco2019['id_estacion_origen'] = eco2019['id_estacion_origen'].astype('int')
eco2019['id_estacion_destino'] = eco2019['id_estacion_destino'].str.rstrip('BAEcobici')
eco2019['id_estacion_destino'] = eco2019['id_estacion_destino'].astype('int')
eco2019["fecha_origen_recorrido"] = pd.to_datetime(eco2019["fecha_origen_recorrido"],format="%Y-%m-%d %H:%M:%S UTC")
eco2019["fecha_destino_recorrido"] = pd.to_datetime(eco2019["fecha_destino_recorrido"],format="%Y-%m-%d %H:%M:%S UTC")

#### Se cargaron los recorridos de 2020 y se procesan los datos para normarlizarlos con los demas años.

In [None]:
eco2020 = pd.read_csv("trips_2020.csv", sep=",")
eco2020 = eco2020.drop(['id_recorrido', 'duracion_recorrido', 'direccion_estacion_origen', 'long_estacion_origen','lat_estacion_origen', 
                        'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'modelo_bicicleta'], axis=1)
eco2020 = eco2020.dropna()
eco2020['id_usuario'] = eco2020['id_usuario'].str.rstrip('BAEcobici')
eco2020['id_usuario'] = eco2020['id_usuario'].astype('int')
eco2020['id_estacion_origen'] = eco2020['id_estacion_origen'].str.rstrip('BAEcobici')
eco2020['id_estacion_origen'] = eco2020['id_estacion_origen'].astype('int')
eco2020['id_estacion_destino'] = eco2020['id_estacion_destino'].str.rstrip('BAEcobici')
eco2020['id_estacion_destino'] = eco2020['id_estacion_destino'].astype('int')
eco2020["fecha_origen_recorrido"] = pd.to_datetime(eco2020["fecha_origen_recorrido"],format="%Y-%m-%d %H:%M:%S UTC")
eco2020["fecha_destino_recorrido"] = pd.to_datetime(eco2020["fecha_destino_recorrido"],format="%Y-%m-%d %H:%M:%S UTC")

#### Se cargaron los recorridos de 2018 y se procesan los datos para normarlizarlos con los demas años.


In [None]:
eco2018 = pd.read_csv("recorridos-realizados-2018.csv", sep=",")
eco2018 = eco2018.dropna()
eco2018 = eco2018.drop(['periodo', 'duracion_recorrido', 'domicilio_estacion_origen', 'long_estacion_origen','lat_estacion_origen', 'domicilio_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'genero_usuario'], axis=1)
eco2018 = eco2018.set_axis(['id_usuario', 'fecha_origen_recorrido','id_estacion_origen' , 'nombre_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino'], axis=1)
eco2018['id_estacion_origen'] = eco2018['id_estacion_origen'].astype('int')
eco2018['id_estacion_destino'] = eco2018['id_estacion_destino'].astype('int')
eco2018 = eco2018.reindex(columns=['fecha_origen_recorrido' ,'id_estacion_origen', 'nombre_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino', 'id_usuario'])
eco2018["fecha_origen_recorrido"] = pd.to_datetime(eco2018["fecha_origen_recorrido"],format="%Y-%m-%d %H:%M:%S")
eco2018["fecha_destino_recorrido"] = pd.to_datetime(eco2018["fecha_destino_recorrido"],format="%Y-%m-%d %H:%M:%S")

#### Se concatenan y se forma un unico dataset de 2018 a 2020


In [None]:
eco2018a2020 = pd.concat([eco2018,eco2019,eco2020]).set_index('id_usuario')

#### Se carga la informacion de usuarios y se unifica el dataset con los recorridos


In [None]:
usuarios = pd.read_csv("usuarios_ecobici.csv", sep=",")
eco2018a2020 = eco2018a2020.merge(usuarios, on='id_usuario')
eco2018a2020 = eco2018a2020.dropna()

#### Se calcula y agrega el tiempo de recorrido, finalmente se genera el csv a trabajar


In [None]:
eco2018a2020["tiempo_recorrido"] = (eco2018a2020["fecha_destino_recorrido"] - eco2018a2020["fecha_origen_recorrido"])
eco2018a2020["tiempo_recorrido"] = eco2018a2020["tiempo_recorrido"].dt.components['minutes']
eco2018a2020 = eco2018a2020.set_index('id_usuario')
eco2018a2020.to_csv('ecoBici2018a2020v2.csv', sep=",")

*** 

### 🔴 Comenzamos con el Análisis del conjunto de datos y relación entre sus variables
##### Aqui importamos en una línea de código el dataset confeccionado en el trabajo previo.


In [None]:
#Importamos las librerias

# Operaciones Basicas
import pandas as pd
import numpy as np
import pandas_profiling

# Visualizacion de Datos
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

import warnings
warnings.filterwarnings('ignore')

In [None]:
df_bicis = pd.read_csv ("ecoBici2018a2020v2.csv")
df_bicis.head ()

### 🔴 Iniciamos el EDA 
*En primer lugar realizamos una revisión de cantidad de registros, presencia de nulos y outliers*


In [None]:
print('Este data set tiene ' + str(df_bicis.shape[0]) + ' filas, y ' + str(df_bicis.shape[1]) + ' columnas')

In [None]:
df_bicis.isnull().sum()

### 🔴 Tomamos las principales estadisticas del dataset y de esta manera detectamos algunos valores atípicos en la variable edad y tiempo recorrido.
En las siguientes líneas veremos en gráficos los valores atípicos, haremos un proceso de limpieza de ellos, y veremos en gráficos como quedan ambas variables sin la presencia de los valores.


In [None]:
df_bicis.describe().T

In [None]:
plt.figure(figsize=(8, 8))
sns.boxplot(data=df_bicis.edad_usuario, orient="v", color="Violet").set_title('Grafico de cajas de Edad Usuario')
plt.show()

### 🔴 Quitamos de las variables edad usuario y tiempo recorrido, los valores atípicos, y creamos un nuevo DF para trabajar.


In [None]:
upper_lim = df_bicis['edad_usuario'].quantile(.96)
print(upper_lim)
lower_lim = df_bicis['edad_usuario'].quantile(.04)
print(lower_lim)

df_bicis[(df_bicis['edad_usuario'] >= upper_lim) | (df_bicis['edad_usuario'] <= lower_lim)].shape

df_bicis2 = df_bicis[(df_bicis['edad_usuario'] <= upper_lim) & (df_bicis['edad_usuario'] >= lower_lim)]

# Observamos como queda el dataset comparando estos dos gráficos.


In [None]:
plt.figure(figsize=(20, 4))
sns.countplot(x='edad_usuario', data= df_bicis2, palette="Set2").set(title='Grafico de Edad sin outliers')
plt.show()

plt.figure(figsize=(20, 4))
sns.countplot(x='edad_usuario', data= df_bicis, palette="Set2").set(title='Grafico de Edad con outliers')
plt.show()

### 🔴 Realizamos el mismo trabajo con la variable "tiempo_recorrido" donde podemos ver hay valores con 0, lo pudimos ver con el describe, y sumamos este gráfico para observarlo.
Luego limpiamos los valores y observamos las diferencias entre lo "viejo" y "nuevo" con gráficos


In [None]:
plt.figure(figsize=(8, 8))
sns.boxplot(data=df_bicis.tiempo_recorrido, orient="v", color="green").set_title('Grafico de cajas de Tiempo recorrido')
plt.show()

In [None]:
upper_lim2 = df_bicis2['tiempo_recorrido'].quantile(.98)
print(upper_lim2)
lower_lim2 = df_bicis2['tiempo_recorrido'].quantile(.005)
print(lower_lim2)

df_bicis2[(df_bicis2['tiempo_recorrido'] > upper_lim2) | (df_bicis2['tiempo_recorrido'] < lower_lim2)].shape

df_bicis3 = df_bicis2[(df_bicis2['tiempo_recorrido'] < upper_lim2) & (df_bicis2['tiempo_recorrido'] > lower_lim2)]
df_bicis3.head()   

In [None]:
plt.figure(figsize=(18, 4))
sns.countplot(x='tiempo_recorrido', data= df_bicis3, palette="Set3").set(title='Grafico de tiempo recorrido sin outliers')
plt.show()

plt.figure(figsize=(18, 4))
sns.countplot(x='tiempo_recorrido', data= df_bicis, palette="Set3").set(title='Grafico de tiempo recorrido con outliers')
#plt.show()

## 🔴 Pandas Profiling - complemento EDA

Utilizamos Pandas Profiling para un análisis completo de cada variable.

Aqui instalamos las dependencias de Pandas Profiling para la creación de un documento HTML con información detallada de nuestro Dataset.


In [None]:
#Data Profiling
profile = pandas_profiling.ProfileReport(df_bicis3)
profile.to_notebook_iframe()

### 🔴 Insigth de Pandas Profiling 

Encontramos diferencias en la cantidad de valores diferentes en los nombres de estaciones e ID. Esto se debe a que de acuerdo a cada año se cargaban diferente los nombres de las estaciones, algunas con mayúsculas, otras con el número de ID dentro del texto.
Por ese motivo usaremos las variables de ID Estacion Origen y Destino, para los análisis y Algoritmos.

Las variables de ID Estacion Origen y Destino son variables catégoricas que figuran como númericas.

***
***

    

### 🔴 Análisis de Variables
Realizamos algunos gráficos para mostrar el dataset y ver la relación entre algunas variables

### En este primer gráfico podemos ver el porcentaje por género de usuario
***

In [None]:
fig = px.pie (df_bicis3, names = "genero_usuario", values ="id_usuario", hole=.3, title="Porcentaje por genero de usuario",  width=400, height=400,
              color_discrete_sequence=px.colors.sequential.RdBu)
fig.show()

### 🔴Graficamos un mapa de calor del Dataset para ver la relación entre variables

In [None]:
plt.rcParams['figure.figsize'] = (10, 10)
sns.heatmap(df_bicis3.corr(), annot = True, cmap = 'Wistia')
plt.title('Mapa de Calor del Dataset', fontsize = 20)
plt.show()

### 🔴 Con esta gráfica podemos apreciar que no existen relaciones altas entre variables, excepto entre estacion de origen y estacion de destino, con esto podemos entender que gran cantidad de viajes en bicicleta son entre las mismas estaciones de origen y recorrido.

Al no encontrar relacion entre el resto de las variables, proponemos explorar el dataset en una muestra mas pequeña intentando buscar relacion. Para esto seleccionamos las 4 estaciones mas utilizadas en Origen y Destino, en base al value counts realizado debajo. Se han tomado solo 4 estaciones ya que son representativas de todo el dataset y tomar esta cantidad nos permite poder ver graficamente la relacion entre las variables, que seria imposible si las tomaramos todas (aproximadamente 200 estaciones)
***

In [None]:
df_bicis3.id_estacion_origen.value_counts()

In [None]:
df_bicis3.id_estacion_destino.value_counts()

***
### 🔴Tomamos las 4 estaciones mas utilizadas de origen y destino para ver la relación entre variables, el nuevo dataframe se llamará df_estaciones

Los nombres de las 4 estaciones: 

29 = Parque Centenario

14 = Pacífico

9 = Parque Las Heras

33 = Plaza Italia

***

In [None]:
df_estaciones = df_bicis3[df_bicis3.id_estacion_origen.isin([14 , 33 , 9, 29]) & 
               df_bicis3.id_estacion_destino.isin([14 , 33, 9, 29])]
df_estaciones.head()

### 🔴 Se normalizan las 4 estaciones para tener un unico nombre por cada estacion.


In [None]:
estaciones={'Parque Centenario':29,'Pacífico':14,'Parque Las Heras':9,'Plaza Italia':33}

for nom_est,id_est in estaciones.items():
    df_estaciones.loc[df_estaciones['id_estacion_origen'] == id_est, 'nombre_estacion_origen'] = nom_est
    df_estaciones.loc[df_estaciones['id_estacion_destino'] == id_est, 'nombre_estacion_destino'] = nom_est

df_estaciones.head()

In [None]:
print('El dataset con las 4 estaciones mas utilizadas de Origen y Destino tiene ' + str(df_estaciones.shape[0]) + ' filas, y ' + str(df_estaciones.shape[1]) + ' columnas')

***
### 🔴 Iniciamos el análisis de relación de variables mediante graficos.

In [None]:
fig = px.pie (df_estaciones, names = "nombre_estacion_origen", values ="tiempo_recorrido",
               width=600, height=400)
         
fig.show()

### 🔴 Podemos ver en la gráfica de superior que las dos estaciones que con casi el 33% la estacion de Pacifico es la que mas tiempo de uso acumula
### 🔴 Debajo realizaremos dos Scatter para evaluar la posibilidad de establecer clasificaciones. En el primero se evalúan las variables de Edad, tiempo y estaciones, donde no vemos claridad para poder hacer una clasificación


In [None]:
plt.figure (figsize = (10,8))
sns.scatterplot(x="edad_usuario", y="tiempo_recorrido", hue ="nombre_estacion_origen", data=df_estaciones)
plt.suptitle("Tiempo de recorrido y edad de usuario", fontsize=20)

plt.show()

### 🔴 A continuación graficamos otro scatter para ver la relacion entre edad, tiempo recorrido y genero de usuario y no nos arroja claridad tampoco para una clasificación

In [None]:
plt.figure (figsize = (10,8))
sns.scatterplot(x="edad_usuario", y="tiempo_recorrido", data=df_estaciones, hue = "genero_usuario")
plt.title("Relacion edad de usuario y tiempo de recorrido por genero", fontsize=20)

plt.show()

In [None]:
df_estaciones_origen = df_estaciones.drop(['id_estacion_destino', "id_usuario",'id_estacion_origen'], axis=1)
sns.pairplot (df_estaciones_origen, hue="nombre_estacion_origen", height = 5 , palette = 'vlag')
plt.show()

#### 🔴 La diagonal del pairplot nos muestra como hay una mayor tendencia al uso de las bicicletas por los jovenes de 20 a 30 años, y que estos utilizan por mas tiempo las bicicletas que las personas mayores de esa edad
***



### 🔴 A contnuación podemos ver un grafico que cuenta el uso de las estaciones por genero de usuario.

*Se puede ver como el genero masculino utiliza Pacifico como mismo origen y regreso en primer lugar, seguido por Parque Centenario
En el caso del género femenino, se advierte una menor cantidad en el uso pero aún así en mayor medida se elige la misma estación de origen y destino. La mas usada por las mujeres es Parque Centenario*

In [None]:
plt.figure (figsize = (15,8))
sns.catplot (x = "nombre_estacion_origen", kind = "count", data=df_estaciones , hue ="nombre_estacion_destino" , col = "genero_usuario", height=5)
plt.show()

### 🔴 Este es el mapa de correlación de nuestro dataset con una sola parte de la matriz.

In [None]:
plt.figure(dpi = 120,figsize= (4,4))
mask = np.triu(np.ones_like(df_estaciones.corr(),dtype = bool))
sns.heatmap(df_estaciones.corr(),mask = mask, fmt = ".2f",annot=True,lw=1,cmap = 'viridis')
plt.yticks(rotation = 0)
plt.xticks(rotation = 90)
plt.title('Mapa de Correlación del DataSet')
plt.show()

### 🔴 Aqui podemos ver en los graficos que se repite el comportamiento de que el rango en el tiempo de uso es levemente mayor en las mujeres

In [None]:
# Aqui graficamos el tiempo de recorrido por estación de destino y sexo.

plt.figure(figsize=(10,5))
sns.boxplot(data=df_estaciones, x='nombre_estacion_destino', y='tiempo_recorrido', hue='genero_usuario', palette="Set2")
plt.title('Boxplot Tiempo recorrido por estacion de destino segun sexo')
plt.show()

### 🔴 Aqui graficamos el tiempo de recorrido por estación de origen y sexo.



In [None]:
plt.figure(figsize=(10,5))
sns.violinplot (data=df_estaciones, x='nombre_estacion_origen', y='tiempo_recorrido', hue='genero_usuario', palette="Paired")
plt.title('Boxplot Tiempo recorrido por estacion de destino segun sexo')
plt.show()

***
***
### 🔴 Seleccionar las 4 estaciones con mas tráfico nos permite explorar y hacer un análisis mediante gráficos del set de datos. No podríamos haber analizado con el total de las estaciones las relaciones y gráficos porque los mismos serían imposibles de interpretar.
Para los modelos de predicción tampoco podremos usar el dataset completo, porque nos arroja error de memoria en todos los casos. Por ese motivo realizaremos un subset del 10% del total del set, y haremos un conteo de valores de las cuatro variables (***id_estacion_destino, id_estacion_origen, genero_usuario, edad_usuario***) tanto del set inicial como del recorte, y luego lo graficaremos para evaluar su ***representatividad***


Volvemos a ver nuestro dataset, y nos había quedado pendiente connvertir en string las variables catégoricas de ***ID estacion destino e ID estación Origen*** para poder luego hacer correctamente el Dummies.


In [None]:
df_bicis3.head()

In [None]:
df_bicis3[['id_estacion_origen','id_estacion_destino']] = df_bicis3[['id_estacion_origen','id_estacion_destino']] .astype(str)

In [None]:
df_bicis3.dtypes

In [None]:
representativo_origen = df_bicis3["id_estacion_origen"].value_counts()
representativo_destino = df_bicis3["id_estacion_destino"].value_counts()
representativo_genero = df_bicis3["genero_usuario"].value_counts()
representativo_edad = df_bicis3["edad_usuario"].value_counts()
representativo_tiempo = df_bicis3["tiempo_recorrido"].value_counts()

### 🔴 Realizamos un subset del dataset al 10%


In [None]:
df_bicis_sample = df_bicis3.sample(frac=0.10)
df_bicis_sample.head()

### 🔴 Creamos de las cuatro variables que formaran X y de tiempo recorrido, que será nuestro target, un conteo de valores para graficar debajo la representatividad del recorte

In [None]:
representativo_origen_sample = df_bicis_sample["id_estacion_origen"].value_counts()
representativo_destino_sample = df_bicis_sample["id_estacion_origen"].value_counts()
representativo_genero_sample = df_bicis_sample["genero_usuario"].value_counts()
representativo_edad_sample = df_bicis_sample["edad_usuario"].value_counts()
representativo_tiempo_sample = df_bicis_sample["tiempo_recorrido"].value_counts()

In [None]:
fig, axes = plt.subplots(5,2, figsize=(20, 26))

plt.suptitle('Grafica para mostrar representatividad del sample', fontsize=20)

sns.histplot(ax=axes[0, 0], data = representativo_destino, kde=True, color = "Red", element="poly").set(title='Estaciones Destino Original')
sns.histplot(ax=axes[0, 1], data = representativo_destino_sample, kde=True, color = "Green", element="poly").set(title='Estaciones Destino Recorte')
sns.histplot(ax=axes[1, 0], data = representativo_origen, kde=True, color = "Red", element="poly").set(title='Estaciones Origen Original')
sns.histplot(ax=axes[1, 1], data = representativo_origen_sample, kde=True, color = "Green", element="poly").set(title='Estaciones Origen Recorte')
sns.histplot(ax=axes[2, 0], data = representativo_genero, kde=True, color = "Red", element="poly").set(title='Genero Original')
sns.histplot(ax=axes[2, 1], data = representativo_genero_sample, kde=True, color = "Green", element="poly").set(title='Genero Recorte')
sns.histplot(ax=axes[3, 0], data = representativo_edad, kde=True, color = "Red", element="poly").set(title='Edad Origen')
sns.histplot(ax=axes[3, 1], data = representativo_edad_sample, kde=True, color = "Green", element="poly").set(title='Edad Recorte')
sns.histplot(ax=axes[4, 0], data = representativo_tiempo, kde=True, color = "Red", element="poly").set(title='Tiempo Original')
sns.histplot(ax=axes[4, 1], data = representativo_tiempo_sample, kde=True, color = "Green", element="poly").set(title='TIempo Recorte')
plt.show()


### 🔴 En color rojo se ven las cuatro variables del set original, en verde las variables del subset.
***Podemos ver que la muestra es representativa por la similitud de los gráficosincluso con la línea de tendencia, con esta conclusión avanzamos en la creacion de los algoritmos***

***
### 🔴Algoritmos de clásificación 
##### Utilizaremos modelos de clásificación segmentando el target de "tiempo_recorrido" en 9, ordenadas por duración del viaje.

🔴 ***Tomamos las variables que usaremos para aplicarles los modelos*** y creamos un nuevo DataFrame que será el definitivo para aplicar los modelos.

In [None]:
df_estaciones = df_bicis_sample.iloc[:, [2,5,7,8,9]]
df_estaciones

🔴 Aplicamos el Get Dummies para convertir las variables categóricas y poder aplicarles los modelos de clasificación

In [None]:
features_dummy = pd.get_dummies(df_estaciones, columns = ["id_estacion_origen", 'id_estacion_destino', "genero_usuario", "edad_usuario"])
features_dummy.head()

#### 🔴 Nuestra variable y será ***tiempo_recorrido***, para aplicar los modelos de clasificación dividimos en dos la duracion de los viajes, en viajes cortos y viajes largos. 
#### El criterio para dividir en dos la variable es la mediana de tiempo recorrido, que es 17 minutos.
#### El codigo siguiente es como le damos forma a y_cat con una funcion

In [None]:
features_dummy.tiempo_recorrido.median()

In [None]:
#Trasnformación de target para clasificacion
def transform_target(target):
    if target <= 17:
        return "Viaje Corto"
    elif target > 17:
        return "Viaje Largo"
    else:
        raise ValueError
        
features_dummy.tiempo_recorrido.apply(transform_target)

In [None]:
X = features_dummy.drop('tiempo_recorrido', axis=1)
y_cat = features_dummy.tiempo_recorrido.apply(transform_target)

### Iniciamos los modelos de predicción

In [None]:
# Importamos librerías

# Modelos
from sklearn.model_selection import train_test_split 
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
from sklearn.svm import LinearSVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier

# Métricas
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.tree import plot_tree
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_score
from sklearn.metrics import precision_score
from sklearn.model_selection import LeaveOneOut

#Ensemble
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import VotingClassifier

# Oprimizacion de modelos
from sklearn.model_selection import GridSearchCV

In [None]:
#Separamos los datos en train y test

X_train, X_test, y_train, y_test = train_test_split(X, y_cat, test_size=0.20, random_state=0) 

### 🔴 Arbol de Decisión


# Grid Search para modelo de Arbol de Decisión

In [None]:
params = {'max_depth': np.arange(20,45)}

In [None]:
tree = DecisionTreeClassifier() 

In [None]:
clf_cv = GridSearchCV(tree, param_grid=params, cv=5)

In [None]:
clf_cv.fit(X, y_cat)

In [None]:
print('Mejor Parametro para el árbol de decisión: {}'.format(clf_cv.best_params_))

# Creamos el modelo luego de evaluar parámetros


In [None]:
tree_cat = DecisionTreeClassifier(**clf_cv.best_params_)
tree_cat.fit(X_train,y_train)

In [None]:
y_test_pred = tree_cat.predict(X_test)

In [None]:
y_train_pred = tree_cat.predict(X_train)  #Prediccion del train
y_test_pred = tree_cat.predict(X_test)  #Prediccion en Test

#Calculo el accuracy en Train
train_accuracy = accuracy_score(y_train, y_train_pred)

#Calculo el accuracy en Test
test_accuracy = accuracy_score(y_test, y_test_pred)

print('% de aciertos sobre el set de entrenamiento:', train_accuracy)
print('% de aciertos sobre el set de evaluación:',test_accuracy)

In [None]:
#Matriz de Confusión
cm = confusion_matrix(y_test, y_test_pred)
print(cm)

#Ploteamos la Matriz
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()

plt.show()

In [None]:
plt.figure(figsize=(15,20))

plot_tree(tree_cat, feature_names=X_train.columns, max_depth=3, fontsize=8, class_names=str(y_cat)) #hack para que y sea str
plt.show()

In [None]:
# Recall
print(f"Recall Score of the classifier is: {recall_score(y_test, y_test_pred, pos_label='positive', average='micro')}")

In [None]:
# Calculo del F1 score
print(f"F1 Score of the classifier is: {f1_score(y_test, y_test_pred, pos_label='positive', average='micro')}")

In [None]:
print(classification_report(y_test, y_test_pred))

***

# Grid Search para Linear SVC

In [None]:
model= LinearSVC()

In [None]:
model.fit(X_train, y_train)


In [None]:
prediction = model.predict(X_test)
prediction

In [None]:
print(classification_report(y_test,prediction))
print(confusion_matrix(y_test, prediction))

In [None]:
param_grid = {'C':np.arange(0.01,80,20)}

In [None]:
grid = GridSearchCV(LinearSVC(),param_grid,refit = True, verbose=2)

In [None]:
grid.fit(X_train,y_train)


In [None]:
print('Mejor Parametro para el árbol de decisión: {}'.format(grid.best_params_))

In [None]:
predic = grid.predict(X_test)


In [None]:
print(classification_report(y_test,predic))
print(confusion_matrix(y_test, predic))

***
# Creamos el modelo luego de evaluar parámetros

In [None]:
#Creamos el modelo con los parámetros evaluados
model_SVC= LinearSVC (**grid.best_params_)   

In [None]:
model_SVC.fit(X_train, y_train)

In [None]:
# Calculamos las predicciones!
predictions_ = model_SVC.predict(X_test)

In [None]:
# Accuracy
print(f"Accuracy of the classifier is: {accuracy_score(y_test, predictions_)}")

In [None]:
#Matriz de Confusión
cm = confusion_matrix(y_test, predictions_)
print(cm)

#Ploteamos la Matriz
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()

plt.show()

In [None]:
# Precision!
print(f"Precision Score of the classifier is: {precision_score(y_test, predictions_, pos_label='positive', average='micro')}")

In [None]:
print(f"Recall Score of the classifier is: {recall_score(y_test, predictions_, pos_label='positive', average='micro')}")

In [None]:
# Calculo del F1 score
print(f"F1 Score of the classifier is: {f1_score(y_test, predictions_, pos_label='positive', average='micro')}")

In [None]:
print(classification_report(y_test, predictions_))

### 🔴 Random Forest - Aplicamos Grid y luego el modelo

In [None]:
# Creamos el modelo para ver los parámetros
rfc=RandomForestClassifier(random_state=42)

In [None]:
# Parametros del grid
param_grid = { 
    'n_estimators': [200, 500],
    'max_features': ['auto', 'sqrt', 'log2'],
    'max_depth' : [4,5,6,7,8],
    'criterion' :['gini', 'entropy']
}

In [None]:
#Creaamos el método de validación

CV_rfc = GridSearchCV(estimator=rfc, param_grid=param_grid, cv= 5)
CV_rfc.fit(X_train, y_train)

In [None]:
score = CV_rfc.best_score_
score

In [None]:
param = CV_rfc.best_params_
param

In [None]:
#Con los parámetros arrojados ahora creamos el modelo más adecuado

model_rf = RandomForestClassifier(**CV_rfc.best_params_)

In [None]:
model_rf.fit(X_train, y_train)

In [None]:
# Calculamos las predicciones!
predictions = model_rf.predict(X_test)

In [None]:
# Accuracy
print(f"Accuracy of the classifier is: {accuracy_score(y_test, predictions)}")

In [None]:
#Matriz de Confusión
cm = confusion_matrix(y_test, predictions)
print(cm)

#Ploteamos la Matriz
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()

plt.show()

In [None]:
# Precision!
print(f"Precision Score of the classifier is: {precision_score(y_test, predictions, pos_label='positive', average='micro')}")

In [None]:
print(f"Recall Score of the classifier is: {recall_score(y_test, predictions, pos_label='positive', average='micro')}")

In [None]:
# Calculo del F1 score
print(f"F1 Score of the classifier is: {f1_score(y_test, predictions, pos_label='positive', average='micro')}")

In [None]:
print(classification_report(y_test, predictions))

# Ensemble con Votting con el Modelo de Random Forest 

In [None]:
# Definimos el modelo de ensamble usando VotingClassifier
model_vc = VotingClassifier(estimators=[('tree', tree_cat),('svc', model_SVC),('rf',model_rf)], voting='hard')

In [None]:
model_vc.fit(X_train,y_train)

In [None]:
model_vc.score(X_test,y_test)

In [None]:
pred_v = model_vc.predict(X_test)

In [None]:
print(confusion_matrix(y_test, pred_v))

print(classification_report(y_test, pred_v))

Con el modelo de ensamble Votting Classifier no obtenemos mejoras sobre la mejor metrica que obtvimos con SVC de 0.58
