# 3. ANÁLISIS PREDICTIVO.

## 3.1 ¿Cuáles son las zonas donde es más probable coger un taxi en función de la hora del día?

**1. Instalar librerías**

In [101]:
!pip install dask
!pip install folium
!pip install xgboost
!pip install gpxpy
!pip install nbconvert



**2. Importar librerías**

  -  Se usan librerías tales como dask.dataframe las cuáles permiten el tratamiento de datasets grandes. Esta librería en concreto almacena a trozos en memoria. 
  
  - Se importan librerías tales como random forest para su posterior uso en diferentes apartados de esta misma práctica.

In [102]:
import dask.dataframe as dd
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import folium
import gpxpy.geo
from datetime import datetime
import time
import seaborn as sns
import os
import math
import xgboost as xgb
import matplotlib
matplotlib.use('nbagg')
import nbconvert

from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import SGDRegressor
from sklearn.cluster import MiniBatchKMeans, KMeans
import warnings
warnings.simplefilter('ignore')

**3. Leer los datos**

  -  Se leen los datos correspondientes (green o yellow). En el caso de Green se dispone de un dataset de menor tamaño que el de Yellow. Es por eso que el Yellow tarda más tiempo en cargarse, debido al uso de la librería anteriormente mencionada, este tiempo se reduce considerablemente.

In [61]:
dg3 = dd.read_csv("C:/MBD/datos/green_tripdata_2015-03.csv", dtype={'Trip_type': 'float64'}, usecols=[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])

**4. Primer visualización de los datos**

In [62]:
dg3.head()

Unnamed: 0,VendorID,lpep_pickup_datetime,Lpep_dropoff_datetime,Store_and_fwd_flag,RateCodeID,Pickup_longitude,Pickup_latitude,Dropoff_longitude,Dropoff_latitude,Passenger_count,...,Fare_amount,Extra,MTA_tax,Tip_amount,Tolls_amount,Ehail_fee,improvement_surcharge,Total_amount,Payment_type,Trip_type
0,1,2015-03-01 00:02:05,2015-03-01 00:08:01,N,1,-73.961479,40.801872,-73.980721,40.775055,1,...,8.0,0.5,0.5,0.0,0.0,,0.3,9.3,1,1.0
1,1,2015-03-01 00:02:11,2015-03-01 00:27:09,N,1,-73.979759,40.677467,-74.017097,40.71093,1,...,20.0,0.5,0.5,4.0,0.0,,0.3,25.3,1,1.0
2,2,2015-03-01 00:02:07,2015-03-01 00:10:31,N,1,-73.941376,40.833633,-73.926689,40.863411,1,...,11.0,0.5,0.5,0.0,0.0,,0.3,12.3,2,1.0
3,1,2015-03-01 00:02:13,2015-03-01 00:09:09,N,1,-73.939674,40.821152,-73.931854,40.846458,1,...,8.5,0.5,0.5,0.0,0.0,,0.3,9.8,4,1.0
4,2,2015-03-01 00:02:18,2015-03-01 00:07:52,N,1,-73.957344,40.712959,-73.954796,40.71965,6,...,5.5,0.5,0.5,1.0,0.0,,0.3,7.8,1,1.0


**5. Descripción de las variables**

![datos%20green.PNG](attachment:datos%20green.PNG)

**6. Se hace una búsqueda de valores nulos dentro del dataset, de haberlos estos serían eliminados del mismo**

In [63]:
print("Número de valores nulos = {}".format(dg3.isnull().sum().compute()))

Número de valores nulos = VendorID                       0
lpep_pickup_datetime           0
Lpep_dropoff_datetime          0
Store_and_fwd_flag             0
RateCodeID                     0
Pickup_longitude               0
Pickup_latitude                0
Dropoff_longitude              0
Dropoff_latitude               0
Passenger_count                0
Trip_distance                  0
Fare_amount                    0
Extra                          0
MTA_tax                        0
Tip_amount                     0
Tolls_amount                   0
Ehail_fee                1722574
improvement_surcharge          0
Total_amount                   0
Payment_type                   0
Trip_type                      2
dtype: int64


In [64]:
dg3 = dg3.drop("Ehail_fee", 1)

In [65]:
dg3.head()

Unnamed: 0,VendorID,lpep_pickup_datetime,Lpep_dropoff_datetime,Store_and_fwd_flag,RateCodeID,Pickup_longitude,Pickup_latitude,Dropoff_longitude,Dropoff_latitude,Passenger_count,Trip_distance,Fare_amount,Extra,MTA_tax,Tip_amount,Tolls_amount,improvement_surcharge,Total_amount,Payment_type,Trip_type
0,1,2015-03-01 00:02:05,2015-03-01 00:08:01,N,1,-73.961479,40.801872,-73.980721,40.775055,1,2.1,8.0,0.5,0.5,0.0,0.0,0.3,9.3,1,1.0
1,1,2015-03-01 00:02:11,2015-03-01 00:27:09,N,1,-73.979759,40.677467,-74.017097,40.71093,1,4.7,20.0,0.5,0.5,4.0,0.0,0.3,25.3,1,1.0
2,2,2015-03-01 00:02:07,2015-03-01 00:10:31,N,1,-73.941376,40.833633,-73.926689,40.863411,1,3.09,11.0,0.5,0.5,0.0,0.0,0.3,12.3,2,1.0
3,1,2015-03-01 00:02:13,2015-03-01 00:09:09,N,1,-73.939674,40.821152,-73.931854,40.846458,1,2.2,8.5,0.5,0.5,0.0,0.0,0.3,9.8,4,1.0
4,2,2015-03-01 00:02:18,2015-03-01 00:07:52,N,1,-73.957344,40.712959,-73.954796,40.71965,6,0.75,5.5,0.5,0.5,1.0,0.0,0.3,7.8,1,1.0


**7. Detectar pickups fuera de NYC**



> 7.1   Se saben las coordenadas las cuales reprensentan los limites de NYC

> 7.2   Se establecen dichas coordenadas como límite, dejando expuestos esos puntos los cuales no cumplen el requisitondented block



In [66]:
fuera_de_NYC = dg3[((dg3.Pickup_latitude <= 40.5774) | (dg3.Pickup_longitude <= -74.15) | (dg3.Pickup_latitude >= 40.9176) | (dg3.Pickup_longitude >= -73.7004))]

m = folium.Map(location = [40.5774, -73.7004], tiles = "OpenStreetMap")

pickups_fuera = fuera_de_NYC.head(25000)

for i,j in pickups_fuera.iterrows():
    if j["Pickup_latitude"] != 0:
        folium.Marker([j["Pickup_latitude"], j["Pickup_longitude"]]).add_to(m)
m

**8. Detectar dropoffs fuera de NYC**



> 8.1   Se saben las coordenadas las cuales reprensentan los limites de NYC

> 8.2   Se establecen dichas coordenadas como límite, dejando expuestos esos puntos los cuales no cumplen el requisitondented block

In [67]:
fuera_de_NYC = dg3[((dg3.Dropoff_latitude <= 40.5774) | (dg3.Dropoff_longitude <= -74.15) | (dg3.Dropoff_latitude >= 40.9176) | (dg3.Dropoff_longitude >= -73.7004))]

m = folium.Map(location = [40.5774, -73.7004], tiles = "OpenStreetMap")

pickups_fuera = fuera_de_NYC.head(25000)

for i,j in pickups_fuera.iterrows():
    if j["Dropoff_latitude"] != 0:
        folium.Marker([j["Dropoff_latitude"], j["Dropoff_longitude"]]).add_to(m)
m

**9. A lo largo del código se ejecuta la visualización de los datos, con tal de hacer más accesible el nombre de las variables**

In [68]:
dg3.head()

Unnamed: 0,VendorID,lpep_pickup_datetime,Lpep_dropoff_datetime,Store_and_fwd_flag,RateCodeID,Pickup_longitude,Pickup_latitude,Dropoff_longitude,Dropoff_latitude,Passenger_count,Trip_distance,Fare_amount,Extra,MTA_tax,Tip_amount,Tolls_amount,improvement_surcharge,Total_amount,Payment_type,Trip_type
0,1,2015-03-01 00:02:05,2015-03-01 00:08:01,N,1,-73.961479,40.801872,-73.980721,40.775055,1,2.1,8.0,0.5,0.5,0.0,0.0,0.3,9.3,1,1.0
1,1,2015-03-01 00:02:11,2015-03-01 00:27:09,N,1,-73.979759,40.677467,-74.017097,40.71093,1,4.7,20.0,0.5,0.5,4.0,0.0,0.3,25.3,1,1.0
2,2,2015-03-01 00:02:07,2015-03-01 00:10:31,N,1,-73.941376,40.833633,-73.926689,40.863411,1,3.09,11.0,0.5,0.5,0.0,0.0,0.3,12.3,2,1.0
3,1,2015-03-01 00:02:13,2015-03-01 00:09:09,N,1,-73.939674,40.821152,-73.931854,40.846458,1,2.2,8.5,0.5,0.5,0.0,0.0,0.3,9.8,4,1.0
4,2,2015-03-01 00:02:18,2015-03-01 00:07:52,N,1,-73.957344,40.712959,-73.954796,40.71965,6,0.75,5.5,0.5,0.5,1.0,0.0,0.3,7.8,1,1.0


**10. En este apartado, se realizan dos funciones.**

> 10.1 La primera de ellas realiza una transformación sobre la variable de tipo tiempo convirtiendo esta en un String.

> 10.2 Se define una función para tener la duración del viaje, el tiempo de pickup y la velocidad.

In [69]:
def timeToUnix(t):
    change = datetime.strptime(t, "%Y-%m-%d %H:%M:%S") 
    t_tuple = change.timetuple() 
    return time.mktime(t_tuple) + 3600  

def dfWithTripTimes(df):
    startTime = datetime.now()
    duracion = df[["lpep_pickup_datetime", "Lpep_dropoff_datetime"]].compute()
    pickup_time = [timeToUnix(pkup) for pkup in duracion["lpep_pickup_datetime"].values]
    dropoff_time = [timeToUnix(drpof) for drpof in duracion["Lpep_dropoff_datetime"].values]

    Duracion_viaje = (np.array(dropoff_time) - np.array(pickup_time))/float(60)  
    
    dg3_new = df[['Passenger_count','Trip_distance','Pickup_longitude','Pickup_latitude','Dropoff_longitude','Dropoff_latitude','Total_amount']].compute()
    dg3_new["Duracion_viaje"] = Duracion_viaje
    dg3_new["pickup_time"] = pickup_time
    dg3_new["Velocidad"] = (dg3_new["Trip_distance"]/dg3_new["Duracion_viaje"])*60  #millas/hr

    return dg3_new

**11. Se crea un nuevo dataset, el cual contendrá las variables indicadas en la función del código anterior**

In [70]:
dg3_new = dfWithTripTimes(dg3)

In [71]:
dg3_new.head()

Unnamed: 0,Passenger_count,Trip_distance,Pickup_longitude,Pickup_latitude,Dropoff_longitude,Dropoff_latitude,Total_amount,Duracion_viaje,pickup_time,Velocidad
0,1,2.1,-73.961479,40.801872,-73.980721,40.775055,9.3,5.933333,1425168000.0,21.235955
1,1,4.7,-73.979759,40.677467,-74.017097,40.71093,25.3,24.966667,1425168000.0,11.29506
2,1,3.09,-73.941376,40.833633,-73.926689,40.863411,12.3,8.4,1425168000.0,22.071429
3,1,2.2,-73.939674,40.821152,-73.931854,40.846458,9.8,6.933333,1425168000.0,19.038462
4,6,0.75,-73.957344,40.712959,-73.954796,40.71965,7.8,5.566667,1425168000.0,8.083832


**12. Plot con la librería seaborn, de la duración del viaje. Esto nos sirve para una primera inspección de los valores.**

In [72]:
plt.figure(figsize = (10,6))
sns.boxplot("Duracion_viaje", data = dg3_new, orient = "v")
plt.tick_params(labelsize = 20)
plt.ylabel("Duracion viaje(minutos)", fontsize = 20)
plt.show()

<IPython.core.display.Javascript object>

**13. Definimos una variable con el fin de  mostrar los valores contenido en los cuántiles.**

In [73]:
quantile_Duracion_viaje = dg3_new.Duracion_viaje.quantile(np.round(np.arange(0.00, 1.01, 0.01), 2))

**14. Cuántiles de la duración del viaje. Se observa que no hay tiempos negativos y que el percentil 100 es demasiado mayor para ser real.**

In [74]:
qValues = np.round(np.arange(0.01, 1.01, 0.01), 2)
for i in qValues:
    print("{} Valor del percentil de la duracion del viaje: {}min".format((int(i*100)), quantile_Duracion_viaje[i]))

1 Valor del percentil de la duracion del viaje: 0.25min
2 Valor del percentil de la duracion del viaje: 1.1666666666666667min
3 Valor del percentil de la duracion del viaje: 1.8666666666666667min
4 Valor del percentil de la duracion del viaje: 2.283333333333333min
5 Valor del percentil de la duracion del viaje: 2.6min
6 Valor del percentil de la duracion del viaje: 2.8666666666666667min
7 Valor del percentil de la duracion del viaje: 3.1min
8 Valor del percentil de la duracion del viaje: 3.3min
9 Valor del percentil de la duracion del viaje: 3.5min
10 Valor del percentil de la duracion del viaje: 3.7min
11 Valor del percentil de la duracion del viaje: 3.8666666666666667min
12 Valor del percentil de la duracion del viaje: 4.05min
13 Valor del percentil de la duracion del viaje: 4.216666666666667min
14 Valor del percentil de la duracion del viaje: 4.366666666666666min
15 Valor del percentil de la duracion del viaje: 4.533333333333333min
16 Valor del percentil de la duracion del viaje: 4.

**15. Dentro del dataset, se aplica un filtro según lo analizado anteriormente**


In [75]:
dg3_new = dg3_new[(dg3_new.Duracion_viaje>3) & (dg3_new.Duracion_viaje<720)]

**16. Plot para ver el cambio una vez realizado el filtro**

In [76]:
plt.figure(figsize = (10,6))
sns.boxplot("Duracion_viaje", data = dg3_new, orient = "v")
plt.ylim(ymin = 1, ymax = 750)
plt.tick_params(labelsize = 20)
plt.ylabel("Duracion viaje (minutos)", fontsize = 20)
plt.show()

<IPython.core.display.Javascript object>

**17. Con esta visualización se aprecia la distribución de la duración del viaje. La gran mayoría de ellos no supera los 100 minutos.**

In [77]:
plt.figure(figsize = (12,8))
sns.kdeplot(dg3_new["Duracion_viaje"].values, shade = True, cumulative = False)
plt.tick_params(labelsize = 20)
plt.xlabel("Duracion viaje", fontsize = 20)
plt.title("Distribución de la Duracion del viaje", fontsize = 20)
plt.show()

<IPython.core.display.Javascript object>

In [78]:
dg3_new.head()

Unnamed: 0,Passenger_count,Trip_distance,Pickup_longitude,Pickup_latitude,Dropoff_longitude,Dropoff_latitude,Total_amount,Duracion_viaje,pickup_time,Velocidad
0,1,2.1,-73.961479,40.801872,-73.980721,40.775055,9.3,5.933333,1425168000.0,21.235955
1,1,4.7,-73.979759,40.677467,-74.017097,40.71093,25.3,24.966667,1425168000.0,11.29506
2,1,3.09,-73.941376,40.833633,-73.926689,40.863411,12.3,8.4,1425168000.0,22.071429
3,1,2.2,-73.939674,40.821152,-73.931854,40.846458,9.8,6.933333,1425168000.0,19.038462
4,6,0.75,-73.957344,40.712959,-73.954796,40.71965,7.8,5.566667,1425168000.0,8.083832


**18. Definimos una variable con el fin de  mostrar los valores contenido en los cuántiles.**

In [79]:
quantile_Velocidad = dg3_new.Velocidad.quantile(np.round(np.arange(0.00, 1.01, 0.01), 2))

**19. Cuántiles de la velocidad del taxi durante el viaje. Se observa que no hay velocidades negativas y que el percentil 100 es demasiado mayor para ser real.**

In [80]:
qValues = np.round(np.arange(0.01, 1.01, 0.01), 2)
for i in qValues:
    print("{} Valor del percentil de la velocidad del viaje: {}millas/h".format((int(i*100)), quantile_Velocidad[i]))

1 Valor del percentil de la velocidad del viaje: 3.906510851419032millas/h
2 Valor del percentil de la velocidad del viaje: 4.988452655889145millas/h
3 Valor del percentil de la velocidad del viaje: 5.5479452054794525millas/h
4 Valor del percentil de la velocidad del viaje: 5.945553539019965millas/h
5 Valor del percentil de la velocidad del viaje: 6.2618291504712325millas/h
6 Valor del percentil de la velocidad del viaje: 6.527908726880293millas/h
7 Valor del percentil de la velocidad del viaje: 6.758448060075094millas/h
8 Valor del percentil de la velocidad del viaje: 6.965376782077392millas/h
9 Valor del percentil de la velocidad del viaje: 7.154334038054968millas/h
10 Valor del percentil de la velocidad del viaje: 7.326549491211841millas/h
11 Valor del percentil de la velocidad del viaje: 7.488millas/h
12 Valor del percentil de la velocidad del viaje: 7.636363636363638millas/h
13 Valor del percentil de la velocidad del viaje: 7.780645161290323millas/h
14 Valor del percentil de la ve

**20. Dentro del dataset, se aplica un filtro según lo analizado anteriormente**

In [81]:
dg3_new = dg3_new[(dg3_new.Velocidad>0) & (dg3_new.Velocidad<45)]

**21. Plot para ver el cambio una vez realizado el filtro**

In [82]:
fig = plt.figure(figsize = (10,6))
ax = sns.boxplot("Velocidad", data = dg3_new, orient = "v")

plt.tick_params(labelsize = 20)
plt.ylabel("Velocidad(Millas/hr)", fontsize = 20)
plt.show()

<IPython.core.display.Javascript object>

**22. Se realiza un cálculo para obtener la velocidad media de los taxis.**

In [83]:
Velocidad_media = sum(dg3_new.Velocidad)/len(dg3_new.Velocidad)
print("Velocidad media de los Taxis en NYC = "+str(Velocidad_media))

Velocidad media de los Taxis en NYC = 12.519345454737392


**23. Los taxis pueden viajar aproximadamente 2 millas en 10 minutos de media.**

In [84]:
dg3_new.head()

Unnamed: 0,Passenger_count,Trip_distance,Pickup_longitude,Pickup_latitude,Dropoff_longitude,Dropoff_latitude,Total_amount,Duracion_viaje,pickup_time,Velocidad
0,1,2.1,-73.961479,40.801872,-73.980721,40.775055,9.3,5.933333,1425168000.0,21.235955
1,1,4.7,-73.979759,40.677467,-74.017097,40.71093,25.3,24.966667,1425168000.0,11.29506
2,1,3.09,-73.941376,40.833633,-73.926689,40.863411,12.3,8.4,1425168000.0,22.071429
3,1,2.2,-73.939674,40.821152,-73.931854,40.846458,9.8,6.933333,1425168000.0,19.038462
4,6,0.75,-73.957344,40.712959,-73.954796,40.71965,7.8,5.566667,1425168000.0,8.083832


**24. Plot con la librería seaborn, de la duración del viaje. Esto nos sirve para una primera inspección de los valores.**

In [85]:
fig = plt.figure(figsize = (10,6))
ax = sns.boxplot("Trip_distance", data = dg3_new, orient = "v")

plt.tick_params(labelsize = 20)
plt.ylabel("Trip Distance(Millas)", fontsize = 20)
plt.show()

<IPython.core.display.Javascript object>

**25. Definimos una variable con el fin de  mostrar los valores contenido en los cuántiles.**


In [86]:
quantile_tripDistance = dg3_new.Trip_distance.quantile(np.round(np.arange(0.00, 1.01, 0.01), 2))

**26. Cuántiles de la distancia del viaje. Se observa que no hay distancias negativas y que el percentil 100 es demasiado mayor para ser real.**


In [87]:
qValues = np.round(np.arange(0.01, 1.01, 0.01), 2)
for i in qValues:
    print("{} Valor del percentil de la distancia del viaje: {}millas".format((int(i*100)), quantile_tripDistance[i]))

1 Valor del percentil de la distancia del viaje: 0.46millas
2 Valor del percentil de la distancia del viaje: 0.53millas
3 Valor del percentil de la distancia del viaje: 0.59millas
4 Valor del percentil de la distancia del viaje: 0.62millas
5 Valor del percentil de la distancia del viaje: 0.66millas
6 Valor del percentil de la distancia del viaje: 0.7millas
7 Valor del percentil de la distancia del viaje: 0.71millas
8 Valor del percentil de la distancia del viaje: 0.75millas
9 Valor del percentil de la distancia del viaje: 0.79millas
10 Valor del percentil de la distancia del viaje: 0.8millas
11 Valor del percentil de la distancia del viaje: 0.8199999999999998millas
12 Valor del percentil de la distancia del viaje: 0.85millas
13 Valor del percentil de la distancia del viaje: 0.89millas
14 Valor del percentil de la distancia del viaje: 0.9millas
15 Valor del percentil de la distancia del viaje: 0.92millas
16 Valor del percentil de la distancia del viaje: 0.95millas
17 Valor del percentil

**27. Dentro del dataset, se aplica un filtro según lo analizado anteriormente**


In [88]:
dg3_new = dg3_new[(dg3_new.Trip_distance>0) & (dg3_new.Trip_distance<20)]

**28. Plot para ver el cambio una vez realizado el filtro**

In [89]:
fig = plt.figure(figsize = (10,6))
ax = sns.boxplot("Trip_distance", data = dg3_new, orient = "v")

plt.tick_params(labelsize = 20)
plt.ylabel("Trip Distance(Millas)", fontsize = 20)
plt.show()

<IPython.core.display.Javascript object>

**29. Plot con la librería seaborn, el precio del viaje. Esto nos sirve para una primera inspección de los valores.**

In [90]:
fig = plt.figure(figsize = (10,6))
ax = sns.boxplot("Total_amount", data = dg3_new, orient = "v")

plt.tick_params(labelsize = 20)
plt.ylabel("Precio del viaje", fontsize = 20)
plt.show()

<IPython.core.display.Javascript object>

**30. Definimos una variable con el fin de  mostrar los valores contenido en los cuántiles.**


In [91]:
quantile_totalAmount = dg3_new.Total_amount.quantile(np.round(np.arange(0.00, 1.01, 0.01), 2))


**31. Cuántiles del precio del viaje. Se observa que no hay precios negativos y que el percentil 100 es demasiado mayor para ser real.**

In [92]:
qValues = np.round(np.arange(0.01, 1.01, 0.01), 2)
for i in qValues:
    print("{} Valor del percentil del precio total del viaje: {}$".format((int(i*100)), quantile_totalAmount[i]))

1 Valor del percentil del precio total del viaje: 5.3$
2 Valor del percentil del precio total del viaje: 5.8$
3 Valor del percentil del precio total del viaje: 5.8$
4 Valor del percentil del precio total del viaje: 5.8$
5 Valor del percentil del precio total del viaje: 6.3$
6 Valor del percentil del precio total del viaje: 6.3$
7 Valor del percentil del precio total del viaje: 6.3$
8 Valor del percentil del precio total del viaje: 6.36$
9 Valor del percentil del precio total del viaje: 6.799999999999999$
10 Valor del percentil del precio total del viaje: 6.8$
11 Valor del percentil del precio total del viaje: 6.799999999999999$
12 Valor del percentil del precio total del viaje: 6.799999999999999$
13 Valor del percentil del precio total del viaje: 7.299999999999999$
14 Valor del percentil del precio total del viaje: 7.3$
15 Valor del percentil del precio total del viaje: 7.3$
16 Valor del percentil del precio total del viaje: 7.299999999999999$
17 Valor del percentil del precio total de

**32. Dentro del dataset, se aplica un filtro según lo analizado anteriormente**

In [93]:
dg3_new = dg3_new[(dg3_new.Total_amount>0) & (dg3_new.Total_amount<52)]

**33. Filtro de las longitudes y latitudes de pickup**

In [94]:
dg3_new = dg3_new[(((dg3_new.Pickup_latitude >= 40.5774) & (dg3_new.Pickup_latitude <= 40.9176)) & ((dg3_new.Pickup_longitude >= -74.15) & (dg3_new.Pickup_longitude <= -73.7004)))]

**34. Filtro de longitudes y latitudes de dropoff**

In [95]:
dg3_new = dg3_new[(((dg3_new.Dropoff_latitude >= 40.5774) & (dg3_new.Dropoff_latitude <= 40.9176)) & ((dg3_new.Dropoff_longitude >= -74.15) & (dg3_new.Dropoff_longitude <= -73.7004)))]

**35. Se crean dos funciones. Una para la mínima distancia y la otra para la creación de las regiones. El parámetro de mínima distancia es tuneable, es el requerimiento que le damos para la creación de los clusteres.**

In [96]:
coord = dg3_new[["Pickup_latitude", "Pickup_longitude"]].values
neighbors = []

def min_distance(regionCenters, totalClusters):
    good_points = 0
    bad_points = 0
    less_dist = []
    more_dist = []
    min_distance = 100000  
    for i in range(totalClusters):
        good_points = 0
        bad_points = 0
        for j in range(totalClusters):
            if j != i:
                distance = gpxpy.geo.haversine_distance(latitude_1 = regionCenters[i][0], longitude_1 = regionCenters[i][1], latitude_2 = regionCenters[j][0], longitude_2 = regionCenters[j][1])
                
                distance = distance/(1.60934*1000)
                min_distance = min(min_distance, distance) 
                if distance < 2:
                    good_points += 1
                else:
                    bad_points += 1
        less_dist.append(good_points)
        more_dist.append(bad_points)
            
def makingRegions(noOfRegions):
    regions = MiniBatchKMeans(n_clusters = noOfRegions, batch_size = 10000).fit(coord)
    regionCenters = regions.cluster_centers_ 
    totalClusters = len(regionCenters)
    return regionCenters, totalClusters

**36. Ejecución del código anterior**

In [97]:
startTime = datetime.now()
for i in range(10, 100, 10):
    regionCenters, totalClusters = makingRegions(i)
    min_distance(regionCenters, totalClusters)
print("Time = "+str(datetime.now() - startTime))

Time = 0:00:35.103928


**37. Definición de variables para la posterior visualización de los resultados**

In [98]:
coord = dg3_new[["Pickup_latitude", "Pickup_longitude"]].values
regions = MiniBatchKMeans(n_clusters = 20, batch_size = 10000).fit(coord)
dg3_new["Pickup_cluster"] = regions.predict(dg3_new[["Pickup_latitude", "Pickup_longitude"]])

**38. En esta visualización se ven los centros de los clusters que se han creado.**

In [99]:
centerOfRegions = regions.cluster_centers_
noOfClusters = len(centerOfRegions)
m = folium.Map(location = [40.9176, -73.7004], tiles = "OpenStreetMap")

for i in range(noOfClusters):
    folium.Marker([centerOfRegions[i][0], centerOfRegions[i][1]], popup = (str(np.round(centerOfRegions[i][0], 2))+", "+str(np.round(centerOfRegions[i][1], 2)))).add_to(m)
m

**39. En esta visualización se aprecian las regiones que hemos creado para el área de NYC. Hay un total de 20 regiones, parámetro que también se puede tunear.**

In [100]:
NYC_latitude_range = (40.5774, 40.9176)
NYC_Longitude_range = (-74.15, -73.7004)
fig = plt.figure()
ax = fig.add_axes([0,0,1.5,1.5])
ax.scatter(x = dg3_new.Pickup_longitude.values[:70000], y = dg3_new.Pickup_latitude.values[:70000], c = dg3_new.Pickup_cluster.values[:70000], cmap = "Paired", s = 5)
ax.set_xlim(-74.10, -73.72)
ax.set_ylim(40.5774, 40.9176)
ax.set_title("Clusterin de New York City")
ax.set_xlabel('Longitude')
ax.set_ylabel('Latitude')
plt.show()

<IPython.core.display.Javascript object>