In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
from scipy.stats.stats import pearsonr  
from pandas.tseries.holiday import USFederalHolidayCalendar
from pandas.tseries.offsets import CustomBusinessDay
from datetime import datetime
import plotly.plotly as py
import matplotlib.pyplot as plt
import json
import branca.colormap as cm


plt.style.use('default') # Make the graphs a bit prettier
plt.rcParams['figure.figsize'] = (15, 5)

## Carga de CSVs

## A continuacion se realiza la carga de archivos a los dataframe correspondientes.

In [None]:
dfEstaciones =pd.read_csv('../CSVs/station.csv', thousands=',', low_memory=False)
dfClima=pd.read_csv('../CSVs/weather.csv', thousands=',', low_memory=False)
dfViajes = pd.read_csv('../CSVs/trip.csv', thousands=',', low_memory=False)
#Df creado por nuestro grupo con la informacion que queriamos analizar de Status.csv
dfTableID_DocksAvailable = pd.read_csv('../CSVs/tabla_id_dockAvailable.csv')

   # Filtrado de dfEstaciones

## El objetivo es simplemente ver la estructura del dataframe y saber que informacion nos puede brindar.

In [None]:
print (dfEstaciones.shape) 

In [None]:
dfEstaciones

In [None]:
dfEstaciones.dtypes

In [None]:
# No tenemos nullos
dfEstaciones.isnull().sum()

In [None]:
#Pasamos el campo installation_date al tipo datetime
dfEstaciones.installation_date = pd.to_datetime(dfEstaciones.installation_date, format = "%m/%d/%Y").dt.date

#Probamos si funciona correctamente
print (dfEstaciones.installation_date.min())
print (dfEstaciones.installation_date.max())

# Filtrado de df Status.csv

## status.csv era un archivo de 2GB el cual fue reducido a una tabla con la informacion que ibamos a utilizar, esta contiene la estaciones agrupadas por ID junto con los docks_available en promedio. 
## El objetivo es obtener un porcentaje, el cual represanta la utilidad de esa estacion, es decir que tanto se utilizan sus docks en relacion a los disponibles.

In [None]:
dfTableID_DocksAvailable.head()

In [None]:
dfEstaciones.head()

In [None]:
#Realizamos merge de dataframe 'dfEstaciones' con 'dfTableID_DocksAvailable' por ID de estacion
dfMerged = dfEstaciones.merge(dfTableID_DocksAvailable, left_on='id', right_on='station_id').drop('station_id', 1)
dfMerged

In [None]:
#Le damos un nombre mas significado al feature
dfMerged = dfMerged.rename(columns={'docks_available': 'mean_of_docks_available'})
dfMerged

In [None]:
#Obtenemos el porcentaje de utilidad de cada estacion
dfMerged['%_of_docks_usage'] = dfMerged.mean_of_docks_available/dfMerged.dock_count
dfMerged

In [None]:
dfMerged.to_csv('../CSVs//usagePercentagePerStation.csv')

# Filtrado de dfClima
## El objetivo es simplemente ver la estructura del dataframe y saber que informacion nos puede brindar.

In [None]:
dfClima

In [None]:
dfClima.shape

In [None]:
#Vemos que contiene muchos nulos
dfClima.isnull().sum()

In [None]:
#Pasamos a datetime
dfClima.date = pd.to_datetime(dfClima.date, format='%m/%d/%Y')

In [None]:
dfClima.head(10)

In [None]:
dfClima.events.unique()

In [None]:
#Limpio los datos bugeados, tenemos mucha informacion nula, la cual decidimos pasar a Normal
#Tambien corregi
dfClima.loc[dfClima.events == 'rain', 'events'] = "Rain"
dfClima.loc[dfClima.events.isnull(), 'events'] = "Normal"

In [None]:
# EL zip_code es el codigo postal para las 5 ciudades de la bahia
dfClima.zip_code.unique()

In [None]:
# Vemos cual de estos zip code tiene menos nulos
for zc in dfClima.zip_code.unique():
    print (dfClima[dfClima.zip_code == zc].isnull().sum())
    print ()

In [None]:
#Trabajamos con el zip_code == 94107, es el mas 'limpio' de nulos, dada la cercania de todas las ciudades 
#la informacion no puede ser muy cambiante entre estas, por lo cual consideramos valido filtrar por una en particular.
dfClimaLimpio = dfClima[dfClima.zip_code == 94107]
dfClimaLimpio.shape

In [None]:
dfClimaLimpio.events

In [None]:
#Transformamos el feature events, en un nuevo dataframe el cual añadiremos a dfClimaLimpio
events = pd.get_dummies(dfClimaLimpio.events)
events

In [None]:
#Mergeo los 2 data frames, eventos con dfClimaLimpio
dfClimaLimpio = dfClimaLimpio.merge(events, left_index = True, right_index = True)
#Saco los features que no voy a usar
dfClimaLimpio = dfClimaLimpio.drop(['events','zip_code'],1)

In [None]:
#Todavia tenemos nulos
dfClimaLimpio.isnull().sum()

In [None]:
#El campo max_gust_speed_mph no esta limpio todavia, lo trabajo
#Para cada valor de max_wind, busco la media de max_gust y la uso para rellenar los nulos.
dfClimaLimpio.loc[dfClimaLimpio.max_gust_speed_mph.isnull(), 'max_gust_speed_mph'] = \
                                dfClimaLimpio.groupby('max_wind_Speed_mph').\
                                max_gust_speed_mph.apply(lambda x: x.fillna(x.median()))

In [None]:
# Listo para usar
dfClimaLimpio.isnull().sum()

In [None]:
# el campo precipitation_inches lo deseamos de tipo numerico
dfClimaLimpio.dtypes

In [None]:
dfClimaLimpio.precipitation_inches


In [None]:
#Cambio el feature de string a numeric, los valores que son 'T' los cambio por NAN
dfClimaLimpio.precipitation_inches = pd.to_numeric(dfClimaLimpio.precipitation_inches, errors = 'coerce')

In [None]:
#Change null values to the median, of values > 0, because T, I think, means True. 
#Therefore we want to find the median amount of precipitation on days when it rained.
dfClimaLimpio.loc[dfClimaLimpio.precipitation_inches.isnull(), 'precipitation_inches'] = \
dfClimaLimpio[dfClimaLimpio.precipitation_inches.notnull()].precipitation_inches.median()

## Cambiamos unidades norteamericanas por unidades mks

In [None]:
# Cambiamos nombre de features
dfClimaLimpio=dfClimaLimpio.rename(columns={'max_temperature_f':'max_temperature_c', 'mean_temperature_f':'mean_temperature_c',\
            'max_dew_point_f':'max_dew_point_c','min_temperature_f':'min_temperature_c',\
            'mean_dew_point_f':'mean_dew_point_c','min_dew_point_f':'min_dew_point_c',\
            'max_sea_level_pressure_inches':'max_sea_level_pressure_cm','mean_sea_level_pressure_inches':'mean_sea_level_pressure_cm', \
            'min_sea_level_pressure_inches':'min_sea_level_pressure_cm','precipitation_inches':'precipitation_cm', \
            'max_visibility_miles':'max_visibility_km','mean_visibility_miles':'mean_visibility_km', \
            'min_visibility_miles':'min_visibility_km','max_wind_Speed_mph':'max_wind_Speed_kmh',\
            'mean_wind_speed_mph':'mean_wind_speed_kmh','max_gust_speed_mph':'max_gust_speed_kmh'})

In [None]:
#Aplicamos las funciones para el cambio de unidades
def farToCelsius(x):
    x = (x - 32 )/ 1.8
    return float(x)

def pulgToCm(x):
    x = x * 2.54
    return float(x)
def milesToKm (x):
    x = x* 1.60934
    return float(x)

dfClimaLimpio.max_temperature_c = dfClimaLimpio.max_temperature_c.apply(farToCelsius)
dfClimaLimpio.mean_temperature_c = dfClimaLimpio.mean_temperature_c.apply(farToCelsius)
dfClimaLimpio.min_temperature_c =dfClimaLimpio.min_temperature_c.apply(farToCelsius)
dfClimaLimpio.max_dew_point_c = dfClimaLimpio.max_dew_point_c.apply(farToCelsius)
dfClimaLimpio.mean_dew_point_c = dfClimaLimpio.mean_dew_point_c.apply(farToCelsius)
dfClimaLimpio.min_dew_point_c = dfClimaLimpio.min_dew_point_c.apply(farToCelsius)
dfClimaLimpio.max_sea_level_pressure_cm = dfClimaLimpio.max_sea_level_pressure_cm.apply(pulgToCm)
dfClimaLimpio.mean_sea_level_pressure_cm= dfClimaLimpio.mean_sea_level_pressure_cm.apply(pulgToCm)
dfClimaLimpio.min_sea_level_pressure_cm = dfClimaLimpio.min_sea_level_pressure_cm.apply(pulgToCm)
dfClimaLimpio.precipitation_cm = dfClimaLimpio.precipitation_cm.apply(pulgToCm)
dfClimaLimpio.max_visibility_km = dfClimaLimpio.max_visibility_km.apply(milesToKm)
dfClimaLimpio.mean_visibility_km = dfClimaLimpio.mean_visibility_km.apply(milesToKm)
dfClimaLimpio.min_visibility_km = dfClimaLimpio.min_visibility_km.apply(milesToKm)
dfClimaLimpio.max_wind_Speed_kmh = dfClimaLimpio.max_wind_Speed_kmh.apply(milesToKm)
dfClimaLimpio.mean_wind_speed_kmh = dfClimaLimpio.mean_wind_speed_kmh.apply(milesToKm)
dfClimaLimpio.max_gust_speed_kmhh = dfClimaLimpio.max_gust_speed_kmh.apply(milesToKm)



dfClimaLimpio

Analisis de Estaciones de llegadas en climas calurosos

In [None]:
#Objetivo: Posible construccion de estacion de bebidas para los bikers
#Concideramos solo el ZipCode 94107. La variacion de temperaturas entre zipcodes la concideramos despreciable
#Creamos nuevos DataFrames con los datos que nos interesan, para trabajar mas comodamente.

data = {'date' : dfClimaLimpio['date'],'max_temperature_c' : dfClimaLimpio['max_temperature_c'],
     'mean_temperature_c' : dfClimaLimpio['mean_temperature_c'],'min_temperature_c' : dfClimaLimpio['min_temperature_c'],
       'max_dew_point_c': dfClimaLimpio['max_dew_point_c'], 'mean_dew_point_c': dfClimaLimpio['mean_dew_point_c'],
       'min_dew_point_c':dfClimaLimpio['min_dew_point_c']}
clima = pd.DataFrame(data = data)
clima

In [None]:
d = {'date' : dfViajes['end_date'], 'end_station_name' : dfViajes['end_station_name'],
     'subscription_type' : dfViajes['subscription_type']}
viajes = pd.DataFrame(data = d)
#¿Por que tantos datetime?
#Porque el primero es para transformar el Object a datetime, despues al quedarme con solo la fecha lo vuelve a transformar
# en Object. Y para transformar ese object uso otro datetime.
viajes.date = pd.to_datetime(dfViajes.end_date,format = '%m/%d/%Y %H:%M')
viajes.date = viajes.date.dt.date
viajes.date = pd.to_datetime(viajes.date,format = '%Y-%m-%d')
viajes

In [None]:
#Filtro por Clima caluroso = Temperatura maxima mayora 30ºC.
climaCaluroso = clima[clima['max_temperature_c'] > 30]
climaCaluroso

In [None]:
#Uno los viajes con los climas, correspondiente a las fechas de cada viaje
viajesCalurosos = pd.merge(viajes,climaCaluroso,on='date',how='inner')
viajesCalurosos

In [None]:
#Agrupamos por estaciones y contamos la cantidad de viajes que tuvo cada estacion (contamos por date)
viajesCalurosos.groupby(viajesCalurosos.end_station_name).count().sort_values(by='date',ascending = False)

# Filtrado de dfViajes
## El objetivo es simplemente ver la estructura del dataframe y saber que informacion nos puede brindar.

In [None]:
dfViajes.isnull().sum()

In [None]:
# El tamaño es manejable
dfViajes.shape

In [None]:
dfViajes

In [None]:
#Duracion de todos los viajes
dfViajes.duration.describe()

In [None]:
# Lo paso a minutos y el promedio de viaje
dfViajes.duration /=60

In [None]:
dfViajes.duration.describe()

Cantidad de viajes: 669959

In [None]:
dfViajes.dtypes

In [None]:
#Transformar de Object a DateTime
#El Date Time almacena YYYY-mm-dd
dfViajes.start_date = pd.to_datetime(dfViajes.start_date,format = '%m/%d/%Y %H:%M')
dfViajes.end_date = pd.to_datetime(dfViajes.end_date,format = '%m/%d/%Y %H:%M')

In [None]:
dfViajes2 = dfViajes

# A PARTIR DE ACA COMIENZA EL ANALISIS EXPLORATORIO DE LA INFORMACION

## (PARTE MARTIN)
### Objetivos: Analizar la distribucion de viajes en cada estacion, que tan usadas son las estaciones tanto de salida como de llegada. Observar la cantidad de viajes totales en cada hora del dia para saber cual es el horario donde mas usuarios usan las bicicletas. Duracion de los viajes en los distintos meses del año, 

In [None]:
#Primera vision para ver cuales de las estaciones fueron las mas usadas para la salida
#Podemos contar la cantidad de viajes solicitados en la Estacion mediante los datos del ID.
grupoStartStation = dfViajes.groupby(dfViajes['start_station_name']).count()
grupoStartStation.sort_values(by='id',ascending = False)

In [None]:
#Primera vision para ver cuales de las estaciones fueron las mas usadas para la llegada
#Podemos contar la cantidad de viajes solicitados en la Estacion mediante los datos del ID.
grupoStartStation = dfViajes.groupby(dfViajes['end_station_name']).count()
grupoStartStation.sort_values(by='id',ascending = False)

In [None]:
#23981 estaciones fueron simultaneamente estaciones de LLegada y Salida. 
#La mayoria de las estaciones fueron unicamente de Llegada o Salida
grupoEstacionesIguales = dfViajes[(dfViajes['start_station_name'] == (dfViajes['end_station_name']))]
grupoEstacionesIguales

In [None]:
#Para los Viajes donde sus estaciones de llegada y salida son diferentes, estas son las estaciones de salida mas usadas.
grupoViajesDeEstacionesDiferentes = dfViajes[(dfViajes['start_station_name'] != (dfViajes['end_station_name']))]
ordenado = grupoViajesDeEstacionesDiferentes.groupby(dfViajes['start_station_name']).count().sort_values(by='id',ascending = False)
ordenado

In [None]:
#Para los Viajes donde sus estaciones de llegada y salida son iguales, estas son las estaciones de salida mas usadas.
grupoViajesDeEstacionesIguales = dfViajes[(dfViajes['start_station_name'] == (dfViajes['end_station_name']))]
ordenado = grupoViajesDeEstacionesIguales.groupby(dfViajes['start_station_name']).count().sort_values(by='id',ascending = False)
ordenado

In [None]:
#Estaciones de salida.Franja Horaria Desde las 06 hasta las 12
grupoSalidaManiana = dfViajes[(dfViajes.start_date.dt.hour > 6 )&(dfViajes.start_date.dt.hour < 12)]
grupoSalidaManiana

In [None]:
#Agrupo por Estacion y cuento la cantidad de ID de viaje en el grupo para saber cuantas veces fue usada una estacion salida
salida1 = grupoSalidaManiana.groupby(grupoSalidaManiana['start_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de salidas desde 06:00hs a 12:00hs')
plt.ylabel('numero de salidas')
plt.xlabel('estacion de salida')
salida1.head(5).plot(kind = 'bar')
plt.show()

In [None]:
#Estaciones de salida.Franja Horaria Desde las 12 hasta las 14
grupoSalidaMediodia = dfViajes[(dfViajes.start_date.dt.hour > 12 )&(dfViajes.start_date.dt.hour < 14)]
salida2 = grupoSalidaMediodia.groupby(grupoSalidaMediodia['start_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de salidas desde 12:00hs a 14:00hs')
plt.ylabel('numero de salidas')
plt.xlabel('estacion de salida')
salida2.head(5).plot(kind = 'bar')
plt.show()

In [None]:
#Estaciones de salida.Franja Horaria Desde las 14  hasta las 19
grupoSalidaTarde = dfViajes[(dfViajes.start_date.dt.hour > 14 )&(dfViajes.start_date.dt.hour < 19)]
salida3 = grupoSalidaTarde.groupby(grupoSalidaTarde['start_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de salidas desde 14:00hs a 19:00hs')
plt.ylabel('numero de salidas')
plt.xlabel('estacion de salida')
salida3.head(5).plot(kind = 'bar')
plt.show()

In [None]:
#Estaciones de salida.Franja Horaria Desde las 19  hasta las 00
grupoSalidaNoche = dfViajes[(dfViajes.start_date.dt.hour > 19)]
salida4 = grupoSalidaNoche.groupby(grupoSalidaNoche['start_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de salidas desde 19:00hs a 00:00hs')
plt.ylabel('numero de salidas')
plt.xlabel('estacion de salida')
salida4.head(5).plot(kind = 'bar')
plt.show()

In [None]:
#Estaciones de salida.Franja Horaria Desde las 00 hasta las 6
grupoSalidaTransnoche = dfViajes[(dfViajes.start_date.dt.hour < 6)]
salida5 = grupoSalidaTransnoche.groupby(grupoSalidaTransnoche['start_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de salidas desde 00:00hs a 6:00hs')
plt.ylabel('numero de salidas')
plt.xlabel('estacion de salida')
salida5.head(5).plot(kind = 'bar')
plt.show()

In [None]:
#Estaciones de llegada.Franja Horaria Desde las 06 hasta las 12
grupoLlegadaManiana = dfViajes[(dfViajes.end_date.dt.hour > 6 )&(dfViajes.end_date.dt.hour < 12)]
llegada1 = grupoLlegadaManiana.groupby(grupoLlegadaManiana['end_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de arrivos desde 06:00hs a 12:00hs')
plt.ylabel('numero de arrivos')
plt.xlabel('estacion de llegada')
llegada1.head(5).plot(kind = 'bar')
plt.show()

In [None]:
#Estaciones de llegada.Franja Horaria Desde las 12 hasta las 14
grupoLlegadaMediodia = dfViajes[(dfViajes.end_date.dt.hour > 12 )&(dfViajes.end_date.dt.hour < 14)]
llegada2 = grupoLlegadaMediodia.groupby(grupoLlegadaMediodia['end_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de arrivos desde 12:00hs a 14:00hs')
plt.ylabel('numero de arrivos')
plt.xlabel('estacion de llegada')
llegada2.head(5).plot(kind = 'bar')
plt.show()

In [None]:
#Estaciones de llegada.Franja Horaria Desde las 14 hasta las 19
grupoLlegadaTarde = dfViajes[(dfViajes.end_date.dt.hour > 14 )&(dfViajes.end_date.dt.hour < 19)]
llegada3 = grupoLlegadaTarde.groupby(grupoLlegadaTarde['end_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de arrivos desde 14:00hs a 19:00hs')
plt.ylabel('numero de arrivos')
plt.xlabel('estacion de llegada')
llegada3.head(5).plot(kind = 'bar')
plt.show()

In [None]:
#Estaciones de salida.Franja Horaria Desde las 19 hasta las 00
grupoLlegadaNoche = dfViajes[(dfViajes.end_date.dt.hour > 19)]
llegada4 = grupoLlegadaNoche.groupby(grupoLlegadaNoche['end_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de arrivos desde 19:00hs a 00:00hs')
plt.ylabel('numero de arrivos')
plt.xlabel('estacion de llegada')
llegada4.head(5).plot(kind = 'bar')
plt.show()

In [None]:
#Estaciones de llegada.Franja Horaria Desde las 00 hasta las 6
grupoLlegadaTransnoche = dfViajes[(dfViajes.end_date.dt.hour < 6)]
llegada5 = grupoLlegadaTransnoche.groupby(grupoLlegadaTransnoche['end_station_name']).count().sort_values(by='id',ascending = False).id
plt.title('Cantidad de arrivos desde 00:00hs a 06:00hs')
plt.ylabel('numero de arrivos')
plt.xlabel('estacion de llegada')
llegada5.head(5).plot(kind = 'bar')
plt.show()

In [None]:
dfViajes['hour'] = dfViajes.start_date.dt.hour
#averiguamos cuantos viajes se hicieron por hora
viajesHora = {}
for d in dfViajes.hour:
    if d not in viajesHora:
        viajesHora[d] = 1
    else:
        viajesHora[d] += 1
viajesHora

In [None]:
#Grafico de la cantidad de viajes totales en funcion de las horas.
viajesPorHora = pd.DataFrame.from_dict(viajesHora, orient = 'index')
plt.title('Cantidad de Viajes por franja horaria')
plt.xlabel('horas del dia')
plt.xlim(0,23)
plt.ylabel('viajes totales')
indice = np.arange(24)
valores = ['0:00','1:00','2:00','3:00','4:00','5:00','6:00','7:00','8:00','9:00','10:00','11:00','12:00',
           '13:00','14:00','15:00','16:00','17:00','18:00','19:00','20:00','21:00','22:00','23:00']
plt.xticks(indice,valores)
plt.plot(viajesPorHora)
plt.show()

In [None]:
#PARA CADA MES CALCULAR LA DURACION PROMEDIO
import calendar
plt.ion()
meses = calendar.month_name[1:13]
indice = np.arange(12)
duracionPromedioMeses = np.arange(12,dtype=np.float)
dfViajes['month']= dfViajes.start_date.dt.month
for i in duracionPromedioMeses:
    dfViajesMes = dfViajes[dfViajes['month'] == (i + 1)]
    promedioMes = dfViajesMes.duration.mean()
    duracionPromedioMeses[i] = promedioMes
plt.title('Average length of travel according to months of the year')
plt.xlabel('Months')
plt.ylabel('Average duration (minutes)')
plt.xticks(indice,meses, size = 'small', color = 'b', rotation = 45)
plt.plot(duracionPromedioMeses)
plt.show()

## PARTE TURI

## A partir de los graficos que obtengamos voy a proponer un objetivo claro.

In [None]:
dfViajes['date'] = dfViajes.start_date.dt.date
# Averiguamos cuantos viajes se hicieron por dia
dates = {}
for d in dfViajes.date:
    if d not in dates:
        dates[d] = 1
    else:
        dates[d] += 1
dates

In [None]:

dfCantViajes = pd.DataFrame.from_dict(dates, orient = "index")
dfCantViajes['date'] = dfCantViajes.index
dfCantViajes['viajes'] = dfCantViajes.ix[:,0]
dfSF_Bay = dfCantViajes.ix[:,1:3]
dfSF_Bay = dfSF_Bay.sort_values('date') #Ordeno por fecha
dfSF_Bay.reset_index(drop = True, inplace = True) # Queda mas prolijo con indice de 0 a ...
dfSF_Bay

In [None]:
print((dfCantViajes).info()) 

In [None]:
print((dfViajes).info()) 


In [None]:
#Hacemos un merge, para obtener los viajes con el clima
dfSF_Bay = dfSF_Bay.merge(dfClimaLimpio, on = dfSF_Bay.date)
dfSF_Bay

In [None]:
dfSF_Bay['date'] = dfSF_Bay['date_x']
dfSF_Bay.drop(['date_y','date_x'],1, inplace= True)
#Limpio esos features repetidos

In [None]:
dfSF_Bay #todo ok

## Si no usamos total_docks hay que borrarlo

In [None]:
total_docks = []
for day in dfSF_Bay.date:
    total_docks.append(sum(dfEstaciones[dfEstaciones.installation_date <= day].dock_count))

In [None]:
dfSF_Bay['total_docks'] = total_docks

In [None]:
dfSF_Bay

In [None]:
#Buscamos los feriados en el calendario estadounidense
calendar = USFederalHolidayCalendar()
holidays = calendar.holidays(start=dfSF_Bay.date.min(), end=dfSF_Bay.date.max())
holidays

In [None]:
#Buscamos los dias laborables en el calendario estadounidense
us_bd = CustomBusinessDay(calendar=USFederalHolidayCalendar())
business_days = pd.DatetimeIndex(start=dfSF_Bay.date.min(), end=dfSF_Bay.date.max(), freq=us_bd)

In [None]:
business_days = pd.to_datetime(business_days, format='%Y/%m/%d').date
holidays = pd.to_datetime(holidays, format='%Y/%m/%d').date

In [None]:
# Lo agregamos al dataframe
dfSF_Bay['business_day'] = dfSF_Bay.date.isin(business_days)
dfSF_Bay['holiday'] = dfSF_Bay.date.isin(holidays)
dfSF_Bay

In [None]:
dfSF_Bay.dtypes

In [None]:
#Convert True to 1 and False to 0
dfSF_Bay.business_day = dfSF_Bay.business_day.map(lambda x: 1 if x == True else 0)
dfSF_Bay.holiday = dfSF_Bay.holiday.map(lambda x: 1 if x == True else 0)
dfSF_Bay

In [None]:
#Convert date to the important features, year, month, weekday (0 = Monday, 1 = Tuesday...)
#We don't need day because what it represents changes every year.
dfSF_Bay['year'] = pd.to_datetime(dfSF_Bay['date']).dt.year
dfSF_Bay['month'] = pd.to_datetime(dfSF_Bay['date']).dt.month
dfSF_Bay['weekday'] = pd.to_datetime(dfSF_Bay['date']).dt.weekday


## DFTIMELINE

In [None]:
dfTimeline = pd.DataFrame(columns=['name','Inauguracion','Uso_de_Estacion_P','Salida_P','Entrada_P'])
dfTimeline.name = dfEstaciones.name
dfTimeline.Inauguracion = dfEstaciones.installation_date
dfTimeline = pd.merge(dfTimeline, dfRanking, on='name', how='inner')
dfTimeline.Inauguracion = pd.to_datetime(dfTimeline.Inauguracion, format = "%Y/%m/%d")

dfTimeline = pd.merge(dfTimeline, dfEstaciones, on='name', how='inner')
del dfTimeline['installation_date']


In [None]:
bicicletasQueSalieron = dfTimeline.bicicletas_que_salieron.sum()
bicicletasQueEntraron = dfTimeline.bicicletas_que_entraron.sum()
bicicletasPromedio = dfTimeline.promedio.sum()

dfTimeline.Uso_de_Estacion_P = dfTimeline.promedio.apply(lambda x: (100*x)/bicicletasPromedio)
dfTimeline.Salida_P = dfTimeline.bicicletas_que_salieron.apply(lambda x: float((100*x)/bicicletasQueSalieron))
dfTimeline.Entrada_P = dfTimeline.bicicletas_que_entraron.apply(lambda x: float((100*x)/bicicletasQueEntraron))


In [None]:
dfTimeline.sort_values(by='promedio')


In [None]:
dfSF_BayHeatmap1 = dfSF_Bay.loc[:,['viajes','max_dew_point_c','mean_temperature_c','mean_humidity','precipitation_cm','mean_visibility_km','mean_wind_speed_kmh']].corr()
dfSF_BayHeatmap2 =dfSF_Bay.loc[:,['viajes','Fog','Fog-Rain','Normal','Rain']].corr()

In [None]:
dfSF_BayHeatmap2

# PLOT ZONE, MOMENTANEA, LA IDEA ES HACER ANALISIS Y PLOT JUNTO NO SEPARADO

In [None]:
import plotly 
import plotly.graph_objs as go
import plotly.plotly as py
from plotly.graph_objs import *
plotly.offline.init_notebook_mode()
plotly.tools.set_credentials_file(username='AARdfSF_Bay', api_key='XFLHonutbTpz1cZ77dcl')



In [None]:
dfTimeline = dfTimeline.sort_values(by= 'Salida_P')
data = [
    go.Bar(
        x=dfTimeline.Salida_P, # assign x as the dataframe column 'x'
        y=dfTimeline.name,
        orientation='h',
        
    )
]


url = plotly.offline.iplot(data, filename='pandas-horizontal-bar')



In [None]:
dfTimeline = dfTimeline.sort_values(by= 'Uso_de_Estacion_P')
data = [
    go.Bar(
        x=dfTimeline.Uso_de_Estacion_P, # assign x as the dataframe column 'x'
        y=dfTimeline.name,
        orientation='h',
        
    )
]

url = plotly.offline.iplot(data, filename='pandas-horizontal-bar')


In [None]:
dfTimeline = dfTimeline.sort_values(by='Inauguracion')
data = [
    go.Bar(
        x=dfTimeline.Uso_de_Estacion_P, # assign x as the dataframe column 'x'
        y=dfTimeline.Inauguracion,
        orientation='h',
        
    )
]

url = plotly.offline.iplot(data, filename='pandas-horizontal-bar')


In [None]:
dfTimeline = dfTimeline.sort_values(by='Inauguracion')
data = [
    go.Bar(
        x=dfTimeline.Uso_de_Estacion_P, # assign x as the dataframe column 'x'
        y=dfTimeline.city,
        orientation='h',
        
    )
]

url = plotly.offline.iplot(data, filename='pandas-horizontal-bar')


In [None]:
data = [go.Heatmap( z=dfTimeline.values.tolist(),y=dfTimeline.Salida_P.values.tolist(), colorscale='Viridis')]
url = plotly.offline.iplot(data, filename='pandas-heatmap')

In [None]:

trace = go.Heatmap(z=[dfSF_Bay.max_temperature_c.values.tolist()],
                   x=[dfSF_Bay.month.values.tolist()],
                    y=[dfSF_Bay.min_temperature_c.values.tolist()],
                    colorscale='Virdis')


data=[trace]
url = plotly.offline.iplot(data, filename='pandas-heatmap')

In [None]:

data = [
    go.Bar(
        x=dfTimeline.promedio, # assign x as the dataframe column 'x'
        y=dfTimeline.Inauguracion,
        orientation='h',
    )
]

# IPython notebook
# py.iplot(data, filename='pandas-horizontal-bar')

url = plotly.offline.iplot(data, filename='pandas-horizontal-bar')

data = [go.Histogram(y=dfTimeline.promedio,x=dfTimeline.Inauguracion)]

In [None]:
%matplotlib nbagg


In [None]:
dfSF_Bay.plot.scatter('viajes','weekday',alpha=0.25,figsize=(12,8));

In [None]:
import seaborn as sns
fig, ax = plt.subplots(figsize=(16,5));        # Sample figsize in inches
cor = dfSF_BayHeatmap2.abs()
cor.values[[np.arange(5)]*2] = 0
sns.heatmap(cor,cmap='Oranges');

In [None]:
fig, ax = plt.subplots(figsize=(16,5));        # Sample figsize in inches
cor = dfSF_BayHeatmap1.abs()
cor.values[[np.arange(7)]*2] = 0
sns.heatmap(cor,cmap='Oranges');

# PARTE MATIAS

In [None]:
latPromedio = dfEstaciones.lat.mean()
longPromedio = dfEstaciones.long.mean()
cantidadTotalDeBicicletasSoportadas = dfEstaciones.dock_count.sum()
print cantidadTotalDeBicicletasSoportadas

In [None]:
map1 = folium.Map(location=[latPromedio, longPromedio], tiles = "Stamen Terrain")
map1Copy = folium.Map(location=[latPromedio, longPromedio], tiles = "Stamen Terrain")
map2 = folium.Map(location=[latPromedio, longPromedio], tiles = "Stamen Terrain")
startStationMap = folium.Map(location=[latPromedio, longPromedio], tiles = "Stamen Terrain")
viajesEntreEstacionesMap = folium.Map(location=[latPromedio, longPromedio], tiles = "Stamen Terrain")

In [None]:
grupoDeUbicaciones = folium.FeatureGroup(name='Ubicación de estaciones 1')
for lat, lon, nombre in zip(dfEstaciones.lat, dfEstaciones.long, dfEstaciones.name):
    grupoDeUbicaciones.add_child(folium.Marker(location=[lat,lon], popup=nombre))
    
map1.add_child(grupoDeUbicaciones)

In [None]:
# Ahora intento version con MarkerCluster
# map1Copy.add_child(folium.MarkerCluster(locations=list(zip(dfEstaciones.long, dfEstaciones.lat))))

clusterDeUbicaciones = folium.MarkerCluster().add_to(map1Copy)
for lat, lon, nombre in zip(dfEstaciones.lat, dfEstaciones.long, dfEstaciones.name):
    folium.Marker(location=[lat,lon], popup=nombre).add_to(clusterDeUbicaciones)
    
# map1.add_child(grupoDeUbicaciones)
map1Copy

In [None]:
grupoDeUbicacionesConCantidades = folium.FeatureGroup(name='Ubicación de estaciones')
for lat, lon, nombre, cantidadDeBicicletasSoportadas in zip(dfEstaciones.lat, dfEstaciones.long, dfEstaciones.name, dfEstaciones.dock_count):
    grupoDeUbicacionesConCantidades.add_child(folium.CircleMarker(location=[lat,lon], popup=nombre, 
                                                     radius=cantidadDeBicicletasSoportadas, 
                                                     fill_color='#b3ffb3', color='#00ff00'))
    
map2.add_child(grupoDeUbicacionesConCantidades)

In [None]:
dfStartStationCount = dfViajes[['id', 'start_station_id']].groupby(by='start_station_id', as_index=False)\
                                                .count().rename(columns={'id': 'cantidad_de_partidas'})
dfStartStationCount

In [None]:
dfPartidas = dfEstaciones[['id', 'lat', 'long', 'name']].merge(pd.DataFrame(dfStartStationCount), \
         left_on='id', right_on='start_station_id', how='right')
dfPartidas

In [None]:
cantidad_de_partidas_maxima = dfPartidas.cantidad_de_partidas.max()
cantidad_de_partidas_maxima

In [None]:
grupoDeUbicacionesConCantidadesDePartidas = folium.FeatureGroup(name='Ubicación de estaciones con infor de #partidas')
for lat, lon, nombre, cant in zip(dfPartidas.lat, dfPartidas.long, dfPartidas.name, dfPartidas.cantidad_de_partidas):
    grupoDeUbicacionesConCantidadesDePartidas.add_child(folium.CircleMarker(location=[lat,lon], popup=nombre, 
                                                     radius=cant/1000,
                                                     fill_color='#8A2BE2', color='#00ff00'))
    
startStationMap.add_child(grupoDeUbicacionesConCantidadesDePartidas)

In [None]:
# df = pd.DataFrame(columns=['start_station_id', 'start_station_lat', 'start_station_lon',
#                            'end_station_id', 'end_station_lat', 'end_station_lon'])
# df.start_station_id = dfViajes.start_station_id
# df
# dfStartStationCount['start_station_lat'] = dfEstaciones['lat']
# dfStartStationCount['start_station_lon'] = dfEstaciones['long']
# dfStartStationCount['name'] = dfEstaciones['name']
# for idEstacionSalida in dfStartStationCount.index.tolist():
#     dfStartStationCount['start_station_lat'] = dfEstaciones.loc[dfEstaciones.id == idEstacionSalida, 'lat'] 
# dfStartStationCount

In [None]:
# grupoDeUbicacionesConCantidades = folium.FeatureGroup(name='Ubicación de estaciones')
# for lat, lon, nombre, cantidadDeBicicletasSoportadas in zip(dfEstaciones.lat, dfEstaciones.long, dfEstaciones.name, dfEstaciones.dock_count):
#     grupoDeUbicacionesConCantidades.add_child(folium.CircleMarker(location=[lat,lon], popup=nombre, 
#                                                      radius=cantidadDeBicicletasSoportadas, 
#                                                      fill_color='#b3ffb3', color='#00ff00'))
    
# map2.add_child(grupoDeUbicacionesConCantidades)

In [None]:
dfViajesEntreEstaciones = dfViajes[['id', 'start_station_id', 'end_station_id']]\
        .groupby(by=['start_station_id', 'end_station_id'], as_index=False)\
        .count().rename(columns={'id': 'cantidad'})
dfViajesEntreEstaciones

In [None]:
dfViajesEntreEstaciones = dfViajesEntreEstaciones.merge(right=dfEstaciones[['lat', 'long', 'id', 'name']], \
                              left_on='start_station_id', right_on='id')\
                            .drop(['id'], 1).rename(columns={'lat': 'start_station_lat', 'long': \
                                                          'start_station_long', 'name': 'start_station_name'})

In [None]:
dfViajesEntreEstaciones = dfViajesEntreEstaciones.merge(right=dfEstaciones[['lat', 'long', 'id', 'name']], \
                              left_on='end_station_id', right_on='id')\
                            .drop(['id'], 1).rename(columns={'lat': 'end_station_lat', 'long': \
                                                          'end_station_long', 'name': 'end_station_name'})
dfViajesEntreEstaciones.sort_values(by='cantidad', ascending=True)

In [None]:
dfViajesEntreEstaciones.cantidad.describe()

In [None]:
maxCantidadDeViajes = dfViajesEntreEstaciones.cantidad.max()
promedioCantidadDeViajes = dfViajesEntreEstaciones.cantidad.mean()
dfViajesEntreEstaciones.cantidad.max()

In [None]:
# colores = cm.LinearColormap(['green', 'orange', 'red'], vmax=maxCantidadDeViajes, 
#                   index=[0, promedioCantidadDeViajes, maxCantidadDeViajes])

# colores = cm.LinearColormap(['red', 'orange', 'yellow', 'green'], vmax = maxCantidadDeViajes)

colores = cm.StepColormap(['green', 'yellow', 'magenta', 'red'],
                       vmin=1, vmax=maxCantidadDeViajes, index=[1, 71.5, 191, 440, maxCantidadDeViajes],
                       caption='step')
colores.caption = 'Cantidad de viajes entre estaciones'
# colores = cm.linear.Set1.scale(0, maxCantidadDeViajes).to_step(
# #     n=4,
#     index=[1, 71.5, 191, 440, 6216],
# #     method='quantiles',
# #     round_method='int'
# )
# colores.to_linear()
colores2 = cm.linear.YlGn.scale(0, 6000)
#colores3 = cm.linear.RdGy.to_step(100).scale(0, 6000)


colores2

In [None]:
linesMap = folium.Map(location=[latPromedio, longPromedio], tiles = "Stamen Terrain")
linesMap.add_child(colores2)

In [None]:
clusterDeUbicaciones = folium.MarkerCluster().add_to(linesMap)
for lat, lon, nombre in zip(dfEstaciones.lat, dfEstaciones.long, dfEstaciones.name):
    folium.Marker(location=[lat,lon], popup=nombre).add_to(clusterDeUbicaciones)

In [None]:
for startLat, startLon, startName, endLat, endLon, endName, cant in zip(dfViajesEntreEstaciones.start_station_lat,\
                                                                       dfViajesEntreEstaciones.start_station_long,\
                                                                       dfViajesEntreEstaciones.start_station_name,\
                                                                       dfViajesEntreEstaciones.end_station_lat,\
                                                                       dfViajesEntreEstaciones.end_station_long,\
                                                                       dfViajesEntreEstaciones.end_station_name,\
                                                                       dfViajesEntreEstaciones.cantidad):
    folium.PolyLine(locations=[(startLat, startLon), (endLat, endLon)], color=colores2(cant), weight=3, opacity=1).add_to(linesMap)
#     linesMap.add_child(c)
    
# startStationMap.add_child(grupoDeViajesEntreEstaciones)
linesMap

In [None]:
lat = +38.89399
lon = -77.03659
zoom_start = 17

m = folium.Map(location=[lat, lon], zoom_start=zoom_start)

kw = dict(fill_color='red', radius=20)
c0 = folium.CircleMarker([38.89415, -77.03738], **kw)
c1 = folium.CircleMarker([38.89415, -77.03578], **kw)


locations = [[(38.893596444352134, -77.03814983367920), (38.893379333722040, -77.03792452812195)],
             [(38.893379333722040, -77.03792452812195), (38.893162222428310, -77.03761339187622)],
             [(38.893162222428310, -77.03761339187622), (38.893028615148424, -77.03731298446655)],
             [(38.893028615148424, -77.03731298446655), (38.892920059048464, -77.03691601753235)],
             [(38.892920059048464, -77.03691601753235), (38.892903358095296, -77.03637957572937)],
             [(38.892903358095296, -77.03637957572937), (38.893011914220770, -77.03592896461487)],
             [(38.893011914220770, -77.03592896461487), (38.893162222428310, -77.03549981117249)],
             [(38.893162222428310, -77.03549981117249), (38.893404384982480, -77.03514575958252)],
             [(38.893404384982480, -77.03514575958252), (38.893596444352134, -77.03496336936950)]]

c3 = folium.PolyLine(locations=locations, color='orange', weight=30, opacity=1)

for c in [c0, c1, c3]:
    m.add_child(c)

m