# Ondřej Janek: Ondra J.#0489 

## Knihovny a vytvoření dataframe

In [None]:
!pip install pymysql
!pip install h3

In [None]:
from sqlalchemy import create_engine
import pandas as pd
import pymysql
import altair as alt
from itertools import combinations
import h3
import plotly.express as px

In [None]:
engine = create_engine("mysql+pymysql://data-student:u9AB6hWGsNkNcRDm@data.engeto.com:3306/data_academy_04_2022")
query = 'SELECT * FROM edinburgh_bikes'

df = pd.read_sql(sql = query, con = engine)

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.describe()

In [None]:
df.info()

In [None]:
df.columns.tolist()

## Identifikace  aktivních a neaktivních stanic

Jako neaktivní stanice jsem definoval ty, které nebyly použity poslední 2 měsíce.

In [None]:
df["started_at"] = pd.to_datetime(df["started_at"])
df["ended_at"] = pd.to_datetime(df["ended_at"])

In [None]:
df['end_at'].max()

In [None]:
# Počet stanic v celém dataframu
len(df['end_station_id'].unique())

In [None]:
# Počet aktivních stanic za poslední 2 měsíce
df_active = df[df['ended_at'] >= '2021-05-01 00:20:36']
len(df_active['end_station_id'].unique())

In [None]:
# Aktivní stanice
stations = list(df_active['end_station_id'].unique())
df_active_stations = df[df['end_station_id'].isin(stations)]
df_active_stations.drop_duplicates(subset='end_station_id')[['end_station_name','end_station_description']]

In [None]:
# Neaktivní stanice
df_inactive_stations = df[~df['end_station_id'].isin(stations)]
df_inactive_stations.drop_duplicates(subset='end_station_id')[['end_station_name','end_station_description']]

## Identifikace nejfrekventovanějších stanic


In [None]:
# Funkce bere jako argumenty dataframe a název sloupce. 
# Vrací DF se stanicemi a počtem výpujček nebo vrácení.
# Místo dataframe může vrátit i graf.
def count_stations(dataframe,column_name, graph = 'no'):
  dataframe['rents_num'] = dataframe.groupby(dataframe[column_name])[column_name].transform('count')
  df_frequent = dataframe[[column_name,column_name[:-3]+'_name','rents_num']]
  df_frequent = df_frequent.sort_values(by= 'rents_num', ascending= False).drop_duplicates(subset=column_name)
  if graph == 'no':
    return df_frequent
  elif graph == 'yes':
    return alt.Chart(df_frequent.head(10), title='The busiest stations').mark_bar(size=16).encode(
              x=alt.X('rents_num:Q', title='Number of rents'),
              y=alt.Y(column_name[:-3]+'_name:O', title='Stations', sort= '-x'),
              tooltip=[alt.Tooltip(column_name[:-3]+'_name:O', title="Station name"),
                       alt.Tooltip('rents_num:Q', title="Number of rents")]
          ).properties(height=300)

count_stations(df,'start_station_id')   

In [None]:
count_stations(df,'end_station_id', graph='yes')  

In [None]:
# Získej počáteční a konečné stanice
df_start = count_stations(df,'start_station_id')
df_end = count_stations(df,'end_station_id')

In [None]:
# Průnik 10 nejfrekventovanějších počátečních a konečných stanic
df_intersected = df_start.head(10).merge(df_end.head(10),
                                         left_on='start_station_name',
                                         right_on='end_station_name')[['start_station_name', 'rents_num_x', 'rents_num_y']]

pd.DataFrame(df_intersected).rename(columns={'rents_num_x':'as_start_station',
                                             'rents_num_y':'as_end_station',
                                             'start_station_name':'station_name'})

In [None]:
# Nejfrekventovanější stanice podle celkové sumy výpůjček a vrácení
df_sum = df_start.merge(df_end, 
                        left_on='start_station_name', 
                        right_on='end_station_name')[['start_station_name', 'rents_num_x', 'rents_num_y']]

df_sum['rents_sum'] = df_sum['rents_num_y'] + df_sum['rents_num_x']
df_sum = df_sum.sort_values(by='rents_sum', ascending=False).rename(columns={'start_station_name':'station_name',
                                                                    'rents_num_y':'as_end_station',
                                                                    'rents_num_x':'as_start_station'}).head(10)
df_sum


In [None]:
# Vykreslení nejfrekventovanějších stanic na mapě
stations = df_sum['station_name'].tolist()

df_frequent_map =  df.loc[df['start_station_name'].isin(stations)].drop_duplicates('start_station_name')
fig = px.scatter_mapbox(df_frequent_map, lat="start_station_latitude", lon="start_station_longitude",
                                     hover_name="start_station_name", zoom=11, height=600)
fig.update_layout(mapbox_style="open-street-map")
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

## Stanice, na kterých se kola hromadí a stanice, kde potenciálně chybí

In [None]:
# Získání rozdílu mezi vypůjčenými a vrácenými koly
df_diff = df[['start_station_id', 'end_station_id']].apply(pd.Series.value_counts).reset_index()
df_diff.rename(columns={'start_station_id':'start_station_count',
                        'end_station_id'  :'end_station_count',
                        'index'           :'station_id'},
                         inplace = True)

df_diff['difference'] = df_diff['end_station_count'].fillna(0) - df_diff['start_station_count'].fillna(0)
df_diff = df_diff.merge(df, left_on='station_id',right_on='start_station_id').drop_duplicates('station_id')
df_diff = df_diff[['start_station_name','start_station_count','end_station_count','difference']].rename(
        columns={'start_station_name':'station_name'}).sort_values(by='difference',ascending=False)

df_diff

In [None]:
# Stanice na kterých se kola hromadí.
df_diff[df_diff['difference'] > 0][['station_name','difference']].sort_values(by='difference', ascending=False)

In [None]:
# Stanice na kterách kola chybí.
df_diff[df_diff['difference'] < 0][['station_name','difference']].sort_values(by='difference')

In [None]:
df_diff[df_diff['difference'] == 0][['station_name','difference']]

## Vzdálenosti mezi jednotlivými stanicemi

In [None]:
# Vytváření DF s názvy stanic a zeměpisné šířky a délky
df_geo = df.drop_duplicates(subset = ['end_station_id'])
df_geo['station_name'] = df_geo['end_station_name'] + ', ' + df_geo['end_station_description']
df_geo.rename(columns={'end_station_latitude':'LAT','end_station_longitude':'LON'},inplace= True)

# Vytvoření všech možných kombinací stanic
df_geo = df_geo[['station_name','LAT','LON']]
df_combi_stations = pd.DataFrame(list(combinations(df_geo['station_name'], 2)),
                                 columns=['start_station', 'end_station'])

In [None]:
# Přiřazení start a end k LAT a LON ke kombinacím stanic
df_station_pairs = (df_combi_stations.join(df_geo.set_index('station_name').add_prefix('start_'), on='start_station')
                   .join(df_geo.set_index('station_name').add_prefix('end_'), on='end_station'))
df_station_pairs

In [None]:
# Spočítání vzdálenosti mezi stanicemi na základě LAT a LON
df_station_pairs['Distance'] = df_station_pairs.apply(lambda row: h3.point_dist((row['start_LAT'],
                                                                                 row['start_LON']),
                                                                                (row['end_LAT'],
                                                                                 row['end_LON']),unit='km'), axis=1)

In [None]:
df_station_pairs[df_station_pairs['Distance'] > 0].sort_values(by='Distance')[['start_station','end_station','Distance']]

## Doba trvání jedné výpůjčky a odlehlé hodnoty.

In [None]:
# Směrodatná odchylka v minutách
df['duration'].std()/60

In [None]:
df['duration'].mean()/60 

In [None]:
# Z dataframu jsem odstranil hodnoty, které byly větší než  směrodatná odchylka
df_duration = df[df['duration'] < df['duration'].std()]
df_duration['duration'] = round(df_duration['duration']/60,0)

In [None]:
# Průměrná doba výpůjčky 
df_duration['duration'].mean()

In [None]:
df_duration['rents_num'] = df_duration['duration'].groupby(df_duration['duration']).transform('count')
df_duration = df_duration[['duration', 'rents_num']].drop_duplicates().sort_values(by='rents_num', ascending=False)

# Nejvíce si lidé půjčují kola v rozmezí na 6 až 15 minut
df_duration.head(10)

In [None]:
# Graf zobrazuje počet výpujček pro jednotlivé minuty
alt.Chart(df_duration, title='Time of rent').mark_bar(size=10).encode(
    x=alt.X('duration', title='Minutes'),
    y=alt.Y('rents_num', title='Number of rents'),
    tooltip=[alt.Tooltip('duration', title="Minute"), alt.Tooltip('rents_num', title='Number of rents')]
).properties(
    width=1200,
    height=300
) 

In [None]:
# Top 10 nejodlehlejších hodnot
df_deviation = df
df_deviation.sort_values(by='duration',ascending= False).head(10)


## Ve kterou hodinu si lidé půjčíjí kola nejčastěji

In [None]:
# Vytvoření DF s počtem výpůjček v hodinách přes den
query_hour = '''SELECT	HOUR(started_at) AS hour,
                        count(HOUR(started_at)) AS number_of_rents
                FROM edinburgh_bikes eb 
                GROUP BY hour(started_at)
             '''
df_hour = pd.read_sql(sql = query_hour, con  = engine)
df_hour

In [None]:
# Z grafu vidíme, že nejvytíženější hodina je 16:00
# Můžeme se domnívat, že si lidé půjčují kola nejvíce když skončí v práci.
alt.Chart(df_hour, title='The busiest hour').mark_bar(size=20).encode(
    x=alt.X('hour', title='Hours'),
    y=alt.Y('number_of_rents', title='Number of rents'),
    tooltip=[alt.Tooltip('hour', title="Hour"), alt.Tooltip('number_of_rents', title="Number of rents")]
).properties(
    width=800,
    height=300
)

## Analýza poptávky v čase

In [None]:
df["started_at"] = pd.to_datetime(df["started_at"])
df["ended_at"] = pd.to_datetime(df["ended_at"])

In [None]:
# Dataset sem rozdělil do měsíců a spočítal pro každý měsíc počet výpůjček
# Z grafu vidíme, že si lidé půjčují kola nejvíc přes a jaro a léto, naopak na podzim začíná poptávka klesat
# Větší nárůst v roce 2020 mohl zapříčinit covid-19, kdy lidé omezovali městskou hromadnou dopravu
data_month = df.resample('M', on='started_at').index.count()

df_month = pd.DataFrame(data_month)
df_month.reset_index(inplace=True)
df_month.rename(columns={'started_at':'Started_date','index':'Number_of_rents'},inplace=True)


alt.Chart(df_month,title='Number of monthly rents').mark_bar(size=18).encode(
    x=alt.X('Started_date', title='Months'),
    y=alt.Y('Number_of_rents', title='Number of rents'),
    tooltip=[alt.Tooltip('Started_date', title="started_date"), alt.Tooltip('Number_of_rents', title="Number of rents")]
).properties(
    width=1000,
    height=300
)

## Vliv počasí na poptávku po kolech

In [None]:
query_weather = '''SELECT *
                   FROM edinburgh_weather ew 
                '''
df_weather = pd.read_sql(sql = query_weather, con = engine)
df_weather['date'] = pd.to_datetime(df_weather['date'])

In [None]:
# Vytvoření DF s denním počtem výpůjček a přídání názvů dnů
df_days = pd.DataFrame(df.resample('D', on='started_at').index.count())
df_days.reset_index(inplace=True)
df_days.rename(columns={'started_at':'date','index':'number_of_rents'},inplace=True)
df_days['name_of_day'] = df_days['date'].dt.day_name()
df_days = df_days[['date','name_of_day','number_of_rents']]

In [None]:
vis_dict = {'Excellent': 1, 'Good': 2,'Average': 3,'Poor': 4}
df_weather.replace({'vis': vis_dict}, inplace= True)

In [None]:
# Převedené hodnot na numerické hodnoty
df_weather = (df_weather.replace(to_replace = ['°c','km/h','mm','%','mb','from','S','N','W','E'],
                                 value = '',
                                 regex= True))
cols = ['temp', 'feels', 'wind', 'gust', 'rain', 'humidity', 'cloud', 'pressure', 'vis']
df_weather[cols] = df_weather[cols].apply(pd.to_numeric)
df_weather.info()

In [None]:
# Zprůměrovaní hodnot na denní hodnoty
df_weather = df_weather.groupby('date')[cols].mean().reset_index()

In [None]:
df_day = df_days[['date','number_of_rents']]
df_corr = pd.merge(df_weather,df_day,on='date')
df_corr

In [None]:
# Korelace jednotlivých hodnot k výpujčkám.
# Pozitivní vliv má vyšší teplota, negativní vliv má vyšší vlhkost a náraz větru
df_corr.corr().loc[['number_of_rents'],cols]

## Půjčují si lidé kola více o víkendu než během pracovního týdne?

In [None]:
# Lidé si půjčují kola více o víkendu než během pracovního týdne
days = [ 'Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
df_days = df_days.groupby(by=["name_of_day"]).sum().reindex(days).reset_index()
df_days

In [None]:
alt.Chart(df_days,title='The busiest days').mark_bar(size=30).encode(
    x=alt.X('name_of_day', title='Days'),
    y=alt.Y('number_of_rents', title='Number of rents'),
    tooltip=[alt.Tooltip('name_of_day', title="Day"), alt.Tooltip('number_of_rents', title="Number of rents")]
).properties(
    width=300,
    height=300
)