<a href="https://colab.research.google.com/github/EllFox/Python_Bikes_in_Edinburgh_Analysis/blob/main/Python_rozd%C4%9Blan%C3%BD_projekt.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# BIKES IN EDINBURGH


## Python Project - Engeto Data Academy 2022



1. [Zadání projektu](#1)
2. [Příprava dat](#2)
3. [Analýza dat](#3)


## 1. Zadání projektu <a name="1"></a>

V Edinburghu, stejně jako v dalších městech, funguje systém "bike sharing" - ve městě jsou stanice s koly, člověk si může nějaké půjčit a potom ho vrátit v nějaké další stanici. Problém je, že v některých stanicích se kola pravidelně hromadí a jinde naopak chybí. Provozovatel kol, firma Just Eat Cycles, zadala projekt, jehož cílem je systém zefektivnit.

Coby datový analytik jste součástí týmu, který na projektu pracuje. Vaším úkolem je zpracovat relevantní data a zjistit z nich informace užitečné pro zbytek týmu. Máte k dispozici data o všech výpůjčkách (na ENGETO databázi v tabulce edinburgh_bikes). Proveďte standardní deskriptivní statistiku dat. Také zjistěte minimálně následující informace:

* identifikujte aktivní a neaktivní stanice
* identifikujte nejfrekventovanější stanice
* identifikujte stanice, na kterých se kola hromadí a stanice, kde potenciálně chybí
* spočítejte vzdálenosti mezi jednotlivými stanicemi
* jak dlouho trvá jedna výpůjčka? Najděte odlehlé hodnoty, zobrazte histogram

*Analýza poptávky:*

* zobrazte vývoj poptávky po půjčování kol v čase
* identifikujte příčiny výkyvů poptávky
* zjistěte vliv počasí na poptávku po kolech (údaje o počasí v Edinburghu jsou v tabulce edinburgh_weather)
* půjčují si lidé kola více o víkendu než během pracovního týdne?

Výstupem analýzy bude ideálně jupyter notebook nebo colab notebook uložený na Vašem githubu. Výstupy Vaší analýzy musí být zřejmé i bez spouštění kódu. V textových buňkách popište, jak jste postupovali a napište své závěry. Pokud v zadání chybí nějaká informace, doplňte ji podle vlastního uvážení, své rozhodnutí uveďte a vysvětlete v notebooku.



## 2. Příprava dat <a name="2"></a>

In [2]:
!pip install pymysql

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pymysql
  Downloading PyMySQL-1.0.2-py3-none-any.whl (43 kB)
[K     |████████████████████████████████| 43 kB 2.1 MB/s 
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.0.2


**Načtení knihoven**

In [3]:
import sqlalchemy
import pymysql
import pandas as pd
import altair as alt

**Připojení do DB**

In [4]:
conn_string = "mysql+pymysql://data-student:u9AB6hWGsNkNcRDm@data.engeto.com/data_academy_02_2022"
engeto_data_conn = sqlalchemy.create_engine(conn_string)

**Export dat z DB**

In [5]:
query_bikes = """
  SELECT 
    *
  FROM 
    edinburgh_bikes
              """
    
df_bikes = pd.read_sql(query_bikes, engeto_data_conn)

In [6]:
query_weather = """
  SELECT 
    *
  FROM 
    edinburgh_weather
                """
    
df_weather = pd.read_sql(query_weather, engeto_data_conn)

**Náhledy a popisy tabulek**

Tabulka "edinburgh_bikes" obsahuje informace o vypůjčených kolech v Edinburghu, konkrétně:
*   datum a čas půjčení i vrácení kola
*   trvání výpůjčky v sekundách
*   informace o jednotlivých zastávkách - id, jméno, popis, zeměpisnou délku a šířku



In [7]:
df_bikes.head()

Unnamed: 0,index,started_at,ended_at,duration,start_station_id,start_station_name,start_station_description,start_station_latitude,start_station_longitude,end_station_id,end_station_name,end_station_description,end_station_latitude,end_station_longitude
0,0,2018-09-15 08:52:05,2018-09-15 09:11:48,1182,247,Charlotte Square,North Corner of Charlotte Square,55.952335,-3.207101,259,St Andrew Square,North East corner,55.954728,-3.192653
1,1,2018-09-15 09:24:33,2018-09-15 09:41:09,995,259,St Andrew Square,North East corner,55.954749,-3.192774,262,Canonmills,near Tesco's,55.962804,-3.196284
2,2,2018-09-15 09:48:54,2018-09-15 10:46:40,3466,262,Canonmills,near Tesco's,55.962804,-3.196284,250,Victoria Quay,Entrance to Scottish Government Office,55.977638,-3.174116
3,3,2018-09-16 12:01:36,2018-09-16 12:25:26,1430,255,Kings Buildings 4,X-Y Cafe,55.922001,-3.176902,254,Kings Building 3,Kings Building House,55.923479,-3.175385
4,4,2018-09-16 12:03:43,2018-09-16 12:11:16,452,255,Kings Buildings 4,X-Y Cafe,55.922001,-3.176902,253,Kings Building 2,Sanderson Building,55.923202,-3.171646


Tabulka "edinburgh_weather" obsahuje informace o počasí v Edinburghu.

In [8]:
df_weather.head()

Unnamed: 0,time,temp,feels,wind,gust,rain,humidity,cloud,pressure,vis,date
0,00:00,11 °c,11 °c,9 km/h from S,19 km/h,0.0 mm,79%,13%,1020 mb,Excellent,2018-09-01
1,03:00,13 °c,12 °c,11 km/h from SSW,19 km/h,0.0 mm,76%,96%,1020 mb,Excellent,2018-09-01
2,06:00,14 °c,13 °c,11 km/h from SSW,19 km/h,0.0 mm,84%,100%,1020 mb,Excellent,2018-09-01
3,09:00,14 °c,13 °c,14 km/h from SSW,23 km/h,0.1 mm,88%,78%,1021 mb,Excellent,2018-09-01
4,12:00,16 °c,16 °c,15 km/h from SSW,22 km/h,0.0 mm,87%,87%,1021 mb,Excellent,2018-09-01


## 3. Analýza dat <a name="3"></a>

**Deskriptivní statistika - edinburgh_bikes**

Z celé analýzy provedu nejprve standardní deskriptivní statistiku dat.
Tabulka edinburgh_bikes, kterou jsem natáhla do **df_bikes**, obsahuje záznam o každé jednotlivé výpůjčce mezi **15/09/2018** a **30/06/2021**. Celkem je zaznamenaných **438 259** výpůjček. 

In [10]:
df_bikes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 438259 entries, 0 to 438258
Data columns (total 14 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   index                      438259 non-null  int64  
 1   started_at                 438259 non-null  object 
 2   ended_at                   438259 non-null  object 
 3   duration                   438259 non-null  int64  
 4   start_station_id           438259 non-null  int64  
 5   start_station_name         438259 non-null  object 
 6   start_station_description  435549 non-null  object 
 7   start_station_latitude     438259 non-null  float64
 8   start_station_longitude    438259 non-null  float64
 9   end_station_id             438259 non-null  int64  
 10  end_station_name           438259 non-null  object 
 11  end_station_description    435256 non-null  object 
 12  end_station_latitude       438259 non-null  float64
 13  end_station_longitude      43

<br> 


DURATION

Průměrná / maximální / minimální doba výpůjčky:

In [16]:
query_avg = """
  SELECT 
    AVG(duration)
  FROM 
    edinburgh_bikes
              """
df_avg = pd.read_sql(query_avg, engeto_data_conn)

In [15]:
query_min = """
  SELECT 
    MIN(duration)
  FROM 
    edinburgh_bikes
            """
df_min = pd.read_sql(query_min, engeto_data_conn)

In [14]:
query_max = """
  SELECT 
    MAX(duration)
  FROM 
    edinburgh_bikes
            """
df_max = pd.read_sql(query_max, engeto_data_conn)

In [24]:
df_avg

Unnamed: 0,AVG(duration)
0,1948.838


In [22]:
df_min

Unnamed: 0,MIN(duration)
0,61


In [40]:
query_min_2 = """
  SELECT 
    duration
  FROM 
    edinburgh_bikes
  ORDER BY 
    duration asc
  LIMIT
    50
            """
df_min_2 = pd.read_sql(query_min_2, engeto_data_conn)

df_min_2

Unnamed: 0,duration
0,61
1,61
2,61
3,61
4,61
5,61
6,61
7,61
8,61
9,61


In [23]:
df_max

Unnamed: 0,MAX(duration)
0,2363348


In [39]:
query_max_2 = """
  SELECT 
    duration
  FROM 
    edinburgh_bikes
  ORDER BY 
    duration desc
  LIMIT
    50
            """
df_max_2 = pd.read_sql(query_max_2, engeto_data_conn)

df_max_2

Unnamed: 0,duration
0,2363348
1,1032838
2,1000750
3,701168
4,688832
5,631452
6,500807
7,446794
8,419365
9,339236


Doba výpůjčky kola (duration): 


*   Průměrná: 1948,838 sekund, tedy přibližně 32,5 minut.
*   Minimální: 61 sekund. Bude se tedy pravděpodobně jednat o nepovedené vypůjčení a okamžité vrácení, ale i když zobrazím prvních 50 nejkratších výpůjček, čísla jsou pořád podobná, takže se to stává asi pravděpodobně poměrně často.
*   Maximální: 2363348 sekund, tedy 39389,1333 minut, což dělá zaokrouhleně 656,5 hodin neboli 27,6 dní. 😏 Vzhledem k délce výpůjčky se pravděpodobně jedná o chybu / ztrátu kola - pro reálnější představu jsem si tedy seřadila délku výpůjčky od nejdelší po nejkratší a zobrazila prvních 50 výsledků. Padesátá nejdelší výpůjčka trvala 103886 sekund = přibližně 28,9 hodin. 



**Analýza poptávky**