# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Filza Rahma Muflihah
- **Email:** filzarahmamuflihah@gmail.com
- **ID Dicoding:** filza_rahma_muflihah

## Menentukan Pertanyaan Bisnis

- Pertanyaan 1: Bagaimana tren penggunaan sepeda dari tahun ke tahun?
- Pertanyaan 2: Pada jam berapa penyewaan sepeda paling tinggi dan paling rendah?
- Pertanyaan 3: Bagaimana pola penggunaan sepeda berdasarkan musim?
- Pertanyaan 4: Apakah cuaca memengaruhi jumlah peminjaman sepeda?
- Pertanyaan 5: Bagaimana pola peminjaman sepeda antara hari kerja dan akhir pekan?


## Import Semua Packages/Library yang Digunakan

In [1]:
import gdown
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

## Data Wrangling

### Gathering Data

In [2]:
# ID file dari Google Drive
file_id = "1RaBmV6Q6FYWU4HWZs80Suqd7KQC34diQ"
url = f"https://drive.google.com/uc?id={file_id}"

# Unduh file ZIP
output = "dataset.zip"
gdown.download(url, output, quiet=False)

Downloading...
From: https://drive.google.com/uc?id=1RaBmV6Q6FYWU4HWZs80Suqd7KQC34diQ
To: /content/dataset.zip
100%|██████████| 280k/280k [00:00<00:00, 6.68MB/s]


'dataset.zip'

In [3]:
# Ekstrak file zip
!unzip "/content/dataset.zip" -d "/content/bike-sharing-dataset"

Archive:  /content/dataset.zip
  inflating: /content/bike-sharing-dataset/Readme.txt  
  inflating: /content/bike-sharing-dataset/day.csv  
  inflating: /content/bike-sharing-dataset/hour.csv  


In [4]:
hour_df = pd.read_csv('/content/bike-sharing-dataset/hour.csv')
hour_df.tail(5)

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
17374,17375,2012-12-31,1,1,12,19,0,1,1,2,0.26,0.2576,0.6,0.1642,11,108,119
17375,17376,2012-12-31,1,1,12,20,0,1,1,2,0.26,0.2576,0.6,0.1642,8,81,89
17376,17377,2012-12-31,1,1,12,21,0,1,1,1,0.26,0.2576,0.6,0.1642,7,83,90
17377,17378,2012-12-31,1,1,12,22,0,1,1,1,0.26,0.2727,0.56,0.1343,13,48,61
17378,17379,2012-12-31,1,1,12,23,0,1,1,1,0.26,0.2727,0.65,0.1343,12,37,49


In [5]:
day_df = pd.read_csv('/content/bike-sharing-dataset/day.csv')
day_df.tail(5)

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
726,727,2012-12-27,1,1,12,0,4,1,2,0.254167,0.226642,0.652917,0.350133,247,1867,2114
727,728,2012-12-28,1,1,12,0,5,1,2,0.253333,0.255046,0.59,0.155471,644,2451,3095
728,729,2012-12-29,1,1,12,0,6,0,2,0.253333,0.2424,0.752917,0.124383,159,1182,1341
729,730,2012-12-30,1,1,12,0,0,0,1,0.255833,0.2317,0.483333,0.350754,364,1432,1796
730,731,2012-12-31,1,1,12,0,1,1,2,0.215833,0.223487,0.5775,0.154846,439,2290,2729


**Insight:**
- Dataset ini berisi jumlah sepeda sewaan per jam (`dataframe hour`) dan per hari (`dataframe day`) antara tahun 2011 dan 2012 di sistem berbagi sepeda Capital dengan informasi cuaca dan musim yang sesuai.  
- Kedua dataframe hour (`hour_df`) dan day (`day_df`) memiliki atribut-atribut sebagai berikut (kecuali hr yang tidak tersedia pada dataframe day):
  - instant: indeks catatan
  - dteday: tanggal
  - season: musim (1: musim semi, 2: musim panas, 3: musim gugur, 4: musim dingin)
  - yr: tahun (0: 2011, 1: 2012)
  - mnth: bulan (1 sampai 12)
  - hr: jam (0 hingga 23)
  - holiday: hari libur atau tidak (0: tidak, 1: ya)
  - weekday: hari dalam seminggu
  - workingday: jika hari tersebut bukan akhir pekan atau hari libur maka nilainya 1, jika tidak maka nilainya 0
  - weathersit: situasi cuaca

      1: Cerah, Sedikit awan, Berawan sebagian, Berawan sebagian

      2: Kabut + Berawan, Kabut + Awan pecah, Kabut + Sedikit awan, Kabut

      3: Salju Ringan, Hujan Ringan + Badai Petir + Awan berserakan, Hujan Ringan + Awan berserakan

      4: Hujan Lebat + Butiran Es + Badai Petir + Kabut, Salju + Kabut
  - temp: Suhu yang dinormalisasi dalam Celcius. Nilai diperoleh melalui (t-t_min)/(t_max-t_min), t_min = -8, t_max = +39 (hanya dalam skala per jam)
  - atemp: Suhu "terasa" yang dinormalisasi dalam Celcius. Nilai-nilai tersebut diperoleh melalui (t-t_min)/(t_max-t_min), t_min=-16, t_max=+50 (hanya dalam skala per jam)
  - hum: Kelembapan yang dinormalisasi. Nilai dibagi menjadi 100 (maksimum)
  - windspeed: Kecepatan angin yang dinormalisasi. Nilai dibagi menjadi 67 (maks)
  - casual: jumlah pengguna biasa
  - registered: jumlah pengguna terdaftar
  - cnt: jumlah total sepeda sewaan termasuk kasual dan terdaftar


### Assessing Data

1. Menilai Data `hour_df`

In [6]:
hour_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     17379 non-null  int64  
 1   dteday      17379 non-null  object 
 2   season      17379 non-null  int64  
 3   yr          17379 non-null  int64  
 4   mnth        17379 non-null  int64  
 5   hr          17379 non-null  int64  
 6   holiday     17379 non-null  int64  
 7   weekday     17379 non-null  int64  
 8   workingday  17379 non-null  int64  
 9   weathersit  17379 non-null  int64  
 10  temp        17379 non-null  float64
 11  atemp       17379 non-null  float64
 12  hum         17379 non-null  float64
 13  windspeed   17379 non-null  float64
 14  casual      17379 non-null  int64  
 15  registered  17379 non-null  int64  
 16  cnt         17379 non-null  int64  
dtypes: float64(4), int64(12), object(1)
memory usage: 2.3+ MB


In [7]:
hour_df.isna().sum()

Unnamed: 0,0
instant,0
dteday,0
season,0
yr,0
mnth,0
hr,0
holiday,0
weekday,0
workingday,0
weathersit,0


In [8]:
print("Banyak data duplikat: ", hour_df.duplicated().sum())

Banyak data duplikat:  0


In [9]:
hour_df.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
instant,17379.0,,,,8690.0,5017.0295,1.0,4345.5,8690.0,13034.5,17379.0
dteday,17379.0,731.0,2011-01-01,24.0,,,,,,,
season,17379.0,,,,2.50164,1.106918,1.0,2.0,3.0,3.0,4.0
yr,17379.0,,,,0.502561,0.500008,0.0,0.0,1.0,1.0,1.0
mnth,17379.0,,,,6.537775,3.438776,1.0,4.0,7.0,10.0,12.0
hr,17379.0,,,,11.546752,6.914405,0.0,6.0,12.0,18.0,23.0
holiday,17379.0,,,,0.02877,0.167165,0.0,0.0,0.0,0.0,1.0
weekday,17379.0,,,,3.003683,2.005771,0.0,1.0,3.0,5.0,6.0
workingday,17379.0,,,,0.682721,0.465431,0.0,0.0,1.0,1.0,1.0
weathersit,17379.0,,,,1.425283,0.639357,1.0,1.0,1.0,2.0,4.0


**Insight:**
- Dataframe `hour_df` tidak memiliki missing value maupun data duplikat, tetapi terdapat kesalahan tipe data pada atribut `dteday`.
- Variabel season, mnth, dan weekday direpresentasikan dalam integer. Variabel yr juga direpresentasikan sebagai 0 untuk tahun 2011 dan 1 untuk tahun 2012.
- Sebagaimana yang dijelakan pada dictionary dataset, variabel temp, atemp, hum, dan windspeed dinormalisasikan.
- Pada tahap cleaning, berikut hal-hal yang perlu dilakukan:
  1. Mengubah tipe data `dteday` menjadi datetime.
  2. Mengubah season, weakday, dan mnth menjadi nilai string masing-masing.
  3. Mengubah variabel yr menjadi nilai yang mewakili.
  4. Mengembalikan bentuk variabel temp, atemp, hum, dan windspeed ke bentuk sebelum normalisasi.
  5. Menamai kembali atribut-atribut agar lebih mudah dimengerti.


2. Menilai Data `day_df`

In [10]:
day_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     731 non-null    int64  
 1   dteday      731 non-null    object 
 2   season      731 non-null    int64  
 3   yr          731 non-null    int64  
 4   mnth        731 non-null    int64  
 5   holiday     731 non-null    int64  
 6   weekday     731 non-null    int64  
 7   workingday  731 non-null    int64  
 8   weathersit  731 non-null    int64  
 9   temp        731 non-null    float64
 10  atemp       731 non-null    float64
 11  hum         731 non-null    float64
 12  windspeed   731 non-null    float64
 13  casual      731 non-null    int64  
 14  registered  731 non-null    int64  
 15  cnt         731 non-null    int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 91.5+ KB


In [11]:
day_df.isna().sum()

Unnamed: 0,0
instant,0
dteday,0
season,0
yr,0
mnth,0
holiday,0
weekday,0
workingday,0
weathersit,0
temp,0


In [12]:
print("Banyak data duplikat: ", day_df.duplicated().sum())

Banyak data duplikat:  0


In [13]:
day_df.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
instant,731.0,,,,366.0,211.165812,1.0,183.5,366.0,548.5,731.0
dteday,731.0,731.0,2011-01-01,1.0,,,,,,,
season,731.0,,,,2.49658,1.110807,1.0,2.0,3.0,3.0,4.0
yr,731.0,,,,0.500684,0.500342,0.0,0.0,1.0,1.0,1.0
mnth,731.0,,,,6.519836,3.451913,1.0,4.0,7.0,10.0,12.0
holiday,731.0,,,,0.028728,0.167155,0.0,0.0,0.0,0.0,1.0
weekday,731.0,,,,2.997264,2.004787,0.0,1.0,3.0,5.0,6.0
workingday,731.0,,,,0.683995,0.465233,0.0,0.0,1.0,1.0,1.0
weathersit,731.0,,,,1.395349,0.544894,1.0,1.0,1.0,2.0,3.0
temp,731.0,,,,0.495385,0.183051,0.05913,0.337083,0.498333,0.655417,0.861667


**Insight:**
- Dataframe `day_df` tidak memiliki missing value maupun data duplikat, tetapi terdapat kesalahan tipe data pada atribut `dteday`.
- Pada tahap cleaning, berikut hal-hal yang perlu dilakukan:
  1. Mengubah tipe data `dteday` menjadi datetime.
  2. Mengubah season, weakday, dan mnth menjadi nilai string masing-masing.
  3. Mengubah variabel yr menjadi nilai yang mewakili.
  4. Mengembalikan bentuk variabel hum dan windspeed ke bentuk sebelum normalisasi. (Pada dataframe ini, tidak ada rumus spesifik untuk temp dan atemp sehingga dilewat)
  5. Menamai kembali atribut-atribut agar lebih mudah dimengerti.

### Cleaning Data

1. Membersihkan Data `hour_df`

In [14]:
# typecast datetime column
hour_df['dteday'] = pd.to_datetime(hour_df['dteday'])
hour_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   instant     17379 non-null  int64         
 1   dteday      17379 non-null  datetime64[ns]
 2   season      17379 non-null  int64         
 3   yr          17379 non-null  int64         
 4   mnth        17379 non-null  int64         
 5   hr          17379 non-null  int64         
 6   holiday     17379 non-null  int64         
 7   weekday     17379 non-null  int64         
 8   workingday  17379 non-null  int64         
 9   weathersit  17379 non-null  int64         
 10  temp        17379 non-null  float64       
 11  atemp       17379 non-null  float64       
 12  hum         17379 non-null  float64       
 13  windspeed   17379 non-null  float64       
 14  casual      17379 non-null  int64         
 15  registered  17379 non-null  int64         
 16  cnt         17379 non-

In [15]:
# convert day, month, and season into string value
hour_df['weekday'] = hour_df['dteday'].dt.day_name()
hour_df['month'] = hour_df['dteday'].dt.month_name()

season_string = {1: 'Spring', 2: 'Summer', 3: 'Fall', 4: 'Winter'}
hour_df['season'] = hour_df['season'].map(season_string)
hour_df.head(3)

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt,month
0,1,2011-01-01,Spring,0,1,0,0,Saturday,0,1,0.24,0.2879,0.81,0.0,3,13,16,January
1,2,2011-01-01,Spring,0,1,1,0,Saturday,0,1,0.22,0.2727,0.8,0.0,8,32,40,January
2,3,2011-01-01,Spring,0,1,2,0,Saturday,0,1,0.22,0.2727,0.8,0.0,5,27,32,January


In [16]:
# convert year into respective value
hour_df['yr'] = hour_df['yr'].map({0: 2011, 1: 2012})
hour_df.head(3)

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt,month
0,1,2011-01-01,Spring,2011,1,0,0,Saturday,0,1,0.24,0.2879,0.81,0.0,3,13,16,January
1,2,2011-01-01,Spring,2011,1,1,0,Saturday,0,1,0.22,0.2727,0.8,0.0,8,32,40,January
2,3,2011-01-01,Spring,2011,1,2,0,Saturday,0,1,0.22,0.2727,0.8,0.0,5,27,32,January


In [17]:
# unnormalize temp, atemp, hum, and windspeed value
hour_df['temp'] = hour_df['temp'] * (39 - (-8)) + (-8)
hour_df['atemp'] = hour_df['atemp'] * (50 - (-16)) + (-16)
hour_df['hum'] = hour_df['hum'] * 100
hour_df['windspeed'] = hour_df['windspeed'] * 67
hour_df.head(3)

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt,month
0,1,2011-01-01,Spring,2011,1,0,0,Saturday,0,1,3.28,3.0014,81.0,0.0,3,13,16,January
1,2,2011-01-01,Spring,2011,1,1,0,Saturday,0,1,2.34,1.9982,80.0,0.0,8,32,40,January
2,3,2011-01-01,Spring,2011,1,2,0,Saturday,0,1,2.34,1.9982,80.0,0.0,5,27,32,January


In [18]:
# rename columns
hour_df.rename(columns={
    'instant': 'record_id',
    'dteday': 'date',
    'yr': 'year',
    'mnth': 'month',
    'hr': 'hour',
    'holiday': 'is_holiday',
    'weekday': 'day_of_week',
    'workingday': 'is_workingday',
    'weathersit': 'weather_condition',
    'temp': 'temperature',
    'atemp': 'feeling_temperature',
    'hum': 'humidity',
    'windspeed': 'wind_speed',
    'casual': 'number_of_casual_users',
    'registered': 'number_of_registered_users',
    'cnt': 'total_count'
}, inplace=True)
hour_df.columns

Index(['record_id', 'date', 'season', 'year', 'month', 'hour', 'is_holiday',
       'day_of_week', 'is_workingday', 'weather_condition', 'temperature',
       'feeling_temperature', 'humidity', 'wind_speed',
       'number_of_casual_users', 'number_of_registered_users', 'total_count',
       'month'],
      dtype='object')

2. Membersihkan Data `day_df`

In [19]:
# typecast datetime column
day_df['dteday'] = pd.to_datetime(day_df['dteday'])
day_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   instant     731 non-null    int64         
 1   dteday      731 non-null    datetime64[ns]
 2   season      731 non-null    int64         
 3   yr          731 non-null    int64         
 4   mnth        731 non-null    int64         
 5   holiday     731 non-null    int64         
 6   weekday     731 non-null    int64         
 7   workingday  731 non-null    int64         
 8   weathersit  731 non-null    int64         
 9   temp        731 non-null    float64       
 10  atemp       731 non-null    float64       
 11  hum         731 non-null    float64       
 12  windspeed   731 non-null    float64       
 13  casual      731 non-null    int64         
 14  registered  731 non-null    int64         
 15  cnt         731 non-null    int64         
dtypes: datetime64[ns](1), floa

In [20]:
# convert day, month, and season into string value
day_df['weekday'] = day_df['dteday'].dt.day_name()
day_df['mnth'] = day_df['dteday'].dt.month_name()

season_string = {1: 'Spring', 2: 'Summer', 3: 'Fall', 4: 'Winter'}
day_df['season'] = day_df['season'].map(season_string)
day_df.head(3)

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,Spring,0,January,0,Saturday,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,Spring,0,January,0,Sunday,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,Spring,0,January,0,Monday,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349


In [21]:
# convert year into respective value
day_df['yr'] = day_df['yr'].map({0: 2011, 1: 2012})
day_df.head(3)

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,Spring,2011,January,0,Saturday,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,Spring,2011,January,0,Sunday,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,Spring,2011,January,0,Monday,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349


In [22]:
# unnormalized humidity and windspeed values
day_df['hum'] = day_df['hum'] * 100
day_df['windspeed'] = day_df['windspeed'] * 67
day_df.head(3)

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,Spring,2011,January,0,Saturday,0,2,0.344167,0.363625,80.5833,10.749882,331,654,985
1,2,2011-01-02,Spring,2011,January,0,Sunday,0,2,0.363478,0.353739,69.6087,16.652113,131,670,801
2,3,2011-01-03,Spring,2011,January,0,Monday,1,1,0.196364,0.189405,43.7273,16.636703,120,1229,1349


In [23]:
# rename columns
day_df.rename(columns={
    'instant': 'record_id',
    'dteday': 'date',
    'yr': 'year',
    'mnth': 'month',
    'holiday': 'is_holiday',
    'weekday': 'day_of_week',
    'workingday': 'is_workingday',
    'weathersit': 'weather_condition',
    'temp': 'temperature',
    'atemp': 'feeling_temperature',
    'hum': 'humidity',
    'windspeed': 'wind_speed',
    'casual': 'number_of_casual_users',
    'registered': 'number_of_registered_users',
    'cnt': 'total_count'
}, inplace=True)
day_df.columns

Index(['record_id', 'date', 'season', 'year', 'month', 'is_holiday',
       'day_of_week', 'is_workingday', 'weather_condition', 'temperature',
       'feeling_temperature', 'humidity', 'wind_speed',
       'number_of_casual_users', 'number_of_registered_users', 'total_count'],
      dtype='object')

**Insight:**
Dataframe `hour_df` dan `day_df` berhasil dibersihkan dengan detail sebagai berikut.
  - Mengonversi tipe data atribut dteday menjadi tipe data datetime
  - Mengubah season, weakday, dan mnth menjadi nilai string masing-masing.
  - Mengubah variabel yr menjadi nilai yang mewakili.
  - Mengembalikan bentuk variabel temp, atemp, hum, dan windspeed ke bentuk sebelum normalisasi.
  - Menamai kembali atribut-atribut agar lebih mudah dimengerti.

## Exploratory Data Analysis (EDA)

### Explore `hour_df`

In [24]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan musim
hour_df.groupby('season').agg({
    'total_count': 'mean',
    'temperature': 'mean',
    'feeling_temperature': 'mean',
    'humidity': 'mean',
    'wind_speed': 'mean'
})

Unnamed: 0_level_0,total_count,temperature,feeling_temperature,humidity,wind_speed
season,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Fall,236.016237,25.201277,27.296232,63.316726,11.496714
Spring,111.114569,6.059892,3.675688,58.134842,14.412186
Summer,208.344069,17.59917,18.356099,62.7022,13.628488
Winter,198.868856,11.887486,11.438691,66.712429,11.444848


Berdasarkan musim dan peminjaman sepeda:
- Musim Gugur (Fall) memiliki jumlah peminjaman sepeda tertinggi, dengan rata-rata 236 pengguna per jam.
- Musim Panas (Summer) berada di posisi kedua dengan 208 pengguna per jam, diikuti oleh Musim Dingin (Winter) dengan 198 pengguna.
- Musim Semi (Spring) memiliki jumlah peminjaman terendah, yaitu 111 pengguna per jam.

Berdasarkan pengaruh suhu dan kelembapan:
- Suhu tertinggi terjadi pada musim gugur (25 C), sementara suhu terendah terjadi pada musim semi (6 C).
- Suhu yang dirasakan (feeling_temperature) mengikuti pola yang mirip dengan suhu aktual, menunjukkan bahwa suhu yang dirasakan cenderung sedikit lebih rendah dari suhu sebenarnya.
- Kelembapan tertinggi tercatat pada musim dingin (66,71), sedangkan musim semi memiliki kelembapan terendah (58,13).

Berdasarkan kecepatan angin:
- Kecepatan angin relatif stabil di semua musim, dengan musim semi memiliki kecepatan tertinggi (14.41) dan musim gugur serta musim dingin memiliki kecepatan angin paling rendah (11.49 dan 11.44).

**Insight:**
- Jumlah peminjaman sepeda tertinggi terjadi pada musim gugur, diikuti oleh musim panas.
- Musim semi memiliki jumlah peminjaman terendah, kemungkinan karena curah hujan yang lebih tinggi (asumsi temperatur rendah) atau kondisi cuaca seperti kecepatan angin yang kurang mendukung.
- Kelembapan yang lebih tinggi di musim dingin dapat memengaruhi kenyamanan pengguna sepeda.
- Kecepatan angin tidak menunjukkan variasi yang signifikan di antara musim.


In [25]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan kondisi cuaca
hour_df.groupby('weather_condition').agg({
    'total_count': 'mean',
    'temperature': 'mean',
    'feeling_temperature': 'mean',
    'humidity': 'mean',
    'wind_speed': 'mean'
})

Unnamed: 0_level_0,total_count,temperature,feeling_temperature,humidity,wind_speed
weather_condition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,204.869272,16.019541,16.233511,57.37466,12.767059
2,175.165493,14.298935,14.134978,69.880722,12.05822
3,111.579281,13.464327,12.801479,82.763214,14.661253
4,74.333333,0.773333,-3.6646,88.333333,13.668


Pengaruh Kondisi Cuaca terhadap Peminjaman Sepeda
- Kondisi cuaca terbaik (kategori 1 - Cerah atau Berawan) memiliki jumlah peminjaman tertinggi, dengan rata-rata 204 pengguna per jam.
Kondisi cuaca kategori 2 (Berkabut atau Berawan dengan Sedikit Hujan) masih menunjukkan cukup banyak pengguna, sekitar 175 pengguna per jam.
- Pada kondisi cuaca kategori 3 (Hujan Sedang atau Salju Ringan), jumlah peminjaman turun drastis menjadi 111 pengguna per jam.
- Kondisi cuaca kategori 4 (Hujan Lebat, Salju Lebat, atau Badai) memiliki jumlah peminjaman terendah, yaitu hanya 74 pengguna per jam.

Suhu dan Kelembapan Berdasarkan Kondisi Cuaca
- Suhu tertinggi terjadi pada cuaca cerah atau berawan (0.5111 skala normalisasi), sedangkan suhu terendah terjadi saat cuaca buruk (hujan lebat/salju) dengan 0.1867.
- Kelembapan meningkat seiring memburuknya kondisi cuaca, dari 57% saat cuaca cerah hingga 88% saat hujan/salju lebat.

Kecepatan Angin
- Kecepatan angin cenderung lebih tinggi pada kondisi cuaca ekstrem, terutama pada kategori 3 (0.2188) dan 4 (0.2040).

**Insight**
- Cuaca yang lebih baik meningkatkan jumlah peminjaman sepeda, sementara hujan atau salju drastis mengurangi pengguna.
- Semakin buruk kondisi cuaca, semakin rendah suhu dan semakin tinggi kelembapan, yang dapat membuat aktivitas bersepeda menjadi kurang nyaman.
- Kecepatan angin sedikit lebih tinggi saat hujan atau salju, tetapi tidak menunjukkan variasi yang terlalu besar di antara kategori cuaca.

In [26]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan hari kerja
hour_df.groupby('is_workingday').agg({
    'number_of_casual_users': 'mean',
    'number_of_registered_users': 'mean',
    'total_count': 'mean'
})

Unnamed: 0_level_0,number_of_casual_users,number_of_registered_users,total_count
is_workingday,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,57.441422,123.96391,181.405332
1,25.561315,167.646439,193.207754


Perbandingan Penggunaan Sepeda pada Hari Kerja vs Hari Libur
- Pada hari libur (is_workingday = 0), rata-rata 57 pengguna kasual dan 124 pengguna terdaftar menggunakan sepeda, dengan total 181 pengguna per jam.
- Pada hari kerja (is_workingday = 1), jumlah pengguna kasual berkurang drastis menjadi 26 pengguna, tetapi jumlah pengguna terdaftar meningkat menjadi 168 pengguna, dengan total 193 pengguna per jam.

Total Jumlah Peminjaman
- Meskipun jumlah pengguna kasual turun pada hari kerja, total peminjaman tetap lebih tinggi dibandingkan hari libur (193 vs. 181).

**Insight**
- Hari libur menarik lebih banyak pengguna kasual, mungkin untuk aktivitas santai atau rekreasi.
- Hari kerja didominasi oleh pengguna terdaftar, menunjukkan pola penggunaan untuk perjalanan rutin seperti ke kantor atau kampus.
- Secara total, jumlah peminjaman sedikit lebih tinggi pada hari kerja, tetapi distribusi pengguna sangat berbeda antara hari kerja dan hari libur.

In [27]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan hari libur
hour_df.groupby('is_holiday').agg({
    'number_of_casual_users': 'mean',
    'number_of_registered_users': 'mean',
    'total_count': 'mean'
})

Unnamed: 0_level_0,number_of_casual_users,number_of_registered_users,total_count
is_holiday,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,35.408377,155.020203,190.42858
1,44.718,112.152,156.87


Perbedaan Penggunaan Sepeda pada Hari Libur vs. Hari Biasa
- Pada hari biasa (is_holiday = 0), rata-rata ada 35 pengguna kasual dan 155 pengguna terdaftar, dengan total 190 pengguna.
- Pada hari libur (is_holiday = 1), rata-rata pengguna kasual meningkat menjadi 45 pengguna, tetapi pengguna terdaftar turun menjadi 112 pengguna, dengan total hanya 157 pengguna.

Total Peminjaman Lebih Rendah pada Hari Libur
- Meskipun jumlah pengguna kasual naik, total peminjaman sepeda lebih rendah pada hari libur (157 vs. 190).

**Insight:**
- Hari libur meningkatkan jumlah pengguna kasual, yang kemungkinan besar menggunakan sepeda untuk rekreasi.
- Pengguna terdaftar berkurang signifikan pada hari libur, yang menunjukkan bahwa mereka lebih sering menggunakan sepeda untuk keperluan transportasi sehari-hari.
- Secara total, peminjaman lebih tinggi pada hari biasa dibandingkan hari libur, yang menunjukkan bahwa sistem bike-sharing lebih banyak digunakan untuk mobilitas rutin dibandingkan rekreasi.

In [28]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan hari
hour_df.groupby('day_of_week').agg({
    'number_of_casual_users': 'mean',
    'number_of_registered_users': 'mean',
    'total_count': 'mean'
})

Unnamed: 0_level_0,number_of_casual_users,number_of_registered_users,total_count
day_of_week,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Friday,31.458786,164.677121,196.135907
Monday,28.553449,155.191206,183.744655
Saturday,61.246815,128.962978,190.209793
Sunday,56.163469,121.305356,177.468825
Thursday,24.872521,171.564144,196.436665
Tuesday,23.580514,167.658377,191.238891
Wednesday,23.159192,167.971313,191.130505


Berdasarkan pengguna kasual:
- Akhir pekan (Sabtu & Minggu) memiliki lebih banyak pengguna kasual:
Minggu: 56 pengguna kasual, 121 pengguna terdaftar, total 177 pengguna per jam
- Sabtu: 61 pengguna kasual, 129 pengguna terdaftar, total 190 pengguna per jam

Berdasarkan pengguna terdaftar:
- Pengguna kasual lebih sedikit (rata-rata 23-32 orang per jam)
- Pengguna terdaftar meningkat secara signifikan (mencapai 171 pengguna pada hari Jumat per jam)

Berdasarkan rata-rata total peminjaman:
- Hari dengan total peminjaman tertinggi adalah Kamis (196 pengguna per jam), diikuti oleh Jum'at.
- Hari dengan total peminjaman terendah adalah Minggu (177 pengguna), kemungkinan karena lebih sedikit aktivitas kerja atau sekolah.

**Insight:**
- Akhir pekan (Sabtu & Minggu) memiliki lebih banyak pengguna kasual.
- Hari kerja (Senin–Jumat) didominasi oleh pengguna terdaftar.
- Peminjaman sepeda mencapai puncaknya pada Kamis dan Jum'at, sedangkan peminjaman terendah terjadi pada Minggu.


In [29]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan jam
hour_df.groupby('hour').agg({
    'number_of_casual_users': 'mean',
    'number_of_registered_users': 'mean',
    'total_count': 'mean'
})

Unnamed: 0_level_0,number_of_casual_users,number_of_registered_users,total_count
hour,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,10.158402,43.739669,53.898072
1,6.504144,26.871547,33.375691
2,4.772028,18.097902,22.86993
3,2.715925,9.011478,11.727403
4,1.253945,5.098996,6.352941
5,1.411437,18.478382,19.889819
6,4.161379,71.882759,76.044138
7,11.055021,201.009629,212.064649
8,21.679505,337.331499,359.011004
9,30.891334,188.418157,219.309491


Berdasarkan perbedaan pola pengguna kasual vs. terdaftar:
- Pengguna terdaftar mendominasi jam kerja (06:00 - 19:00), dengan puncak peminjaman pada pukul 08:00 (337 pengguna) dan 17:00 (387 pengguna).
- Pengguna kasual lebih banyak pada siang hingga sore hari (10:00 - 17:00), dengan jumlah tertinggi pada pukul 14:00 (76 pengguna).

Berdasarkan jam dengan peminjaman tertinggi dan terendah
- Jam dengan total peminjaman tertinggi:
  - Pukul 17:00 (461 pengguna) → Waktu pulang kerja/kuliah.
  - Pukul 18:00 (426 pengguna) → Masih tinggi, kemungkinan akibat perjalanan pulang yang bertahap.
  - Pukul 08:00 (359 pengguna) → Waktu perjalanan pagi ke kantor/sekolah.
Jam dengan total peminjaman terendah:
  - Pukul 04:00 (6 pengguna) → Hampir tidak ada aktivitas peminjaman.
  - Pukul 03:00 dan 05:00 juga sangat rendah.

**Insight:**
- Penggunaan sepeda meningkat tajam pada jam sibuk pagi (07:00 - 09:00) dan sore (17:00 - 19:00), menunjukkan bahwa sepeda banyak digunakan sebagai transportasi utama oleh pengguna terdaftar.
- Pengguna kasual lebih banyak di siang hingga sore hari (10:00 - 16:00), kemungkinan besar untuk rekreasi atau aktivitas santai.
- Dini hari (00:00 - 05:00) adalah waktu dengan aktivitas peminjaman paling sedikit, yang masuk akal karena sebagian besar orang sedang tidur.
- Sistem bike-sharing perlu memastikan ketersediaan sepeda saat jam sibuk, terutama pada pagi dan sore hari, untuk mengakomodasi lonjakan pengguna terdaftar.

### Explore `day_df`

In [30]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan musim
day_df.groupby('season').agg({
    'total_count': ['min', 'mean', 'max'],
    'temperature': 'mean',
    'feeling_temperature': 'mean',
    'humidity': 'mean',
    'wind_speed': 'mean'
})

Unnamed: 0_level_0,total_count,total_count,total_count,temperature,feeling_temperature,humidity,wind_speed
Unnamed: 0_level_1,min,mean,max,mean,mean,mean,mean
season,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Fall,1115,5644.303191,8714,0.706309,0.655898,63.348206,11.530366
Spring,431,2604.132597,7836,0.297748,0.296914,58.290291,14.373984
Summer,795,4992.331522,8362,0.544405,0.520307,62.694833,13.634978
Winter,22,4728.162921,8555,0.422906,0.415539,66.871917,11.523637


Musim dengan Penyewaan Tertinggi & Terendah:
- Jumlah penyewaan tertinggi terjadi pada musim gugur (Fall) dengan rata-rata 5,644 sepeda dan maksimum 8,714 sepeda.
- Jumlah penyewaan terendah terjadi pada musim semi (Spring) dengan rata-rata 2,604 sepeda dan minimum 431 sepeda.

Hubungan Temperatur & Penyewaan:
- Musim panas (Summer) memiliki suhu rata-rata tertinggi (0.544) dan perasaan suhu yang lebih tinggi (0.520), yang mendukung tingginya jumlah penyewaan.
- Musim dingin (Winter) memiliki suhu terendah (0.422) tetapi tetap memiliki jumlah penyewaan yang cukup tinggi (4,728 sepeda rata-rata), kemungkinan karena banyak pengguna terdaftar yang masih aktif.

Pengaruh Kelembaban & Kecepatan Angin:
- Musim dengan kelembaban tertinggi adalah Winter (66.87%), yang bisa membuat cuaca kurang nyaman untuk bersepeda.
- Kecepatan angin tertinggi terjadi pada Spring (14.37), yang bisa menjadi faktor mengapa penyewaan rendah di musim ini.

**Insight:**
- Musim Gugur (Fall) adalah puncak penyewaan sepeda karena suhu yang nyaman dan kelembaban yang moderat.
- Musim Semi (Spring) adalah musim dengan penyewaan terendah, kemungkinan karena angin lebih kencang.
- Musim dingin (Winter) tetap memiliki jumlah penyewaan tinggi meskipun suhu rendah, menunjukkan adanya pengguna tetap yang menggunakan sepeda sebagai alat transportasi utama.

In [31]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan kondisi cuaca
day_df.groupby('weather_condition').agg({
    'total_count': ['min', 'mean', 'max'],
    'temperature': 'mean',
    'feeling_temperature': 'mean',
    'humidity': 'mean',
    'wind_speed': 'mean'
})

Unnamed: 0_level_0,total_count,total_count,total_count,temperature,feeling_temperature,humidity,wind_speed
Unnamed: 0_level_1,min,mean,max,mean,mean,mean,mean
weather_condition,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
1,431,4876.786177,8714,0.511541,0.488596,56.559439,12.746926
2,605,4035.862348,8362,0.470366,0.452868,72.588678,12.490863
3,22,1803.285714,4639,0.43344,0.413064,84.887248,16.303489


Penyewaan Sepeda Tertinggi & Terendah:
- Cuaca cerah (Kategori 1) memiliki rata-rata penyewaan tertinggi (4,876 sepeda) dengan maksimum 8,714 sepeda, menunjukkan bahwa orang lebih cenderung bersepeda saat cuaca mendukung.
- Cuaca buruk (Kategori 3: Hujan/Salju) memiliki rata-rata penyewaan terendah (1,803 sepeda) dan minimum hanya 22 sepeda, yang menunjukkan dampak besar dari cuaca buruk terhadap aktivitas bersepeda.

Hubungan Suhu & Kenyamanan:
- Cuaca cerah (Kategori 1) memiliki suhu dan perasaan suhu yang lebih tinggi (0.511 & 0.488) yang mendukung aktivitas luar ruangan.
- Cuaca hujan/salju (Kategori 3) memiliki suhu terendah (0.433 & 0.413), yang dapat mengurangi kenyamanan bersepeda.

Pengaruh Kelembaban & Kecepatan Angin:
- Kelembaban meningkat seiring dengan memburuknya cuaca (Kategori 1: 56.56% → Kategori 3: 84.89%), yang bisa membuat perjalanan kurang nyaman.
- Kecepatan angin tertinggi terjadi saat cuaca buruk (Kategori 3: 16.3), yang bisa menyulitkan pesepeda dan mengurangi jumlah peminjaman.

**Insight:**
- Cuaca cerah meningkatkan peminjaman sepeda secara signifikan.
- Cuaca buruk (hujan/salju) menyebabkan penurunan drastis dalam penyewaan, kemungkinan karena faktor keselamatan dan kenyamanan.

In [32]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan hari kerja
day_df.groupby('is_workingday').agg({
    'number_of_casual_users': 'mean',
    'number_of_registered_users': 'mean',
    'total_count': 'mean'
})

Unnamed: 0_level_0,number_of_casual_users,number_of_registered_users,total_count
is_workingday,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1371.134199,2959.034632,4330.168831
1,606.57,3978.25,4584.82


**Insight:**
- Hari kerja (is_workingday = 1) memiliki rata-rata peminjaman lebih tinggi (4,584 sepeda) dibandingkan akhir pekan (4,330 sepeda).
- Pada akhir pekan, pengguna kasual lebih banyak (1,371 orang) dibanding hari kerja (606 orang).
- Pada hari kerja, Pengguna terdaftar meningkat drastis (3,978 orang) dibanding akhir pekan (2,959 orang).

In [33]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan hari libur
day_df.groupby('is_holiday').agg({
    'number_of_casual_users': 'mean',
    'number_of_registered_users': 'mean',
    'total_count': 'mean'
})

Unnamed: 0_level_0,number_of_casual_users,number_of_registered_users,total_count
is_holiday,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,841.771831,3685.332394,4527.104225
1,1064.714286,2670.285714,3735.0


**Insight:**
- Hari biasa (is_holiday = 0) memiliki rata-rata peminjaman 4,527 sepeda, lebih tinggi dibandingkan hari libur yang hanya 3,735 sepeda.
- Pada hari libur, pengguna kasual meningkat (1,064 orang) dibanding hari biasa (841 orang).
- Pada hari biasa, Pengguna terdaftar lebih dominan (3,685 orang) dibanding hari libur (2,670 orang).

In [34]:
# statistik rata-rata jumlah peminjaman sepeda berdasarkan hari libur
day_df.groupby('day_of_week').agg({
    'number_of_casual_users': 'mean',
    'number_of_registered_users': 'mean',
    'total_count': 'mean'
})

Unnamed: 0_level_0,number_of_casual_users,number_of_registered_users,total_count
day_of_week,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Friday,752.288462,3938.0,4690.288462
Monday,674.133333,3663.990476,4338.12381
Saturday,1465.257143,3085.285714,4550.542857
Sunday,1338.295238,2890.533333,4228.828571
Thursday,590.961538,4076.298077,4667.259615
Tuesday,556.182692,3954.480769,4510.663462
Wednesday,551.144231,3997.394231,4548.538462


**Insight:**
- Hari dengan peminjaman tertinggi: Jumat (4,690 sepeda), diikuti Kamis (4,667 sepeda).
- Hari dengan peminjaman terendah: Minggu (4,228 sepeda).
- Untuk pengguna kasual, Sabtu (1,465 pengguna) dan Minggu (1,338 pengguna) memiliki jumlah tertinggi.
- Sementara untuk pengguna terdaftar, Kamis (4,076 pengguna) dan Jumat (3,938 pengguna) memiliki jumlah tertinggi

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana tren penggunaan sepeda dari tahun ke tahun?

In [35]:
# BERDASARKAN HARI
# Menemukan tanggal dengan jumlah penyewaan total tertinggi
max_total = day_df['total_count'].max()
max_date = day_df.loc[day_df['total_count'] == max_total, 'date'].values[0]

# Membuat figure
fig = go.Figure()

# Menambahkan garis untuk total_count
fig.add_trace(go.Scatter(x=day_df['date'], y=day_df['total_count'],
                         mode='lines', name='Total Pengguna',
                         line=dict(color='#003092', width=2)))

# Menambahkan garis untuk pengguna casual
fig.add_trace(go.Scatter(x=day_df['date'], y=day_df['number_of_casual_users'],
                         mode='lines', name='Pengguna Kasual',
                         line=dict(color='#00879E', width=2)))

# Menambahkan garis untuk pengguna registered
fig.add_trace(go.Scatter(x=day_df['date'], y=day_df['number_of_registered_users'],
                         mode='lines', name='Pengguna Terdaftar',
                         line=dict(color='#FFAB5B', width=2)))

# Menyoroti titik dengan total_count tertinggi
fig.add_trace(go.Scatter(x=[max_date], y=[max_total], mode='markers',
                         marker=dict(color='red', size=10, symbol='star'),
                         name=f'Max: {max_total}'))

# Menyesuaikan tata letak
fig.update_layout(
    title='Tren Peminjaman Sepeda per Hari (2011-2012)',
    xaxis_title='Tanggal',
    yaxis_title='Jumlah Sepeda',
    template='plotly_white',
    xaxis=dict(tickangle=45)
)

# Menampilkan plot
fig.show()


**Insight:**
Peminjaman sepeda per harinya cukup fluktuatif. Secara umum, peminjaman sepeda pada tahun 2012 mengalami kenaikan dibanding tahun 2011. Puncaknya berada di tanggal 15 September 2012.

In [36]:
import pandas as pd
import plotly.express as px

# Buat kolom baru dengan format "YYYY-MM" untuk pengelompokan
day_df['year_month'] = day_df['date'].dt.to_period('M')

# Grouping berdasarkan year_month untuk registered dan casual users
monthly_trend = day_df.groupby('year_month', as_index=False)[['number_of_registered_users', 'number_of_casual_users']].sum()

# Konversi year_month ke datetime agar bisa diurutkan
monthly_trend['year_month'] = pd.to_datetime(monthly_trend['year_month'].astype(str))

# Mengubah format data menjadi long format agar bisa divisualisasikan dalam satu plot
monthly_trend_melted = monthly_trend.melt(id_vars=['year_month'],
                                          value_vars=['number_of_registered_users', 'number_of_casual_users'],
                                          var_name='user_type', value_name='total_count')

# Mengganti nama user_type agar lebih mudah dibaca di legenda
user_type_mapping = {
    'number_of_registered_users': 'Registered Users',
    'number_of_casual_users': 'Casual Users'
}
monthly_trend_melted['user_type'] = monthly_trend_melted['user_type'].map(user_type_mapping)

# Membuat line plot dengan Plotly
fig = px.line(monthly_trend_melted, x='year_month', y='total_count', color='user_type',
              title='Tren Peminjaman Sepeda per Bulan (Registered vs Casual)',
              labels={'year_month': 'Bulan', 'total_count': 'Total Peminjaman', 'user_type': 'Tipe Pengguna'},
              markers=True)

# Menyesuaikan tampilan sumbu x agar tidak bertabrakan
fig.update_layout(xaxis=dict(tickangle=-45))

# Menampilkan plot
fig.show()


**Insight:**
- Jumlah perjalanan bikeshare di tahun 2012 lebih tinggi dibandingkan dengan tahun 2011.
- Kita dapat melihat adanya musim dalam 2 tahun tersebut. Jumlah perjalanan peminjaman sepeda biasanya dimulai dengan jumlah yang rendah pada awal tahun, kemudian mulai meningkat pada kuartal kedua (April hingga Juni), lalu mulai menurun pada kuartal keempat (Oktober hingga Desember).
- Total pengguna yang terdaftar lebih tinggi daripada pengguna kasual, meskipun keduanya menunjukkan tren yang sama sepanjang tahun.

### Pertanyaan 2: Pada jam berapa penyewaan sepeda paling tinggi dan paling rendah?

In [37]:
import plotly.graph_objects as go
import pandas as pd

# Menghitung rata-rata dan nilai maksimal total_count per jam berdasarkan jenis pengguna
hourly_avg_registered = hour_df.groupby('hour')['number_of_registered_users'].mean()
hourly_avg_casual = hour_df.groupby('hour')['number_of_casual_users'].mean()

hourly_max_registered = hour_df.groupby('hour')['number_of_registered_users'].max()
hourly_max_casual = hour_df.groupby('hour')['number_of_casual_users'].max()

# Menentukan jam dengan jumlah maksimal tertinggi
max_hour_registered = hourly_max_registered.idxmax()
max_value_registered = hourly_max_registered.max()

max_hour_casual = hourly_max_casual.idxmax()
max_value_casual = hourly_max_casual.max()

# Membuat figure
fig = go.Figure()

# Menambahkan garis tren untuk registered users
fig.add_trace(go.Scatter(x=hourly_avg_registered.index, y=hourly_avg_registered.values,
                         mode='lines+markers', name='Rata-rata Registered',
                         line=dict(color='#003f5c', width=2),
                         marker=dict(size=6)))

# Menambahkan garis tren untuk casual users
fig.add_trace(go.Scatter(x=hourly_avg_casual.index, y=hourly_avg_casual.values,
                         mode='lines+markers', name='Rata-rata Casual',
                         line=dict(color='#ffa600', width=2),
                         marker=dict(size=6)))

# Menambahkan bar plot untuk nilai maksimum registered users
fig.add_trace(go.Bar(x=hourly_max_registered.index, y=hourly_max_registered.values,
                     name='Maksimum Registered',
                     marker=dict(color='#003f5c', opacity=0.6)))

# Menambahkan bar plot untuk nilai maksimum casual users
fig.add_trace(go.Bar(x=hourly_max_casual.index, y=hourly_max_casual.values,
                     name='Maksimum Casual',
                     marker=dict(color='#ffa600', opacity=0.6)))

# Menyoroti jam dengan penyewaan tertinggi untuk registered
fig.add_trace(go.Scatter(x=[max_hour_registered], y=[max_value_registered], mode='markers',
                         marker=dict(color='#003092', size=10, symbol='star'),
                         name=f'Max Registered ({max_hour_registered}:00 - {max_value_registered})'))

# Menyoroti jam dengan penyewaan tertinggi untuk casual
fig.add_trace(go.Scatter(x=[max_hour_casual], y=[max_value_casual], mode='markers',
                         marker=dict(color='#ffa600', size=10, symbol='star'),
                         name=f'Max Casual ({max_hour_casual}:00 - {max_value_casual})'))

# Menyesuaikan tata letak
fig.update_layout(
    title="Rata-rata dan Maksimum Penyewaan Sepeda per Jam (Registered vs Casual)",
    xaxis_title="Jam",
    yaxis_title="Jumlah Penyewaan",
    xaxis=dict(tickmode='array', tickvals=list(range(24))),
    template='plotly_white',
    barmode='overlay'  # Untuk menumpuk line plot dan bar plot
)

# Menampilkan plot
fig.show()


**Insight:**
- Diagram di atas menunjukkan perbedaan pola pada pengguna kasual dan pengguna terdaftar berdasarkan jam dalam sehari.
- Pengguna terdaftar mendominasi jam kerja (06:00 - 19:00), dengan puncak peminjaman pada pukul 08:00 dan 17:00. Kedua jam ini adalah waktu biasanya orang-orang pergi dan pulang dari kerja atau kuliah. Ini  menunjukkan bahwa sepeda banyak digunakan sebagai transportasi utama oleh pengguna terdaftar.
- Di samping itu, pengguna kasual lebih banyak pada siang hingga sore hari (10:00 - 17:00), dengan rata-rata tertinggi pada pukul 14:00 kemudian mulai berkurang setelah jam 17.00.
- Sebagai tambahan penyewaan paling rendah di antar kedua kategori terjadi pada dini hari (0.00 - 0.5.00) karena kebanyakan orang beristirahat pada jam-jam tersebut.

### Pertanyaan 3: Pada musim apa yang memiliki tingkat peminjaman sepeda tertinggi?


In [38]:
import plotly.graph_objects as go
import pandas as pd

# Menghitung rata-rata jumlah penyewaan per musim
season_total = hour_df.groupby('season', as_index=False)['total_count'].sum()

# Menentukan musim dengan nilai tertinggi
max_season = season_total.loc[season_total['total_count'].idxmax(), 'season']  # Musim dengan penyewaan tertinggi
max_value = season_total['total_count'].max()  # Nilai tertinggi

# Warna untuk setiap musim (standar: orange, tertinggi: biru)
colors = ['#FFAB5B' if season != max_season else '#00879E' for season in season_total['season']]

# Membuat bar plot
fig = go.Figure()

fig.add_trace(go.Bar(
    x=season_total['season'],  # Gunakan nama musim langsung
    y=season_total['total_count'],
    marker=dict(color=colors),  # Gunakan warna berbeda untuk musim dengan penyewaan tertinggi
    text=season_total['total_count'].round(2),  # Menampilkan nilai pada bar
    textposition='auto',
    name='Rata-rata Penyewaan'
))

# Menyesuaikan tata letak
fig.update_layout(
    title="Rata-rata Penyewaan Sepeda Berdasarkan Musim",
    xaxis_title="Musim",
    yaxis_title="Rata-rata Jumlah Penyewaan",
    template='plotly_white'
)

# Menampilkan plot
fig.show()


**Insight:** Jumlah peminjaman sepeda tertinggi terjadi pada musim gugur, sedangkan terendah terjadi selama musim semi.

In [39]:
import plotly.graph_objects as go
import pandas as pd

# Menghitung total penyewaan berdasarkan musim untuk registered & casual users
season_avg = hour_df.groupby('season', as_index=False)[['number_of_registered_users', 'number_of_casual_users']].sum()

# Menentukan musim dengan penyewaan tertinggi untuk masing-masing kategori
max_season_registered = season_avg.loc[season_avg['number_of_registered_users'].idxmax(), 'season']
max_season_casual = season_avg.loc[season_avg['number_of_casual_users'].idxmax(), 'season']

# Warna standar dan warna khusus untuk musim dengan penyewaan tertinggi
color_registered = '#FFAB5B'
color_casual ='#FFC300'
# Membuat figure
fig = go.Figure()

# Bar plot untuk registered users
fig.add_trace(go.Bar(
    x=season_avg['season'],
    y=season_avg['number_of_registered_users'],
    name="Registered Users",
    marker=dict(color=color_registered),
    text=season_avg['number_of_registered_users'].round(2),
    textposition='auto'
))

# Bar plot untuk casual users
fig.add_trace(go.Bar(
    x=season_avg['season'],
    y=season_avg['number_of_casual_users'],
    name="Casual Users",
    marker=dict(color=color_casual),
    text=season_avg['number_of_casual_users'].round(2),
    textposition='auto'
))

# Menyesuaikan tata letak
fig.update_layout(
    title="Total Penyewaan Sepeda Berdasarkan Musim (Registered vs Casual)",
    xaxis_title="Musim",
    yaxis_title="Total Peminjaman",
    barmode='group',  # Memisahkan bar untuk setiap kategori
    template='plotly_white'
)

# Menampilkan plot
fig.show()


**Insight:**
- Tidak ada perbedaan besar antara pola perjalanan kasual dan terdaftar selama musim, keduanya tertinggi di musim gugur dan terendah di musim semi.

### Pertanyaan 4: Apakah cuaca memengaruhi jumlah peminjaman sepeda?


In [44]:
import plotly.graph_objects as go
import pandas as pd

# Menghitung jumlah penyewaan per musim
weather_sum = hour_df.groupby('weather_condition', as_index=False)['total_count'].sum()

# Menentukan musim dengan nilai tertinggi
max_weather = weather_sum.loc[weather_sum['total_count'].idxmax(), 'weather_condition']  # Musim dengan rata-rata penyewaan tertinggi
max_value = weather_sum['total_count'].max()  # Nilai rata-rata tertinggi

# Warna untuk setiap musim (standar: orange, tertinggi: biru)
colors = ['#FFAB5B' if weather != max_weather else '#00879E' for weather in weather_sum['weather_condition']]

# Membuat bar plot
fig = go.Figure()

fig.add_trace(go.Bar(
    x=weather_sum['weather_condition'],  # Gunakan nama musim langsung
    y=weather_sum['total_count'],
    marker=dict(color=colors),  # Gunakan warna berbeda untuk musim dengan penyewaan tertinggi
    text=weather_sum['total_count'].round(2),  # Menampilkan nilai pada bar
    textposition='auto',
    name='Total Penyewaan'
))

# Menyesuaikan tata letak
fig.update_layout(
    title="Total Penyewaan Sepeda Berdasarkan Cuaca",
    xaxis_title="Cuaca",
    yaxis_title="Tota Jumlah Penyewaan",
    template='plotly_white'
)

# Menampilkan plot
fig.show()


In [44]:
import plotly.express as px
import pandas as pd

# Membuat histogram menggunakan Plotly Express
fig = px.histogram(hour_df, x="total_count",
                   facet_col="season", facet_row="weather_condition",
                   color="season",
                   title="Total Peminjaman Sepeda Berdasrkan situasi cuaca dan musim",
                   labels={"total_count": "Count", "weather_condition": "Weather Condition", "season": "Season"},
                   opacity=0.7,
                   nbins=30)  # Menentukan jumlah bin dalam histogram

# Menyesuaikan tata letak agar lebih rapi
fig.update_layout(
    height=1600,  # Menyesuaikan tinggi gambar
    width=2000,  # Menyesuaikan lebar gambar
    showlegend=False,  # Menyembunyikan legenda karena sudah terlihat dalam judul facet
    title_x=0.5  # Pusatkan judul
)

# Menampilkan plot
fig.show()


**Insight:**
- Penyewaan sepeda lebih banyak pada "Weather Condition 1" (cuaca cerah) dibandingkan kondisi cuaca lainnya.
- Pada "Weather Condition 2" (berkabut) dan "Weather Condition 3" (hujan/salju ringan), distribusi penyewaan cenderung menurun, menunjukkan bahwa pengguna mengurangi aktivitas bersepeda dalam kondisi cuaca yang kurang ideal.
- "Weather Condition 4" (cuaca ekstrem seperti hujan deras, salju tebal, kabut tebal) menunjukkan sangat sedikit penyewaan, mengindikasikan bahwa hampir tidak ada pengguna yang menyewa sepeda saat kondisi ekstrem.
- Dapat disimpulkan total pengguna peminjaman sepeda sangat dipengaruhi oleh kondisi cuaca.

### Pertanyaan 5: Bagaimana pola peminjaman sepeda antara hari kerja dan akhir pekan?

In [None]:
import plotly.graph_objects as go
import pandas as pd

# Urutan hari dalam seminggu
days_order = ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"]

# Menghitung rata-rata jumlah penyewaan berdasarkan hari dalam seminggu untuk setiap jenis pengguna
daily_avg_registered = day_df.groupby('day_of_week')['number_of_registered_users'].mean().reindex(days_order)
daily_avg_casual = day_df.groupby('day_of_week')['number_of_casual_users'].mean().reindex(days_order)

# Menghitung jumlah maksimum penyewaan per hari
daily_max_registered = day_df.groupby('day_of_week')['number_of_registered_users'].max().reindex(days_order)
daily_max_casual = day_df.groupby('day_of_week')['number_of_casual_users'].max().reindex(days_order)

# Menentukan hari dengan jumlah maksimal tertinggi
max_day_registered = daily_max_registered.idxmax()
max_value_registered = daily_max_registered.max()

max_day_casual = daily_max_casual.idxmax()
max_value_casual = daily_max_casual.max()

# Membuat figure
fig = go.Figure()

# Menambahkan garis tren untuk registered users
fig.add_trace(go.Scatter(x=daily_avg_registered.index, y=daily_avg_registered.values,
                         mode='lines+markers', name='Rata-rata Registered',
                         line=dict(color='#003f5c', width=2),
                         marker=dict(size=6)))

# Menambahkan garis tren untuk casual users
fig.add_trace(go.Scatter(x=daily_avg_casual.index, y=daily_avg_casual.values,
                         mode='lines+markers', name='Rata-rata Casual',
                         line=dict(color='#ffa600', width=2),
                         marker=dict(size=6)))

# Menambahkan bar plot untuk nilai maksimum registered users
fig.add_trace(go.Bar(x=daily_max_registered.index, y=daily_max_registered.values,
                     name='Maksimum Registered',
                     marker=dict(color='#003f5c', opacity=0.6)))

# Menambahkan bar plot untuk nilai maksimum casual users
fig.add_trace(go.Bar(x=daily_max_casual.index, y=daily_max_casual.values,
                     name='Maksimum Casual',
                     marker=dict(color='#ffa600', opacity=0.6)))

# Menyoroti hari dengan penyewaan tertinggi untuk registered
fig.add_trace(go.Scatter(x=[max_day_registered], y=[max_value_registered], mode='markers',
                         marker=dict(color='#003092', size=10, symbol='star'),
                         name=f'Max Registered ({max_day_registered} - {max_value_registered})'))

# Menyoroti hari dengan penyewaan tertinggi untuk casual
fig.add_trace(go.Scatter(x=[max_day_casual], y=[max_value_casual], mode='markers',
                         marker=dict(color='#ffa600', size=10, symbol='star'),
                         name=f'Max Casual ({max_day_casual} - {max_value_casual})'))

# Menyesuaikan tata letak
fig.update_layout(
    title="Rata-rata dan Maksimum Penyewaan Sepeda per Hari (Registered vs Casual)",
    xaxis_title="Hari",
    yaxis_title="Jumlah Penyewaan",
    xaxis=dict(categoryorder="array", categoryarray=days_order),  # Mengurutkan hari dengan benar
    template='plotly_white',
    barmode='overlay'  # Untuk menumpuk line plot dan bar plot
)

# Menampilkan plot
fig.show()


**Insight:**
- Secara umum, peminjaman sepeda mencapai puncaknya pada Rabu dan Jum'at, sedangkan peminjaman terendah terjadi pada Minggu.
- Akhir pekan (Sabtu & Minggu) memiliki lebih banyak pengguna kasual, sedangkan hari kerja (Senin–Jumat) didominasi oleh pengguna terdaftar.
- Hal ini juga mendukung insight yang ditemukan pada perjalan per jam bahwa pengguna terdaftar kemungkinan besar menggunakan sepeda untuk rutinitas kerja selama hari kerja, sedangkan pengguna kasual menggunakan sepeda untuk rekreasi atau aktivitas santai di akhir pekan.

## Conclusion

- Secara umum, pola tren fluktuatif ditandai dengan peningkatan pesat di kuadran kedua masing-masing tahun dan menurun di akhir tahun. Walaupun begitu, tren penggunaan sepeda menunjukkan peningkatan dari tahun 2011 ke tahun 2012 menandakan bahwa layanan penyewaan sepeda semakin populer.
- Penyewaan sepeda mencapai puncaknya pada jam sibuk pagi (07:00 - 09:00) dan sore (17:00 - 19:00), yang menunjukkan bahwa banyak pengguna memanfaatkan sepeda untuk pergi dan pulang kerja atau sekolah. Sebaliknya, penyewaan sepeda paling rendah terjadi pada dini hari (00:00 - 05:00) karena kebanyakan orang beristirahat pada jam-jam tersebut.
- Berdasarkan data, pola penggunaan sepeda menunjukkan bahwa musim gugur (Fall) memiliki jumlah penyewaan tertinggi, diikuti oleh musim panas (Summer), musim dingin (Winter), dan yang paling rendah adalah musim semi (Spring). Hal ini bisa disebabkan oleh kondisi cuaca yang masih nyaman di musim gugur dan tingginya mobilitas pengguna sebelum memasuki musim dingin. Sementara itu, musim semi yang memiliki penyewaan terendah kemungkinan dipengaruhi oleh kondisi cuaca yang masih tidak menentu atau belum stabil setelah musim dingin.
- Cuaca memiliki dampak signifikan terhadap jumlah penyewaan. Cuaca cerah atau berawan ringan (Weather Condition 1) memiliki penyewaan tertinggi, sementara cuaca buruk seperti hujan deras, salju tebal, atau kabut tebal (Weather Condition 4) menunjukkan jumlah penyewaan yang sangat rendah. Ini menunjukkan bahwa pengguna lebih memilih bersepeda ketika kondisi cuaca nyaman dan menghindari cuaca ekstrem.
- Pada hari kerja, pola peminjaman sepeda lebih terstruktur dengan dua puncak utama di pagi dan sore hari, yang mencerminkan penggunaan sepeda untuk keperluan komuter (perjalanan ke kantor/sekolah). Sementara itu, pada akhir pekan, pola peminjaman lebih merata sepanjang hari, dengan puncak yang lebih tinggi di siang hingga sore hari, yang menunjukkan bahwa sepeda lebih banyak digunakan untuk rekreasi atau aktivitas santai.

In [46]:
hour_df.to_csv('all_data.csv', index=False)