# **Proyek Analisis Data: Bike Sharing Dataset**
- Nama: Sukma Suciyana
- Email: sukmasuciyanaa@gmail.com
- Id Dicoding: sukmasuci

## **Menentukan Pertanyaan Bisnis**

- Apakah cuaca buruk menyebabkan penurunan yang signifikan dalam jumlah penyewaan?  
- Apakah terdapat peningkatan jumlah penyewaan seiring berjalannya waktu, atau apakah ada perbedaan yang signifikan antara tahun? 
- Bagaimana perbandingan jumlah penyewaan sepeda antara pengguna terdaftar (registered) dan pengguna kasual (casual) di setiap musim?  
- Bagaimana perbandingan jumlah penyewaan sepeda antara hari kerja (Working Day) dan hari non-kerja (Non-Working Day?
- Bagaimana hubungan antara suhu dan jumlah penyewaan sepeda di setiap musim? 
- Bagaimana distribusi jumlah penyewaan sepeda sepanjang hari dalam seminggu?

## **Menyiapkan semua library yang dibutuhkan**

Sebelum memulai proyek, pastikan bahwa semua library yang dibutuhkan telah diimpor

In [8]:
import numpy as np
import pandas as pd
import plotly.express as px
from datetime import datetime

## **Data Wrangling**

### **Gathering Data**

Pada tahap ini kita akan mengumpulkan data yang telah kita kumpulkan. Karena saya memilih **Bike Sharing Dataset**, maka saya mengimpor file **day.csv** dan **hr.csv**

### **Load tabel day**

In [9]:
day= pd.read_csv("data/day.csv", index_col="instant")
day.head()

Unnamed: 0_level_0,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
instant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600


### **Load tabel hr**

In [10]:
hr = pd.read_csv("data/hour.csv", index_col="instant")
hr.head()

Unnamed: 0_level_0,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
instant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


### Assessing Data

### **Menilai day**

1. Mengecek tipe data pada data day

In [11]:
day.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 731 entries, 1 to 731
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   dteday      731 non-null    object 
 1   season      731 non-null    int64  
 2   yr          731 non-null    int64  
 3   mnth        731 non-null    int64  
 4   holiday     731 non-null    int64  
 5   weekday     731 non-null    int64  
 6   workingday  731 non-null    int64  
 7   weathersit  731 non-null    int64  
 8   temp        731 non-null    float64
 9   atemp       731 non-null    float64
 10  hum         731 non-null    float64
 11  windspeed   731 non-null    float64
 12  casual      731 non-null    int64  
 13  registered  731 non-null    int64  
 14  cnt         731 non-null    int64  
dtypes: float64(4), int64(10), object(1)
memory usage: 91.4+ KB


Data diatas terdapat 1 tipe data berdasarkan kolomnya yang tidak sesuai. Data yang perlu diperbaiki adalah: dteday menjadi datetime

2. Mengecek apakah ada missing values

In [12]:
day.isna().sum()

dteday        0
season        0
yr            0
mnth          0
holiday       0
weekday       0
workingday    0
weathersit    0
temp          0
atemp         0
hum           0
windspeed     0
casual        0
registered    0
cnt           0
dtype: int64

Dapat kita simpulkan bahwa tabel day tidak ada missing values, berarti aman.

3. Mengecek apakah ada duplicate data

In [13]:
print("Jumlah duplikasi data: ", day.duplicated().sum())

Jumlah duplikasi data:  0


Pada tabel day terdapat 0 data yang double, artinya semua data bersifat unik.

4. Mengecek apakah terdapat keanehan pada nilai statistiknya

In [14]:
day.describe()

Unnamed: 0,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0
mean,2.49658,0.500684,6.519836,0.028728,2.997264,0.683995,1.395349,0.495385,0.474354,0.627894,0.190486,848.176471,3656.172367,4504.348837
std,1.110807,0.500342,3.451913,0.167155,2.004787,0.465233,0.544894,0.183051,0.162961,0.142429,0.077498,686.622488,1560.256377,1937.211452
min,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.05913,0.07907,0.0,0.022392,2.0,20.0,22.0
25%,2.0,0.0,4.0,0.0,1.0,0.0,1.0,0.337083,0.337842,0.52,0.13495,315.5,2497.0,3152.0
50%,3.0,1.0,7.0,0.0,3.0,1.0,1.0,0.498333,0.486733,0.626667,0.180975,713.0,3662.0,4548.0
75%,3.0,1.0,10.0,0.0,5.0,1.0,2.0,0.655417,0.608602,0.730209,0.233214,1096.0,4776.5,5956.0
max,4.0,1.0,12.0,1.0,6.0,1.0,3.0,0.861667,0.840896,0.9725,0.507463,3410.0,6946.0,8714.0


Dapat kita lihat diatas, tidak ada keanehan pada nilai statistiknya.

### **Menilai hr**

1. Mengecek info hr

In [15]:
hr.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17379 entries, 1 to 17379
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   dteday      17379 non-null  object 
 1   season      17379 non-null  int64  
 2   yr          17379 non-null  int64  
 3   mnth        17379 non-null  int64  
 4   hr          17379 non-null  int64  
 5   holiday     17379 non-null  int64  
 6   weekday     17379 non-null  int64  
 7   workingday  17379 non-null  int64  
 8   weathersit  17379 non-null  int64  
 9   temp        17379 non-null  float64
 10  atemp       17379 non-null  float64
 11  hum         17379 non-null  float64
 12  windspeed   17379 non-null  float64
 13  casual      17379 non-null  int64  
 14  registered  17379 non-null  int64  
 15  cnt         17379 non-null  int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 2.3+ MB


Dapat kita lihat diatas, terdapat 1 tipe data berdasarkan kolomnya yang tidak sesuai. Data yang perlu diperbaiki adalah: dteday menjadi datetime

2. Mengecek apakah ada missing values

In [16]:
hr.isna().sum()

dteday        0
season        0
yr            0
mnth          0
hr            0
holiday       0
weekday       0
workingday    0
weathersit    0
temp          0
atemp         0
hum           0
windspeed     0
casual        0
registered    0
cnt           0
dtype: int64

Dapat kita simpulkan bahwa tabel hr tidak ada missing values, berarti aman.

3. Mengecek apakah ada duplicate data

In [17]:
print("Jumlah duplikasi data: ", hr.duplicated().sum())

Jumlah duplikasi data:  0


4. Mengecek apakah terdapat keanehan pada nilai statistiknya

In [18]:
hr.describe()

Unnamed: 0,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0
mean,2.50164,0.502561,6.537775,11.546752,0.02877,3.003683,0.682721,1.425283,0.496987,0.475775,0.627229,0.190098,35.676218,153.786869,189.463088
std,1.106918,0.500008,3.438776,6.914405,0.167165,2.005771,0.465431,0.639357,0.192556,0.17185,0.19293,0.12234,49.30503,151.357286,181.387599
min,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.02,0.0,0.0,0.0,0.0,0.0,1.0
25%,2.0,0.0,4.0,6.0,0.0,1.0,0.0,1.0,0.34,0.3333,0.48,0.1045,4.0,34.0,40.0
50%,3.0,1.0,7.0,12.0,0.0,3.0,1.0,1.0,0.5,0.4848,0.63,0.194,17.0,115.0,142.0
75%,3.0,1.0,10.0,18.0,0.0,5.0,1.0,2.0,0.66,0.6212,0.78,0.2537,48.0,220.0,281.0
max,4.0,1.0,12.0,23.0,1.0,6.0,1.0,4.0,1.0,1.0,1.0,0.8507,367.0,886.0,977.0


Dapat kita lihat diatas, tidak ada keanehan pada nilai statistiknya.

### **Cleaning Data**

1. Penghapus tabel yang tidak diperlukan

Tabel hr akan dihapus sebelum melanjutkan ke langkah berikutnya.  Tabel ini dihapus karena tidak relevan dengan pertanyaan bisnis yang telah diminta.  Selain itu, hampir semua kolom tabel hr dan day sama, kecuali kolom hr, yang menjadi perbedaan utama. Oleh karena itu, tabel hr tidak diperlukan untuk analisis lebih lanjut.

In [19]:
del hr

2. Penghapus beberapa kolom yang tidak akan digunakan

Berdasarkan pertanyaan bisnis yang sudah ada, maka untuk kolom yang akan didrop, yakni:
- windspeed: Tidak ada pertanyaan bisnis yang terkait dengan efek kecepatan angin terhadap jumlah penyewa sepeda.

In [20]:
day.drop('windspeed', axis=1, inplace=True)
day.head()

Unnamed: 0_level_0,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,casual,registered,cnt
instant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,331,654,985
2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,131,670,801
3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,120,1229,1349
4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,108,1454,1562
5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,82,1518,1600


3. Mengubah beberapa detail tentang kolom

Saya akan merapikan kolom-kolom data agar lebih mudah dipahami. Nama-nama kolom akan diubah agar seragam, beberapa kolom angka akan dijadikan kategori, dan tipe data kolom lainnya akan diperbaiki agar lebih sesuai dengan isinya

In [21]:
# Mengubah nama judul kolom
day.rename(columns={
    'dteday': 'dateday',
    'yr': 'year',
    'mnth': 'month',
    'weathersit': 'weather_cond',
    'cnt': 'count'
}, inplace=True)

day.head()

Unnamed: 0_level_0,dateday,season,year,month,holiday,weekday,workingday,weather_cond,temp,atemp,hum,casual,registered,count
instant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,331,654,985
2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,131,670,801
3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,120,1229,1349
4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,108,1454,1562
5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,82,1518,1600


In [22]:
# Mengubah angka menjadi keterangan
day['month'] = day['month'].map({
    1: 'Jan', 2: 'Feb', 3: 'Mar', 4: 'Apr', 5: 'May', 6: 'Jun',
    7: 'Jul', 8: 'Aug', 9: 'Sep', 10: 'Oct', 11: 'Nov', 12: 'Dec'
})
day['season'] = day['season'].map({
    1: 'Spring', 2: 'Summer', 3: 'Fall', 4: 'Winter'
})
day['weekday'] = day['weekday'].map({
    0: 'Sun', 1: 'Mon', 2: 'Tue', 3: 'Wed', 4: 'Thu', 5: 'Fri', 6: 'Sat'
})
day['weather_cond'] = day['weather_cond'].map({
    1: 'Clear/Partly Cloudy',
    2: 'Misty/Cloudy',
    3: 'Light Snow/Rain',
    4: 'Severe Weather'
})

In [23]:
# Mengubah tipe data ke datetime
day['dateday'] = pd.to_datetime(day.dateday)
# Mengubaha tipe data ke categorical
day['season'] = day.season.astype('category')
day['year'] = day.year.astype('category')
day['month'] = day.month.astype('category')
day['holiday'] = day.holiday.astype('category')
day['weekday'] = day.weekday.astype('category')
day['workingday'] = day.workingday.astype('category')
day['weather_cond'] = day.weather_cond.astype('category')
day.head()

Unnamed: 0_level_0,dateday,season,year,month,holiday,weekday,workingday,weather_cond,temp,atemp,hum,casual,registered,count
instant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,2011-01-01,Spring,0,Jan,0,Sat,0,Misty/Cloudy,0.344167,0.363625,0.805833,331,654,985
2,2011-01-02,Spring,0,Jan,0,Sun,0,Misty/Cloudy,0.363478,0.353739,0.696087,131,670,801
3,2011-01-03,Spring,0,Jan,0,Mon,1,Clear/Partly Cloudy,0.196364,0.189405,0.437273,120,1229,1349
4,2011-01-04,Spring,0,Jan,0,Tue,1,Clear/Partly Cloudy,0.2,0.212122,0.590435,108,1454,1562
5,2011-01-05,Spring,0,Jan,0,Wed,1,Clear/Partly Cloudy,0.226957,0.22927,0.436957,82,1518,1600


In [24]:
day.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 731 entries, 1 to 731
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   dateday       731 non-null    datetime64[ns]
 1   season        731 non-null    category      
 2   year          731 non-null    category      
 3   month         731 non-null    category      
 4   holiday       731 non-null    category      
 5   weekday       731 non-null    category      
 6   workingday    731 non-null    category      
 7   weather_cond  731 non-null    category      
 8   temp          731 non-null    float64       
 9   atemp         731 non-null    float64       
 10  hum           731 non-null    float64       
 11  casual        731 non-null    int64         
 12  registered    731 non-null    int64         
 13  count         731 non-null    int64         
dtypes: category(7), datetime64[ns](1), float64(3), int64(3)
memory usage: 52.1 KB


## **Exploratory Data Analysis (EDA)**

### **Eksplorasi Data day**

1. Pengaruh Cuaca terhadap Permintaan Penyewaan Sepeda

In [25]:
day.groupby('weather_cond').agg({
    'count': ['max', 'min', 'mean', 'sum']
})

Unnamed: 0_level_0,count,count,count,count
Unnamed: 0_level_1,max,min,mean,sum
weather_cond,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Clear/Partly Cloudy,8714,431,4876.786177,2257952
Light Snow/Rain,4639,22,1803.285714,37869
Misty/Cloudy,8362,605,4035.862348,996858


Seperti data yang ditampilkan diatas dapat disimpulkan bahwa cuaca buruk seperti "Light Snow/Rain" secara signifikan mengurangi jumlah penyewaan sepeda

2. Perbandingan Tingkat Penyewaan Sepeda dari Tahun 2011 ke 2012"

In [26]:
day.groupby('year').agg({
    'count': ['max', 'min', 'mean', 'sum']
})

Unnamed: 0_level_0,count,count,count,count
Unnamed: 0_level_1,max,min,mean,sum
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,6043,431,3405.761644,1243103
1,8714,22,5599.934426,2049576


Dari data diatas menunjukkan bahwa penyewaan mengalami peningkatan pada tahun 2012

3. Perbandingan Penyewaan Sepeda di Hari Kerja, Libur, dan Biasa

In [27]:
day.groupby('weekday').agg({
    'count': ['max', 'min', 'mean', 'sum']
})

Unnamed: 0_level_0,count,count,count,count
Unnamed: 0_level_1,max,min,mean,sum
weekday,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Fri,8362,1167,4690.288462,487790
Mon,7525,22,4338.12381,455503
Sat,8714,627,4550.542857,477807
Sun,8227,605,4228.828571,444027
Thu,7804,431,4667.259615,485395
Tue,7767,683,4510.663462,469109
Wed,8173,441,4548.538462,473048


Dapat di lihat bawha pada akhir pekan terjadi penyewaan yang stabil sepanjang minggu, dengan sedikit peningkatan di akhir pekan.

4. Pengaruh Musim Terhadap Penyewaan Sepeda

In [28]:
day.groupby('season').agg({
    'count': ['max', 'min', 'mean', 'sum']
})

Unnamed: 0_level_0,count,count,count,count
Unnamed: 0_level_1,max,min,mean,sum
season,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Fall,8714,1115,5644.303191,1061129
Spring,7836,431,2604.132597,471348
Summer,8362,795,4992.331522,918589
Winter,8555,22,4728.162921,841613


Dapat Di lihat bahwa pada musim gugur dan musim panas memiliki jumlah penyewaan tertinggi dibandingkan musim dingin yang mengalami penurunan penyewaan sepeda

5. Pengaruh Variabel Lingkungan (Suhu, Kelembapan) Terhadap Penyewaan

In [29]:
day.groupby('temp').agg({
    'count': ['max', 'min', 'mean', 'sum']
})

day.groupby('hum').agg({
    'count': ['max', 'min', 'mean', 'sum']
})

Unnamed: 0_level_0,count,count,count,count
Unnamed: 0_level_1,max,min,mean,sum
hum,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0.000000,623,623,623.0,623
0.187917,1635,1635,1635.0,1635
0.254167,6857,6857,6857.0,6857
0.275833,5169,5169,5169.0,5169
0.290000,5102,5102,5102.0,5102
...,...,...,...,...
0.948261,605,605,605.0,605
0.949583,2594,2594,2594.0,2594
0.962500,1607,1607,1607.0,1607
0.970417,705,705,705.0,705


Berdasarkan hasil diatas penyewaan sepeda sangat dipengaruhi suhu yang tidak terlalu panas atau dingin, cenderung meningkatkan minat. Sebaliknya, kelembapan udara yang tinggi dapat menurunkan minat untuk menyewa sepeda.

## **Visualization & Explanatory Analysis**

### **Pertanyaan 1: Apakah cuaca buruk menyebabkan penurunan yang signifikan dalam jumlah penyewaan?**

In [30]:


avg_rentals = day.groupby('weather_cond')['count'].mean().reset_index()
fig = px.bar(avg_rentals, x='weather_cond', y='count', color='weather_cond',
             title='Rata-rata Penyewaan Sepeda Berdasarkan Kondisi Cuaca',
             labels={'weather_cond': 'Kondisi Cuaca', 'count': 'Rata-rata Jumlah Penyewaan'})
fig.show()

Dari hasil analisis diatas menunjukan bahwa jumlah penyewaan sepeda mengalami penurunan ketika cuaca sedang tidak mendukung. Hal ini menunjukan bahwa cuaca memiliki dampak yang besar pada aktivitas penyewaan sepeda.

### **Pertanyaan 2: Apakah terdapat peningkatan jumlah penyewaan seiring berjalannya waktu, atau apakah ada perbedaan yang signifikan antara tahun?**

In [31]:
fig = px.line(day, x='dateday', y='count', color='year',
              title="Tren Penyewaan Sepeda Tahun 2011 vs 2012",
              labels={"dateday": "Tanggal", "count": "Jumlah Penyewaan", "year": "Tahun"})
fig.show()

Analisis tren diatas dari tahun 2011 hingga 2012 menunjukkan adanya perbedaan pola yang signifikan. Perbedaan ini mengindikasikan bahwa terdapat faktor-faktor eksternal yang memengaruhi peningkatan jumlah penyewaan di tahun tertentu. Faktor-faktor tersebut dapat berupa promosi yang gencar, peningkatan kesadaran masyarakat akan manfaat bersepeda, atau pengembangan infrastruktur yang lebih baik untuk mendukung penggunaan sepeda.

### **Pertanyaan 3: Bagaimana perbandingan jumlah penyewaan sepeda antara pengguna terdaftar (registered) dan pengguna kasual (casual) di setiap musim?**

In [32]:
seasonal_usage = day.groupby('season')[['registered', 'casual']].sum().reset_index()

fig = px.bar(seasonal_usage, x='season', y=['registered', 'casual'],
             title='Jumlah penyewaan sepeda berdasarkan musim',
             labels={'value': 'Jumlah Penyewaan', 'season': 'Musim'},
             barmode='group')
fig.show()

Berdasarkan analisis diatas menunjukkan perbedaan perilaku antara pelanggan kasual dan pelanggan terdaftar. Pengguna terdaftar secara konsisten menunjukkan jumlah penyewaan yang jauh lebih tinggi dibandingkan pengguna kasual di semua musim. Musim gugur (Fall) menjadi puncak penyewaan bagi kedua kategori pengguna, dengan jumlah penyewaan terdaftar mencapai angka tertinggi. Sementara itu, penyewaan kasual juga menunjukkan peningkatan di musim gugur, tetapi dengan selisih yang signifikan lebih rendah dari pengguna terdaftar. Musim semi (Spring) mencatat jumlah penyewaan terendah untuk pengguna terdaftar.

### **Pertanyaan 4: Bagaimana perbandingan jumlah penyewaan sepeda antara hari kerja (Working Day) dan hari non-kerja (Non-Working Day)?**

In [33]:
workingday_counts = day.groupby('workingday')['count'].sum().reset_index()
workingday_counts['workingday'] = workingday_counts['workingday'].map({0: 'Non-Working Day', 1: 'Working Day'})
fig = px.bar(workingday_counts, x='workingday', y='count', color='workingday',
             title='Perbandingan Penyewaan Working Day vs Non-Working Day',
             labels={'workingday': 'Kategori Hari', 'count': 'Jumlah Penyewaan'})
fig.show()

Pada gambar diatas menunjukkan perbedaan yang signifikan dalam jumlah penyewaan sepeda antara hari kerja dan hari non-kerja. Jumlah penyewaan pada hari kerja jauh lebih tinggi dibandingkan dengan hari non-kerja, dengan selisih yang sangat mencolok. Hal ini mengindikasikan bahwa penggunaan sepeda lebih dominan sebagai sarana transportasi untuk keperluan kerja atau aktivitas rutin lainnya yang terjadi pada hari kerja. Sebaliknya, pada hari non-kerja, jumlah penyewaan sepeda mengalami penurunan yang signifikan, menunjukkan bahwa sepeda mungkin kurang diminati sebagai sarana rekreasi atau aktivitas santai pada hari-hari tersebut.

### **Pertanyaan 5: Bagaimana hubungan antara suhu dan jumlah penyewaan sepeda di setiap musim?**

In [34]:
fig = px.scatter(day, x='temp', y='count', color='season',
                title='Hubungan Antara Suhu dan Jumlah Penyewaan',
                labels={'temp': 'Suhu', 'count': 'Jumlah Penyewaan', 'season': 'Musim'})
fig.show()

Analisis diatas menunjukkan hubungan yang jelas antara suhu dan jumlah penyewaan sepeda, dengan perbedaan pola yang terlihat di setiap musim. Secara umum, terdapat korelasi positif antara suhu dan jumlah penyewaan, dimana peningkatan suhu cenderung diikuti oleh peningkatan jumlah penyewaan. Namun, pola ini bervariasi antar musim. Musim panas (Summer) menunjukkan konsentrasi penyewaan yang tinggi pada rentang suhu yang lebih luas, mengindikasikan bahwa kondisi hangat secara konsisten mendorong aktivitas bersepeda. Musim gugur (Fall) juga menunjukkan tren serupa, meskipun dengan sedikit variasi pada suhu yang lebih tinggi. Musim semi (Spring) dan musim dingin (Winter) menunjukkan distribusi penyewaan yang lebih rendah secara keseluruhan, dengan kecenderungan penyewaan meningkat seiring kenaikan suhu, namun tidak mencapai tingkat yang sama dengan musim panas dan gugur.

### **Pertanyaan 6: Bagaimana distribusi jumlah penyewaan sepeda sepanjang hari dalam seminggu?**

In [35]:
weekday_counts = day.groupby('weekday')['count'].sum().reset_index()
fig = px.bar(weekday_counts, x='weekday', y='count', color='weekday',
             category_orders={"weekday": ["Sun", "Mon", "Tue", "Wed", "Thu", "Fri", "Sat"]},
             title='Jumlah Penyewaan Sepeda Berdasarkan Hari dalam Minggu',
             labels={'weekday': 'Hari', 'count': 'Jumlah Penyewaan'})
fig.show()

Pada gambar diatas menunjukan bahwa jumlah penyewaan relatif seragam di sebagian besar hari kerja (Senin hingga Jumat). Akhir pekan, khususnya hari Sabtu, menunjukkan jumlah penyewaan yang sedikit lebih rendah dibandingkan hari kerja. Hari Minggu juga menunjukkan jumlah penyewaan yang lebih rendah dari hari kerja. Pola ini mengindikasikan bahwa penggunaan sepeda mungkin lebih dominan sebagai sarana transportasi untuk keperluan komuter atau aktivitas rutin lainnya yang terjadi pada hari kerja. Penurunan pada akhir pekan mengisyaratkan adanya perubahan pola penggunaan, di mana sepeda mungkin kurang diminati sebagai sarana rekreasi atau aktivitas santai pada hari-hari tersebut. 


## **Conclusion**

- Conclusion pertanyaan 1:
Analisis data menunjukkan bahwa kondisi cuaca memiliki pengaruh yang signifikan terhadap jumlah penyewaan sepeda. Ketika cuaca tidak mendukung, seperti saat hujan salju ringan atau cuaca ekstrem, terjadi penurunan yang mencolok dalam jumlah penyewaan. Hal ini terlihat jelas dari analisis, yang mengonfirmasi bahwa cuaca merupakan faktor penting dalam menentukan aktivitas penyewaan sepeda.

- conclusion pertanyaan 2:
Analisis tren diatas dari tahun 2011 hingga 2012 menunjukkan adanya perbedaan pola yang signifikan. Perbedaan ini mengindikasikan bahwa terdapat faktor-faktor eksternal yang memengaruhi peningkatan jumlah penyewaan di tahun tertentu. Faktor-faktor tersebut dapat berupa promosi yang gencar, peningkatan kesadaran masyarakat akan manfaat bersepeda, atau pengembangan infrastruktur yang lebih baik untuk mendukung penggunaan sepeda.

- Conclusion pertanyaan 3:
Berdasarkan analisis diatas menunjukkan perbedaan perilaku yang signifikan antara pelanggan kasual dan terdaftar dalam penggunaan layanan penyewaan sepeda. Pelanggan terdaftar secara konsisten menyewa sepeda dalam jumlah yang jauh lebih besar di semua musim, menunjukkan ketergantungan yang lebih tinggi. Puncak penggunaan terjadi di musim gugur untuk kedua kategori, namun pelanggan terdaftar mendominasi. Pelanggan kasual menunjukkan fluktuasi yang lebih besar, dengan penggunaan yang stabil di musim semi dan dingin, mengindikasikan sensitivitas yang lebih tinggi terhadap faktor musiman dibandingkan pelanggan terdaftar.

- conclusion pertanyaan 4:
Pada gambar diatas menunjukkan perbedaan signifikan dalam jumlah penyewaan sepeda antara hari kerja dan akhir pekan. Hari-hari kerja, dari Senin hingga Jumat, menunjukkan tingkat penyewaan yang relatif tinggi dan stabil, dengan sedikit penurunan pada hari Rabu. Sebaliknya, akhir pekan, terutama Sabtu dan Minggu, mengalami penurunan jumlah penyewaan yang cukup signifikan. Hal ini mengindikasikan bahwa penggunaan sepeda cenderung didominasi oleh keperluan komuter atau aktivitas rutin yang terkait dengan pekerjaan atau kegiatan sehari-hari yang lebih umum terjadi pada hari kerja. Penurunan penyewaan di akhir pekan mungkin mencerminkan perubahan pola aktivitas, di mana orang-orang lebih sedikit menggunakan sepeda untuk tujuan tersebut dan mungkin lebih memilih moda transportasi lain atau aktivitas rekreasi yang berbeda.

- Conclusion pertanyaan 5:
Analisis diatas menunjukkan terlihat jelas adanya korelasi positif antara suhu dan jumlah penyewaan sepeda, di mana peningkatan suhu secara umum meningkatkan minat bersepeda. Namun, pola ini tidak seragam di semua musim. Musim panas dan musim gugur menunjukkan tren yang kuat, di mana suhu yang lebih hangat secara signifikan meningkatkan jumlah penyewaan. Sebaliknya, musim semi dan musim dingin menunjukkan tingkat penyewaan yang lebih rendah, meskipun korelasi positif antara suhu dan penyewaan tetap ada. Hal ini mengindikasikan bahwa faktor musiman, selain suhu, juga memainkan peran penting dalam menentukan jumlah penyewaan sepeda.

- Conclusion pertanyaan 6:
Analisis diatas menunjukkan pola penggunaan sepeda yang berbeda antara hari kerja dan akhir pekan. Hari kerja, terutama Senin hingga Jumat, menunjukkan tingkat penyewaan yang relatif stabil, mengisyaratkan bahwa sepeda digunakan secara konsisten untuk keperluan komuter atau aktivitas rutin. Sebaliknya, akhir pekan, khususnya Sabtu dan Minggu, mengalami penurunan penyewaan, menunjukkan bahwa sepeda kurang diminati untuk rekreasi atau aktivitas santai. Hal ini mengindikasikan bahwa penggunaan sepeda sangat dipengaruhi oleh rutinitas harian dan kebutuhan transportasi, dengan penurunan minat pada hari-hari di mana aktivitas rutin berkurang.