# Proyek Analisis Data: [Bike Sharing Dataset]
- **Nama:** Lisna Rahma Fitriati
- **Email:** mc299d5x0490@student.devacademy.id
- **ID Dicoding:** mc299d5x0490

## Menentukan Pertanyaan Bisnis

- Pertanyaan 1  : Pada hari apa jumlah penyewaan sepeda mencapai angka tertinggi, dan faktor apa yang memengaruhinya?
- Pertanyaan 2 : Bagaimana perbedaan pola penyewaan sepeda antara hari kerja dan akhir pekan?

## Import Semua Packages/Library yang Digunakan

In [3]:
# Mengolah Data
import pandas as pd
import numpy as np

# Visualisasi Data
import matplotlib.pyplot as plt
import seaborn as sns


## Data Wrangling

### Gathering Data

In [6]:
# Memuat dataset
day_df = pd.read_csv("day.csv")
hour_df = pd.read_csv("hour.csv")

# Menampilkan 5 baris pertama dari setiap dataset
print("Preview dataset day.csv:")
display(day_df.head())

print("\nPreview dataset hour.csv:")
display(hour_df.head())

Preview dataset day.csv:


Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
3,4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
4,5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600



Preview dataset hour.csv:


Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


**Insight:**
- Dari dataset ini, kita dapat menemukan hari dengan jumlah penyewaan sepeda tertinggi dan faktor-faktor yang memengaruhinya, seperti cuaca, suhu, kelembaban, dan kondisi lainnya.
- Dengan membandingkan pola penyewaan sepeda antara hari kerja dan akhir pekan, kita dapat melihat apakah terdapat perbedaan pola penggunaan sepeda secara signifikan.

### Assessing Data

In [19]:
day_df.info()
hour_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     731 non-null    int64  
 1   dteday      731 non-null    object 
 2   season      731 non-null    int64  
 3   yr          731 non-null    int64  
 4   mnth        731 non-null    int64  
 5   holiday     731 non-null    int64  
 6   weekday     731 non-null    int64  
 7   workingday  731 non-null    int64  
 8   weathersit  731 non-null    int64  
 9   temp        731 non-null    float64
 10  atemp       731 non-null    float64
 11  hum         731 non-null    float64
 12  windspeed   731 non-null    float64
 13  casual      731 non-null    int64  
 14  registered  731 non-null    int64  
 15  cnt         731 non-null    int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 91.5+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (tot

Mengecek Missing Value

In [20]:
print("\n Jumlah Missing Values pada Day.csv:")
print(day_df.isnull().sum())
print("\n Jumlah Missing Values pada Hour.csv:")
print(hour_df.isnull().sum())


 Jumlah Missing Values pada Day.csv:
instant       0
dteday        0
season        0
yr            0
mnth          0
holiday       0
weekday       0
workingday    0
weathersit    0
temp          0
atemp         0
hum           0
windspeed     0
casual        0
registered    0
cnt           0
dtype: int64

 Jumlah Missing Values pada Hour.csv:
instant       0
dteday        0
season        0
yr            0
mnth          0
hr            0
holiday       0
weekday       0
workingday    0
weathersit    0
temp          0
atemp         0
hum           0
windspeed     0
casual        0
registered    0
cnt           0
dtype: int64


Mengecek data duplikat

In [21]:
print("\n Jumlah Data Duplikat pada Day.csv:", day_df.duplicated().sum())
print("\n Jumlah Data Duplikat pada Hour.csv:", hour_df.duplicated().sum())


 Jumlah Data Duplikat pada Day.csv: 0

 Jumlah Data Duplikat pada Hour.csv: 0


Mengecek Outlier

In [22]:
num_cols_day = ["temp", "hum", "windspeed", "cnt"]
num_cols_hour = ["temp", "hum", "windspeed", "cnt"]

def detect_outliers_iqr(df, num_cols):
    Q1 = df[num_cols].quantile(0.25)
    Q3 = df[num_cols].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    outliers = ((df[num_cols] < lower_bound) | (df[num_cols] > upper_bound)).sum()
    return outliers

print("Jumlah outlier pada dataset day.csv:")
print(detect_outliers_iqr(day_df, num_cols_day))

print("\nJumlah outlier pada dataset hour.csv:")
print(detect_outliers_iqr(hour_df, num_cols_hour))

Jumlah outlier pada dataset day.csv:
temp          0
hum           2
windspeed    13
cnt           0
dtype: int64

Jumlah outlier pada dataset hour.csv:
temp           0
hum           22
windspeed    342
cnt          505
dtype: int64


**Insight:**
- Tidak ditemukan missing values pada dataset, sehingga data yang dimiliki merupakan data bersih dan tidak perlu melakukan imputasi nilai yang hilang
- Tidak ada duplikasi data dan setiap baris yang dimiliki adalah baris yang unik, sehingga tidak perlu membersihkan duplikasi karena dataset sudah rapi.
- Kolom dateday seharusnya memiliki tipe data date time, bukan object
- Dari hasil IQR, ditemukan outlier pada beberapa variabel, terutama pada `windspeed` dan `cnt` di kedua dataset (`day.csv` dan `hour.csv`).
- Outlier pada `windspeed` menunjukkan adanya beberapa nilai angin yang tidak biasa, yang bisa berpengaruh pada pola penyewaan sepeda.
- Banyaknya outlier pada `cnt` dalam dataset per jam menunjukkan kemungkinan lonjakan penggunaan sepeda pada waktu tertentu, seperti jam sibuk atau kondisi cuaca yang mendukung.
- Untuk menjawab pertanyaan 1 dan 2 hanya dibutuhkan dataset day.csv, maka saya tidak akan menggunakan dataset hour.csv

### Cleaning Data

In [33]:
day_cleaned = day_df.copy() # Membuat salinan data agar data asli tidak berubah

Mengubah kolom dteday menjadi tipe data date time

In [34]:
day_cleaned['dteday'] = pd.to_datetime(day_cleaned['dteday'])

Mengganti outlier dengan median

In [35]:
for col in ['windspeed', 'hum', 'cnt']:
    Q1 = day_cleaned[col].quantile(0.25)
    Q3 = day_cleaned[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    median_value = day_cleaned[col].median()
    day_cleaned[col] = day_cleaned[col].apply(lambda x: median_value if x < lower_bound or x > upper_bound else x)


**Insight:**
- Tipe data dteday sudah diubah menjadi date time
- Outlier telah ditangani menggunakan metode imputation, sehingga nilai ekstrem tidak terlalu memengaruhi analisis.
- Distribusi data lebih bersih, khususnya pada variabel windspeed, humidity, dan cnt (total penyewaan sepeda), yang sebelumnya memiliki outlier.

## Exploratory Data Analysis (EDA)

### Explore Bike Sharing Dataset

In [38]:
day_cleaned.head()


Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
3,4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
4,5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600


Melihat ringkasan statistik dataset setelah celaning

In [39]:
day_cleaned.describe()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,731.0,731,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0
mean,366.0,2012-01-01 00:00:00,2.49658,0.500684,6.519836,0.028728,2.997264,0.683995,1.395349,0.495385,0.474354,0.629352,0.186295,848.176471,3656.172367,4504.348837
min,1.0,2011-01-01 00:00:00,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.05913,0.07907,0.254167,0.022392,2.0,20.0,22.0
25%,183.5,2011-07-02 12:00:00,2.0,0.0,4.0,0.0,1.0,0.0,1.0,0.337083,0.337842,0.522291,0.13495,315.5,2497.0,3152.0
50%,366.0,2012-01-01 00:00:00,3.0,1.0,7.0,0.0,3.0,1.0,1.0,0.498333,0.486733,0.626667,0.180975,713.0,3662.0,4548.0
75%,548.5,2012-07-01 12:00:00,3.0,1.0,10.0,0.0,5.0,1.0,2.0,0.655417,0.608602,0.730209,0.229785,1096.0,4776.5,5956.0
max,731.0,2012-12-31 00:00:00,4.0,1.0,12.0,1.0,6.0,1.0,3.0,0.861667,0.840896,0.9725,0.378108,3410.0,6946.0,8714.0
std,211.165812,,1.110807,0.500342,3.451913,0.167155,2.004787,0.465233,0.544894,0.183051,0.162961,0.139566,0.071153,686.622488,1560.256377,1937.211452


In [40]:
day_cleaned.isnull().all()

Unnamed: 0,0
instant,False
dteday,False
season,False
yr,False
mnth,False
holiday,False
weekday,False
workingday,False
weathersit,False
temp,False


Korelasi antar variabel

In [41]:
day_cleaned.corr()


Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
instant,1.0,1.0,0.412224,0.866025,0.496702,0.016145,-1.6e-05,-0.004337,-0.021477,0.15058,0.152638,0.001615,-0.11491,0.275255,0.659623,0.62883
dteday,1.0,1.0,0.412224,0.866025,0.496702,0.016145,-1.6e-05,-0.004337,-0.021477,0.15058,0.152638,0.001615,-0.11491,0.275255,0.659623,0.62883
season,0.412224,0.412224,1.0,-0.001844,0.83144,-0.010537,-0.00308,0.012485,0.019211,0.334315,0.342876,0.19557,-0.204545,0.210399,0.411623,0.4061
yr,0.866025,0.866025,-0.001844,1.0,-0.001792,0.007954,-0.005461,-0.002013,-0.048727,0.047604,0.046106,-0.123385,-0.024923,0.248546,0.594248,0.56671
mnth,0.496702,0.496702,0.83144,-0.001792,1.0,0.019191,0.009509,-0.005901,0.043528,0.220205,0.227459,0.214851,-0.189047,0.123006,0.293488,0.279977
holiday,0.016145,0.016145,-0.010537,0.007954,0.019191,1.0,-0.10196,-0.253023,-0.034627,-0.028556,-0.032507,-0.018062,0.016989,0.054274,-0.108745,-0.068348
weekday,-1.6e-05,-1.6e-05,-0.00308,-0.005461,0.009509,-0.10196,1.0,0.03579,0.031087,-0.00017,-0.007537,-0.043777,0.010554,0.059923,0.057367,0.067443
workingday,-0.004337,-0.004337,0.012485,-0.002013,-0.005901,-0.253023,0.03579,1.0,0.0612,0.05266,0.052182,0.022673,-0.009269,-0.518044,0.303907,0.061156
weathersit,-0.021477,-0.021477,0.019211,-0.048727,0.043528,-0.034627,0.031087,0.0612,1.0,-0.120602,-0.121583,0.618158,0.06258,-0.247353,-0.260388,-0.297391
temp,0.15058,0.15058,0.334315,0.047604,0.220205,-0.028556,-0.00017,0.05266,-0.120602,1.0,0.991702,0.123732,-0.139244,0.543285,0.540012,0.627494


**Insight:**
- Dari korelasi yang ditemukan, jumlah penyewaan sepeda (cnt) sangat dipengaruhi oleh pengguna terdaftar (registered) dibandingkan pengguna casual (casual).
- Kelembapan (hum), kecepatan angin (windspeed), dan kondisi cuaca (weathersit) semuanya memiliki korelasi negatif dengan jumlah penyewaan sepeda.
- Kemungkinan besar, sepeda lebih banyak digunakan untuk transportasi ke tempat kerja di hari kerja, sementara di akhir pekan lebih untuk rekreasi.
- Dari tahun ke tahun, tren penggunaan sepeda meningkat, mungkin karena meningkatnya kesadaran masyarakat terhadap transportasi ramah lingkungan atau meningkatnya jumlah pelanggan terdaftar.

## Visualization & Explanatory Analysis

### Pertanyaan 1: Pada hari apa jumlah penyewaan sepeda mencapai angka tertinggi?

In [None]:
df_cleaned = df.copy()

days_mapping = {
    0: 'Sunday', 1: 'Monday', 2: 'Tuesday', 3: 'Wednesday',
    4: 'Thursday', 5: 'Friday', 6: 'Saturday'
}
df_cleaned['weekday'] = df_cleaned['weekday'].map(days_mapping)

day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
plt.figure(figsize=(10,5))
sns.barplot(x='weekday', y='cnt', data=df_cleaned, order=day_order, hue='weekday', dodge=False, palette='viridis')
plt.xlabel('Day of the Week')
plt.ylabel('Total Rentals')
plt.title('Total Bike Rentals per Day of the Week')
plt.xticks(rotation=45)
plt.legend([],[], frameon=False)
plt.show()

### Pertanyaan 2: Apakah terdapat perbedaan signifikan dalam jumlah penyewaan sepeda antara hari kerja dan akhir pekan?

In [None]:
df_grouped = df_cleaned.groupby('workingday', as_index=False)['cnt'].mean()

plt.figure(figsize=(6, 4))
sns.barplot(x='workingday', y='cnt', data=df_grouped, hue='workingday', palette=['blue', 'red'], legend=False)
plt.xlabel('Day Type')
plt.ylabel('Average Rentals')
plt.title('Average Bike Rentals: Weekdays vs. Weekends')
plt.xticks([0, 1], ['Weekend', 'Weekday']) # Update x-axis labels
plt.show()

**Insight:**
- Dari visualisasi, terlihat bahwa jumlah penyewaan sepeda relatif tinggi sepanjang minggu, dengan sedikit fluktuasi.
- Hari dengan jumlah penyewaan tertinggi cenderung terjadi pada hari kerja, khususnya Kamis dan Jumat, yang kemungkinan besar karena aktivitas komuter.
- Rata-rata penyewaan sepeda pada hari kerja lebih tinggi dibandingkan dengan akhir pekan.
- Ini menunjukkan bahwa banyak orang menggunakan sepeda sebagai moda transportasi utama saat bekerja atau sekolah.

## Conclusion

- Conclution pertanyaan 1 : Pada jam berapa penyewaan sepeda mencapai puncaknya setiap hari?

Berdasarkan visualisasi jumlah penyewaan sepeda per hari, terlihat bahwa penyewaan tertinggi terjadi pada hari kerja, terutama pada Kamis dan Jumat. Hal ini menunjukkan bahwa mayoritas pengguna sepeda memanfaatkannya sebagai alat transportasi utama untuk aktivitas harian, seperti bekerja atau sekolah. Tren ini mengindikasikan bahwa sepeda menjadi pilihan yang efisien untuk mobilitas di perkotaan pada hari-hari sibuk.
- Conclution pertanyaan 2 : Apakah terdapat perbedaan pada pola penggunaan sepeda antara hari kerja dan akhir pekan?

Saat membandingkan antara hari kerja dan akhir pekan, rata-rata jumlah penyewaan sepeda di hari kerja lebih tinggi dibandingkan akhir pekan. Hal ini memperkuat indikasi bahwa sepeda lebih banyak digunakan untuk keperluan komuter sehari-hari. Namun, jumlah penyewaan pada akhir pekan tetap cukup tinggi, yang kemungkinan besar menunjukkan bahwa sepeda juga dimanfaatkan untuk kegiatan rekreasi atau perjalanan santai di waktu luang.

In [None]:
df_cleaned.to_csv("main_data.csv", index=False)