
# Proyek Analisis Data Penyewaan Sepeda - Bike Sharing
Proyek ini bertujuan untuk menganalisis dataset penyewaan sepeda dari sistem *Capital Bikeshare* selama dua tahun (2011-2012) di Washington D.C. Hasil analisis ini akan digunakan untuk menjawab beberapa pertanyaan bisnis terkait faktor yang mempengaruhi penyewaan sepeda.

## 1. Pengantar
Data yang tersedia dalam proyek ini terdiri dari dua dataset utama:
- **day.csv**: Data penyewaan sepeda yang diaggregasi secara harian.
- **hour.csv**: Data penyewaan sepeda yang diaggregasi secara jam.

Kami akan melakukan beberapa tahapan analisis untuk memahami pola dan faktor-faktor yang mempengaruhi penyewaan sepeda.



## 2. Tahapan Analisis Data

### 2.1. Membaca dan Memahami Dataset
Tahapan pertama adalah memuat dataset dan melakukan eksplorasi awal. Hal ini bertujuan untuk memahami struktur data dan variabel-variabel yang ada, seperti suhu (*temperature*), kelembaban (*humidity*), kecepatan angin (*windspeed*), dan cuaca (*weather situation*).

Selain itu, kita akan melihat bagaimana penyewaan sepeda dipengaruhi oleh faktor-faktor tersebut.


In [None]:

import pandas as pd

# Membaca dataset
df_day = pd.read_csv('day.csv')
df_hour = pd.read_csv('hour.csv')

# Menampilkan 5 baris pertama dataset day.csv
df_day.head()



### 2.2. Eksplorasi Data
Pada tahap ini, kita melakukan eksplorasi lebih dalam untuk melihat distribusi data serta hubungan antara variabel yang ada, misalnya bagaimana suhu dan kelembaban mempengaruhi jumlah penyewaan sepeda.


In [None]:

# Eksplorasi statistik dasar dari df_day
df_day.describe()



## 3. Visualisasi Data

Pada bagian ini, kita akan membuat beberapa visualisasi untuk menjawab pertanyaan-pertanyaan bisnis berikut:
1. Bagaimana pengaruh suhu dan cuaca terhadap jumlah penyewaan sepeda?
2. Bagaimana pola penyewaan sepeda berdasarkan jam dan hari?

### 3.1. Visualisasi Pengaruh Suhu Terhadap Penyewaan Sepeda


In [None]:

import seaborn as sns
import matplotlib.pyplot as plt

# Visualisasi pengaruh suhu terhadap jumlah penyewaan sepeda
plt.figure(figsize=(10,6))
sns.scatterplot(x='temp', y='cnt', data=df_day)
plt.title('Pengaruh Suhu terhadap Penyewaan Sepeda')
plt.xlabel('Suhu (Normalized)')
plt.ylabel('Jumlah Penyewaan')
plt.show()



### 3.2. Visualisasi Pola Penyewaan Berdasarkan Jam (Dari hour.csv)
Selanjutnya, kita akan melihat pola penyewaan sepeda berdasarkan jam menggunakan dataset `hour.csv`.


In [None]:

# Grouping data berdasarkan jam
df_hour_grouped = df_hour.groupby(['hr'])['cnt'].mean().reset_index()

# Visualisasi pola penyewaan sepeda berdasarkan jam
plt.figure(figsize=(10,6))
sns.lineplot(x='hr', y='cnt', data=df_hour_grouped)
plt.title('Pola Penyewaan Sepeda Berdasarkan Jam')
plt.xlabel('Jam')
plt.ylabel('Rata-rata Penyewaan')
plt.show()



## 4. RFM Analysis (Recency, Frequency, Monetary)

RFM analysis adalah teknik yang digunakan untuk mengelompokkan pelanggan berdasarkan waktu terakhir mereka menggunakan layanan (*Recency*), seberapa sering mereka menggunakannya (*Frequency*), dan seberapa banyak layanan yang digunakan (*Monetary*). Dalam konteks penyewaan sepeda, kami akan melakukan adaptasi sebagai berikut:

- **Recency**: Jumlah hari sejak penyewaan terakhir.
- **Frequency**: Frekuensi penyewaan sepeda selama periode tertentu.
- **Monetary (Adapted)**: Jumlah sepeda yang disewa dalam total.


In [None]:

# Membuat kolom baru untuk RFM analysis
import datetime as dt

# Mengkonversi kolom tanggal
df_day['dteday'] = pd.to_datetime(df_day['dteday'])

# Menentukan hari referensi (terakhir di dataset)
max_date = df_day['dteday'].max()

# Menghitung Recency (sejak berapa lama dari penyewaan terakhir)
df_day['recency'] = (max_date - df_day['dteday']).dt.days

# Menghitung Frequency (berapa kali penyewaan terjadi dalam setahun)
df_day['frequency'] = df_day.groupby('yr')['cnt'].transform('sum')

# Menggunakan 'cnt' sebagai Monetary (jumlah total penyewaan)
df_day['monetary'] = df_day['cnt']

# Menampilkan beberapa baris hasil analisis RFM
df_day[['dteday', 'recency', 'frequency', 'monetary']].head()



### 4.1. Visualisasi Analisis RFM
Kita akan memvisualisasikan hubungan antara *Recency*, *Frequency*, dan *Monetary* menggunakan scatter plot.


In [None]:

# Visualisasi scatter plot dari Recency, Frequency, dan Monetary
plt.figure(figsize=(10,6))
sns.scatterplot(x='recency', y='monetary', hue='frequency', data=df_day, palette='viridis')
plt.title('Analisis RFM - Recency vs Monetary dengan Frekuensi')
plt.xlabel('Recency (Hari sejak penyewaan terakhir)')
plt.ylabel('Monetary (Jumlah Penyewaan)')
plt.show()
