# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Muhammad Rusqi Ash Shiddieqy
- **Email:** muhammadrusqi10@gmail.com
- **ID Dicoding:** Muhammad Rusqi Ash Shiddieqy

## Menentukan Pertanyaan Bisnis

- Bagaimana pengaruh cuaca terhadap jumlah pengguna sepeda kasual dan terdaftar di berbagai musim?
- Apakah terdapat pola penggunaan sepeda yang signifikan antara hari kerja dan hari libur?

## Import Semua Packages/Library yang Digunakan

In [None]:
# Import library untuk manipulasi data
import numpy as np  # Untuk operasi matematika dan array
import pandas as pd # Untuk manipulasi dan analisis data

# Import library untuk visualisasi data
import matplotlib.pyplot as plt # Untuk membuat grafik dan visualisasi
import seaborn as sns # Untuk visualisasi statistik

# Import library untuk analisis statistik
import scipy.stats as stats # Untuk melakukan uji statistik
# Set default style untuk visualisasi
sns.set(style="whitegrid")

## Data Wrangling

### Gathering Data

In [None]:
day_df = pd.read_csv('data/day.csv')
day_df.head()
# Melihat 5 baris pertama dari data daily

**Insight:**
- Memuat tabel `day.csv` pada data Bike Sharing Dataset.

In [None]:
hour_df = pd.read_csv('data/hour.csv')
hour_df.head()
# Melihat 5 baris pertama dari data hourly

**Insight:**
- Memuat tabel `hour.csv` pada data Bike Sharing Dataset.

### Assessing Data

**Insight:**
- Menilai Tabel `day_df`

In [None]:
day_df.info()
# Informasi umum tentang data daily

In [None]:
day_df.describe()
# Statistik deskriptif untuk data daily

In [None]:
day_df.duplicated().sum()
# Memeriksa duplikasi data dalam data daily

In [None]:
day_df.isnull().sum()
# Memeriksa nilai yang hilang dalam data daily

**Insight:**
- Menilai Tabel `hour_df`

In [None]:
hour_df.info()
# Informasi umum tentang data hourly

In [None]:
hour_df.describe()
# Statistik deskriptif untuk data hourly

In [None]:
hour_df.duplicated().sum()
# Memeriksa duplikasi data dalam data hourly

In [None]:
hour_df.isnull().sum()
# Memeriksa nilai yang hilang dalam data hourly

### Cleaning Data

**Insight:**
- Membersihkan tabel `day_df`


In [None]:
day_df.info()

In [None]:
# Mengidentifikasi kolom yang perlu diubah menjadi tipe datetime
datetime_columns_day = ["dteday"]

# Ubah kolom menjadi tipe datetime
for column in datetime_columns_day:
    day_df[column] = pd.to_datetime(day_df[column])

# Memeriksa kolom kategori untuk dikonversi
categorical_columns_day = ['season', 'weathersit', 'weekday', 'holiday', 'workingday']

# Ubah kolom kategori menjadi tipe kategori
for column in categorical_columns_day:
    day_df[column] = day_df[column].astype('category')

# Memeriksa tipe data setelah perubahan
print("\nTipe data di day_df setelah perbaikan:")
print(day_df.info())

In [None]:
day_df.head()

**Insight:**
- Membersihkan tabel `hour_df`


In [None]:
hour_df.describe()

In [None]:
print("nilai rata-rata = {} & nilai maksimum cnt(jumlah peminjaman) = {}".format(hour_df['cnt'].mean(), hour_df['cnt'].max()))

**Insight:**
Inaccurate Data pada `cnt` (jumlah peminjaman) dalam `hour_df`

Langkah Pembersihan Data untuk Mengatasi Anomali pada `cnt`:
1. Identifikasi Anomali (Misalnya, kita asumsikan peminjaman diatas 1,5 kali rata-rata sebagai anomali)
2. Hapus Anomali (Setelah mengidentifikasi nilai yang dianggap anomali, kita dapat menghapusnya dari dataset)
3. Verifikasi Pembersihan (Periksa kembali data setelah pembersihan untuk memastikan bahwa anomali telah dihapus)

In [None]:
cnt_mean = hour_df['cnt'].mean() # Hitung rata-rata untuk kolom cnt

threshold = 1.5 * cnt_mean # Tentukan ambang batas untuk anomali

# Identifikasi anomali
anomalies = hour_df[hour_df['cnt'] > threshold]
print(f"Jumlah anomali yang ditemukan: {len(anomalies)}")

# Hapus anomali dari dataset
hour_df_cleaned = hour_df[hour_df['cnt'] <= threshold]

# Verifikasi pembersihan
# Memeriksa statistik deskriptif setelah pembersihan
print("\nStatistik Deskriptif Setelah Pembersihan:")
print(hour_df_cleaned['cnt'].describe())

**Insight:**
Memperbaiki Tipe Data `dteday`(datetime) dalam `hour_df`

Langkah-langkah untuk memperbaiki tipe data di tabel `hour_df`:
1. Tentukan Kolom yang Perlu Menjadi Tipe Datetime.
2. Ubah Tipe Data Kolom yang Sesuai.

In [None]:
hour_df.info()

In [None]:
# Mengidentifikasi kolom yang perlu diubah menjadi tipe datetime
datetime_columns_hour = ["dteday"]

# Ubah kolom menjadi tipe datetime
for column in datetime_columns_hour:
    hour_df[column] = pd.to_datetime(hour_df[column])

# Memeriksa kolom kategori untuk dikonversi
categorical_columns_hour = ['season', 'weathersit', 'weekday', 'holiday', 'workingday']

# Ubah kolom kategori menjadi tipe kategori
for column in categorical_columns_hour:
    hour_df[column] = hour_df[column].astype('category')

# Memeriksa tipe data setelah perubahan
print("\nTipe data di hour_df setelah perbaikan:")
print(hour_df.info())

In [None]:
hour_df.head()

## Menggabungkan data `day_df` dan `hour_df`

In [None]:
# Menggabungkan tabel day_df dan hour_df
day_hour_df = pd.merge(
    left=hour_df,
    right=day_df,
    how="outer",
    left_on="dteday",  # Kolom yang digunakan dari hour_df
    right_on="dteday",  # Kolom yang digunakan dari day_df
    suffixes=('_hour', '_day')
)
day_hour_df.head()

In [None]:
day_hour_df.nunique()  # Melihat jumlah nilai unik dalam setiap kolom

## Exploratory Data Analysis (EDA)

### Explore `day_df`

In [None]:
day_df.describe(include="all")

In [None]:
day_df.groupby(by="season").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'season'
- Menghitung agregasi peminjaman

In [None]:
day_df.groupby(by="yr").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'year'
- Menghitung agregasi peminjaman

In [None]:
day_df.groupby(by="mnth").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'month'
- Menghitung agregasi peminjaman

In [None]:
day_df.groupby(by="weekday").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'weekday'
- Menghitung agregasi peminjaman

In [None]:
day_df.groupby(by="workingday").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'working day'
- Menghitung agregasi peminjaman

In [None]:
day_df.groupby(by="holiday").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'holiday'
- Menghitung agregasi peminjaman

In [None]:
day_df.groupby(by="weathersit").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'weathersit'
- Menghitung agregasi peminjaman

### Explore `hour_df`

In [None]:
hour_df.describe(include="all")

In [None]:
hour_df.groupby(by="season").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'season'
- Menghitung agregasi peminjaman

In [None]:
hour_df.groupby(by="yr").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'year'
- Menghitung agregasi peminjaman

In [None]:
hour_df.groupby(by="mnth").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'month'
- Menghitung agregasi peminjaman

In [None]:
hour_df.groupby(by="weekday").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'weekday'
- Menghitung agregasi peminjaman

In [None]:
hour_df.groupby(by="workingday").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'working day'
- Menghitung agregasi peminjaman

In [None]:
hour_df.groupby(by="holiday").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'holiday'
- Menghitung agregasi peminjaman

In [None]:
hour_df.groupby(by="weathersit").agg({
    "cnt": ["nunique", "max", "min", "mean", "std"]
}).reset_index()

**Insight:**
- Mengelompokkan berdasarkan 'weathersit'
- Menghitung agregasi peminjaman

## Visualization & Explanatory Analysis


### Pertanyaan 1: Bagaimana pengaruh cuaca terhadap jumlah pengguna sepeda kasual dan terdaftar di berbagai musim?

In [None]:
day_hour_df.head()

In [None]:
weather_season_grouped = day_df.groupby(by=["season", "weathersit"]).agg({
    "casual": "mean",
    "registered": "mean"
}).reset_index()

season_mapping = {1: "Semi", 2: "Panas", 3: "Gugur", 4: "Dingin"}
weather_season_grouped['season'] = weather_season_grouped['season'].map(season_mapping)

plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
sns.barplot(x="season", y="casual", hue="weathersit", data=weather_season_grouped, palette="Blues")
plt.title("Pengaruh Cuaca Terhadap Pengguna Sepeda Kasual di Berbagai Musim")
plt.ylabel("Rata-Rata Pengguna Kasual")
plt.xlabel("Musim")
plt.legend(title="Kondisi Cuaca")

plt.tight_layout()
plt.show()


**Insight:**

Penjelasan Musim:
- Musim Semi: Musim yang dipetakan ke nomor 1.
- Musim Panas: Musim yang dipetakan ke nomor 2.
- Musim Gugur: Musim yang dipetakan ke nomor 3.
- Musim Dingin: Musim yang dipetakan ke nomor 4

Pengguna Kasual:

- Musim Panas dan Musim Gugur menunjukkan jumlah pengguna kasual tertinggi, terutama ketika cuaca baik (kondisi cuaca = 1: Cerah, Sedikit Awan). Ini mengindikasikan bahwa pengguna kasual lebih mungkin menyewa sepeda saat cuaca mendukung, terutama di musim yang lebih hangat.
- Di Musim Dingin, jumlah pengguna kasual menurun drastis. Ketika cuaca buruk (kondisi cuaca = 3: Hujan ringan, Salju ringan), penggunaan sepeda oleh pengguna kasual sangat sedikit. Ini menunjukkan bahwa cuaca dingin dan buruk sangat mempengaruhi keputusan pengguna kasual untuk menggunakan sepeda.

Secara keseluruhan, pengguna kasual sangat sensitif terhadap perubahan cuaca dan musim, lebih cenderung menyewa sepeda di musim panas dan gugur, dengan penurunan tajam di musim dingin dan kondisi cuaca buruk.

In [None]:
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 2)
sns.barplot(x="season", y="registered", hue="weathersit", data=weather_season_grouped, palette="Greens")
plt.title("Pengaruh Cuaca Terhadap Pengguna Sepeda Terdaftar di Berbagai Musim")
plt.ylabel("Rata-Rata Pengguna Terdaftar")
plt.xlabel("Musim")
plt.legend(title="Kondisi Cuaca")

plt.tight_layout()
plt.show()

**Insight:**

Penjelasan Musim:
- Musim Semi: Musim yang dipetakan ke nomor 1.
- Musim Panas: Musim yang dipetakan ke nomor 2.
- Musim Gugur: Musim yang dipetakan ke nomor 3.
- Musim Dingin: Musim yang dipetakan ke nomor 4

Pengguna Terdaftar:

- Pengguna terdaftar menunjukkan pola yang lebih stabil dibandingkan dengan pengguna kasual, tetapi tetap terdapat penurunan jumlah penyewaan di musim dingin dan saat cuaca buruk. Namun, penurunan ini tidak se-drastis pengguna kasual.
- Pengguna terdaftar lebih mungkin untuk terus menggunakan layanan sepeda bahkan saat kondisi cuaca tidak ideal, terutama di Musim Panas dan Musim Gugur. Hal ini menunjukkan bahwa pengguna terdaftar mungkin menggunakan sepeda untuk perjalanan rutin seperti bekerja atau kegiatan sehari-hari, yang membuat mereka lebih konsisten.

Walaupun jumlah penyewaan menurun pada cuaca buruk, pengguna terdaftar masih lebih aktif dibandingkan pengguna kasual, menunjukkan bahwa mereka mungkin memiliki motivasi yang lebih kuat (misalnya, komitmen berlangganan, transportasi harian).

### Pertanyaan 2: Apakah terdapat pola penggunaan sepeda yang signifikan antara hari kerja dan hari libur?

In [None]:
day_df['workingday'] = day_df['workingday'].map({1: "Hari Kerja", 0: "Bukan Hari Kerja"})

# Grouping by working day (Hari Kerja vs Bukan Hari Kerja)
workingday_grouped = day_df.groupby(by="workingday").agg({
    "casual": "mean",
    "registered": "mean"
}).reset_index()

plt.figure(figsize=(12, 6))

# Subplot untuk hari kerja vs bukan hari kerja
plt.subplot(1, 2, 1)
sns.barplot(x="workingday", y="casual", data=workingday_grouped, color="blue", label="Casual")
sns.barplot(x="workingday", y="registered", data=workingday_grouped, color="green", alpha=0.6, label="Registered")
plt.title("Penggunaan Sepeda pada Hari Kerja vs Bukan Hari Kerja")
plt.xlabel("Jenis Hari")
plt.ylabel("Rata-rata Pengguna Sepeda")
plt.legend()


plt.tight_layout()
plt.show()

**Insight:**

Penggunaan Sepeda pada Hari Kerja vs Bukan Hari Kerja:
- Pengguna Kasual: Lebih banyak menggunakan sepeda pada hari bukan kerja (akhir pekan) dibandingkan dengan hari kerja. Ini menunjukkan bahwa pengguna kasual cenderung menggunakan sepeda untuk rekreasi atau kegiatan santai selama akhir pekan.
- Pengguna Terdaftar: Lebih aktif pada hari kerja, menunjukkan bahwa mereka lebih sering menggunakan sepeda untuk keperluan transportasi harian seperti pergi bekerja atau kegiatan rutin.

In [None]:
day_df['holiday'] = day_df['holiday'].map({1: "Hari Libur", 0: "Bukan Hari Libur"})

# Grouping by holiday (Hari Libur vs Bukan Hari Libur)
holiday_grouped = day_df.groupby(by="holiday").agg({
    "casual": "mean",
    "registered": "mean"
}).reset_index()

plt.figure(figsize=(12, 6))

# Subplot untuk hari libur vs bukan hari libur
plt.subplot(1, 2, 2)
sns.barplot(x="holiday", y="casual", data=holiday_grouped, color="blue", label="Casual")
sns.barplot(x="holiday", y="registered", data=holiday_grouped, color="green", alpha=0.6, label="Registered")
plt.title("Penggunaan Sepeda pada Hari Libur vs Bukan Hari Libur")
plt.xlabel("Jenis Hari")
plt.ylabel("Rata-rata Pengguna Sepeda")
plt.legend()

plt.tight_layout()
plt.show()

**Insight:**

Penggunaan Sepeda pada Hari Libur vs Bukan Hari Libur:
- Pengguna Kasual: Jelas lebih banyak pengguna kasual yang menyewa sepeda pada hari libur, menunjukkan bahwa pengguna kasual memanfaatkan hari libur untuk aktivitas rekreasi.
- Pengguna Terdaftar: Tidak ada perubahan signifikan antara hari libur dan bukan hari libur untuk pengguna terdaftar, yang menunjukkan pola penggunaan yang lebih stabil.

## RFM Analysis


In [None]:
# Menghitung Recency: Jumlah hari sejak terakhir kali menyewa sepeda
day_df['dteday'] = pd.to_datetime(day_df['dteday'])
reference_date = day_df['dteday'].max()  # Mengambil tanggal terakhir di dataset
day_df['recency'] = (reference_date - day_df['dteday']).dt.days

rfm_data = day_df.groupby(['workingday']).agg({
    'recency': 'min',  # Mengambil nilai recency terendah
    'casual': 'sum',   # Total pengguna kasual sebagai Frequency
    'registered': 'sum'  # Total pengguna terdaftar sebagai Frequency
}).reset_index()
rfm_data

In [None]:
# Menambahkan kolom Monetary: Total jumlah pengguna sebagai representasi monetari
rfm_data['monetary_casual'] = day_df.groupby('workingday')['casual'].sum().values
rfm_data['monetary_registered'] = day_df.groupby('workingday')['registered'].sum().values

# Visualisasi seperti yang diinginkan
fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(30, 6))

colors = ["#72BCD4", "#72BCD4", "#72BCD4", "#72BCD4", "#72BCD4"]

# Barplot berdasarkan Recency
sns.barplot(y="recency", x="workingday", data=rfm_data.sort_values(by="recency", ascending=True).head(5), palette=colors, ax=ax[0])
ax[0].set_ylabel(None)
ax[0].set_xlabel(None)
ax[0].set_title("By Recency (days)", loc="center", fontsize=18)
ax[0].tick_params(axis='x', labelsize=15)

# Barplot berdasarkan Frequency (Pengguna Kasual)
sns.barplot(y="casual", x="workingday", data=rfm_data.sort_values(by="casual", ascending=False).head(5), palette=colors, ax=ax[1])
ax[1].set_ylabel(None)
ax[1].set_xlabel(None)
ax[1].set_title("By Frequency (Casual Users)", loc="center", fontsize=18)
ax[1].tick_params(axis='x', labelsize=15)

# Barplot berdasarkan Monetary (Pengguna Terdaftar)
sns.barplot(y="registered", x="workingday", data=rfm_data.sort_values(by="registered", ascending=False).head(5), palette=colors, ax=ax[2])
ax[2].set_ylabel(None)
ax[2].set_xlabel(None)
ax[2].set_title("By Monetary (Registered Users)", loc="center", fontsize=18)
ax[2].tick_params(axis='x', labelsize=15)

plt.suptitle("Best Usage Based on RFM Parameters (workingday)", fontsize=20)
plt.show()

**Insight**

- Recency: Menampilkan 5 status hari kerja dengan recency terendah, yaitu pengguna yang baru saja menggunakan sepeda dalam beberapa hari terakhir.
- Frequency (Kasual): Menampilkan 5 status hari kerja dengan frekuensi pengguna kasual tertinggi.
- Monetary (Terdaftar): Menampilkan 5 status hari kerja dengan penggunaan terbesar oleh pengguna terdaftar.

Insight dari Analisis:
Recency (Penggunaan Terbaru):
- Hari bukan kerja cenderung memiliki recency yang lebih tinggi, yang berarti pengguna sepeda (terutama pengguna kasual) cenderung tidak aktif di hari kerja dibandingkan pada hari libur atau akhir pekan.
- Pengguna terdaftar lebih konsisten dalam menggunakan sepeda di hari kerja, dengan frekuensi penggunaan yang lebih stabil meskipun cuaca atau kondisi tertentu berubah.

Frequency (Frekuensi Pengguna Kasual):
- Pengguna kasual lebih sering menggunakan sepeda pada hari bukan kerja (akhir pekan), yang menunjukkan pola penggunaan yang terkait dengan aktivitas rekreasi. Pengguna kasual cenderung menyewa sepeda lebih banyak pada akhir pekan untuk bersenang-senang atau jalan-jalan.

- Monetary (Pengguna Terdaftar):
Pengguna terdaftar lebih sering menggunakan sepeda pada hari kerja. Ini menunjukkan bahwa sepeda digunakan oleh pengguna terdaftar sebagai sarana transportasi sehari-hari, misalnya untuk pergi bekerja atau beraktivitas rutin.

In [None]:
# Menambahkan ranking berdasarkan Recency, Frequency, dan Monetary
rfm_data['r_rank'] = rfm_data['recency'].rank(ascending=False)  # Semakin kecil recency, semakin tinggi rank
rfm_data['f_rank'] = rfm_data['casual'].rank(ascending=True)    # Semakin besar frequency, semakin tinggi rank
rfm_data['m_rank'] = rfm_data['registered'].rank(ascending=True)  # Semakin besar monetary, semakin tinggi rank

# Menampilkan hasil dari perhitungan rank
rfm_data.head()

**Insight**
- r_rank: Ranking untuk Recency, semakin kecil nilai recency (artinya pengguna baru-baru ini menyewa sepeda), semakin tinggi peringkatnya.
- f_rank: Ranking untuk Frequency yang dihitung berdasarkan jumlah sewa pengguna kasual. Semakin sering mereka menyewa sepeda, semakin tinggi peringkatnya.
- m_rank: Ranking untuk Monetary, dihitung berdasarkan penggunaan sepeda oleh pengguna terdaftar. Semakin besar nilai moneternya, semakin tinggi peringkatnya

In [None]:
# Normalisasi ranking dari Recency, Frequency, dan Monetary
rfm_data['r_rank_norm'] = (rfm_data['r_rank'] / rfm_data['r_rank'].max()) * 100
rfm_data['f_rank_norm'] = (rfm_data['f_rank'] / rfm_data['f_rank'].max()) * 100
rfm_data['m_rank_norm'] = (rfm_data['m_rank'] / rfm_data['m_rank'].max()) * 100

# Menghapus kolom r_rank, f_rank, dan m_rank
rfm_data.drop(columns=['r_rank', 'f_rank', 'm_rank'], inplace=True)

# Menampilkan hasil dari normalisasi ranking
rfm_data.head()

**Insight**
- r_rank_norm, f_rank_norm, dan m_rank_norm: Melakukan normalisasi ranking dengan mengubah skala ranking ke persentase (dari 0 hingga 100), sehingga memudahkan interpretasi.
- Penghapusan Kolom: Kolom r_rank, f_rank, dan m_rank dihapus setelah normalisasi, karena sudah tidak diperlukan lagi.

In [None]:
# Menghitung RFM score dengan bobot tertentu
rfm_data['RFM_score'] = (0.15 * rfm_data['r_rank_norm']) + \
                        (0.28 * rfm_data['f_rank_norm']) + \
                        (0.57 * rfm_data['m_rank_norm'])

# Skalakan RFM score
rfm_data['RFM_score'] *= 0.05

# Membulatkan nilai RFM_score menjadi 2 desimal
rfm_data = rfm_data.round(2)

# Menampilkan hasil dengan RFM_score
rfm_data[['workingday', 'RFM_score']].head(7)

In [None]:
# Menambahkan segmentasi pelanggan berdasarkan RFM score
rfm_data["bikers_segment"] = np.where(
    rfm_data['RFM_score'] > 4.5, "Top customers",
    np.where(rfm_data['RFM_score'] > 4, "High value customer",
    np.where(rfm_data['RFM_score'] > 3, "Medium value customer",
    np.where(rfm_data['RFM_score'] > 1.6, 'Low value customers', 'Lost customers'))))

# Menampilkan hasil dengan customer_id (dalam konteks Anda, kita bisa menggunakan 'workingday')
rfm_data[['workingday', 'RFM_score', 'bikers_segment']].head(20)

**Insight**

Segmentasi Pelanggan:
- Top customers: Pelanggan dengan RFM score lebih dari 4.5.
- High value customer: Pelanggan dengan RFM score lebih dari 4.
- Medium value customer: Pelanggan dengan RFM score lebih dari 3.
- Low value customers: Pelanggan dengan RFM score antara 1.6 dan 3.
- Lost customers: Pelanggan dengan RFM score di bawah 1.6.

np.where digunakan untuk membuat segmentasi dengan aturan bersyarat berdasarkan RFM score.

In [None]:
# Mengelompokkan data berdasarkan segmen pelanggan dan menghitung jumlah unik
bikers_segment_df = rfm_data.groupby(by="bikers_segment", as_index=False).workingday.nunique()

# Menampilkan hasil
bikers_segment_df

In [None]:
# Mengubah segmentasi bikers dengan urutan yang sudah ditentukan
bikers_segment_df['bikers_segment'] = pd.Categorical(bikers_segment_df['bikers_segment'], [
    "lost customers", "Low value customers", "Medium value customer",
    "High value customer", "Top customers"
])

# Menampilkan hasil bikers_segment_df
bikers_segment_df.head()

pd.Categorical: Digunakan untuk membuat kolom customer_segment menjadi kategori dengan urutan yang sudah ditentukan.
- Urutan segmen dimulai dari "lost customers" hingga "Top customers."

- bikers_segment_df: Nama dataframe yang digunakan untuk menyimpan data hasil segmentasi bikers, berdasarkan hasil dari pengelompokan sebelumnya.

## Conclusion

1. Bagaimana Pengaruh Cuaca terhadap Jumlah Pengguna Sepeda Kasual dan Terdaftar di Berbagai Musim?
- Pengguna Kasual:
Pengguna kasual lebih sensitif terhadap cuaca dan musim. Jumlah pengguna kasual meningkat secara signifikan pada cuaca yang cerah dan kondisi baik, terutama di Musim Panas dan Musim Gugur. Sebaliknya, pada Musim Dingin dan saat cuaca buruk (misalnya, hujan atau salju ringan), pengguna kasual berkurang drastis.
- Pengguna Terdaftar:
Pengguna terdaftar lebih stabil dalam penggunaan sepeda sepanjang tahun. Meskipun cuaca buruk dan musim dingin mempengaruhi mereka, pengurangan jumlah pengguna tidak se-drastis pengguna kasual. Pengguna terdaftar lebih mungkin menggunakan sepeda untuk keperluan transportasi harian seperti bekerja, sehingga mereka tidak terlalu terpengaruh oleh cuaca dibandingkan pengguna kasual.

- Kesimpulan Utama:
Cuaca baik dan musim hangat (Musim Panas dan Musim Gugur) mendorong lebih banyak penggunaan sepeda, terutama oleh pengguna kasual.
Musim Dingin dan cuaca buruk berdampak signifikan pada penurunan jumlah pengguna kasual, sementara pengguna terdaftar lebih cenderung tetap aktif meskipun dengan sedikit penurunan.

2. Apakah Terdapat Pola Penggunaan Sepeda yang Signifikan antara Hari Kerja dan Hari Libur?
- Pengguna Kasual:
Pengguna kasual lebih aktif pada hari bukan kerja (akhir pekan) dan hari libur. Hal ini menunjukkan bahwa pengguna kasual menggunakan sepeda terutama untuk aktivitas rekreasi dan santai, yang biasanya dilakukan pada waktu luang.
- Pengguna Terdaftar:
Pengguna terdaftar lebih aktif pada hari kerja dibandingkan hari libur atau akhir pekan. Ini menunjukkan bahwa sepeda lebih sering digunakan sebagai alat transportasi untuk keperluan harian, seperti pergi bekerja atau kegiatan rutin lainnya. Perbedaan antara hari kerja dan hari libur tidak signifikan bagi mereka.

- Kesimpulan Utama:
Pengguna kasual lebih aktif di akhir pekan dan hari libur, yang menunjukkan bahwa penggunaan sepeda oleh mereka lebih terkait dengan rekreasi.
Pengguna terdaftar lebih sering menggunakan sepeda di hari kerja, yang menunjukkan bahwa mereka menggunakan sepeda sebagai alat transportasi harian.

In [None]:
# Menggabungkan data menjadi satu dataframe
all_df = pd.concat([rfm_data, bikers_segment_df], axis=1)

# Menyimpan dataframe ke CSV
all_df.to_csv("all_data.csv", index=False)

- pd.concat(): Digunakan untuk menggabungkan beberapa dataframe jika diperlukan.
- .to_csv(): Menyimpan dataframe yang diinginkan ke dalam file CSV.