# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Arrini Khirofati Jannah
- **Email:** leejindairy06@gmail.com
- **ID Dicoding:** 123limitless

## Menentukan Pertanyaan Bisnis

- Bagaimanakah hubungan suhu(temp), suhu yang dirasakan(atemp), kelembaban, dan kecepatan angin terhadap jumlah pengguna bike sharing?
- Bagaimanakah hubungan waktu (hr) terhadap jumlah pengguna bike sharing?

## Import Semua Packages/Library yang Digunakan

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [3]:
bike_sharing_day_df = pd.read_csv("../data/day.csv")
bike_sharing_day_df.head()

FileNotFoundError: [Errno 2] No such file or directory: '/data/day.csv'

In [None]:
bike_sharing_hour_df=pd.read_csv("/data/hour.csv")
bike_sharing_hour_df.head()

In [None]:
bike_sharing_merge_df = pd.merge(
    left=bike_sharing_day_df,
    right=bike_sharing_hour_df,
    how="inner",
    left_on="dteday",
    right_on="dteday",
    suffixes=("_daily", "_hourly")
)
bike_sharing_merge_df.head()

**Insight:**
- dteday antara bike sharing day dengan hour tidak ada perbedaan sehingga bisa dilakukan penggabungan 2 data frame

### Assessing Data

In [None]:
bike_sharing_day_df.info()

In [None]:
bike_sharing_hour_df.info()

In [None]:
bike_sharing_day_df.isna().sum()

In [None]:
bike_sharing_hour_df.isna().sum()

In [None]:
bike_sharing_day_df.duplicated().sum()

In [None]:
bike_sharing_hour_df.duplicated().sum()

In [None]:
bike_sharing_day_df.describe()

In [None]:
bike_sharing_hour_df.describe()

In [None]:
bike_sharing_merge_df.describe()

**Insight:**
- Tidak ada masalah pada jumlah data/ tidak ada missing value pada data bike sharing day dan hour
- Tidak ada duplikasi nilai pada data bike sharing day dan hour
- Kolom dteday pada bike sharing day dan hour harusnya direpresentasikan sebagai tipe data datetime bukan object
- Nilai maximum temp_daily adalah 0.861667 dan nilai minimum 0.059130. Namun ini adalah hasil normalisasi dari suhu dalam skala Celsius agar skala datanya antara 0 dan 1. Jika dikonversi ke suhu aktual maka nilainya akan sekitar 32.5°C (maximum) dan  5.2 °C (minimum) .


### Cleaning Data

In [None]:
bike_sharing_day_df["dteday"] = bike_sharing_day_df["dteday"].apply(pd.to_datetime, format='%Y-%m-%d')
bike_sharing_hour_df["dteday"] = bike_sharing_hour_df["dteday"].apply(pd.to_datetime, format='%Y-%m-%d')
bike_sharing_merge_df['dteday'] = bike_sharing_merge_df['dteday'].apply(pd.to_datetime, format='%Y-%m-%d')


In [None]:
bike_sharing_day_df.info()

In [None]:
bike_sharing_hour_df.info()

In [None]:
bike_sharing_merge_df.info()

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
weather_cols = ['temp_daily', 'atemp_daily', 'hum_daily', 'windspeed_daily',
                'temp_hourly', 'atemp_hourly', 'hum_hourly', 'windspeed_hourly',
                'cnt_daily', 'cnt_hourly']
corr_matrix = bike_sharing_merge_df[weather_cols].corr()
daily_correlations = corr_matrix['cnt_daily'][['temp_daily', 'atemp_daily', 'hum_daily', 'windspeed_daily']]
hourly_correlations = corr_matrix['cnt_hourly'][['temp_hourly', 'atemp_hourly', 'hum_hourly', 'windspeed_hourly']]
print("Analisis Korelasi:")
print("Korelasi unsur cuaca antara cnt_daily dan cnt_hourly:")
print(daily_correlations)
print(hourly_correlations)


In [None]:
def convert_to_celsius(normalized_temp):
    t_min = -8
    t_max = 39
    return normalized_temp * (t_max - t_min) + t_min
print("\n Konversi ke Suhu Celsius Asli ")
print("\nDataset Harian:")
print(f"Suhu maksimum: {convert_to_celsius(bike_sharing_merge_df['temp_daily'].max()):.2f}°C")
print(f"Suhu minimum: {convert_to_celsius(bike_sharing_merge_df['temp_daily'].min()):.2f}°C")

print("\nDataset Jam:")
print(f"Suhu maksimum: {convert_to_celsius(bike_sharing_merge_df['temp_hourly'].max()):.2f}°C")
print(f"Suhu minimum: {convert_to_celsius(bike_sharing_merge_df['temp_hourly'].min()):.2f}°C")

In [None]:
hour_correlations= bike_sharing_merge_df['cnt_hourly'].corr(bike_sharing_merge_df['hr'])
print("Analisis Korelasi:")
print("Korelasi antara waktu dengan jumlah pengguna")
print (hour_correlations)

In [None]:
users_by_hour = bike_sharing_merge_df.groupby('hr')['cnt_hourly'].sum()

max_users_hour = users_by_hour.idxmax()
max_users_count = users_by_hour.max()
min_users_hour = users_by_hour.idxmin()
min_users_count = users_by_hour.min()

print(f"Jam dengan jumlah pengguna terbanyak: {max_users_hour}:00 dengan {max_users_count} pengguna")
print(f"Jam dengan jumlah pengguna tersedikit: {min_users_hour}:00 dengan {min_users_count} pengguna")

**Insight:**
- Analisis Mendalam Hubungan Cuaca dengan Pengguna Bike Sharing

Ada 4 unsur pembentukan cuaca yang diukur/dicatat oleh peneliti yakni suhu, suhu yang dirasakan, kelembaban, dan kecepatan angin. Masing-masing dari 4 unsur ini kemudian dicari tahu korelasi/hubungan dengan jumlah pengguna rental sepeda (termasuk pengguna casual dan registered)
1. Suhu (Temperature)

Suhu memiliki korelasi paling signifikan dengan jumlah pengguna bike sharing.
Pada dataset harian (daily), angka korelasi suhu dengan jumlah pengguna mencapai 0.6, sehingga menunjukan korelasi kuat terhadap orang yang melakukan rental sepeda. Demikian juga terhadap dataset hourly yang memiliki angka korelasi suhu dengan jumlah pengguna mencapai angka 0.4 sehingga menunjukan korelasi terhadap orang yang melakukan rental sepeda
2. Suhu yang Dirasakan (Apparent Temperature)

Hampir identik dengan korelasi suhu aktual. Suhu yang dirasakan memiliki korelasi dengan jumlah pengguna bike sharing.
Pada dataset harian (daily), angka korelasi suhu dengan jumlah pengguna mencapai 0.6, sehingga menunjukan korelasi kuat terhadap orang yang melakukan rental sepeda. Demikian juga terhadap dataset hourly yang memiliki angka korelasi suhu dengan jumlah pengguna mencapai angka 0.4 sehingga menunjukan korelasi terhadap orang yang melakukan rental sepeda


3. Kelembaban

Pada dataset harian (daily), angka korelasi kelembaban dengan jumlah pengguna mencapai -0.09, sehingga menunjukan korelasi lemah terhadap orang yang melakukan rental sepeda. Demikian juga terhadap dataset hourly yang memiliki angka korelasi kelembaban dengan jumlah pengguna mencapai angka -0.3 sehingga menunjukan korelasi lemah terhadap orang yang melakukan rental sepeda

4. Kecepatan Angin

Pada dataset harian (daily), angka korelasi kecepatan angin dengan jumlah pengguna mencapai -0.2, sehingga menunjukan korelasi lemah terhadap orang yang melakukan rental sepeda. Namun pada dataset hourly memiliki angka korelasi kecepatan angin dengan jumlah pengguna mencapai angka 0.09 sehingga menunjukan ada sedikit korelasi terhadap orang yang melakukan rental sepeda.


**Kesimpulan:**

Suhu memiliki korelasi paling signifikan dengan jumlah pengguna bike sharing.
- Analisis Mendalam Hubungan Waktu dengan Pengguna Bike Sharing

Kolom waktu (hr) hanya terdapat pada dataset hour. Waktu (hr) memiliki korelasi positif terhadap jumlah pengguna bike sharing. Angka korelasi mencapai 0.4

## Visualization & Explanatory Analysis

### Pertanyaan 1:

In [None]:
# Visualisasi
plt.figure(figsize=(16, 12))

# Subplot 1: Line Chart Suhu Harian vs Jumlah Pengguna
plt.subplot(2,2, 3)
plt.scatter(bike_sharing_merge_df['temp_daily'], bike_sharing_merge_df['cnt_daily'], alpha=0.5)
plt.xlabel('Suhu Harian')
plt.ylabel('Jumlah Pengguna Harian')
plt.title('Hubungan Suhu dengan Jumlah Pengguna Harian')

# Subplot 2: Scatter Plot Suhu Jam vs Jumlah Pengguna
plt.subplot(2, 2, 4)
plt.scatter(bike_sharing_merge_df['temp_hourly'], bike_sharing_merge_df['cnt_hourly'], alpha=0.5, color='green')
plt.xlabel('Suhu Jam')
plt.ylabel('Jumlah Pengguna Per-Jam')
plt.title('Hubungan Suhu dengan Jumlah Pengguna Per-Jam')


In [None]:
# Visualisasi
plt.figure(figsize=(16, 12))

# Subplot 1: Line Chart Suhu Yang Dirasakan Harian vs Jumlah Pengguna
plt.subplot(2,2, 3)
plt.scatter(bike_sharing_merge_df['atemp_daily'], bike_sharing_merge_df['cnt_daily'], alpha=0.5)
plt.xlabel('Daily Apparent Temperature')
plt.ylabel('Daily Users')
plt.title('Daily Apparent Temperature VS Daily Users')

# Subplot 2: Scatter Plot Suhu Jam vs Jumlah Pengguna
plt.subplot(2, 2, 4)
plt.scatter(bike_sharing_merge_df['atemp_hourly'], bike_sharing_merge_df['cnt_hourly'], alpha=0.5, color='green')
plt.xlabel('Hourly Apparent Temperature')
plt.ylabel('Hourly Users ')
plt.title('Hourly Apparent Temperature Jam VS Houry Users')

### Pertanyaan 2:

In [None]:
sns.lineplot(x=users_by_hour.index, y=users_by_hour.values, marker='o', color='b')
plt.title('Jumlah Penyewaan Berdasarkan Waktu')
plt.xticks(range(0, 24))
plt.xlabel('Time')
plt.ylabel('Users')

**Insight:**
- Jika suhu semakin hangat maka jumlah pengguna bike sharing akan meningkat
- Puncak dari penyewaan sepeda terjadi pada jam-jam tertentu seperti pagi (sekitar jam 7-9) dan sore (sekitar jam 17-19), yang mana ini merupakan jam-jam sibuk sehingga banyak orang menggunakan sepeda untuk berangkat beraktivitas

## Analisis Lanjutan (Opsional)

**RFM**
- Berapa hari sejak terakhir pengguna melakukan sewa sepeda di musim tersebut?
- Berapa banyak hari dalam dataset yang termasuk dalam musim tersebut?
- Total pengguna bike sharing dalam musim tersebut?

**Tujuan :**
mengetahui musim mana yang memiliki nilai tertinggi dari perspektif RFM sehingga dapat menentukan strategi bisnis yang tepat untuk setiap musim

In [None]:
season_map = {1: "Spring", 2: "Summer", 3: "Fall", 4: "Winter"}
bike_sharing_merge_df['season_name'] = bike_sharing_merge_df['season_daily'].map(season_map)
print(bike_sharing_merge_df['season_name'].head())

In [None]:
reference_date = bike_sharing_merge_df['dteday'].max()
season_rfm = []

for season_name, season_df in bike_sharing_merge_df.groupby(by='season_name'):
    current_date = season_df['dteday'].max()

    recency = (reference_date - current_date).days

    frequency = season_df['dteday'].nunique()

    monetary = season_df['cnt_daily'].sum()

    season_rfm.append({
        'season': season_name,
        'recency': recency,
        'frequency': frequency,
        'monetary': monetary,
    })

season_rfm_df = pd.DataFrame(season_rfm)

print("RFM Analysis by Season")
print(season_rfm_df)


In [None]:
season_rfm_df['r_score'] = pd.qcut(season_rfm_df['recency'], 5, labels=[5, 4, 3, 2, 1], duplicates='drop')
season_rfm_df['f_score'] = pd.qcut(season_rfm_df['frequency'], 5, labels=[1, 2, 3, 4, 5], duplicates='drop')
season_rfm_df['m_score'] = pd.qcut(season_rfm_df['monetary'], 5, labels=[1, 2, 3, 4, 5], duplicates='drop')

print(season_rfm_df)

In [None]:
sns.set(style="whitegrid")

plt.figure(figsize=(10, 6))
sns.barplot(x='season', y='recency', data=season_rfm_df, palette='coolwarm')
plt.title('Recency by Season')
plt.xlabel('Season')
plt.ylabel('Recency (Days)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 6))
sns.barplot(x='season', y='frequency', data=season_rfm_df, palette='viridis')
plt.title('Frequency by Season')
plt.xlabel('Season')
plt.ylabel('Frequency (Number of Days)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 6))
sns.barplot(x='season', y='monetary', data=season_rfm_df, palette='magma')
plt.title('Monetary by Season')
plt.xlabel('Season')
plt.ylabel('Monetary (Total Rental Count)')
plt.xticks(rotation=45)

**Insight:**

- Analisis RFM berdasarkan musim

Skor R: 5 untuk yang paling baru (recency terendah)

Skor F: 5 untuk frekuensi tertinggi

Skor M: 5 untuk nilai rata-rata tertinggi

Catatan : For recency, lower is better (more recent = higher score). For frequency and monetary, higher is better

Dari hasil pemrosesan oleh sistem dapat diketahui bahwa musim (season) dengan recency (R) terendah adalah musim **SUMMER** artinya musim ini memiliki penyewaan paling baru, sementara untuk musim dengan recency (R) tertinggi ialah musim **SPRING** artinya musim ini memiliki rentang waktu sejak penyewaan terakhir (yaitu, hari penyewaan terakhir dalam musim tersebut) adalah yang paling lama dibandingkan dengan musim lainnya.

Selanjutnya untuk musim (season) dengan frequency (F) terendah adalah musim **WINTER** artinya musim ini memiliki jumlah hari paling sedikit dimana pengguna melakukan rental sepeda , sementara untuk musim dengan frequency (F) tertinggi ialah musim **FALL** artinya musim ini memiliki jumlah hari paling banyak dimana pengguna melakukan rental sepeda.

Terakhir adalah musim (season) dengan monetary (M) terendah adalah musim **SPRING** artinya musim ini memiliki jumlah pengguna bike sharing paling sedikit , sementara untuk musim dengan monetary (M) tertinggi ialah musim **FALL** artinya musim ini memiliki jumlah pengguna bike sharing paling banyak




## Conclusion

- Dari 4 unsur pembentukan cuaca yang diukur/dicatat oleh peneliti yakni suhu, suhu yang dirasakan, kelembaban, dan kecepatan angin, suhu memiliki korelasi paling signifikan dengan jumlah pengguna bike sharing. Dibuktikan dengan jika suhu semakin hangat maka jumlah pengguna bike sharing akan meningkat
- Waktu memiliki korelasi terhadap jumlah pengguna bike sharing. Dibuktikan puncak dari penyewaan sepeda terjadi pada jam-jam tertentu seperti pagi (sekitar jam 7-9) dan sore (sekitar jam 17-19), yang mana ini merupakan jam-jam sibuk sehingga banyak orang menggunakan sepeda untuk berangkat beraktivitas
- Diperlukan perhatian khusus seperti strategi promosi bike sharing pada musim semi agar dapat menaikkan jumlah pengguna bike sharing. Lalu, yang menarik pada musim Dingin memiliki frekuensi terendah tetapi memiliki jumlah pendapatan yang lumayan. Sehingga mungkin dapat mencari cara untuk mempertahankan pelanggan melalui promosi yang ditargetkan seperti special winter offers. Pada musim panas jumlah penyewaan sepeda memiliki frekuensi tertinggi dan jumlah pendapatan yang solid. Perlu diperhatikan sebab jika suhu semakin hangat maka jumlah pengguna bike sharing dapat meningkat sehingga perlu memastikan stok sepeda yang cukup dan memberikan promosi atau penawaran dapat lebih meningkatkan revenue. Musim gugur memiliki jumlah revenue terbanyak dan jumlah pengguna terbanyak sehingga dapat melakukan strategi untuk melibatkan kembali pelanggan selama musim ini, seperti diskon untuk pelanggan sebelumnya atau penawaran khusus berdasarkan aktivitas sebelumnya.

In [None]:
bike_sharing_merge_df.to_csv('bike_sharing_merge_df.csv', index=False)