# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Zainal Fattah
- **Email:** project.zf01@gmail.com
- **ID Dicoding:** mosaicnim

## Menentukan Pertanyaan Bisnis

1. Seberapa signifikan perbedaan jumlah penyewaan sepeda pada tiap musim untuk pengguna kasual dibandingkan pengguna terdaftar?
2. Bagaimana produktivitas Bike Sharing berdasarkan waktu pada musim salju?
3. Bagaimana kondisi cuaca berperan dalam memengaruhi jumlah penyewaan sepeda?

## Import Semua Packages/Library yang Digunakan

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.patches as mpatches

## Data Wrangling

### Gathering Data

In [None]:
day_df = pd.read_csv('./data/day.csv')
day_df.head()

In [None]:
hour_df = pd.read_csv('./data/hour.csv')
hour_df.head()

**Insight:**

This dataset contains information about bike rentals, with the following key features:
 * Date and Time: date, year, month, hour, and day of the week
 * Season and Holidays: season, holiday status, and working day status
 * Weather: weather situation, temperature, feeling temperature, humidity, and wind speed (all normalized)
 * User Types: count of casual users, registered users, and total rental bikes

### Assessing Data

#### Day DataFrame

In [None]:
day_df.shape

In [None]:
day_df.info()

In [None]:
day_df.isnull().sum()

In [None]:
duplicated = day_df.duplicated().sum()
print(f'Jumlah data duplikat: {duplicated}')
day_df.describe()

**Insight:**
 * 731 rows & 16 Column
 * There is a data type error in the dteday column (object type)
 * There are no missing values in the data
 * There are no duplicate data points
 * There are no inaccurate values

#### Hour DataFrame

In [None]:
hour_df.shape

In [None]:
hour_df.info()

In [None]:
hour_df.isnull().sum()

In [None]:
duplicated = hour_df.duplicated().sum()
print(f'Jumlah data duplikat: {duplicated}')
hour_df.describe()

**Insight:**
 * 17379 rows & 17 Column
 * There is a data type error in the dteday column (object type)
 * There are no missing values in the data
 * There are no duplicate data points
 * There are no inaccurate values

### Cleaning Data

Menurut penilaian saya

ketergantungan antar kolom:
- working --> weekday
- holiday --> weekday

Maksud/Makna dari value 0 & 1:
- Holiday: Jika 0 == Tidak Libur/Masuk Kerja, maka 1 == Libur.
- Workingday: Jika 0 == Tidak masuk kerja/Libur, maka 1 == Masuk kerja.

karena ada dua kolom yang memiliki ketergantungan yang sama & mempunyai arti/maksud yang sama, maka hapus salah satu.



In [13]:
# Menghapus kolom holiday
hour_df.drop('holiday', axis=1, inplace=True)
day_df.drop('holiday', axis=1, inplace=True)

In [14]:
day_df.rename(columns={'workingday': 'daystatus'}, inplace=True)
hour_df.rename(columns={'workingday': 'daystatus'}, inplace=True)

Mengubah tipe data kolom dteday dari object ke datetime pada dataframe day & hour

In [15]:
dataframe = [day_df, hour_df]

for df in dataframe:
  df['dteday'] = pd.to_datetime(df['dteday'])

In [16]:
yr_str = {
    0: '2011',
    1: '2012'
}

day_df['yr'] = day_df['yr'].map(yr_str)
hour_df['yr'] = hour_df['yr'].map(yr_str)

Mengubah season dari numerik ke actual values pada dataframe day & hour:
- 1: Spring
- 2: Summer
- 3: Fall
- 4: Winter

In [17]:
season_str = {
    1: 'Spring',
    2: 'Summer',
    3: 'Fall',
    4: 'Winter'
}

day_df['season'] = day_df['season'].map(season_str)
hour_df['season'] = hour_df['season'].map(season_str)

In [None]:
day_df['season'].unique()

Mengubah value mnth dari numerik ke string:
- 1: "Januari"
- 2: "Februari"
- 3: "Maret"
- 4: "April"
- 5: "Mei"
- 6: "Juni"
- 7: "Juli"
- 8: "Agustus"
- 9: "September"
- 10: "Oktober"
- 11: "November"
- 12: "Desember"

In [19]:
mnth_str = {
    1: "Januari",
    2: "Februari",
    3: "Maret",
    4: "April",
    5: "Mei",
    6: "Juni",
    7: "Juli",
    8: "Agustus",
    9: "September",
    10: "Oktober",
    11: "November",
    12: "Desember"
}

day_df['mnth'] = day_df['mnth'].map(mnth_str)
hour_df['mnth'] = hour_df['mnth'].map(mnth_str)

In [None]:
day_df['mnth'].unique()

Mengubah value weekday dari numerik ke string
- 0: "Minggu"
- 1: "Senin"
- 2: "Selasa"
- 3: "Rabu"
- 4: "Kamis"
- 5: "Jumat"
- 6: "Sabtu"

In [21]:
weekday_str = {
    0: "Minggu",
    1: "Senin",
    2: "Selasa",
    3: "Rabu",
    4: "Kamis",
    5: "Jumat",
    6: "Sabtu"
}

day_df['weekday'] = day_df['weekday'].map(weekday_str)
hour_df['weekday'] = hour_df['weekday'].map(weekday_str)

In [None]:
day_df['weekday'].unique()

Mengubah value weathersit	dari numerik ke string
- 1:"clear"
- 2:"mist"
- 3:"light snow"
- 4:"heavy rain"

In [23]:
weathersit_str = {
    1: "clear",
    2: "mist",
    3: "light snow",
    4: "heavy rain"
}

day_df['weathersit'] = day_df['weathersit'].map(weathersit_str)
hour_df['weathersit'] = hour_df['weathersit'].map(weathersit_str)

In [None]:
hour_df['weathersit'].unique()

In [25]:
workingday_str = {
    0: "Holiday",
    1: "Workingday"
}

day_df['daystatus'] = day_df['daystatus'].map(workingday_str)
hour_df['daystatus'] = hour_df['daystatus'].map(workingday_str)

In [None]:
day_df['daystatus'].unique()

**Insight:**
- Menghapus kolom holiday yang tidak diperlukan, karena sudah diwakilkan oleh kolom workingday
- Mengubah tipe data
- Mengubah value dari numerik ke string

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
day_df.describe(include='all')

In [None]:
hour_df.describe(include='all')

In [None]:
# Jumlah pengguna harian
day_df.groupby(by="weekday").agg({
    "dteday": "nunique",
    "casual": "sum",
    "registered": "sum",
    "cnt": ["min","max", "mean", "sum"]
})


Jumlah data 'casual' dan 'registered' terakumulasi setiap hari bervariasi. Jumlah total data 'casual' tertinggi tercatat pada hari Sabtu (153.852) dan terendah pada hari Rabu (57.319). Untuk data 'registered', jumlah tertinggi tercapai pada hari Kamis (423.935), sementara jumlah terendah pada hari Minggu (303.506). Total jumlah 'cnt' juga menunjukkan perbedaan antar hari, dengan nilai tertinggi pada hari Jumat (487.790) dan terendah pada hari Minggu (444.027).

In [None]:
# Jumlah pengguna per-bulan rentang 2 tahun
day_df.groupby(by=["yr","mnth"]).agg({
    "dteday": "nunique",
    "casual": "sum",
    "registered": "sum",
    "cnt": ["min","max", "mean", "sum"]
})

Pada tahun 2011, pengguna Bike Sharing terbanyak ada pada bulan Juni dengan total 143.512 pengguna. Pada tahun 2012, pengguna Bike Sharing terbanyak ada pada bulan September dengan total 218.573 pengguna.

In [None]:
# Jumlah pengguna berdasarkan season dan weather(cuaca)
hour_df.groupby(by=["season","weathersit"]).agg({
    "dteday": "nunique",
    "casual": "sum",
    "registered": "sum",
    "cnt": ["min","max", "mean", "sum"]
})

Berdasarkan musim dan kondisi cuaca, pengguna terbanyak ada di musim Fall saat cuaca clear dengan total 801.941 pengguna. Sementara pengguna paling sedikit ada di musim Spring saat cuaca heavy rain dengan total 223 pengguna.

In [None]:
# Jumlah pengguna pada hari kerja dan holiday
day_df.groupby(by="daystatus").agg({
    "dteday": "count",
    "casual": "sum",
    "registered": "sum",
    "cnt": ["min","max", "mean", "sum"]
})

Berdasarkan pada status hari:
- Pengguna Casual lebih banyak saat Holiday daripada saat hari kerja(Workingday), sedangkan pengguna registered lebih banyak saat hari kerja (Workingday) daripada saat Holiday
- Akumulasi total pengguna lebih banyak saat hari kerja(Workingday)

## Visualization & Explanatory Analysis





### Pertanyaan 1: Seberapa signifikan perbedaan jumlah penyewaan sepeda pada tiap musim untuk pengguna kasual dibandingkan pengguna terdaftar?

In [None]:
sum_casual_user = hour_df.groupby("season").casual.sum().sort_values(ascending=False).reset_index()
sum_registered_user = hour_df.groupby("season").registered.sum().sort_values(ascending=False).reset_index()

daily_user = pd.merge(
    left=sum_casual_user,
    right=sum_registered_user,
    how="left",
    left_on="season",
    right_on="season"
)

daily_user

In [None]:
daily_user_type = daily_user.melt(id_vars='season', var_name='tipePengguna', value_name='jumlahPengguna')

plt.figure(figsize=(15, 6))


sns.barplot(x="season", y="jumlahPengguna", hue="tipePengguna", data=daily_user_type, palette="muted")
plt.ylabel("Total Pengguna")
plt.xlabel("Musim")
plt.title("Perbandingan Pengguna Casual and Registered Berdasarkan Musim")
casual_patch = mpatches.Patch(color=sns.color_palette("muted")[0], label='Casual')
registered_patch = mpatches.Patch(color=sns.color_palette("muted")[1], label='Registered')
plt.legend(handles=[casual_patch, registered_patch], title="User Type")
plt.show()

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(24, 6))

colors = ["#72BCD4", "#D3D3D3", "#D3D3D3", "#D3D3D3", "#D3D3D3", "#D3D3D3", "#D3D3D3"]

sns.barplot(x="casual", y="season", data=sum_casual_user, palette=colors, hue="season", legend=False, ax=ax[0])
ax[0].set_ylabel("Musim", fontsize=15)
ax[0].set_xlabel("Total Pengguna", fontsize=12)
ax[0].set_title("Casual", loc="center", fontsize=15)
ax[0].tick_params(axis ='y', labelsize=12)

sns.barplot(x="registered", y="season", data=sum_registered_user, hue="season", legend=False, palette=colors, ax=ax[1])
ax[1].set_ylabel("Musim", fontsize=15)
ax[1].set_xlabel("Total Pengguna", fontsize=12)
ax[1].invert_xaxis()
ax[1].yaxis.set_label_position("right")
ax[1].yaxis.tick_right()
ax[1].set_title("Registered", loc="center", fontsize=15)
ax[1].tick_params(axis='y', labelsize=12)

plt.suptitle("Jumlah Pengguna Casual dan Registered berdasarkan Musim", fontsize=20)
plt.show()

Terlihat bahwa pengguna Registered selalu mendominasi di semua musim, dengan puncaknya terjadi pada musim Fall, sementara pengguna Casual mengalami variasi yang lebih signifikan, dengan jumlah tertinggi pada musim Fall dan terendah pada musim Winter, menunjukkan bahwa musim dapat mempengaruhi preferensi dan jumlah pengguna sepeda berbasis tipe pengguna.

### Pertanyaan 2: Bagaimana produktivitas Bike Sharing berdasarkan waktu pada musim salju?

In [None]:
# Filter data untuk hanya musim Winter
winter_df = hour_df[hour_df['season'] == 'Winter']

fig, ax = plt.subplots(figsize=(20,5))
sns.pointplot(data=winter_df, x='hr', y='cnt', hue='daystatus', errorbar=None, ax=ax)
ax.set(title='Produktivitas Bike Sharing Berdasarkan Waktu pada Musim Salju')
ax.set_ylabel('Total Pengguna')
ax.set_xlabel('Hour')
plt.show()

Produktivitas layanan berbagi sepeda berdasarkan jam dalam workingday dan holiday selama musim dingin. Seperti yang dapat kita lihat, ada lonjakan penggunaan di pagi hari jam kerja, dengan puncak penggunaan antara jam 7 dan 8 pagi. Kemudian, ada penurunan tajam sampai sekitar jam 10 pagi, setelah itu mulai naik lagi sampai mencapai puncak kedua sekitar jam 17.

### Pertanyaan 3: Bagaimana kondisi cuaca berperan dalam memengaruhi jumlah penyewaan sepeda?

In [54]:
byweather = hour_df.groupby("weathersit").cnt.sum().sort_values(ascending=False).reset_index()

In [None]:
colors = ["#72BCD4", "#D3D3D3", "#D3D3D3", "#D3D3D3"]
plt.figure(figsize=(12, 6))
sns.barplot(y="cnt", x="weathersit", data=byweather.sort_values(by="cnt", ascending=False),
            palette=colors)
plt.title("Jumlah Pengguna Berdasarkan Kondisi Cuaca", loc="center", fontsize=15)
plt.ylabel("Total Pengguna")
plt.xlabel("Kondisi Cuaca")
plt.ticklabel_format(style='plain', axis='y')
plt.show()

Jumlah pengguna paling banyak ketika kondisi cuaca cerah. Sebaliknya, jumlah pengguna paling sedikit ketika kondisi cuaca hujan lebat. Hal ini bisa menjadi indikasi bahwa orang lebih cenderung menggunakan aplikasi ketika cuaca cerah dan cenderung tidak menggunakan aplikasi ketika cuaca hujan lebat.

## Analisis Lanjutan (Opsional)

### RFM Analysis

In [None]:
rfm_df = hour_df.groupby(by="weekday", as_index=False).agg({
    "dteday": "max",
    "instant": "nunique",
    "cnt": "sum"
})

rfm_df.columns = ["weekday", "max_order_timestamp", "frequency", "monetary"]

rfm_df["max_order_timestamp"] = rfm_df["max_order_timestamp"].dt.date
recent_date = hour_df["dteday"].dt.date.max()
rfm_df["recency"] = rfm_df["max_order_timestamp"].apply(lambda x: (recent_date - x).days)

rfm_df.drop("max_order_timestamp", axis=1, inplace=True)
rfm_df

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(30, 6))

colors = ["#72BCD4", "#72BCD4", "#72BCD4", "#72BCD4", "#72BCD4"]

sns.barplot(y="recency", x="weekday", data=rfm_df.sort_values(by="recency", ascending=True).head(5), palette=colors, hue="weekday", legend=False, ax=ax[0])
ax[0].set_ylabel(None)
ax[0].set_xlabel(None)
ax[0].set_title("By Recency (days)", loc="center", fontsize=18)
ax[0].tick_params(axis ='x', labelsize=15)

sns.barplot(y="frequency", x="weekday", data=rfm_df.sort_values(by="frequency", ascending=False).head(5), palette=colors, hue="weekday", legend=False, ax=ax[1])
ax[1].set_ylabel(None)
ax[1].set_xlabel(None)
ax[1].set_title("By Frequency", loc="center", fontsize=18)
ax[1].tick_params(axis='x', labelsize=15)

sns.barplot(y="monetary", x="weekday", data=rfm_df.sort_values(by="monetary", ascending=False).head(5), palette=colors, hue="weekday", legend=False, ax=ax[2])
ax[2].set_ylabel(None)
ax[2].set_xlabel(None)
ax[2].set_title("By Monetary", loc="center", fontsize=18)
ax[2].tick_params(axis='x', labelsize=15)

plt.suptitle("Best Customer Based on RFM Parameters (day)", fontsize=20)
plt.show()

### Clustering: Mengelompokkan jumlah pelanggan menjadi Low/Middle/High

In [None]:
hour_df['cnt'].describe()

In [62]:
# Menghitung Q1, Q3, dan IQR
Q1 = hour_df['cnt'].quantile(0.25)
Q3 = hour_df['cnt'].quantile(0.75)
IQR = Q3 - Q1

# Menentukan bins berdasarkan min, Q1, Q3, dan max
min_cnt = hour_df['cnt'].min()
max_cnt = hour_df['cnt'].max()

# Menambahkan kolom status_pelanggan menggunakan bins dan labels
hour_df['level_pengguna'] = pd.cut(hour_df['cnt'],
                                bins=[min_cnt, Q1, Q3, max_cnt],
                                labels=['Low', 'Middle', 'High'],
                                include_lowest=True)

In [None]:
hour_df.groupby('level_pengguna').head(3)

In [None]:
total_level_pengguna = hour_df.groupby("level_pengguna")['level_pengguna'].count().sort_values(ascending=False).reset_index(name='count')
total_level_pengguna

In [None]:
plt.figure(figsize=(10, 6))
colors = ["#D3D3D3","#72BCD4", "#D3D3D3"]
sns.barplot(x='level_pengguna', y='count', data=total_level_pengguna, palette=colors)
plt.ylabel('Total Level')
plt.xlabel('Level Pengguna')
plt.show()

## Conclusion

- pertanyaan 1: Pengguna Registered selalu mendominasi di semua musim, saran kepada owner untuk lebih menekankan promosi untuk pengguna casual.
- pertanyaan 2: Produktivitas bike sharing lebih tinggi pada hari kerja dibanding libur.
Puncak penggunaan bike sharing pada hari kerja terjadi sekitar pukul 17.00.
Pada Holiday, puncak penggunaan bike sharing terjadi sekitar pukul 12.00.
- Pertanyaan 3: Kondisi cuaca "clear" memiliki jumlah penyewaan sepeda yang jauh lebih tinggi dibandingkan dengan kondisi cuaca lainnya. Hal ini menunjukkan bahwa kondisi cuaca yang cerah sangat mendukung kegiatan bersepeda.

In [87]:
hour_df.to_csv('data_clean.csv', index=False)