# Proyek Analisis Data: [Input Nama Dataset]
- **Nama:** [David Samuel Sitorus]
- **Email:** [sammysitorus23@gmail.com]
- **ID Dicoding:** [davidsam27]

## Menentukan Pertanyaan Bisnis

- Bagaimana kita dapat mengelompokkan pengguna berdasarkan perilaku sewa mereka menggunakan RFM?
- Bagaimana aktivitas penyewaan sepeda bervariasi pada jam-jam yang berbeda dalam sehari?
- Bisakah kita mengelompokkan penyewaan sepeda berdasarkan kondisi cuaca untuk memahami dampaknya terhadap jumlah penyewaan?

## Import Semua Packages/Library yang Digunakan

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [7]:
day_df = pd.read_csv('data/day.csv')
hour_df = pd.read_csv('data/hour.csv')

In [None]:
day_df.head()

In [None]:
hour_df.head()

day_df merupakan dataset dari peminjaman sepeda per hari, melainkan dataset hour_df mencakup per jam dari peminjaman sepeda

### Assessing Data

#### day_df

In [None]:
day_df.info()

Jika kita lihat, terdapat 731 entri dan tidak satupun dari sel yang bernilai null

In [None]:
day_df.duplicated().sum()

Dan pada day_df, tidak ada data yang terduplikasi

#### hour_df

In [None]:
hour_df.info()

Dalam hour_df, terdapat 17379 entri dan juga tidak satupun dari sel yang bernilai null

In [None]:
hour_df.duplicated().sum()

Dan pada hour_df, tidak ada data yang terduplikasi

### Cleaning Data

### day_df

dengan adanya "dteday" untuk tanggal dan "weekday" untuk hari di tanggal tersebut, "yr", "mnth", dan "workingday" tidak diperlukan

In [11]:
day_df = day_df.drop(columns = ['yr','mnth','workingday'])


In [None]:
day_df.head()

In [None]:
day_df.isna().sum()

### hour_df

dengan adanya "dteday" untuk tanggal dan "weekday" untuk hari di tanggal tersebut, "yr", "mnth", dan "workingday" tidak diperlukan

In [13]:
hour_df = hour_df.drop(columns = ['yr','mnth','workingday'])

In [None]:
hour_df.head()

In [None]:
hour_df.isna().sum()

## Exploratory Data Analysis (EDA)

### Explore day_df

In [None]:
day_df.head()

#### Visualisasi total rental berdasarkan musim

In [None]:
# Mapping musim sesuai dengan musim dari masing-masing angka
mapping_musim = {1: 'Semi', 2: 'Panas', 3: 'Gugur', 4: 'Dingin'}
day_df['nama_musim'] = day_df['season'].map(mapping_musim)

# Membuat plot
plt.figure(figsize=(10, 6))
ax = sns.barplot(x='nama_musim', y='cnt', data=day_df, estimator=np.sum, palette='viridis', errorbar=None)

# Menambahkan angka di atas setiap bar
for p in ax.patches:
    ax.annotate(format(p.get_height(), '.0f'), 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha = 'center', va = 'center', 
                xytext = (0, 9), 
                textcoords = 'offset points')

plt.title('Total Sewa Sepeda Berdasarkan Musim')
plt.xlabel('Musim')
plt.ylabel('Total Sewa')
plt.show()

Dari grafik tersebut, terlihat bahwa:
- Jumlah penyewaan tertinggi terjadi pada musim Gugur, diikuti oleh musim Panas.
- Musim Semi mencatat jumlah penyewaan terendah.
- Meskipun berada di musim Dingin, total penyewaan masih cukup tinggi dan hampir menyamai angka di musim Panas.

### Explore hour_df

In [None]:
hour_df.head()

In [None]:
corr_matrix = hour_df.corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Correlation Matrix')
plt.show()


Dengan Correlation Matrix diatas, kita bisa lihat korelasi tertinggi adalah temp dengan atemp. Korelasi mereka sangat dekat dikarenakan temp merupakan temperatur ternormalisasi, melainkan atemp merupakan suhu perasaan.

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana kita dapat mengelompokkan pengguna berdasarkan perilaku sewa mereka menggunakan RFM?

Dalam pertanyaan ini, kita akan menghitung metrik RFM untuk pengguna berdasarkan jumlah sewa mereka dan mengklasifikasikannya ke dalam segmen.

In [None]:
# Mengonversi 'dteday' menjadi format datetime
day_df['dteday'] = pd.to_datetime(day_df['dteday'])

# Ambil tanggal terakhir dalam dataset untuk perhitungan Recency
today = day_df['dteday'].max()

# Menghitung RFM
rfm = pd.DataFrame()
rfm['Recency'] = (today - day_df['dteday']).dt.days  # Menghitung Recency
rfm['Frequency'] = day_df['cnt']  # Menghitung Frequency
rfm['Monetary'] = day_df['cnt'] * 1  # Mengasumsikan $1 per sewa

# Menampilkan ringkasan RFM
print(rfm.describe())

# Mengelompokkan pengguna berdasarkan RFM
rfm['R_Score'] = pd.qcut(rfm['Recency'], 4, labels=False)  # Semakin rendah semakin baik
rfm['F_Score'] = pd.qcut(rfm['Frequency'], 4, labels=False)  # Semakin tinggi semakin baik
rfm['M_Score'] = pd.qcut(rfm['Monetary'], 4, labels=False)  # Semakin tinggi semakin baik

# Membuat skor gabungan
rfm['RFM_Score'] = rfm['R_Score'] + rfm['F_Score'] + rfm['M_Score']
print(rfm[['Recency', 'Frequency', 'Monetary', 'RFM_Score']])


Diatas merupakan Recency, Frequency, Monetary, dan RFM Score dari df yang digunakan

In [None]:
# Membuat hitungan setiap skor RFM
rfm_score_counts = rfm['RFM_Score'].value_counts().sort_index()

# Membuat plot
plt.figure(figsize=(10, 6))
ax = sns.barplot(x=rfm_score_counts.index, y=rfm_score_counts.values)

# Menambahkan angka di atas setiap bar
for p in ax.patches:
    ax.annotate(format(p.get_height(), '.0f'), 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha = 'center', va = 'center', 
                xytext = (0, 9), 
                textcoords = 'offset points')
    

plt.title('Distribusi Skor RFM')
plt.xlabel('Skor RFM')
plt.ylabel('Jumlah Hari')
plt.xticks(rotation=0)
plt.show()


Dari grafik tersebut, kita dapat melihat bahwa sebagian besar pelanggan memiliki skor RFM di kisaran 3 hingga 6, dengan puncak pada skor 6 yang mencapai sekitar 160 hari.

### Pertanyaan 2: Bagaimana aktivitas penyewaan sepeda bervariasi pada jam-jam yang berbeda dalam sehari?

In [None]:
hourly_rentals = hour_df.groupby('hr')['cnt'].sum().reset_index()

# Memvisualisasikan data
plt.figure(figsize=(15, 10))
ax = sns.lineplot(data=hourly_rentals, x='hr', y='cnt', marker='o')

for x, y in zip(hourly_rentals['hr'], hourly_rentals['cnt']):
    plt.text(x, y, f'{y:.0f}', ha='center', va='bottom', fontsize=10, rotation = 45)
    
plt.title('Sewa Sepeda Berdasarkan Jam Hari')
plt.xlabel('Jam')
plt.ylabel('Total Sewa')
plt.xticks(hourly_rentals['hr'])
plt.grid()
plt.show()

Dari grafik tersebut, kita bisa melihat beberapa pola utama:

- Puncak pertama (jam 8): Terdapat lonjakan tajam dalam penyewaan sepeda sekitar pukul 8 pagi, yang mencapai lebih dari 250.000 sewa. Ini mungkin terkait dengan aktivitas pagi hari, seperti orang-orang yang berangkat bekerja atau berolahraga.

- Penurunan setelah puncak pagi: Setelah jam 8, aktivitas sewa menurun tajam hingga pukul 10, dan mulai stabil di angka yang lebih rendah hingga sekitar tengah hari (jam 12-13).

- Puncak kedua (jam 17): Aktivitas sewa kembali mengalami peningkatan signifikan pada sore hari, dengan puncaknya di sekitar jam 17. Ini bisa dikaitkan dengan orang-orang pulang kerja atau aktivitas sore hari lainnya.

- Penurunan setelah jam 18: Setelah jam 18, jumlah sewa sepeda mulai menurun, menunjukkan bahwa penggunaan sepeda cenderung berkurang menjelang malam.

### Pertanyaan 3: Dapatkah kita mengelompokkan sewa sepeda berdasarkan kondisi cuaca untuk memahami dampaknya terhadap jumlah sewa?

In [None]:
weather_mapping = {
    1: 'Clear',
    2: 'Mist',
    3: 'Light Rain',
    4: 'Heavy Rain'
}
hour_df['weather_condition'] = hour_df['weathersit'].map(weather_mapping)

# Mengelompokkan berdasarkan kondisi cuaca dan merangkum total sewa
weather_grouped = hour_df.groupby('weather_condition')['cnt'].sum().reset_index()

# Membuat label per bar
def addlabels(x,y):
    for i in range(len(x)):
        plt.text(i, y[i], f'{y[i]:,.0f}', ha='center', va='bottom', fontsize=10)

# Memvisualisasikan hasil
plt.figure(figsize=(10, 6))
sns.barplot(data=weather_grouped, x='weather_condition', y='cnt')
addlabels(weather_grouped['weather_condition'], weather_grouped['cnt'])
plt.title('Total Sewa Sepeda Berdasarkan Kondisi Cuaca')
plt.xlabel('Kondisi Cuaca')
plt.ylabel('Total Sewa')
plt.xticks(rotation=45)
plt.show()


Berdasarkan bar chart di atas, berikut adalah beberapa kesimpulan terkait total sewa sepeda berdasarkan kondisi cuaca:

- Cuaca Cerah (Clear): Merupakan kondisi cuaca dengan jumlah sewa sepeda tertinggi, mencapai lebih dari 2,3 juta total sewa. Ini menunjukkan bahwa penyewaan sepeda paling populer ketika cuaca cerah, kemungkinan karena cuaca yang mendukung untuk aktivitas luar ruangan.

- Cuaca Berkabut (Mist): Meskipun jauh di bawah cuaca cerah, kondisi berkabut masih memiliki jumlah total sewa yang cukup tinggi, sekitar 795.952. Hal ini menunjukkan bahwa kabut ringan tidak secara signifikan menghambat penyewaan sepeda.

- Hujan Ringan (Light Rain): Penyewaan sepeda menurun cukup signifikan saat terjadi hujan ringan, dengan total sewa sekitar 158.331. Ini mengindikasikan bahwa pengguna mungkin kurang tertarik menyewa sepeda dalam kondisi hujan, meskipun tidak terlalu lebat.

- Hujan Lebat (Heavy Rain): Jumlah sewa sepeda paling rendah terjadi saat hujan lebat, hanya sebanyak 223 total sewa. Ini menunjukkan bahwa hujan lebat hampir sepenuhnya menghentikan aktivitas penyewaan sepeda, mungkin karena faktor keselamatan dan kenyamanan.

## Conclusion

- Kita dapat mengelompokkan pengguna berdasarkan perilaku sewa mereka dengan cara menghitung metrik RFM untuk pengguna berdasarkan jumlah sewa mereka dan mengklasifikasikannya ke dalam segmen. Hasil menunjukkan bahwa mayoritas pelanggan berada pada rentang menengah dalam hal perilaku sewa mereka, baik dari segi frekuensi, nilai transaksi, maupun waktu terakhir bertransaksi.
- Aktivitas penyewaan sepeda cenderung tinggi pada pagi hari sekitar jam 8 dan sore hari sekitar jam 17, dengan penurunan yang signifikan pada siang dan malam hari. Pola ini menunjukkan dua waktu sibuk utama dalam sehari untuk sewa sepeda, yang kemungkinan besar terkait dengan jam sibuk berangkat dan pulang kerja.
- Jumlah penyewaan sepeda tertinggi terjadi saat cuaca cerah, sementara penyewaan menurun signifikan pada kondisi berkabut, hujan ringan, dan hampir berhenti total saat hujan lebat.