# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Dwiki Raynaldo. E
- **Email:** dwikiraynaldo27@gmail.com
- **ID Dicoding:** dwiki27

## Menentukan Pertanyaan Bisnis

1. Bagaimana pola penggunaan sepeda pada hari kerja dibandingkan akhir pekan atau hari libur?

2. Apakah terdapat perbedaan signifikan dalam jumlah penyewaan sepeda antara pengguna kasual dan terdaftar?

3. Bagaimana peristiwa atau anomali cuaca ekstrem mempengaruhi jumlah penyewaan sepeda?

4. Apakah ada tren musiman yang konsisten dalam penggunaan sepeda sepanjang tahun?

5. Bagaimana pengaruh suhu udara, kecepatan angin dan kelembaban terhadap keputusan pengguna untuk menyewa sepeda?

## Import Semua Packages/Library yang Digunakan

In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

## Data Wrangling      

Data wrangling merupakan sebuah proses atau kumpulan kegiatan yang meliputi pengumpulan data (Gathering data), penilaian data (Assessing data), serta pembersihan data (Cleaning data) sebelum data digunakan dalam proses analisis data.

### Gathering Data

Tahap data wrangling, dimulai dengan proses pengumpulan data. Pada proses ini kita akan mengumpulkan semua data yang dibutuhkan untuk menjawab semua pertanyaan atau masalah bisnis yang ingin kita hadapi.

In [6]:
# Import data day.csv and hour.csv
day_df = pd.read_csv("data/day.csv")
day_df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data/day.csv'

In [None]:
hour_df = pd.read_csv("data/hour.csv")
hour_df.head()

In [None]:
day_df.sample(50)


### Assessing Data

Setelah semua data yang dibutuhkan terkumpul, proses selanjutnya ialah penilaian terhadap data tersebut. Proses ini dilakukan untuk menilai kualitas dan struktur dari sebuah data. Selain itu, proses ini juga bertujuan untuk mengidentifikasi berbagai masalah yang terdapat dalam data, seperti missing value, unstandard value, dll.

**Mengecek Informasi data day_df**

In [None]:
day_df.info()

**Mengecek Informasi data hour_df**

In [None]:
hour_df.info()

**Mengecek shape data day_df**

In [None]:
day_df.shape

**Mengecek shape data hour_df**

In [None]:
hour_df.shape

**Melihat statistik deskriptif data day_df**

In [None]:
day_df.describe()

**Melihat statistik deskriptif data hour_df**

In [None]:
hour_df.describe()

**Mengecek missing value dan duplikasi data day_df**

In [None]:
# Mengecek missing value pada day_df
print("missing value : \n",day_df.isnull().sum())

# Mengecek duplikasi data pada day_df
print("duplikasi data : ",day_df.duplicated().sum())

**Mengecek missing value dan duplikasi hour_df**

In [None]:
# Mengecek missing value pada hour_df
print("missing value : \n",hour_df.isnull().sum())

# Mengecek duplikasi data pada hour_df
print("duplikasi data : ",hour_df.duplicated().sum())

### Cleaning Data

In [None]:
# Berdasarkan hasil assessing data, tidak ditemukan missing value dan duplikasi data pada kedua dataset.
# Namun, perlu dilakukan beberapa langkah cleaning data:

# Mengubah tipe data kolom 'dteday' menjadi datetime pada kedua dataset.
day_df['dteday'] = pd.to_datetime(day_df['dteday'])
hour_df['dteday'] = pd.to_datetime(hour_df['dteday'])

# Mengganti angka menjadi keterangan pada kolom 'season' di day_df
day_df['season'] = day_df['season'].map({    1: 'Spring',    2: 'Summer',    3: 'Fall',    4: 'Winter'})

# Mengganti angka menjadi keterangan pada kolom 'season' di hour_df
hour_df['season'] = hour_df['season'].map({    1: 'Spring',    2: 'Summer',    3: 'Fall',  4: 'Winter'})
# Mengganti angka menjadi keterangan pada kolom 'weekday' di day_df
day_df['weekday'] = day_df['weekday'].map({    0: 'Sunday', 1: 'Monday', 2: 'Tuesday', 3: 'Wednesday',4: 'Thursday', 5: 'Friday', 6: 'Saturday'})

# Mengganti angka menjadi keterangan pada kolom 'weekday' di hour_df
hour_df['weekday'] = hour_df['weekday'].map({ 0: 'Sunday', 1: 'Monday', 2: 'Tuesday', 3: 'Wednesday', 4: 'Thursday', 5: 'Friday', 6: 'Saturday'})
# Mengganti angka menjadi keterangan pada kolom 'weathersit' di day_df
day_df['weathersit'] = day_df['weathersit'].map({ 1: 'Clear', 2: 'Mist', 3: 'Light Snow/Rain', 4: 'Heavy Rain/Snow'})

# Mengganti angka menjadi keterangan pada kolom 'weathersit' di hour_df
hour_df['weathersit'] = hour_df['weathersit'].map({ 1: 'Clear', 2: 'Mist', 3: 'Light Snow/Rain', 4: 'Heavy Rain/Snow'})

# Mengganti angka menjadi keterangan pada kolom 'year' di day_df
day_df['yr'] = day_df['yr'].map({ 0: '2011', 1: '2012'})

# Mengganti angka menjadi keterangan pada kolom 'year' di hour_df
hour_df['yr'] = hour_df['yr'].map({ 0: '2011', 1: '2012'})

# Mengganti angka menjadi keterangan pada kolom 'month' di day_df
day_df['mnth'] = day_df['mnth'].map({  1: 'January', 2: 'February', 3: 'March', 4: 'April', 5: 'May', 6: 'June',7: 'July',  8: 'August', 9: 'September', 10: 'October', 11: 'November',  12: 'December'})

# Mengganti angka menjadi keterangan pada kolom 'month' di hour_df
hour_df['mnth'] = hour_df['mnth'].map({ 1: 'January', 2: 'February',3: 'March',4: 'April',5: 'May',6: 'June',7: 'July',8: 'August',9: 'September',10: 'October',11: 'November',12: 'December'})

# Mengganti 'workingday' menjadi 'hari kerja' dan 'hari libur' di day_df
day_df['workingday'] = day_df['workingday'].map({0: 'hari libur/weekend', 1: 'hari kerja'})

# Mengganti 'workingday' menjadi 'hari kerja' dan 'hari libur' di hour_df
hour_df['workingday'] = hour_df['workingday'].map({0: 'hari libur/weekend', 1: 'hari kerja'})

# Mengganti 'holiday' menjadi 'libur' dan 'tidak libur' di day_df
day_df['holiday'] = day_df['holiday'].map({0: 'tidak libur', 1: 'libur'})

# Mengganti 'holiday' menjadi 'libur' dan 'tidak libur' di hour_df
hour_df['holiday'] = hour_df['holiday'].map({0: 'tidak libur', 1: 'libur'})

## Exploratory Data Analysis (EDA)

In [None]:
day_df.describe(include='all')


In [None]:
hour_df.describe(include='all')

In [None]:
# Group by month and sort by month order
monthly_data = day_df.groupby('mnth').agg({'cnt': ['min', 'max','mean','sum']})

# Define the order of months
month_order = ['January', 'February', 'March', 'April', 'May', 'June',
              'July', 'August', 'September', 'October', 'November', 'December']

# Sort the data by month order
monthly_data = monthly_data.reindex(month_order)

monthly_data

Berdasarkan output diatas dapat disimpulkan bahwa pada tahun 2011 hingga 2012, rata rata peminjaman sepeda **tertinggi** ada pada bulan **Januari** dan **terendah** pada bulan **September**.

In [None]:
day_df.groupby(by="season").agg({
    "cnt": ["max", "min", "mean", "sum"]
})

Berdasarkan data diatas dapat disimpulkan baha pada tahun 2011 hingga 2012, rata rata peminjamban sepeda **tertinggi** ada pada **musim Gugur** dan **terendah** pada **musim Semi**

In [None]:
hour_df.groupby(by="weathersit").agg({
    "cnt": ["max", "min", "mean", "sum"]
})

Berdasarkan data diatas dapat disimpulkan baha pada tahun 2011 hingga 2012, rata rata peminjaman sepeda **tertinggi** ada pada cuaca **cerah** dan **terendah** pada cuaca **hujan lebat**

In [None]:
hour_df.groupby(by="hr").agg({
    "cnt": ["max", "min", "mean", "sum"]
})

Berdasarkan data diatas dapat disimpulkan baha pada tahun 2011 hingga 2012, rata rata peminjaman sepeda tertinggi ada pada jam 17.00 - 18.00 dan terendah pada jam 04.00 - 05.00

## Visualization & Explanatory Analysis

### Pertanyaan 1:

**Bagaimana pola penggunaan sepeda pada hari kerja dibandingkan akhir pekan atau hari libur?**

In [None]:
# prompt: buat diagram batang working day dan cnt dan tampilin nilai, hilagin garis diatas

plt.figure(figsize=(10, 6))
sns.barplot(x='workingday', y='cnt', data=day_df,errorbar=None)  # ci=None removes the error bars
plt.xlabel('Working Day')
plt.ylabel('Count')
plt.title('Jumlah Peminjaman Sepeda Berdasarkan Hari Kerja')

# Menambahkan nilai pada setiap bar
for p in plt.gca().patches:
    plt.gca().annotate(format(p.get_height(), '.0f'),
                   (p.get_x() + p.get_width() / 2., p.get_height()),
                   ha = 'center', va = 'center',
                   xytext = (0, 10),
                   textcoords = 'offset points')

plt.show()
# prompt: buat diagram batang working day dan cnt dan tampilin nilai, hilagin garis diatas

plt.figure(figsize=(10, 6))
sns.barplot(x='holiday', y='cnt', data=day_df,errorbar=None )  # ci=None removes the error bars
plt.xlabel('Holiday')
plt.ylabel('Count')
plt.title('Jumlah Peminjaman Sepeda Berdasarkan Hari Libur')

# Menambahkan nilai pada setiap bar
for p in plt.gca().patches:
    plt.gca().annotate(format(p.get_height(), '.0f'),
                   (p.get_x() + p.get_width() / 2., p.get_height()),
                   ha = 'center', va = 'center',
                   xytext = (0, 10),
                   textcoords = 'offset points')

plt.show()

Berdasarkan visualisasi data menggunakan barplot di atas, dapat disimpulkan sebagai berikut:

Jumlah pengguna sepeda pada hari kerja (Senin-Jumat) lebih banyak dari hari weekend (Sabtu dan Minggu)

Jumlah pengguna sepeda pada hari libur nasional lebih sedikit dari hari biasa.


### Pertanyaan 2:

**Apakah terdapat perbedaan signifikan dalam jumlah penyewaan sepeda antara pengguna kasual dan terdaftar?**

In [None]:
# prompt: bandingkan penggunaan casual dan register secara persentase buat diagram  lingkaran

# Hitung persentase pengguna casual dan registered
total_users = hour_df['casual'].sum() + hour_df['registered'].sum()
casual_percentage = (hour_df['casual'].sum() / total_users) * 100
registered_percentage = (hour_df['registered'].sum() / total_users) * 100

# Buat diagram lingkaran
labels = ['Casual', 'Registered']
sizes = [casual_percentage, registered_percentage]
colors = ['lightcoral', 'lightskyblue']
explode = (0.1, 0)  # Pisahkan sedikit bagian 'Casual'

plt.figure(figsize=(6, 6))
plt.pie(sizes, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%', shadow=True, startangle=140)
plt.title('Persentase Penggunaan Sepeda Berdasarkan Tipe Pengguna')
plt.axis('equal')  # Pastikan lingkaran terlihat bulat
plt.show()

Diagram ini menunjukkan bahwa pengguna terdaftar jauh lebih banyak (81,2%) dibandingkan dengan pengguna kasual (18,8%). Ini mengindikasikan bahwa program penyewaan sepeda telah berhasil menarik minat pengguna untuk berlangganan secara reguler.


### Pertanyaan 3:

**3. Bagaimana peristiwa atau anomali cuaca ekstrem mempengaruhi jumlah penyewaan sepeda?**

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(x='weathersit', y='cnt',hue='weathersit', data=hour_df, estimator=sum, errorbar=None, palette='Set2')
plt.xlabel('Kondisi Cuaca')
plt.ylabel('Total Penggunaan Sepeda')
plt.title('Total Penggunaan Sepeda Berdasarkan Kondisi Cuaca')

# Menambahkan nilai pada setiap bar
for p in plt.gca().patches:
    plt.gca().annotate(format(p.get_height(), '.0f'),
                   (p.get_x() + p.get_width() / 2., p.get_height()),
                   ha = 'center', va = 'center',
                   xytext = (0, 10),
                   textcoords = 'offset points')

plt.show()

Diagram ini menunjukkan bahwa jumlah total penggunaan sepeda paling tinggi pada cuaca cerah, dan paling rendah pada cuaca hujan lebat/salju. Ini menunjukkan bahwa cuaca memiliki pengaruh yang signifikan terhadap minat masyarakat untuk menggunakan sepeda. Ketika cuaca buruk, seperti hujan lebat atau salju, masyarakat cenderung lebih memilih menggunakan transportasi lain yang lebih terlindungi dari cuaca ekstrem.

### Pertanyaan 4:

**Apakah ada tren musiman yang konsisten dalam penggunaan sepeda sepanjang tahun?**

In [None]:
# Membuat variabel baru berisi bulan dan tahun lalu
day_df['year_month'] = day_df['dteday'].dt.strftime('%Y-%m')

# Mengelompokkan data berdasarkan bulan dan tahun, kemudian menghitung jumlah penyewaan sepeda
monthly_trend = day_df.groupby('year_month')['cnt'].sum()

# Membuat plot tren bulanan
plt.figure(figsize=(12, 6))
plt.plot(monthly_trend.index, monthly_trend.values)
plt.xlabel('Bulan dan Tahun')
plt.ylabel('Jumlah Penyewaan Sepeda')
plt.title('Tren Bulanan Penyewaan Sepeda')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()


Secara umum, terdapat tren peningkatan jumlah penyewaan sepeda dari tahun 2011 hingga 2012. Ini menunjukkan bahwa popularitas penggunaan sepeda terus meningkat selama periode tersebut.

Selain tren keseluruhan, terdapat beberapa fluktuasi yang signifikan dalam jumlah penyewaan sepeda sepanjang tahun.  Pada beberapa bulan,pada bulan Mei - Oktober, jumlah penyewaan cenderung lebih tinggi dibandingkan dengan bulan-bulan lainnya.

Sebaliknya, pada November-Februari, jumlah penyewaan cenderung lebih rendah.

### Pertanyaan 5:


5. Bagaimana pengaruh suhu udara, kecepatan angin dan kelembaban terhadap keputusan pengguna untuk menyewa sepeda?

In [None]:
# Hitung korelasi antara variabel-variabel yang terkait
correlation_matrix = day_df[['temp', 'windspeed', 'hum', 'cnt']].corr()

# Buat heatmap korelasi
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Korelasi antara Suhu, Kecepatan Angin, Kelembapan, dan Jumlah Penyewaan')
plt.show()

Suhu (temp) memiliki korelasi positif yang cukup kuat dengan jumlah penyewaan (cnt). Artinya, ketika suhu udara meningkat, jumlah penyewaan sepeda juga cenderung meningkat.

Kecepatan angin (windspeed) memiliki korelasi negatif yang lemah dengan jumlah penyewaan (cnt). Artinya, ketika kecepatan angin meningkat, jumlah penyewaan sepeda cenderung sedikit menurun. Namun, korelasi ini relatif lemah, sehingga pengaruh kecepatan angin terhadap keputusan sewa sepeda tidak terlalu signifikan.

Kelembapan (hum) memiliki korelasi negatif yang lemah dengan jumlah penyewaan (cnt). Artinya, ketika kelembapan udara meningkat, jumlah penyewaan sepeda cenderung sedikit menurun. Sama seperti kecepatan angin, korelasi ini juga relatif lemah, sehingga pengaruh kelembapan terhadap keputusan sewa sepeda tidak terlalu signifikan.

## Analisis Lanjutan

###Analisis Clustering

In [None]:
# mengelompokkan data berdasarkan 'weather' dan menghitung nilai unik serta statistik untuk kolom 'count'
weather_analysis = hour_df.groupby('weathersit').agg({
    'cnt': ['nunique', 'min', 'max', 'mean', 'median', 'std']
})

weather_analysis

Dari tabel di atas, kita dapat melihat statistik 'cnt' (jumlah penyewaan sepeda) untuk setiap kondisi cuaca.
Misalnya, pada kondisi cuaca 'Clear', jumlah penyewaan memiliki rata-rata tertinggi, menunjukkan bahwa cuaca cerah berkorelasi dengan peningkatan minat penyewaan sepeda. Sebaliknya, pada kondisi cuaca 'Heavy Rain/Snow', jumlah penyewaan memiliki rata-rata terendah, menunjukkan bahwa cuaca buruk mengurangi minat penyewaan.

## Conclusion

Berdasarkan analisis yang telah dilakukan pada dataset Bike Sharing, dapat disimpulkan bahwa beberapa faktor berpengaruh terhadap pola penggunaan sepeda.

**Pola Penggunaan Sepeda:**

* **Hari Kerja vs Akhir Pekan:** Penggunaan sepeda lebih tinggi pada hari kerja dibandingkan dengan akhir pekan dan hari libur. Hal ini menunjukkan bahwa sebagian besar pengguna sepeda adalah pekerja atau pelajar yang menggunakan sepeda untuk keperluan komuter.
* **Pengguna Terdaftar vs Kasual:** Sebagian besar pengguna sepeda adalah pengguna terdaftar, yang menunjukkan bahwa program berlangganan sepeda telah sukses menarik minat pengguna.
* **Musim:** Terdapat tren musiman yang jelas, di mana jumlah penyewaan sepeda lebih tinggi pada musim panas dan gugur, serta lebih rendah pada musim dingin dan semi. Hal ini kemungkinan dipengaruhi oleh kondisi cuaca dan suhu yang lebih nyaman pada musim panas dan gugur.
* **Kondisi Cuaca:** Cuaca memiliki pengaruh yang signifikan terhadap penggunaan sepeda. Jumlah penyewaan cenderung lebih tinggi pada cuaca cerah dan lebih rendah pada cuaca buruk seperti hujan lebat atau salju.

**Faktor Pengaruh:**

* **Suhu:** Suhu udara memiliki korelasi positif yang kuat terhadap jumlah penyewaan sepeda. Ketika suhu naik, minat untuk menggunakan sepeda juga meningkat.
* **Kecepatan Angin dan Kelembapan:** Kecepatan angin dan kelembapan memiliki korelasi negatif lemah terhadap jumlah penyewaan. Namun, pengaruhnya tidak terlalu signifikan.

**Analisis Lanjutan:**

* **Clustering berdasarkan Cuaca:** Analisis clustering menunjukkan bahwa cuaca cerah memiliki rata-rata jumlah penyewaan tertinggi, sedangkan cuaca buruk memiliki rata-rata terendah.


In [None]:
day_df.sample(20)

In [None]:
# prompt: buat dashboard beserta analisis pertanyaan 1 sampai 5 dan analisis lajutan dengan streamlit, ada pilihan side barnya

import streamlit as st
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Load your data (replace with your actual data loading)
day_df = pd.read_csv('/content/day.csv')
hour_df = pd.read_csv('/content/hour.csv')

# Sidebar with options
st.sidebar.title("Bike Sharing Dashboard")
selected_analysis = st.sidebar.selectbox("Pilih Analisis", ["Pertanyaan 1", "Pertanyaan 2", "Pertanyaan 3", "Pertanyaan 4", "Pertanyaan 5", "Analisis Lanjutan"])

# Main content area
st.title("Bike Sharing Dashboard")

if selected_analysis == "Pertanyaan 1":
    st.header("Pola Penggunaan Sepeda pada Hari Kerja vs Akhir Pekan")

    # Visualisasi dengan Barplot (copy from your existing code)
    st.subheader("Jumlah Peminjaman Sepeda Berdasarkan Hari Kerja")
    fig, ax = plt.subplots(figsize=(10, 6))
    sns.barplot(x='workingday', y='cnt', data=day_df, errorbar=None, ax=ax)
    plt.xlabel('Working Day')
    plt.ylabel('Count')
    plt.title('Jumlah Peminjaman Sepeda Berdasarkan Hari Kerja')
    st.pyplot(fig)

    st.subheader("Jumlah Peminjaman Sepeda Berdasarkan Hari Libur")
    fig, ax = plt.subplots(figsize=(10, 6))
    sns.barplot(x='holiday', y='cnt', data=day_df, errorbar=None, ax=ax)
    plt.xlabel('Holiday')
    plt.ylabel('Count')
    plt.title('Jumlah Peminjaman Sepeda Berdasarkan Hari Libur')
    st.pyplot(fig)

    st.write("**Kesimpulan:**")
    st.write("- Jumlah pengguna sepeda pada hari kerja lebih banyak daripada hari weekend.")
    st.write("- Jumlah pengguna sepeda pada hari libur nasional lebih sedikit daripada hari biasa.")


elif selected_analysis == "Pertanyaan 2":
    st.header("Perbedaan Signifikan dalam Jumlah Penyewaan Sepeda (Casual vs Registered)")

    # Visualisasi dengan Pie Chart (copy from your existing code)
    total_users = hour_df['casual'].sum() + hour_df['registered'].sum()
    casual_percentage = (hour_df['casual'].sum() / total_users) * 100
    registered_percentage = (hour_df['registered'].sum() / total_users) * 100

    labels = ['Casual', 'Registered']
    sizes = [casual_percentage, registered_percentage]
    colors = ['lightcoral', 'lightskyblue']
    explode = (0.1, 0)

    fig, ax = plt.subplots(figsize=(6, 6))
    plt.pie(sizes, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%', shadow=True, startangle=140)
    plt.title('Persentase Penggunaan Sepeda Berdasarkan Tipe Pengguna')
    plt.axis('equal')
    st.pyplot(fig)

    st.write("**Kesimpulan:**")
    st.write("- Pengguna terdaftar jauh lebih banyak daripada pengguna kasual.")
    st.write("- Ini menunjukkan bahwa program penyewaan sepeda telah berhasil menarik minat pengguna untuk berlangganan secara reguler.")


elif selected_analysis == "Pertanyaan 3":
    st.header("Pengaruh Cuaca Ekstrem terhadap Jumlah Penyewaan Sepeda")

    # Visualisasi dengan Barplot (copy from your existing code)
    fig, ax = plt.subplots(figsize=(10, 6))
    sns.barplot(x='weathersit', y='cnt', hue='weathersit', data=hour_df, estimator=sum, errorbar=None, palette='Set2', ax=ax)
    plt.xlabel('Kondisi Cuaca')
    plt.ylabel('Total Penggunaan Sepeda')
    plt.title('Total Penggunaan Sepeda Berdasarkan Kondisi Cuaca')
    st.pyplot(fig)

    st.write("**Kesimpulan:**")
    st.write("- Jumlah total penggunaan sepeda paling tinggi pada cuaca cerah.")
    st.write("- Jumlah total penggunaan sepeda paling rendah pada cuaca hujan lebat/salju.")
    st.write("- Ini menunjukkan bahwa cuaca memiliki pengaruh yang signifikan terhadap minat masyarakat untuk menggunakan sepeda.")


elif selected_analysis == "Pertanyaan 4":
    st.header("Tren Musiman Penggunaan Sepeda Sepanjang Tahun")

    # Visualisasi dengan Lineplot (copy from your existing code)
    day_df['year_month'] = day_df['dteday'].dt.strftime('%Y-%m')
    monthly_trend = day_df.groupby('year_month')['cnt'].sum()

    fig, ax = plt.subplots(figsize=(12, 6))
    plt.plot(monthly_trend.index, monthly_trend.values)
    plt.xlabel('Bulan dan Tahun')
    plt.ylabel('Jumlah Penyewaan Sepeda')
    plt.title('Tren Bulanan Penyewaan Sepeda')
    plt.xticks(rotation=45)
    plt.grid(True)
    st.pyplot(fig)

    st.write("**Kesimpulan:**")
    st.write("- Terdapat tren peningkatan jumlah penyewaan sepeda dari tahun 2011 hingga 2012.")
    st.write("- Pada beberapa bulan, jumlah penyewaan cenderung lebih tinggi (Mei-Oktober).")
    st.write("- Pada bulan-bulan lain (November-Februari), jumlah penyewaan cenderung lebih rendah.")


elif selected_analysis == "Pertanyaan 5":
    st.header("Pengaruh Suhu, Kecepatan Angin, dan Kelembapan terhadap Keputusan Sewa Sepeda")

    # Visualisasi dengan Heatmap (copy from your existing code)
    correlation_matrix = day_df[['temp', 'windspeed', 'hum', 'cnt']].corr()

    fig, ax = plt.subplots(figsize=(8, 6))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", ax=ax)
    plt.title('Korelasi antara Suhu, Kecepatan Angin, Kelembapan, dan Jumlah Penyewaan')
    st.pyplot(fig)

    st.write("**Kesimpulan:**")
    st.write("- Suhu memiliki korelasi positif yang kuat dengan jumlah penyewaan.")
    st.write("- Kecepatan angin dan kelembapan memiliki korelasi negatif lemah dengan jumlah penyewaan.")


elif selected_analysis == "Analisis Lanjutan":
    st.header("Analisis Lanjutan")

    # Analisis Clustering (copy from your existing code)
    weather_analysis = hour_df.groupby('weathersit').agg({
        'cnt': ['nunique', 'min', 'max', 'mean', 'median', 'std']
    })
    st.write(weather_analysis)

    st.write("**Kesimpulan:**")
    st.write("- Cuaca cerah memiliki rata-rata jumlah penyewaan tertinggi.")
    st.write("- Cuaca buruk memiliki rata-rata jumlah penyewaan terendah.")


# You can add more analyses and visualizations based on your needs.