# Dokumentasi Analisis Data Peminjaman Sepeda (Bike Sharing)

## Libraries
- Streamlit: Digunakan untuk membuat aplikasi web interaktif.
- Pandas: Digunakan untuk manipulasi dan analisis data.
- Matplotlib: Digunakan untuk membuat visualisasi data.
- Seaborn: Digunakan untuk membuat visualisasi data statistik yang menarik dan informatif.
- Scikit-learn: Digunakan untuk machine learning, termasuk analisis klaster dengan algoritma K-Means.

In [16]:
import streamlit as st
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans

## Memuat Dataset
- Dataset terdiri dari dua file CSV, yaitu `day.csv` dan `hour.csv`.
- Data dibaca menggunakan Pandas dan dimuat ke dalam dua DataFrames: `day_df` dan `hour_df`.


In [12]:
day_df = pd.read_csv('day.csv')
hour_df = pd.read_csv('hour.csv')

## Fungsi dan Metode Pendukung
1. **`get_month_name(month_number)`**:
   - Fungsi ini mengonversi nomor bulan menjadi nama bulan dalam bahasa Indonesia.

2. **`barplot_with_legend(x, y, hue, data, title, xlabel, ylabel, legend_labels)`**:
   - Fungsi ini digunakan untuk membuat diagram batang dengan label legenda.
   - Menggunakan Matplotlib dan Seaborn untuk membuat plot.

3. **`plot_heatmap(data, title)`**:
   - Fungsi ini digunakan untuk membuat heatmap.
   - Menggunakan Seaborn untuk membuat heatmap.

4. **`clustering_analysis(hour_df)`**:
   - Fungsi ini melakukan analisis clustering menggunakan algoritma K-Means.
   - Fitur-fitur yang digunakan dalam analisis adalah `temp`, `atemp`, `hum`, dan `windspeed`.


In [13]:
def get_month_name(month_number):
    months = ['Januari', 'Februari', 'Maret', 'April', 'Mei', 'Juni', 'Juli', 'Agustus', 'September', 'Oktober', 'November', 'Desember']
    return months[month_number - 1]

def barplot_with_legend(x, y, hue, data, title, xlabel, ylabel, legend_labels):
    fig, ax = plt.subplots(figsize=(10, 6))
    sns.barplot(x=x, y=y, hue=hue, data=data, ax=ax)
    ax.legend( labels=[legend_labels[i] for i in sorted(legend_labels)])
    ax.set_title(title)
    ax.set_xlabel(xlabel)
    ax.set_ylabel(ylabel)
    st.pyplot(fig)

def plot_heatmap(data, title):
    fig, ax = plt.subplots(figsize=(8, 6))
    sns.heatmap(data, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5, ax=ax)
    ax.set_title(title)
    st.pyplot(fig)

def clustering_analysis(hour_df):
    n_clusters = 5
    kmeans = KMeans(n_clusters=n_clusters, random_state=0)
    kmeans.fit(hour_df[['temp', 'atemp', 'hum', 'windspeed']])
    hour_df['cluster'] = kmeans.labels_
    st.write("Cluster Centers:")
    st.write(kmeans.cluster_centers_)
    st.write("Count of data points in each cluster:")
    st.write(hour_df['cluster'].value_counts())
    fig, ax = plt.subplots(figsize=(10, 6))
    sns.scatterplot(x='temp', y='hum', hue='cluster', data=hour_df, palette='tab10', ax=ax)
    plt.title('K-Means Clustering')
    plt.xlabel('Temperature')
    plt.ylabel('Humidity')
    st.pyplot(fig)


## Sidebar dan Konten Utama
- Sidebar memiliki pilihan analisis data yang dapat dipilih pengguna.
- Konten utama akan menampilkan hasil analisis sesuai pilihan pengguna dari sidebar.


In [None]:
st.sidebar.title('Pilihan Analisis Data')
analysis_choice = st.sidebar.radio("Pilih Analisis", ('Analisis Bulanan 2011', 'Analisis Bulanan 2012', 'Analisis Hari Libur 2011', 'Analisis Hari Libur 2012', 'Heatmap Korelasi', 'Analisis Klaster'))

st.title('Analisis Data Peminjaman Sepeda')
if analysis_choice == 'Analisis Bulanan 2011':
    st.header('Analisis Bulanan 2011')
    ...
elif analysis_choice == 'Analisis Bulanan 2012':
    st.header('Analisis Bulanan 2012')
    ...
elif analysis_choice == 'Analisis Hari Libur 2011':
    st.header('Analisis Hari Libur 2011')
    ...
elif analysis_choice == 'Analisis Hari Libur 2012':
    st.header('Analisis Hari Libur 2012')
    ...
elif analysis_choice == 'Heatmap Korelasi':
    st.header('Heatmap Korelasi')
    ...
elif analysis_choice == 'Analisis Klaster':
    st.header('Analisis Klaster')
    ...

## Pilihan Analisis
1. **Analisis Bulanan 2011 dan 2012**:
   - Menampilkan analisis jumlah total sepeda berdasarkan situasi cuaca setiap bulannya untuk tahun 2011 dan 2012.
   - Analisis dilakukan dengan membuat diagram batang menggunakan Seaborn.

2. **Analisis Hari Libur 2011 dan 2012**:
   - Menampilkan pengaruh cuaca terhadap penggunaan sepeda selama hari libur untuk tahun 2011 dan 2012.
   - Dilakukan dengan membuat scatter plot menggunakan Seaborn.

3. **Heatmap Korelasi**:
   - Menampilkan heatmap korelasi antara suhu, kelembaban, dan penggunaan sepeda untuk tahun 2011.
   - Dilakukan dengan membuat heatmap menggunakan Seaborn.

4. **Analisis Klaster**:
   - Melakukan analisis clustering menggunakan algoritma K-Means.
   - Menampilkan pusat klaster dan jumlah data dalam setiap klaster.
   - Plot klaster ditampilkan dalam scatter plot menggunakan Seaborn.


In [None]:
if analysis_choice == 'Analisis Bulanan 2011':
    st.header('Analisis Bulanan 2011')
    # Mendapatkan data tahun 2011
    day_df['dteday'] = pd.to_datetime(day_df['dteday'])
    day_df_2011 = day_df[day_df['dteday'].dt.year == 2011]
    month_df_2011 = day_df_2011['mnth'].unique()
    rataRata_2011 = day_df_2011.groupby('mnth')['cnt'].mean()
    rataRata_cuaca_2011 = day_df_2011.groupby('mnth')['temp'].mean()
    rataRata_hum_2011 = day_df_2011.groupby('mnth')['hum'].mean()
    # Label legenda untuk situasi cuaca
    legend_labels = {
        1: 'Cerah, Sedikit awan, Sebagian berawan, Sebagian berawan',
        2: 'Kabut + Berawan, Kabut + Awan pecah, Kabut + Sedikit awan, Kabut',
        3: 'Hujan Ringan, Hujan Ringan + Petir + Awan terpencar, Hujan Ringan + Awan terpencar',
        4: 'Hujan Lebat + Pecahan Es + Petir + Kabut, Salju + Kabut'
    }
    # Memanggil fungsi untuk membuat diagram batang dengan label legenda
    barplot_with_legend('mnth', 'cnt', 'weathersit', day_df_2011, 'Jumlah total sepeda berdasarkan situasi cuaca setiap bulannya (2011)', 'Bulan', 'Total', legend_labels)

elif analysis_choice == 'Analisis Bulanan 2012':
    st.header('Analisis Bulanan 2012')
    # Mendapatkan data tahun 2012
    day_df['dteday'] = pd.to_datetime(day_df['dteday'])
    day_df_2012 = day_df[day_df['dteday'].dt.year == 2012]
    month_df_2012 = day_df_2012['mnth'].unique()
    rataRata_2012 = day_df_2012.groupby('mnth')['cnt'].mean()
    # Memanggil fungsi untuk membuat diagram batang tanpa label legenda
    barplot_with_legend('mnth', 'cnt', 'workingday', day_df_2012, 'Jumlah total sepeda berdasarkan hari kerja setiap bulan (2012)', 'Bulan', 'Total', {})

elif analysis_choice == 'Analisis Hari Libur 2011':
    st.header('Analisis Hari Libur 2011')
    # Filter data untuk hari libur pada tahun 2011
    holiday_data_2011 = day_df[(day_df['holiday'] == 1) & (day_df['yr'] == 0)]
    # Plot pengaruh cuaca terhadap penggunaan sepeda selama hari libur tahun 2011
    fig, ax = plt.subplots()
    sns.scatterplot(x='weathersit', y='cnt', data=holiday_data_2011, ax=ax)
    ax.set_title('Pengaruh Cuaca terhadap Penggunaan Sepeda selama Hari Libur (2011)')
    ax.set_xlabel('Situasi Cuaca')
    ax.set_ylabel('Jumlah Sepeda yang Dipinjam')
    ax.set_xticks([1, 2, 3])
    ax.set_xticklabels(['Cerah', 'Kabut + Berawan', 'Salju Ringan/Hujan Ringan'])
    st.pyplot(fig)

elif analysis_choice == 'Analisis Hari Libur 2012':
    st.header('Analisis Hari Libur 2012')
    # Filter data untuk hari libur pada tahun 2012
    holiday_data_2012 = day_df[(day_df['holiday'] == 1) & (day_df['yr'] == 1)]
    # Plot pengaruh cuaca terhadap penggunaan sepeda selama hari libur tahun 2012
    fig, ax = plt.subplots()
    sns.scatterplot(x='weathersit', y='cnt', data=holiday_data_2012, ax=ax)
    ax.set_title('Pengaruh Cuaca terhadap Penggunaan Sepeda selama Hari Libur (2012)')
    ax.set_xlabel('Situasi Cuaca')
    ax.set_ylabel('Jumlah Sepeda yang Dipinjam')
    ax.set_xticks([1, 2, 3])
    ax.set_xticklabels(['Cerah', 'Kabut + Berawan', 'Salju Ringan/Hujan Ringan'])
    st.pyplot(fig)

elif analysis_choice == 'Heatmap Korelasi':
    st.header('Heatmap Korelasi')
    # Melakukan analisis korelasi untuk tahun 2011
    day_df['dteday'] = pd.to_datetime(day_df['dteday'])
    day_df_2011 = day_df[day_df['dteday'].dt.year == 2011]
    month_df_2011 = day_df_2011['mnth'].unique()
    rataRata_2011 = day_df_2011.groupby('mnth')['cnt'].mean()
    rataRata_cuaca_2011 = day_df_2011.groupby('mnth')['temp'].mean()
    rataRata_hum_2011 = day_df_2011.groupby('mnth')['hum'].mean()
    merged_df = pd.merge(rataRata_2011, rataRata_cuaca_2011, on='mnth', suffixes=('_cnt', '_temp'))
    merged_df_2011 = pd.merge(merged_df, rataRata_hum_2011, on='mnth')
    correlation_matrix_2011 = merged_df_2011.corr()
    # Memanggil fungsi untuk membuat heatmap korelasi
    plot_heatmap(correlation_matrix_2011, 'Heatmap Korelasi: Suhu, Kelembaban, dan Penggunaan Sepeda')

elif analysis_choice == 'Analisis Klaster':
    st.header('Analisis Klaster')
    # Memanggil fungsi untuk melakukan analisis klaster
    clustering_analysis(hour_df)
