<a href="https://colab.research.google.com/github/AndrianFakhruza/Bike-Sharing-Data-Analysis-DBS/blob/main/Proyek_Analisis_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyek Analisis Data: [Bike Sharing Dataset]
- **Nama:** [Andrian Fakhruza]
- **Email:** [fakhruzaandrian561@gmail.com]
- **ID Dicoding:** [MC130D5Y0183]

## Menentukan Pertanyaan Bisnis

- Bagaimana pola penggunaan sepeda berdasarkan musim?
- Seberapa besar pengaruh kecepatan angin terhadap jumlah penyewaan sepeda?

## Import Semua Packages/Library yang Digunakan

In [3]:
import streamlit as st
import numpy as np
import pandas as pd
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import seaborn as sns
import os

## Data Wrangling

### Gathering Data

In [8]:
def load_data():
    base_path = "/content"
    day_df = pd.read_csv(os.path.join(base_path, "day.csv"))
    hour_df = pd.read_csv(os.path.join(base_path, "hour.csv"))

    for df in [day_df, hour_df]:
        df.drop(['workingday'], axis=1, inplace=True)

    kategori_kolom = ['season', 'mnth', 'holiday', 'weekday', 'weathersit']
    for df in [day_df, hour_df]:
        for col in kategori_kolom:
            df[col] = df[col].astype("category")

    for df in [day_df, hour_df]:
        df['dteday'] = pd.to_datetime(df['dteday'])

    return day_df, hour_df

day_df, hour_df = load_data()

**Insight:**
- Menghapus workingday untuk mengurangi redundansi dalam dataset
- Memastikan analisis lebih fokus pada variabel yang lebih signifikan

### Assessing Data

In [9]:
print(day_df.info())
print(hour_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   instant     731 non-null    int64         
 1   dteday      731 non-null    datetime64[ns]
 2   season      731 non-null    category      
 3   yr          731 non-null    int64         
 4   mnth        731 non-null    category      
 5   holiday     731 non-null    category      
 6   weekday     731 non-null    category      
 7   weathersit  731 non-null    category      
 8   temp        731 non-null    float64       
 9   atemp       731 non-null    float64       
 10  hum         731 non-null    float64       
 11  windspeed   731 non-null    float64       
 12  casual      731 non-null    int64         
 13  registered  731 non-null    int64         
 14  cnt         731 non-null    int64         
dtypes: category(5), datetime64[ns](1), float64(4), int64(5)
memory usage: 62.0

**Insight:**
- Tipe data sudah sesuai dengan kebutuhan analisis
- Tidak ditemukan missing values

### Cleaning Data

In [10]:
rename_dict = {
    'yr': 'year',
    'mnth': 'month',
    'weekday': 'day_of_week',
    'weathersit': 'weather_situation',
    'windspeed': 'wind_speed',
    'cnt': 'total_rentals',
    'hum': 'humidity'
}
day_df.rename(columns=rename_dict, inplace=True)
hour_df.rename(columns={**rename_dict, 'hr': 'hour'}, inplace=True)

**Insight:**
- Standarisasi nama kolom agar lebih mudah dipahami dan digunakan dalam analisis
- Mempermudah proses eksplorasi serta interpretasi data untuk mendapatkan insight lebih jelas

## Exploratory Data Analysis (EDA)

### Explore ...

In [25]:
day_df = pd.read_csv("day.csv")
hour_df = pd.read_csv("hour.csv")

day_df["dteday"] = pd.to_datetime(day_df["dteday"])

season_count = day_df.groupby("season")["cnt"].sum().reset_index()

fig1, ax1 = plt.subplots(figsize=(8, 5))
sns.barplot(x="season", y="cnt", hue="season", data=season_count, ax=ax1, palette="coolwarm", legend=False)
ax1.set_xticks([0, 1, 2, 3])
ax1.set_xticklabels(["Spring", "Summer", "Fall", "Winter"])
ax1.set_xlabel("Musim")
ax1.set_ylabel("Jumlah Penyewaan")
ax1.set_title("Pola Penggunaan Sepeda Berdasarkan Musim")
st.pyplot(fig1)

fig2, ax2 = plt.subplots(figsize=(8, 5))
sns.scatterplot(x="windspeed", y="cnt", data=hour_df, alpha=0.5, color="blue")
ax2.set_xlabel("Kecepatan Angin")
ax2.set_ylabel("Jumlah Penyewaan")
ax2.set_title("Pengaruh Kecepatan Angin terhadap Jumlah Penyewaan Sepeda")
st.pyplot(fig2)



DeltaGenerator()

**Insight:**
- Penyewaan sepeda tertinggi terjadi di musim tertentu
- Kecepatan angin berpotensi mempengaruhi jumlah penyewaan

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana pola penggunaan sepeda berdasarkan musim?

In [17]:
seasonal_count = day_df.groupby('season', observed=False)['total_rentals'].sum().reset_index()

fig, ax = plt.subplots(figsize=(8, 5))
sns.barplot(x='season', y='total_rentals', hue='season', data=seasonal_count, ax=ax, palette='coolwarm', legend=False)

ax.set_xlabel("Musim")
ax.set_ylabel("Total Penyewaan Sepeda")

st.pyplot(fig)



DeltaGenerator()

### Pertanyaan 2: Seberapa besar pengaruh kecepatan angin terhadap jumlah penyewaan sepeda?

In [18]:
fig, ax = plt.subplots(figsize=(8, 5))
sns.scatterplot(x='wind_speed', y='total_rentals', data=day_df, alpha=0.5)
ax.set_xlabel("Kecepatan Angin")
ax.set_ylabel("Total Penyewaan Sepeda")
st.pyplot(fig)



DeltaGenerator()

**Insight:**
- Jumlah penyewaan sepeda meningkat pada musim tertentu dibandingkan lainnya
- Pergantian musim berpengaruh signifikan terhadap tren penyewaan sepeda

## Analisis Lanjutan (Opsional)

## Conclusion

- Jumlah penyewaan sepeda bervariasi di setiap musim, dengan lonjakan signifikan pada musim tertentu. Musim panas dan gugur cenderung memiliki jumlah penyewaan tertinggi, menunjukkan bahwa kondisi cuaca yang lebih nyaman berkontribusi pada peningkatan penggunaan sepeda
- Kecepatan angin memiliki pengaruh negatif terhadap jumlah penyewaan sepeda. Saat kecepatan angin meningkat, jumlah penyewaan cenderung menurun, kemungkinan karena angin kencang membuat pengalaman bersepeda menjadi kurang nyaman atau lebih menantang bagi pengguna