# Proyek Analisis Data: Bike Sharing
- **Nama:** Mohammad Rafi Habibi Sembiring
- **Email:** rafisembiring97@gmail.com
- **ID Dicoding:** rafisembiring

## Menentukan Pertanyaan Bisnis

- **Bagaimana tren penggunaan sepeda berdasarkan musim dan cuaca?**
- **Jam berapa dan hari apa penyewaan sepeda paling ramai?**

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import streamlit as st

## Data Wrangling

### Gathering Data

In [None]:
day_df = pd.read_csv("data/day.csv")
hour_df = pd.read_csv("data/hour.csv")

print(day_df.head())
print(hour_df.head())

**Insight:**
- Dataset terdiri dari data harian dan per jam penyewaan sepeda
- Terdapat informasi tentang cuaca, musim, hari kerja, dan jumlah penyewa

### Assessing Data

In [None]:
# Menilai missing values dalam dataset
print("Missing Values in day dataset:")
print(day_df.isnull().sum())

print("\nMissing Values in hour dataset:")
print(hour_df.isnull().sum())

# Menilai data duplikat dalam dataset
print("\nDuplicate Values in day dataset:", day_df.duplicated().sum())
print("Duplicate Values in hour dataset:", hour_df.duplicated().sum())

# Menampilkan ringkasan statistik dataset
print("\nSummary Statistics for day_df:")
print(day_df.describe())

print("\nSummary Statistics for hour_df:")
print(hour_df.describe())

# Menampilkan tipe data untuk setiap kolom
print("\nData Types in day_df:")
print(day_df.dtypes)

print("\nData Types in hour_df:")
print(hour_df.dtypes)

**Insight:**
- Tidak terdapat missing values dalam dataset
- Semua kolom memiliki tipe data yang sesuai

### Cleaning Data

In [None]:
# Menghapus data duplikat jika ada
day_df = day_df.drop_duplicates()
hour_df = hour_df.drop_duplicates()

# Mengisi missing values dengan metode forward fill (ffill)
day_df = day_df.ffill()
hour_df = hour_df.ffill()

# Menghapus nilai yang tidak valid (angka negatif pada kolom numerik)
numeric_cols = day_df.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    day_df = day_df[day_df[col] >= 0]

numeric_cols = hour_df.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    hour_df = hour_df[hour_df[col] >= 0]

**Insight:**
- Data cleaning selesai. Data siap digunakan untuk analisis.

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
# Tren Penggunaan Sepeda Berdasarkan Musim dan Cuaca
df_season_weather = day_df.groupby(["season", "weathersit"])["cnt"].agg(["mean", "sum"]).reset_index()
df_season_weather.columns = ["season", "weather_condition", "avg_rentals", "total_rentals"]
print(df_season_weather)

# Jam Berapa dan Hari apa Penggunaan Sepeda Paling Ramai
df_hour_day = hour_df.groupby(["hr", "weekday"])["cnt"].agg(["mean", "sum"]).reset_index()
df_hour_day.columns = ["hour", "weekday", "avg_rentals", "total_rentals"]
print(df_hour_day)

**Insight:**
- Distribusi jumlah penyewaan cenderung normal dan sedikit skew ke kanan
- Ada beberapa hari dengan jumlah penyewaan yang sangat tinggi

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana tren penggunaan sepeda berdasarkan musim dan cuaca

In [None]:
# Rata-rata Penyewaan Sepeda Berdasarkan Musim dan Cuaca
plt.figure(figsize=(10, 6))
sns.barplot(x="season", y="avg_rentals", hue="weather_condition", data=df_season_weather, palette="Set2")
plt.xticks(ticks=[0,1,2,3], labels=["Spring", "Summer", "Fall", "Winter"])
plt.xlabel("Musim")
plt.ylabel("Rata-rata Penyewaan Sepeda")
plt.title("Rata-rata Penyewaan Sepeda Berdasarkan Musim dan Cuaca")
plt.legend(title="Kondisi Cuaca", labels=["Cerah", "Mendung", "Hujan/Salju Ringan", "Hujan Deras"])
plt.show()

### Pertanyaan 2: Jam berapa dan hari apa penyewaan sepeda paling ramai?

In [None]:
# Tren Penyewaan Sepeda Berdasarkan Jam
plt.figure(figsize=(12, 6))
sns.lineplot(x="hour", y="avg_rentals", data=df_hour_day, marker="o", color="blue")
plt.xlabel("Jam dalam Sehari")
plt.ylabel("Rata-rata Penyewaan Sepeda")
plt.title("Tren Penyewaan Sepeda Berdasarkan Jam")
plt.xticks(ticks=range(0, 24))
plt.grid()
plt.show()

# Tren Penyewaan Sepeda Berdasarkan Hari
plt.figure(figsize=(10, 5))
sns.barplot(x="weekday", y="avg_rentals", data=df_hour_day, palette="coolwarm")
plt.xticks(ticks=range(7), labels=["Senin", "Selasa", "Rabu", "Kamis", "Jumat", "Sabtu", "Minggu"])
plt.xlabel("Hari dalam Seminggu")
plt.ylabel("Rata-rata Penyewaan Sepeda")
plt.title("Rata-rata Penyewaan Sepeda Berdasarkan Hari")
plt.show()

**Insight:**
- Musim tertentu menunjukkan peningkatan signifikan dalam jumlah penyewaan sepeda.
- Cuaca buruk cenderung mengurangi jumlah penyewaan secara drastis.
- Puncak penyewaan terjadi pada pagi dan sore hari, menunjukkan penggunaan utama untuk commuting.
- Akhir pekan cenderung memiliki penyewaan lebih tinggi dibandingkan hari kerja.

## Analisis Lanjutan (Opsional)

In [None]:
# Menampilkan distribusi penyewaan sepeda berdasarkan musim
plt.figure(figsize=(10, 5))
sns.boxplot(x=day_df['season'], y=day_df['cnt'], palette='Set2')
plt.xlabel("Season")
plt.ylabel("Total Rentals")
plt.title("Distribusi Penyewaan Sepeda Berdasarkan Musim")
plt.show()

**Insight**
- Musim panas dan gugur memiliki distribusi penyewaan yang lebih tinggi dibandingkan musim dingin.
- Penyebaran data menunjukkan adanya variasi jumlah penyewaan dalam setiap musim.

## Conclusion

1. **Tren Musim dan Cuaca**
   - Penyewaan sepeda **cenderung lebih tinggi pada musim panas dan gugur**.
   - Cuaca buruk seperti hujan deras atau salju menyebabkan penurunan jumlah penyewaan.

2. **Jam Sibuk Penyewaan**
   - Penyewaan sepeda **paling ramai pada jam 7-9 pagi dan 5-7 sore**, bertepatan dengan jam kerja.
   - Penyewaan lebih sedikit pada tengah malam hingga subuh.

3. **Hari Ramai Penyewaan**
   - Hari kerja memiliki pola penyewaan yang lebih tinggi **pada jam sibuk**.
   - Akhir pekan mungkin memiliki pola penyewaan yang lebih merata sepanjang hari.