# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Steven Lukas Samosir
- **Email:** mc114d5y1917@student.devacademy.id
- **Email terdaftar:** stevenlukas990@gmail.com
- **ID Dicoding:** MC114D5Y1917

## Menentukan Pertanyaan Bisnis

-  Apa perbedaan dampak cuaca terhadap jumlah penyewaan sepeda di hari kerja dan akhir pekan selama setahun terakhir?

- Kapan waktu puncak penyewaan sepeda terjadi pada hari kerja dan akhir pekan, serta bagaimana variasi pola tersebut di setiap musim?

## Import Semua Packages/Library yang Digunakan

In [1]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.lines as mlines

## Data Wrangling

### Gathering Data

In [2]:
# Memuat data dari file day.csv yang ada di folder sample_data
day_df = pd.read_csv('/content/sample_data/day.csv')

# Memuat data dari file hour.csv yang ada di folder sample_data
hour_df = pd.read_csv('/content/sample_data/hour.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/content/sample_data/day.csv'

**Insight:**
- day.csv menyimpan informasi tentang penyewaan sepeda yang dicatat setiap hari.
- hour.csv menyimpan informasi tentang penyewaan sepeda yang dicatat setiap jam.

### Assessing Data

In [None]:
# Menampilkan beberapa baris pertama dari data day_df
day_df.head()

In [None]:
# Menampilkan informasi umum tentang struktur data day_df
day_df.info()

In [None]:
# Menampilkan statistik deskriptif dari data day_df
day_df.describe()


In [None]:
# Menampilkan beberapa baris pertama dari data hour_df
hour_df.head()

In [None]:
# Menampilkan informasi umum tentang struktur data hour_df
hour_df.info()

In [None]:
# Menampilkan statistik deskriptif dari data hour_df
hour_df.describe()

In [None]:
# Mengecek jumlah nilai yang hilang di setiap kolom
day_df.isnull().sum()


In [None]:
# Mengecek persentase nilai yang hilang di setiap kolom
day_df.isnull().mean() * 100

In [None]:
# Missing Values
print("\nMissing Values:")
print(day_df.isnull().sum())
print(hour_df.isnull().sum())

In [None]:
# Mengecek jumlah baris duplikat
day_df.duplicated().sum()


**Insight:**
- Beberapa kolom masih perlu penyesuaian tipe data, contohnya kolom dteday yang seharusnya dikonversi ke format datetime.

- Dataset ini bersih dari nilai kosong atau data yang hilang.

- Karena tidak ditemukan data duplikat, setiap entri bersifat unik. Hal ini menguntungkan dalam proses analisis karena tidak ada risiko bias dari data yang terulang, sehingga hasil analisis maupun model yang dibangun menjadi lebih akurat.-

### Cleaning Data

In [None]:
# Mengubah tipe data kolom 'dteday' menjadi datetime
day_df['dteday'] = pd.to_datetime(day_df['dteday'])
hour_df['dteday'] = pd.to_datetime(hour_df['dteday'])

**Insight:**
- Tipe data kolom 'dteday' telah diubah menjadi datetime.


## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
# Ringkasan Data Harian
print("Ringkasan Data Harian:")
print(day_df.info())


In [None]:
# Ringkasan Data Per Jam
print("\nRingkasan Data Per Jam:")
print(hour_df.info())

In [None]:
# Statistik Deskriptif
print("\nStatistik Deskriptif Data Harian:")
print(day_df.describe())
print("\nStatistik Deskriptif Data Per Jam:")
print(hour_df.describe())

In [None]:
# Distribusi Variabel Numerik
plt.figure(figsize=(12, 6))
day_df.hist(bins=30, figsize=(12, 10), color='skyblue', edgecolor='black')
plt.suptitle('Distribusi Variabel Numerik (Data Harian)')
plt.show()

In [None]:
# Distribusi Penyewaan Sepeda (cnt)
plt.figure(figsize=(10, 5))
sns.histplot(day_df['cnt'], bins=30, kde=True, color='blue')
plt.title('Distribusi Jumlah Penyewaan Sepeda (Data Harian)')
plt.xlabel('Jumlah Penyewaan')
plt.ylabel('Frekuensi')
plt.show()

In [None]:
# Pola Penyewaan Sepeda Berdasarkan Waktu
plt.figure(figsize=(10, 5))
sns.boxplot(x='weekday', y='cnt', data=day_df, palette='coolwarm')
plt.title('Pola Penyewaan Sepeda Berdasarkan Hari dalam Seminggu')
plt.xlabel('Hari (0=Senin, 6=Minggu)')
plt.ylabel('Jumlah Penyewaan')
plt.show()

plt.figure(figsize=(12, 5))
sns.boxplot(x='hr', y='cnt', data=hour_df, palette='viridis')
plt.title('Pola Penyewaan Sepeda Berdasarkan Jam')
plt.xlabel('Jam')
plt.ylabel('Jumlah Penyewaan')
plt.show()

In [None]:
# Pengaruh Cuaca terhadap Penyewaan Sepeda
plt.figure(figsize=(8, 5))
sns.boxplot(x='weathersit', y='cnt', data=day_df, palette='Set2')
plt.title('Pengaruh Cuaca terhadap Penyewaan Sepeda')
plt.xlabel('Kondisi Cuaca (1=Cerah, 2=Mendung, 3=Hujan)')
plt.ylabel('Jumlah Penyewaan')
plt.show()

**Insight:**
- Data dalam dataset bersih tanpa nilai yang hilang, sehingga tidak diperlukan proses imputasi atau pembersihan tambahan.

- Variabel suhu (temp) menunjukkan korelasi positif dengan total penyewaan sepeda (cnt), yang berarti semakin tinggi suhu, semakin banyak sepeda yang digunakan.

- Kelembaban udara (hum) dan kecepatan angin (windspeed) berkorelasi negatif dengan jumlah penyewaan, mengindikasikan bahwa kondisi cuaca yang ekstrem dapat mengurangi minat pengguna.

- Penyewaan sepeda lebih banyak terjadi pada hari kerja dibandingkan akhir pekan, menandakan bahwa layanan ini lebih sering dimanfaatkan oleh kalangan pekerja atau pelajar untuk keperluan mobilitas rutin.

- Waktu puncak penyewaan di hari kerja terjadi pada pukul 07:00–09:00 dan 17:00–19:00, yang sesuai dengan jam keberangkatan dan kepulangan kerja atau sekolah.

- Di akhir pekan, pola penyewaan lebih menyebar sepanjang hari, dengan peningkatan jumlah penyewaan pada siang hingga sore hari.

- Kondisi cuaca cerah (weathersit = 1) menghasilkan angka penyewaan tertinggi.

- Saat cuaca mendung (weathersit = 2), jumlah penyewaan menurun sedikit namun tetap tergolong tinggi.

- Dalam kondisi hujan atau badai (weathersit ≥ 3), jumlah penyewaan turun secara signifikan.


## Visualization & Explanatory Analysis

### Pertanyaan 1:  Apa perbedaan dampak cuaca terhadap jumlah penyewaan sepeda di hari kerja dan akhir pekan selama setahun terakhir?

In [None]:
plt.figure(figsize=(10, 5))

# Menentukan warna hijau untuk hari kerja dan merah untuk akhir pekan)
sns.barplot(x='weathersit', y='cnt', hue='workingday', data=day_df, palette={0: 'red', 1: 'green'})

plt.title('Pengaruh Cuaca terhadap Penyewaan Sepeda (Hari Kerja vs Akhir Pekan)')
plt.xlabel('Kondisi Cuaca (1=Cerah, 2=Mendung, 3=Hujan)')
plt.ylabel('Jumlah Penyewaan')

# Menambahkan garis ke dalam legenda untuk 'Hari Kerja' dan 'Akhir Pekan'
legend_akhir_pekan = mlines.Line2D([], [], color='red', label='Akhir Pekan', linewidth=6)
legend_hari_kerja = mlines.Line2D([], [], color='green', label='Hari Kerja', linewidth=6)

# Menambahkan legenda dengan garis
plt.legend(handles=[legend_akhir_pekan, legend_hari_kerja], title='Hari Kerja', loc='upper right', frameon=False)

plt.show()


### Pertanyaan 2: Kapan waktu puncak penyewaan sepeda terjadi pada hari kerja dan akhir pekan, serta bagaimana variasi pola tersebut di setiap musim?

In [None]:
plt.figure(figsize=(12, 6))
sns.lineplot(x='hr', y='cnt', hue='season', data=hour_df[hour_df['workingday'] == 1], palette='tab10')
plt.title('Pola Penyewaan Sepeda Berdasarkan Jam pada Hari Kerja')
plt.xlabel('Jam')
plt.ylabel('Jumlah Penyewaan')
plt.legend(title='Musim', labels=['Musim Semi', 'Musim Panas', 'Musim Gugur', 'Musim Dingin'])
plt.show()

In [None]:
plt.figure(figsize=(12, 6))
sns.lineplot(x='hr', y='cnt', hue='season', data=hour_df[hour_df['workingday'] == 0], palette='tab10')
plt.title('Pola Penyewaan Sepeda Berdasarkan Jam pada Akhir Pekan')
plt.xlabel('Jam')
plt.ylabel('Jumlah Penyewaan')
plt.legend(title='Musim', labels=['Musim Semi', 'Musim Panas', 'Musim Gugur', 'Musim Dingin'])
plt.show()

**Insight:**
- Aktivitas penyewaan sepeda cenderung meningkat saat cuaca cerah, baik pada hari kerja maupun akhir pekan.

- Di hari kerja, penyewaan tetap relatif stabil meskipun cuaca mendung, sedangkan pada akhir pekan fluktuasinya lebih terlihat.

- Cuaca hujan menyebabkan penurunan tajam dalam jumlah penyewaan, menandakan bahwa pengguna lebih memilih tidak menggunakan sepeda dalam kondisi cuaca buruk.

- Pola penyewaan menunjukkan bahwa faktor cuaca memainkan peran penting dalam menentukan intensitas penggunaan sepeda.

- Di hari kerja, terdapat dua waktu puncak penyewaan yakni pada pukul 07:00–09:00 dan 17:00–19:00, yang bertepatan dengan jam sibuk.

- Di akhir pekan, penyewaan sepeda cenderung tersebar lebih merata sepanjang hari, dengan peningkatan kecil di siang hingga sore hari.

- Jumlah penyewaan tertinggi tercatat pada musim panas dan musim gugur, sementara musim semi dan musim dingin menunjukkan angka yang lebih rendah.

- Jumlah penyewaan yang menurun di musim dingin menunjukkan bahwa suhu yang dingin turut mempengaruhi minat pengguna dalam menyewa sepeda.

- Secara umum, penyewaan sepeda lebih sedikit terjadi pada larut malam hingga dini hari, mencerminkan pola penggunaan yang konsisten terkait waktu.

## Analisis Lanjutan (Opsional)

In [None]:
plt.figure(figsize=(8, 5))
sns.barplot(x='weekday', y='cnt', data=day_df, palette='coolwarm')
plt.title('Rata-rata Penyewaan Sepeda Berdasarkan Hari dalam Seminggu')
plt.xlabel('Hari (0=Minggu, 6=Sabtu)')
plt.ylabel('Jumlah Penyewaan')
plt.show()

In [None]:
# Analisis tambahan: Tren Penyewaan Sepeda Berdasarkan Tahun
plt.figure(figsize=(10, 5))
sns.lineplot(x='yr', y='cnt', data=day_df, marker='o', color='b')
plt.title('Tren Penyewaan Sepeda Berdasarkan Tahun')
plt.xlabel('Tahun (0=2011, 1=2012)')
plt.ylabel('Jumlah Penyewaan')
plt.show()

## Conclusion

Kesimpulan Pertanyaan 1: Kondisi cuaca terbukti berpengaruh cukup besar terhadap frekuensi penyewaan sepeda. Jumlah penyewaan cenderung meningkat saat cuaca cerah atau hanya mendung ringan. Sebaliknya, saat hujan, angka penyewaan menurun secara drastis, baik pada hari kerja maupun akhir pekan.

Kesimpulan Pertanyaan 2: Aktivitas penyewaan sepeda di hari kerja menunjukkan pola yang konsisten, dengan lonjakan pada jam-jam sibuk pagi dan sore hari. Sementara itu, pada akhir pekan, distribusi penyewaan lebih merata sepanjang hari. Musim panas dan musim gugur menjadi periode dengan tingkat penyewaan tertinggi, sedangkan musim dingin menunjukkan angka terendah. Waktu ideal untuk menyewa sepeda di hari kerja adalah saat pagi dan sore, sementara akhir pekan memberikan fleksibilitas waktu yang lebih luas.