# Proyek Analisis Data: Bike Sharing
- **Nama:** Rafli Arrasyid
- **Email:** rafly111104@gmail.com
- **ID Dicoding:** rafly111104

## Menentukan Pertanyaan Bisnis

1. Bagaimana tren penggunaan sepeda di berbagai musim sepanjang tahun?
2. Bagaimana variasi penggunaan sepeda pada hari kerja dibandingkan dengan hari libur?

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import streamlit as st

## Data Wrangling

### Gathering Data

In [None]:
import pandas as pd

day_data = pd.read_csv('Bike-sharing-dataset/day.csv')
day_data['dteday'] = pd.to_datetime(day_data['dteday'])

### Assessing Data

In [None]:
# Informasi dasar tentang dataset
day_data.info()

# Statistik deskriptif dari dataset
day_data.describe()

# Memeriksa nilai yang hilang
day_data.isnull().sum()

# Melihat distribusi data
day_data.hist(figsize=(14, 10))
plt.show()

### Cleaning Data

In [None]:
# Menyalin data asli untuk proses pembersihan
cleaned_data = day_data.copy()

# Mengubah kolom dteday menjadi tipe datetime
cleaned_data['dteday'] = pd.to_datetime(cleaned_data['dteday'])

# Mengubah tipe data untuk kolom kategori
categorical_columns = ['season', 'yr', 'mnth', 'holiday', 'weekday', 'workingday', 'weathersit']
for col in categorical_columns:
    cleaned_data[col] = cleaned_data[col].astype('category')

# Memverifikasi pembersihan data
cleaned_data.info()

## Exploratory Data Analysis (EDA)

### Analisis Statistik Deskriptif

In [None]:
# Statistik deskriptif dari dataset
cleaned_data.describe()

### Visualisasi Distribusi Pengguna Sepeda

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Visualisasi distribusi pengguna casual, registered, dan total
plt.figure(figsize=(14, 7))

# Distribusi pengguna casual
plt.subplot(1, 3, 1)
sns.histplot(cleaned_data['casual'], kde=True)
plt.title('Distribusi Pengguna Kasual')
plt.xlabel('Jumlah Pengguna Kasual')
plt.ylabel('Frekuensi')

# Distribusi pengguna registered
plt.subplot(1, 3, 2)
sns.histplot(cleaned_data['registered'], kde=True)
plt.title('Distribusi Pengguna Terdaftar')
plt.xlabel('Jumlah Pengguna Terdaftar')
plt.ylabel('Frekuensi')

# Distribusi pengguna total
plt.subplot(1, 3, 3)
sns.histplot(cleaned_data['cnt'], kde=True)
plt.title('Distribusi Pengguna Total')
plt.xlabel('Jumlah Pengguna Total')
plt.ylabel('Frekuensi')

plt.tight_layout()
plt.show()

### Analisis Penggunaan Sepeda Berdasarkan Musim

In [None]:
# Penggunaan sepeda berdasarkan musim
plt.figure(figsize=(10, 6))
sns.boxplot(data=cleaned_data, x='season', y='cnt')
plt.title('Penggunaan Sepeda Berdasarkan Musim')
plt.xlabel('Musim')
plt.ylabel('Jumlah Pengguna')
plt.show()

### Pengaruh Hari Kerja dan Hari Libur terhadap Penggunaan Sepeda

In [None]:
# Penggunaan sepeda pada hari kerja vs hari libur
plt.figure(figsize=(10, 6))
sns.boxplot(data=cleaned_data, x='workingday', y='cnt')
plt.title('Penggunaan Sepeda pada Hari Kerja vs Hari Libur')
plt.xlabel('Hari Kerja (0: Tidak, 1: Ya)')
plt.ylabel('Jumlah Pengguna')
plt.show()

### Analisis Penggunaan Sepeda Berdasarkan Kondisi Cuaca

In [None]:
# Penggunaan sepeda berdasarkan kondisi cuaca
plt.figure(figsize=(10, 6))
sns.boxplot(data=cleaned_data, x='weathersit', y='cnt')
plt.title('Penggunaan Sepeda Berdasarkan Kondisi Cuaca')
plt.xlabel('Kondisi Cuaca')
plt.ylabel('Jumlah Pengguna')
plt.show()

### Korelasi Antar Variabel

In [None]:
# Korelasi antar variabel
plt.figure(figsize=(12, 8))
sns.heatmap(cleaned_data.corr(), annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Matriks Korelasi')
plt.show()

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana tren penggunaan sepeda di berbagai musim sepanjang tahun?

In [None]:
# Pertanyaan 1: Bagaimana tren penggunaan sepeda di berbagai musim sepanjang tahun?

# Menambahkan kolom bulan dan tahun dari kolom tanggal
cleaned_data['month'] = cleaned_data['dteday'].dt.month
cleaned_data['year'] = cleaned_data['dteday'].dt.year

# Tren penggunaan sepeda berdasarkan musim
plt.figure(figsize=(14, 7))
sns.lineplot(data=cleaned_data, x='month', y='cnt', hue='season', palette='viridis')
plt.title('Tren Penggunaan Sepeda di Berbagai Musim Sepanjang Tahun')
plt.xlabel('Bulan')
plt.ylabel('Jumlah Pengguna')
plt.legend(title='Musim', labels=['Musim Semi', 'Musim Panas', 'Musim Gugur', 'Musim Dingin'])
plt.show()

### Pertanyaan 2: Bagaimana variasi penggunaan sepeda pada hari kerja dibandingkan dengan hari libur?

In [None]:
# Pertanyaan 2: Bagaimana variasi penggunaan sepeda pada hari kerja dibandingkan dengan hari libur?

# Visualisasi penggunaan sepeda pada hari kerja vs hari libur
plt.figure(figsize=(10, 6))
sns.boxplot(data=cleaned_data, x='workingday', y='cnt')
plt.title('Variasi Penggunaan Sepeda pada Hari Kerja vs Hari Libur')
plt.xlabel('Hari Kerja (0: Tidak, 1: Ya)')
plt.ylabel('Jumlah Pengguna')
plt.show()


## Conclusion

### Conclusion Pertanyaan 1

Dari analisis tren penggunaan sepeda berdasarkan musim sepanjang tahun, terlihat bahwa jumlah pengguna sepeda cenderung lebih tinggi pada musim panas dan musim gugur. Penggunaan sepeda paling rendah terjadi pada musim dingin, sedangkan musim semi menunjukkan penggunaan yang moderat. Hal ini menunjukkan bahwa kondisi cuaca yang lebih hangat dan cerah mendorong lebih banyak orang untuk menggunakan sepeda.

### Conclusion Pertanyaan 2

Dari analisis variasi penggunaan sepeda pada hari kerja dibandingkan dengan hari libur, terlihat bahwa penggunaan sepeda cenderung lebih tinggi pada hari kerja dibandingkan hari libur. Ini menunjukkan bahwa sepeda lebih sering digunakan sebagai alat transportasi untuk bekerja atau beraktivitas harian pada hari kerja.
