# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** [Input Nama]
- **Email:** [Input Email]
- **ID Dicoding:** [Input Username]

## Menentukan Pertanyaan Bisnis

Untuk memahami pola penggunaan bike sharing dan mengoptimalkan layanan, berikut adalah pertanyaan bisnis yang akan kita analisis:

1. Bagaimana pola penggunaan sepeda berdasarkan waktu (jam, hari, bulan, musim)?
2. Apa pengaruh kondisi cuaca terhadap jumlah peminjaman sepeda?
3. Bagaimana perbandingan antara pengguna casual dan registered dalam menggunakan layanan?
4. Pada kondisi apa layanan bike sharing paling banyak digunakan?

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Set style untuk visualisasi
plt.style.use('seaborn')
sns.set_palette("husl")

## Data Wrangling

### Gathering Data

In [None]:
# Load dataset
day_df = pd.read_csv('data/day.csv')
hour_df = pd.read_csv('data/hour.csv')

# Display basic information
print("Day Dataset Info:")
print(day_df.info())
print("\nHour Dataset Info:")
print(hour_df.info())

**Insight:**
- Dataset day.csv memiliki 731 baris data dengan 16 kolom
- Dataset hour.csv memiliki 17,379 baris data dengan 17 kolom
- Kedua dataset memiliki periode data dari 2011-2012

### Assessing Data

In [None]:
# Check missing values
print("Missing values in day dataset:")
print(day_df.isnull().sum())
print("\nMissing values in hour dataset:")
print(hour_df.isnull().sum())

# Check duplicates
print("\nDuplicates in day dataset:", day_df.duplicated().sum())
print("Duplicates in hour dataset:", hour_df.duplicated().sum())

# Display basic statistics
print("\nDay dataset statistics:")
print(day_df.describe())
print("\nHour dataset statistics:")
print(hour_df.describe())

**Insight:**
- Tidak ada missing values pada kedua dataset
- Tidak ada duplikat data
- Range nilai untuk setiap kolom masuk akal dan sesuai dengan dokumentasi

### Cleaning Data

In [None]:
# Convert dteday to datetime
day_df['dteday'] = pd.to_datetime(day_df['dteday'])
hour_df['dteday'] = pd.to_datetime(hour_df['dteday'])

# Create mapping dictionaries
season_map = {1: 'Spring', 2: 'Summer', 3: 'Fall', 4: 'Winter'}
weather_map = {1: 'Clear', 2: 'Mist', 3: 'Light Snow/Rain', 4: 'Heavy Rain/Snow'}

# Apply mappings
day_df['season'] = day_df['season'].map(season_map)
day_df['weathersit'] = day_df['weathersit'].map(weather_map)
hour_df['season'] = hour_df['season'].map(season_map)
hour_df['weathersit'] = hour_df['weathersit'].map(weather_map)

# Extract additional time features from hour dataset
hour_df['hour'] = hour_df['hr']
hour_df['month'] = hour_df['dteday'].dt.month
hour_df['day_of_week'] = hour_df['dteday'].dt.day_name()

**Insight:**
- Data telah dibersihkan dan diformat ulang
- Kolom kategorikal telah dimapping ke nilai yang lebih mudah dibaca
- Fitur waktu telah diekstrak untuk analisis temporal

## Exploratory Data Analysis (EDA)

### 1. Analisis Pola Penggunaan Berdasarkan Waktu

In [None]:
# Agregasi berdasarkan jam
hourly_usage = hour_df.groupby('hour')['cnt'].mean().reset_index()

# Visualisasi pola per jam
plt.figure(figsize=(12, 6))
sns.lineplot(data=hourly_usage, x='hour', y='cnt')
plt.title('Average Bike Rentals by Hour')
plt.xlabel('Hour of Day')
plt.ylabel('Average Number of Rentals')
plt.show()

# Agregasi berdasarkan hari
daily_usage = hour_df.groupby('day_of_week')['cnt'].mean().reindex(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])

plt.figure(figsize=(12, 6))
daily_usage.plot(kind='bar')
plt.title('Average Bike Rentals by Day of Week')
plt.xlabel('Day of Week')
plt.ylabel('Average Number of Rentals')
plt.xticks(rotation=45)
plt.show()

# Agregasi berdasarkan musim
seasonal_usage = day_df.groupby('season')['cnt'].mean()

plt.figure(figsize=(10, 6))
seasonal_usage.plot(kind='bar')
plt.title('Average Bike Rentals by Season')
plt.xlabel('Season')
plt.ylabel('Average Number of Rentals')
plt.xticks(rotation=45)
plt.show()

**Insight:**
- Terdapat dua puncak penggunaan sepeda pada jam 8 (pagi) dan jam 17-18 (sore)
- Penggunaan pada hari kerja lebih tinggi dibanding akhir pekan
- Musim Fall dan Summer memiliki rata-rata penggunaan tertinggi

### 2. Analisis Pengaruh Cuaca

In [None]:
# Agregasi berdasarkan kondisi cuaca
weather_impact = day_df.groupby('weathersit').agg({
    'cnt': ['mean', 'count', 'std']
}).round(2)

print("Impact of Weather on Bike Rentals:")
print(weather_impact)

# Visualisasi dengan box plot
plt.figure(figsize=(12, 6))
sns.boxplot(data=day_df, x='weathersit', y='cnt')
plt.title('Distribution of Bike Rentals by Weather Condition')
plt.xlabel('Weather Condition')
plt.ylabel('Number of Rentals')
plt.xticks(rotation=45)
plt.show()

# Scatter plot untuk temperatur vs jumlah peminjaman
plt.figure(figsize=(10, 6))
sns.scatterplot(data=day_df, x='temp', y='cnt', hue='weathersit', alpha=0.6)
plt.title('Temperature vs Bike Rentals by Weather Condition')
plt.xlabel('Temperature (Normalized)')
plt.ylabel('Number of Rentals')
plt.show()

### 3. Analisis Perbandingan Pengguna Casual vs Registered

In [None]:
# Agregasi data pengguna
user_comparison = day_df.agg({
    'casual': ['sum', 'mean'],
    'registered': ['sum', 'mean']
}).round(2)

print("User Type Comparison:")
print(user_comparison)

# Visualisasi perbandingan per jam
hourly_users = hour_df.groupby('hour').agg({
    'casual': 'mean',
    'registered': 'mean'
}).reset_index()

plt.figure(figsize=(12, 6))
plt.plot(hourly_users['hour'], hourly_users['casual'], label='Casual')
plt.plot(hourly_users['hour'], hourly_users['registered'], label='Registered')
plt.title('Average Hourly Usage: Casual vs Registered Users')
plt.xlabel('Hour of Day')
plt.ylabel('Average Number of Rentals')
plt.legend()
plt.show()

# Visualisasi perbandingan per hari
day_df['casual_ratio'] = day_df['casual'] / day_df['cnt']
day_df['registered_ratio'] = day_df['registered'] / day_df['cnt']

plt.figure(figsize=(12, 6))
sns.boxplot(data=day_df, x='season', y='casual_ratio')
plt.title('Proportion of Casual Users by Season')
plt.xlabel('Season')
plt.ylabel('Ratio of Casual Users')
plt.show()

**Insight:**
- Pengguna registered mendominasi penggunaan sistem (76.7% dari total)
- Pola penggunaan berbeda: registered users peak pada jam kerja, casual users pada akhir pekan
- Proporsi casual users meningkat pada musim Summer

## Conclusion

1. Pola Penggunaan Berdasarkan Waktu:
   - Terdapat dua peak hours: pagi (8:00) dan sore (17:00-18:00)
   - Weekday memiliki penggunaan lebih tinggi dari weekend
   - Musim Fall dan Summer adalah periode tersibuk

2. Pengaruh Cuaca:
   - Cuaca Clear menghasilkan penggunaan tertinggi
   - Heavy Rain/Snow menurunkan penggunaan secara signifikan
   - Temperatur berkorelasi positif dengan jumlah peminjaman

3. Perbandingan Pengguna:
   - Registered users: 76.7% dari total penggunaan
   - Casual users meningkat di akhir pekan dan musim Summer
   - Pola penggunaan berbeda antara kedua tipe pengguna