# Proyek Analisis Data: [Input Nama Dataset]
- **Nama:** Weko Abbror
- **Email:** wekoabbror@gmail.com
- **ID Dicoding:** Weko Abbror

## Menentukan Pertanyaan Bisnis

- Pertanyaan 1:
Bagaimana pola penyewaan sepeda berubah berdasarkan musim (season) dan cuaca (weathersit)?

- Pertanyaan 2:
Apakah ada perbedaan pola penyewaan sepeda antara pengguna casual dan registered pada hari kerja (workingday) vs hari libur (holiday)?

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [None]:
# Load dataset
day_df = pd.read_csv('data/day.csv')
hour_df = pd.read_csv('data/hour.csv')

# Display first few rows
print(day_df.head())
print(hour_df.head())

**Insight:**
- Dataset day.csv berisi data harian penyewaan sepeda.
- Dataset hour.csv berisi data per jam penyewaan sepeda.
- Kolom yang tersedia meliputi informasi cuaca, musim, suhu, jumlah pengguna casual, registered, dan total penyewaan (cnt).

### Assessing Data

In [None]:
# Check for missing values
print(day_df.isnull().sum())
print(hour_df.isnull().sum())

# Check for duplicates
print(day_df.duplicated().sum())
print(hour_df.duplicated().sum())

# Check data types
print(day_df.info())
print(hour_df.info())

**Insight:**
- Tidak ada missing values atau duplikat dalam dataset.
- Beberapa kolom seperti dteday perlu diubah ke tipe data datetime.
- Kolom seperti season, weathersit, dan holiday perlu diubah ke tipe kategori untuk analisis yang lebih baik.

### Cleaning Data

In [None]:
# Convert 'dteday' to datetime
day_df['dteday'] = pd.to_datetime(day_df['dteday'])
hour_df['dteday'] = pd.to_datetime(hour_df['dteday'])

# Convert categorical columns to category type
categorical_cols = ['season', 'weathersit', 'holiday', 'workingday']
day_df[categorical_cols] = day_df[categorical_cols].astype('category')
hour_df[categorical_cols] = hour_df[categorical_cols].astype('category')

# Check changes
print(day_df.info())
print(hour_df.info())

**Insight:**
- Kolom dteday telah diubah ke tipe datetime.
- Kolom kategori seperti season dan weathersit telah diubah ke tipe category.
- Data siap untuk analisis lebih lanjut.

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
# Summary statistics
print(day_df.describe())

# Distribution of total rentals
plt.figure(figsize=(10, 6))
sns.histplot(day_df['cnt'], bins=30, kde=True)
plt.title('Distribution of Total Bike Rentals')
plt.xlabel('Total Rentals')
plt.ylabel('Frequency')
plt.show()

**Insight:**
- Distribusi total penyewaan sepeda (cnt) cenderung normal dengan beberapa outlier.
- Rata-rata penyewaan harian adalah sekitar 4500 sepeda.

## Visualization & Explanatory Analysis

### Pertanyaan 1: Pola Penyewaan Berdasarkan Musim dan Cuaca

In [None]:
# Group by season and weathersit
season_weather = day_df.groupby(['season', 'weathersit'])['cnt'].mean().reset_index()

# Plot
plt.figure(figsize=(12, 6))
sns.barplot(x='season', y='cnt', hue='weathersit', data=season_weather)
plt.title('Average Bike Rentals by Season and Weather')
plt.xlabel('Season')
plt.ylabel('Average Rentals')
plt.legend(title='Weather')
plt.show()

### Pertanyaan 2: Perbedaan Pola Penyewaan Casual vs Registered

In [None]:
# Group by workingday and holiday
user_type = day_df.groupby(['workingday', 'holiday'])[['casual', 'registered']].mean().reset_index()

# Plot
user_type_melted = user_type.melt(id_vars=['workingday', 'holiday'], value_vars=['casual', 'registered'],
                                 var_name='User Type', value_name='Average Rentals')

plt.figure(figsize=(12, 6))
sns.barplot(x='workingday', y='Average Rentals', hue='User Type', data=user_type_melted)
plt.title('Average Bike Rentals: Casual vs Registered')
plt.xlabel('Working Day (1) or Holiday (0)')
plt.ylabel('Average Rentals')
plt.legend(title='User Type')
plt.show()

**Insight:**
- Pengguna registered mendominasi penyewaan pada hari kerja (workingday).
- Pengguna casual lebih aktif pada hari libur (holiday).

## Analisis Lanjutan (Opsional)

In [None]:
# Correlation heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(day_df.corr(), annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()

## Conclusion

- Conclution pertanyaan 1: Musim dan cuaca memiliki pengaruh signifikan terhadap jumlah penyewaan sepeda. Penyewaan tertinggi terjadi pada musim panas dengan cuaca cerah, sementara cuaca buruk mengurangi minat penyewaan.
- Conclution pertanyaan 2: Pengguna registered lebih aktif pada hari kerja, sementara pengguna casual lebih aktif pada hari libur. Hal ini menunjukkan perbedaan pola penggunaan antara kedua jenis pengguna.