# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Beryl Cholif Arrahman Meuraxa
- **Email:** berylmeuraxa@gmail.com
- **ID Dicoding:** berylmeuraxa

## Menentukan Pertanyaan Bisnis

- Pertanyaan 1: Bagaimana tren dalam penggunaan rental sepeda?
- Pertanyaan 2: Apakah ada perbedaan antara hari kerja dan akhir pekan?
- Pertanyaan 3: Bagaimana cuaca memengaruhi jumlah penyewaan sepeda?
- Pertanyaan 4: Berapa persentase kontribusi pengguna kasual dibandingkan dengan pengguna terdaftar?

## Import Semua Packages/Library yang Digunakan

In [None]:
#Import library yang dibutuhkan untuk analisis
import pandas as pd
import numpy as np
import matplotlib.pylab as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [None]:
#Memuat Tabel hour dan menampilkan 5 baris pertama
day_df = pd.read_csv("data/day.csv")
day_df.head()

In [None]:
# Informasi dasar tentang dataset
print(f"Jumlah baris: {day_df.shape[0]}, Jumlah kolom: {day_df.shape[1]}")

### Assessing Data

In [None]:
#Memeriksa missing value pada tabel day
day_df.isna().sum()

In [None]:
#Memeriksa duplikasi data pada tabel day
print("Jumlah duplikasi: ", day_df.duplicated().sum())

In [None]:
#Memeriksa innaccurate value pada tabel day
day_df.describe()

In [None]:
#Menampilkan nilai unik dari kolom untuk memastikan tidak adanya invalid value atau outlier
print(day_df['season'].unique())
print(day_df['yr'].unique())
print(day_df['mnth'].unique())
print(day_df['holiday'].unique())
print(day_df['weekday'].unique())
print(day_df['workingday'].unique())
print(day_df['weathersit'].unique())

In [None]:
# Cari baris dengan workingday=1 dan holiday=1
inconsistent_days = day_df[(day_df['workingday'] == 1) & (day_df['holiday'] == 1)]

# Tampilkan hasil
if inconsistent_days.empty:
    print("Tidak ada inkonsistensi logis antara workingday dan holiday.")
else:
    print("Inkonsistensi ditemukan:")
    print(inconsistent_days)

In [None]:
#Memeriksa tipe data pada tabel day
day_df.info()

**Assessing Data Summary:**

tabel **day**:
- *Missing Value* = Tidak terdapat missing value
- *Duplicate Data* = Tidak terdapat duplikasi data
- *Innaccurate Value* = Tidak terdapat innaccurate value
- *Tipe Data* = Terdapat tipe data tidak sesuai pada kolom dteday

### Cleaning Data

In [None]:
#Mengkonversi tipe data menjadi datetime
day_df['dteday'] = pd.to_datetime(day_df['dteday'])

In [None]:
#Menampilkan informasi data
day_df.info()

**Cleaning Data Summary:**

- Mengkonversi tipe data kolom dteday menjadi datetime.

## Exploratory Data Analysis (EDA)

## Eksplorasi Data

In [None]:
#Menampilkan ringkasan statistik deskriptif untuk semua kolom dalam dataset
day_df.describe(include="all")

**Insight:**

Dataset memiliki total seluruh record sebanyak 731,

Berdasarkan rangkuman paramater statistik diatas kita memperoleh informasi dataset berupa:

1. season (1: spring, 2: summer, 3: fall, 4: winter)
- memiliki nilai *mean* 2.496 menunjukkan rata-rata rental sepeda pada musim semi atau panas lebih dominan dibanding musim lainnya.
2. yr (0: 2011, 1:2012)
- memiliki nilai *mean* 0.500 yang dimana menunjukkan rata-rata distribusi tahun dataset yang seimbang antara 2011-2012
3. holiday (0: Tidak Libur, 1: Libur)
- memiliki nilai *mean* dengan nilai 0.0287 yang menunjukkan rata-rata hari yang tidak libur lebih dominan dibanding hari libur.
4. weekday (0: Minggu, 1: Senin, 2: Selasa, 3: Rabu, 4: Kamis, 5: Jumat, 6: Sabtu)
- memiliki nilai *mean* dengan nilai 2.997 yang menunjukkan hari rabu lebih dominan untuk merental sepeda dibanding hari lainnya.
5. workingday (0: No, 1: Yes)
- memiliki nilai *mean* dengan nilai 0.6839 yang menunjukkan distribusi rental sepeda pada hari kerja dan hari tidak bekerja seimbang namun sedikit condong dominan ke arah hari kerja.
6. weathersit (1: Cerah, sedikit awan. 2: Berkabut, berawan. 3: Hujan/salju ringan. 4: Cuaca buruk)
- terlihat nilai *meannya* 1.395 yang menunjukkan rata-rata sebagian besar cuaca cerah atau berkabut/berawan.
7. casual, registered, cnt
- terlihat nilai *mean* *casual* sebanyak 848.17 dan *registered* sebanyak 3656.17 yang dimana temuan ini menunjukkan, rata-rata pengguna yang banyak melakukan rental adalah *pengguna terdaftar (registered)*


## Hubungan antara Bulan dan Musim

In [None]:
# Filter data berdasarkan tahun
year_2011 = day_df[day_df['yr'] == 0]  # Tahun 2011
year_2012 = day_df[day_df['yr'] == 1]  # Tahun 2012

# Dictionary untuk mapping nama bulan
month_name_map = {
    1: 'Jan', 2: 'Feb', 3: 'Mar', 4: 'Apr',
    5: 'May', 6: 'Jun', 7: 'Jul', 8: 'Aug',
    9: 'Sep', 10: 'Oct', 11: 'Nov', 12: 'Dec'
}

# Fungsi untuk menghasilkan mapping season dan mnth
def get_season_month_mapping(data, year_name):
    mapping = data.groupby('season')['mnth'].unique().reset_index()
    # Ubah angka bulan ke nama bulan
    mapping['mnth'] = mapping['mnth'].apply(lambda months: [month_name_map[m] for m in sorted(months)])
    mapping['season_name'] = mapping['season'].map({1: 'Spring', 2: 'Summer', 3: 'Fall', 4: 'Winter'})
    mapping['year'] = year_name
    return mapping

# Menghasilkan mapping untuk masing-masing tahun
mapping_2011 = get_season_month_mapping(year_2011, '2011')
mapping_2012 = get_season_month_mapping(year_2012, '2012')

# Menampilkan hasil
print("Hubungan season dan mnth untuk Tahun 2011:")
print(mapping_2011)

print("\nHubungan season dan mnth untuk Tahun 2012:")
print(mapping_2012)


**Insight**:

Dengan menganalisis hubungan antara tahun, bulan dan musim, kita bisa memperoleh informasi pada bulan apa saja musim tertentu yang relevan pada saat dataset dibuat.

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana tren dalam penggunaan rental sepeda?

In [None]:
# Agregasi data berdasarkan tahun dan bulan
month_year_summary = day_df.groupby(['yr', 'mnth'])['cnt'].sum().reset_index()

# Mengubah angka bulan menjadi nama bulan untuk interpretasi yang lebih mudah
month_year_summary['month_name'] = month_year_summary['mnth'].map({
    1: 'Jan', 2: 'Feb', 3: 'Mar', 4: 'Apr', 5: 'May', 6: 'Jun',
    7: 'Jul', 8: 'Aug', 9: 'Sep', 10: 'Oct', 11: 'Nov', 12: 'Dec'
})

# Pisahkan data untuk tahun pertama (2011) dan tahun kedua (2012)
year_2011 = month_year_summary[month_year_summary['yr'] == 0]
year_2012 = month_year_summary[month_year_summary['yr'] == 1]

# Tampilkan tabel hasil agregasi
print("Tren Penggunaan Sepeda Berdasarkan Bulan untuk Tahun 2011:")
print(year_2011)

print("\nTren Penggunaan Sepeda Berdasarkan Bulan untuk Tahun 2012:")
print(year_2012)

In [None]:
# Visualisasi clustered bar chart
plt.figure(figsize=(12, 6))

# Plot bar chart untuk tahun 2011 dan 2012
sns.barplot(data=month_year_summary, x='month_name', y='cnt', hue='yr', palette='Blues_d')

# Judul dan label
plt.title('Perbandingan Tren Penggunaan Sepeda Berdasarkan Bulan (2011 vs 2012)', fontsize=14)
plt.xlabel('Bulan', fontsize=12)
plt.ylabel('Total Penyewaan Sepeda', fontsize=12)

# Catatan tambahan
plt.figtext(0.5, -0.15, "Catatan: Tahun 2012 menunjukkan peningkatan permintaan dibandingkan 2011.", wrap=True, ha="center", fontsize=10)

# Menampilkan legenda
plt.legend(title='Tahun', loc='upper left', labels=['2011', '2012'])

# Menampilkan grafik
plt.tight_layout()
plt.show()

**Insight:**

Berdasarkan visualisasi **clustered bar chart** yang membandingkan tren penggunaan rental sepeda antara tahun 2011 dan 2012, terlihat bahwa **tren penggunaan rental sepeda mengalami peningkatan signifikan dari tahun ke tahun**. Total penyewaan sepeda di tahun 2012 lebih tinggi dibandingkan tahun 2011 untuk semua bulan, menunjukkan adanya pertumbuhan popularitas layanan ini. Peningkatan paling mencolok terjadi pada musim panas (Juni-Agustus) dan gugur (September-November), di mana cuaca yang nyaman mendukung aktivitas luar ruangan seperti bersepeda. Meskipun permintaan tetap lebih rendah selama musim dingin (Desember-Februari), tahun 2012 tetap menunjukkan peningkatan dibandingkan 2011, menunjukkan bahwa layanan ini semakin diminati bahkan di kondisi cuaca yang kurang ideal. Secara keseluruhan, visualisasi ini memberikan gambaran bahwa layanan rental sepeda ini memiliki minat tren tinggi yang tidak hanya tumbuh secara musiman tetapi juga secara tahunan, dengan potensi untuk terus berkembang di masa depan.

### Pertanyaan 2: Apakah ada perbedaan antara hari kerja dan akhir pekan?

In [None]:
# Agregasi data berdasarkan workingday
workingday_summary = day_df.groupby('workingday')[['cnt', 'casual', 'registered']].sum().reset_index()

# Tambahkan label untuk interpretasi data
workingday_summary['workingday_label'] = workingday_summary['workingday'].map({0: 'Akhir Pekan/Hari Libur', 1: 'Hari Kerja'})

# Tampilkan tabel hasil agregasi
print("Perbandingan Penggunaan Sepeda Antara Hari Kerja dan Akhir Pekan:\n")
print(workingday_summary)

In [None]:
# Reshape data agar sesuai untuk clustered bar chart
workingday_melted = workingday_summary.melt(
    id_vars=['workingday', 'workingday_label'], 
    value_vars=['casual', 'registered'],
    var_name='user_type', 
    value_name='total_rentals'
)

# Visualisasi clustered bar chart
plt.figure(figsize=(10, 6))

# Plot menggunakan seaborn.barplot
sns.barplot(data=workingday_melted, x='workingday_label', y='total_rentals', hue='user_type', palette='Blues_d')

# Judul dan label
plt.title('Perbandingan Penggunaan Sepeda Antara Hari Kerja dan Akhir Pekan', fontsize=14)
plt.xlabel('Kategori Hari', fontsize=12)
plt.ylabel('Total Penyewaan Sepeda', fontsize=12)

# Catatan tambahan
plt.figtext(0.5, -0.15, "Catatan: Hari kerja memiliki permintaan lebih tinggi dibandingkan akhir pekan.", wrap=True, ha="center", fontsize=10)

# Menampilkan legenda
plt.legend(title='Jenis Pengguna', loc='upper right')

# Menampilkan grafik
plt.tight_layout()
plt.show()

**Insight:**

Berdasarkan analisis dan visualisasi, terlihat bahwa **ada perbedaan signifikan dalam penggunaan rental sepeda antara hari kerja dan akhir pekan**. Pada akhir pekan, permintaan lebih rendah secara keseluruhan dengan dominasi pengguna registered yang tertinggi diikuti dengan pengguna casual. Sementara itu pada hari kerja, permintaan cenderung tinggi secara keseluruhan yang terlihat pada pengguna registered yang berkemungkinan menggunakan rental sepeda untuk bekerja disusul oleh pengguna casual yang memiliki permintaan cenderung sama dibanding akhir pekan. Perbedaan ini menunjukkan bahwa layanan rental sepeda memiliki dua segmen pengguna utama: **pengguna rutin (terdaftar)** yang menggunakan sepeda untuk kebutuhan harian dan **pengguna sesekali (biasa)** yang menggunakan sepeda untuk hiburan. Meskipun total penyewaan di akhir pekan lebih rendah dibandingkan hari kerja, layanan ini tetap diminati oleh kedua kelompok pengguna.

### Pertanyaan 3: Bagaimana cuaca memengaruhi jumlah penyewaan sepeda?

In [None]:
# Agregasi data berdasarkan weathersit
weather_summary = day_df.groupby('weathersit')[['casual', 'registered']].sum().reset_index()

# Pastikan semua kategori cuaca (1, 2, 3, 4) ada dalam data
all_weather_categories = [1, 2, 3, 4]
weather_summary = weather_summary.set_index('weathersit').reindex(all_weather_categories, fill_value=0).reset_index()

# Tambahkan label untuk interpretasi data
weather_summary['weather_label'] = weather_summary['weathersit'].map({
    1: 'Cerah/Jelas',
    2: 'Berkabut/Berawan',
    3: 'Hujan Ringan/Salju',
    4: 'Cuaca Buruk'
})

# Tampilkan tabel hasil agregasi
print("Pengaruh Cuaca terhadap Jumlah Penyewaan Sepeda:")
print(weather_summary)

In [None]:
# Reshape data agar sesuai untuk clustered bar chart
weather_melted = weather_summary.melt(
    id_vars=['weathersit', 'weather_label'], 
    value_vars=['casual', 'registered'],
    var_name='user_type', 
    value_name='total_rentals'
)

# Visualisasi clustered bar chart
plt.figure(figsize=(10, 6))

# Plot menggunakan seaborn.barplot
sns.barplot(data=weather_melted, x='weather_label', y='total_rentals', hue='user_type', palette='Blues_d')

# Judul dan label
plt.title('Pengaruh Cuaca terhadap Jumlah Penyewaan Sepeda', fontsize=14)
plt.xlabel('Kondisi Cuaca', fontsize=12)
plt.ylabel('Total Penyewaan Sepeda', fontsize=12)

# Catatan tambahan
plt.figtext(0.5, -0.15, "Catatan: Cuaca buruk mengurangi permintaan rental sepeda.", wrap=True, ha="center", fontsize=10)

# Menampilkan legenda
plt.legend(title='Jenis Pengguna', loc='upper right')

# Menampilkan grafik
plt.tight_layout()
plt.show()

**Insight:**

Berdasarkan analisis dan visualisasi, terlihat bahwa **cuaca memiliki pengaruh besar terhadap jumlah penyewaan sepeda, baik dari pengguna registered maupun casual.** Pada kondisi cuaca cerah atau jelas, permintaan penyewaan sepeda mencapai titik tertinggi, dengan dominasi baik dari pengguna terdaftar dibanding pengguna casual. Namun, saat cuaca memburuk (berawan, hujan ringan, atau cuaca buruk), permintaan turun secara signifikan. Cuaca buruk seperti hujan deras atau badai hampir sepenuhnya menghentikan aktivitas bersepeda, dengan jumlah penyewaan yang sangat rendah. Hal ini menunjukkan bahwa layanan rental sepeda sangat bergantung pada kondisi cuaca, dan harus mempertimbangkan faktor cuaca untuk memaksimalkan efektivitas layanan.

### Pertanyaan 4: Berapa persentase kontribusi pengguna kasual dibandingkan dengan pengguna terdaftar?

In [None]:
# Hitung total penyewaan untuk casual, registered, dan cnt
total_casual = day_df['casual'].sum()
total_registered = day_df['registered'].sum()
total_cnt = day_df['cnt'].sum()

# Hitung persentase kontribusi
percentage_casual = (total_casual / total_cnt) * 100
percentage_registered = (total_registered / total_cnt) * 100

# Tampilkan hasil
print("Total Penyewaan Sepeda:")
print(f"- Pengguna Kasual: {total_casual}")
print(f"- Pengguna Terdaftar: {total_registered}")
print(f"- Total Keseluruhan: {total_cnt}")

print("\nPersentase Kontribusi:")
print(f"- Pengguna Kasual: {percentage_casual:.2f}%")
print(f"- Pengguna Terdaftar: {percentage_registered:.2f}%")

In [None]:
# Data untuk pie chart
labels = ['Pengguna Kasual', 'Pengguna Terdaftar']
sizes = [percentage_casual, percentage_registered]
colors = ['#ff9999', '#66b3ff']  # Warna untuk kasual dan terdaftar
explode = (0.1, 0)  # Meledakkan bagian "kasual" untuk menonjolkan

# Visualisasi pie chart
plt.figure(figsize=(8, 6))
plt.pie(sizes, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90)

# Judul dan tata letak
plt.title('Persentase Kontribusi Pengguna Kasual vs Terdaftar', fontsize=14)
plt.axis('equal')  # Memastikan pie chart berbentuk lingkaran sempurna

# Menampilkan grafik
plt.tight_layout()
plt.show()

**Insight:**

Terlihat dari hasil visualisasi pengguna registered menyumbang sekitar 80% yang melakukan rental sepeda dan pengguna casual menyumbang sekitar 20% yang dimana ini menunjukkan bahwa pengguna registered adalah pelanggan utama dari rental sepeda ini dan pengguna kasual meskipun sedikit dibandingkan pengguna registered tetap memberikan kontribusi penting terutama di akhir pekan atau musim tertentu.

In [None]:
#day_df.to_csv("main_data.csv", index=False)