# Proyek Analisis Data : Bike Sharing
- **Nama:** Azzah Nabila Herdy
- **Email:** azzah8872@gmail.com/m246b4kx0778@bangkit.academy
- **ID Dicoding:** azzah2304

## Menentukan Pertanyaan Bisnis

- Paling banyak sepeda disewa pada jam berapa dalam sehari?
- Hari apa yang menunjukkan jumlah penyewaan sepeda tertinggi dalam seminggu?
- Apakah ada perbedaan besar dalam penyewaan sepeda antara weekday dan weekend?

## Import Semua Packages/Library yang Digunakan

In [158]:
pip install numpy pandas scipy matplotlib seaborn jupyter



## Data Wrangling

### Gathering Data

In [159]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [160]:
# Tabel hari
day_df = pd.read_csv("https://raw.githubusercontent.com/Azzah2323/submission/refs/heads/main/data/day.csv")
day_df.head()

HTTPError: HTTP Error 404: Not Found

In [None]:
# Tabel jam
hour_df = pd.read_csv("https://raw.githubusercontent.com/Azzah2323/submission/refs/heads/main/data/hour.csv")
hour_df.head()

**Insight:**
- Membuat empat tabel dari sebuah dataset yang diperoleh dari repository
- Ada dua dataset yaitu day dan hour
- Tahap ini yaitu membuat tabel yaitu guna mengumpulkan dan mempersiapkan data sebelum dilakukan analisis lebih lanjut.
- Mendapatkan data lengkap yang akan memudahkan untuk langkah analisis berikutnya

### Assessing Data

In [None]:
# Menilai data day
day_df.info()
day_df.isna().sum()
print("Jumlah duplikasi: ", day_df.duplicated().sum())
day_df.describe()

In [None]:
print(day_df[['season', 'weathersit', 'holiday', 'workingday']].nunique())
print(day_df[['season', 'weathersit', 'holiday', 'workingday']].drop_duplicates())

In [None]:
day_df.isna().sum()

In [None]:
# Menilai data hour
hour_df.info()
hour_df.isna().sum()
print("Jumlah duplikasi: ", hour_df.duplicated().sum())
hour_df.describe()

In [None]:
print(hour_df[['temp', 'hum', 'windspeed']].describe())

In [None]:
hour_df.isna().sum()

**Insight:**
- Menilai data yang telah diperoleh dari proses data wrangling
- Terdapat format data yang tidak sesuai, hal ini harus diperbaiki agar sesuai dengan ketentuan
- Penilaian dilakukan untuk mengetahui apakah ada data yang tidak sesuai. Terdapat pengecekan duplikasi, missing value, tipe data dan pengecekan kesalahan input data
- Penggunaan file CSV yang digunakan pada dataset dan URL eksternal yang digunakan untuk mempermudah memperoleh data yang lebih besar dan terstruktur

### Cleaning Data

In [None]:
# Membersihkan data day
# Mengubah tipe data dteday

day_df['dteday'] = pd.to_datetime(day_df['dteday'], format='%Y-%m-%d', errors='coerce')


In [None]:
print(day_df.dtypes)

In [None]:
# Membersihkan data hour
# Mengubah tipe data dteday

hour_df['dteday'] = pd.to_datetime(hour_df['dteday'], format='%Y-%m-%d', errors='coerce')


In [None]:
print(hour_df.dtypes)

**Insight:**
- Setelah data di assessment tahap selanjutnya yaitu data cleaning dimana pada tahap ini data diperiksa apakan ada kesalahan input data dan sebagainya
- Tidak ada duplikasi yang terjadi pada data diatas
- Terdapat format data yang tidak sesuai, hal ini harus diperbaiki agar sesuai dengan ketentuan

## Exploratory Data Analysis (EDA)

### Explore data day


In [None]:
day_df.describe(include="all")

In [None]:
# Berdasarkan bulan
monthly_rentals = day_df.groupby('mnth')['cnt'].sum()
print("Penyewaan Sepeda Berdasarkan Bulan:")
print(monthly_rentals)

In [None]:
# Penyewaan per jam
hourly_rentals = hour_df.groupby('hr')['cnt'].sum()
print("Penyewaan Sepeda Berdasarkan Jam:")
print(hourly_rentals)

In [None]:
# per hari dalam seminggu
weekday_rentals = day_df.groupby('weekday')['cnt'].sum()
print("Penyewaan Sepeda Berdasarkan Hari dalam Seminggu:")
print(weekday_rentals)

In [None]:
day_df['hr'] = day_df['instant'] % 24
hourly_rentals = day_df.groupby('hr')['cnt'].sum().reset_index()
print("Jumlah sepeda yang disewa per jam:")
print(hourly_rentals)

In [None]:
print(f"\nJam dengan jumlah peminjaman sepeda terbanyak: {jam_pinjam_bnyk['hr']} dengan {jam_pinjam_bnyk['cnt']} peminjaman.")

In [None]:
# Mengelompokkan data berdasarkan hari dalam seminggu (weekday) dan menghitung total sepeda yang disewa pada setiap hari
weekly_rentals = day_df.groupby('weekday')['cnt'].sum().reset_index()

# Menemukan hari dengan jumlah penyewaan tertinggi
day_with_highest_rentals = weekly_rentals[weekly_rentals['cnt'] == weekly_rentals['cnt'].max()]

# Menampilkan hasil
day_names = ["Senin", "Selasa", "Rabu", "Kamis", "Jumat", "Sabtu", "Minggu"]
day_with_highest_rentals_name = day_names[day_with_highest_rentals['weekday'].values[0]]

print("Hari dengan jumlah penyewaan sepeda tertinggi:", day_with_highest_rentals_name)
print("Jumlah penyewaan pada hari tersebut:", day_with_highest_rentals['cnt'].values[0])

In [None]:
# Menambahkan kolom baru 'week_type' untuk membedakan weekday dan weekend
day_df['week_type'] = day_df['weekday'].apply(lambda x: 'Weekend' if x >= 5 else 'Weekday')

# Menghitung total penyewaan sepeda untuk weekday dan weekend
rental_comparison = day_df.groupby('week_type')['cnt'].sum().reset_index()

# Menampilkan hasil perbandingan
print(rental_comparison)

# Menghitung persentase perbedaan
weekend_rentals = rental_comparison[rental_comparison['week_type'] == 'Weekend']['cnt'].values[0]
weekday_rentals = rental_comparison[rental_comparison['week_type'] == 'Weekday']['cnt'].values[0]

# Menghitung perbedaan persentase
difference_percentage = ((weekend_rentals - weekday_rentals) / weekday_rentals) * 100

print(f"Jumlah penyewaan sepeda pada weekday: {weekday_rentals}")
print(f"Jumlah penyewaan sepeda pada weekend: {weekend_rentals}")
print(f"Persentase perbedaan: {difference_percentage:.2f}%")

**Insight:**
- Memahami struktur data yang terdapat pada masing-masing tabel, karena setiap tabel memiliki struktur dan karakteristik yang berbeda
- Mendapatkan gambaran distribusi nilai setiap kolom dengan melakukan statistik describe
- Mengdistribusikan variabel kategori untuk menganalisis tabel berdasarkan kategori

## Visualization & Explanatory Analysis

### Pertanyaan 1: Paling banyak sepeda disewa pada jam berapa dalam sehari?

In [None]:
all_df['hr'] = all_df['instant'] % 24  # Menentukan jam dari kolom 'instant'

# Menghitung total penyewaan per jam
jam_pinjam = all_df.groupby('hr')['cnt'].sum().reset_index()

# Menemukan jam dengan penyewaan sepeda terbanyak
max_rentals = hourly_rentals.loc[hourly_rentals['cnt'].idxmax()]

# Mengatur ukuran figure
plt.figure(figsize=(10, 6))

# Membuat bar plot untuk jumlah penyewaan sepeda per jam
sns.barplot(x='hr', y='cnt', data=hourly_rentals, palette='viridis')

# Menambahkan label pada bar yang menunjukkan jumlah penyewaan sepeda per jam
for index, row in hourly_rentals.iterrows():
    plt.text(row['hr'], row['cnt'] + 1000, f'{row["cnt"]}', color='black', ha="center", fontsize=10, rotation=40)

# Menambahkan highlight pada bar yang menunjukkan jam dengan penyewaan paling banyak
plt.bar(max_rentals['hr'], max_rentals['cnt'], color='darkorange')

# Menambahkan anotasi pada bar yang menunjukkan jam dengan penyewaan sepeda terbanyak
plt.text(max_rentals['hr'], max_rentals['cnt'] + 2000, f'{max_rentals["cnt"]}', color='white', ha='center', fontsize=12, fontweight='bold')

# Menambahkan grid untuk referensi visual
plt.grid(axis='y', linestyle='--', alpha=0.7)

# Menambahkan judul dan label sumbu dengan pengaturan ukuran font yang lebih besar
plt.title('Jumlah Penyewaan Sepeda per Jam dalam Sehari', fontsize=16, fontweight='bold')
plt.xlabel('Jam dalam Sehari', fontsize=12)
plt.ylabel('Jumlah Penyewaan Sepeda', fontsize=12)

# Mengatur label sumbu x agar lebih mudah dibaca (rotation dan penataan jarak)
plt.xticks(rotation=45, ha='right', fontsize=10)

# Menambahkan layout yang rapih
plt.tight_layout()

# Menampilkan plot
plt.show()

### Pertanyaan 2: Paling banyak sepeda disewa perhari dalam seminggu?

In [None]:
weekly_rentals = day_df.groupby('weekday')['cnt'].sum().reset_index()

# Menemukan hari dengan jumlah penyewaan tertinggi
day_with_highest_rentals = weekly_rentals[weekly_rentals['cnt'] == weekly_rentals['cnt'].max()]
day_names = ["Senin", "Selasa", "Rabu", "Kamis", "Jumat", "Sabtu", "Minggu"]

# Menyimpan nama hari dengan penyewaan tertinggi
day_with_highest_rentals_name = day_names[day_with_highest_rentals['weekday'].values[0]]

# Menampilkan hasil
print("Hari dengan jumlah penyewaan sepeda tertinggi:", day_with_highest_rentals_name)
print("Jumlah penyewaan pada hari tersebut:", day_with_highest_rentals['cnt'].values[0])

# Visualisasi dengan seaborn dan matplotlib
plt.figure(figsize=(10, 6))
sns.barplot(x='weekday', y='cnt', data=weekly_rentals, palette='coolwarm')

plt.bar(day_with_highest_rentals['weekday'], day_with_highest_rentals['cnt'], color='darkorange')

for index, row in weekly_rentals.iterrows():
    plt.text(row['weekday'], row['cnt'] + 50, f'{row["cnt"]}', color='black', ha="center")

# Menambahkan judul dan label sumbu
plt.title('Jumlah Penyewaan Sepeda per Hari dalam Seminggu')
plt.xlabel('Hari dalam Seminggu')
plt.ylabel('Jumlah Penyewaan Sepeda')

plt.xticks(ticks=range(7), labels=day_names, rotation=45)

plt.text(day_with_highest_rentals['weekday'], day_with_highest_rentals['cnt'] + 200,
         f'{day_with_highest_rentals_name} (Tertinggi)',
         color='darkorange', ha='center', fontsize=12, fontweight='bold')

# Menampilkan plot
plt.tight_layout()
plt.show()

### Pertanyaan 3: - Apakah ada perbedaan besar dalam penyewaan sepeda antara weekday dan weekend?

In [None]:
day_df['week_type'] = day_df['weekday'].apply(lambda x: 'Weekend' if x >= 5 else 'Weekday')

# Menghitung total penyewaan sepeda untuk weekday dan weekend
rental_comparison = day_df.groupby('week_type')['cnt'].sum().reset_index()

# Menghitung persentase perbedaan
weekend_rentals = rental_comparison[rental_comparison['week_type'] == 'Weekend']['cnt'].values[0]
weekday_rentals = rental_comparison[rental_comparison['week_type'] == 'Weekday']['cnt'].values[0]

difference_percentage = ((weekend_rentals - weekday_rentals) / weekday_rentals) * 100

print(f"Jumlah penyewaan sepeda pada weekday: {weekday_rentals}")
print(f"Jumlah penyewaan sepeda pada weekend: {weekend_rentals}")
print(f"Persentase perbedaan: {difference_percentage:.2f}%")

# Visualisasi menggunakan seaborn
plt.figure(figsize=(8, 6))
sns.barplot(x='week_type', y='cnt', data=rental_comparison, palette='viridis')

plt.title(f'Perbandingan Penyewaan Sepeda\nWeekday vs Weekend\n(Persentase perbedaan: {difference_percentage:.2f}%)')
plt.ylabel('Jumlah Penyewaan Sepeda')
plt.xlabel('Tipe Hari')

for index, row in rental_comparison.iterrows():
    plt.text(row.name, row['cnt'] + 50, f'{row["cnt"]}', color='black', ha="center")

plt.tight_layout()
plt.show()

**Insight:**
- Setelah dilakukan visualisasi menjadi legih mudah melihat dan menjawab pertanyaan
- Mengidentifikasi jumlah penyewaan sepeda dalam sehari
- Mengidentifikasikan sepeda yang disewa perhari dalam seminggu
- Mengidentifikasikan perbedaan sewa antara weekdays dan weekend

## Conclusion


#Conclusion pertanyaan 1
Jumlah sepeda paling banyak diewa yaitu pada jam 7 yang ditandai dengan warna orange. hal ini menunjukkan puncak penyewaan sepeda yang kemungkinan besar terkait dengan kegiatan harian seperti berangkat sekolah maupun bekerja, karena biasanya pagi hari adalah waktu orang paling banyak beraktifitas.

#Conclusion pertanyaan 2
 Berdasarkan analisis jumlah penyewaan sepeda per hari dalam seminggu, hari dengan jumlah penyewaan sepeda tertinggi adalah hari Jumat. Hal ini mungkin menunjukkan bahwa pada hari Jumat dan Sabtu, banyak orang menggunakan sepeda untuk aktivitas akhir pekan, baik untuk perjalanan ke tempat kerja atau rekreasi.

 # Conclusion pertanyaan 3
 Berdasarkan analisis yang membandingkan penyewaan sepeda antara weekday Senin sampai Jumat dan weekend Sabtu sampai Minggu, terdapat perbedaan signifikan yaitu -58.51% dalam jumlah penyewaan sepeda. Secara umum, penyewaan sepeda lebih tinggi pada weekday dibandingkan dengan weekend, yang mungkin menunjukkan bahwa sepeda digunakan lebih banyak untuk perjalanan ke tempat kerja dan aktivitas sehari-hari di hari kerja.

In [None]:
all_df.to_csv("all_data.csv", index=False)