# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Joseph Putra Chrisyanto
- **Email:** C14220330@john.petra.ac.id
- **ID Dicoding:** JOSEPH PUTRA C

## Menentukan Pertanyaan Bisnis

- Apakah banyaknya hari libur mempengaruhi penyewaan sepeda tiap hari?
- Bagaimana perubahan persewaan tiap musim gugur selama dua tahun terakhir?

## Import Semua Packages/Library yang Digunakan

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [None]:
day_df = pd.read_csv("day.csv")
day_df.head()

**Insight:**
- Import data dari file "day.csv" dan menunjukan 5 row awal
- Data yang diimport mempunyai 16 kolom

### Assessing Data

In [None]:
day_df.isna().sum()

In [None]:
day_df.duplicated().sum()

**Insight:**
- Menggunakan fungsi isna().sum() untuk mencari totall missing value
- Menggunakan fungsi duplicated().sum() untuk mencari total duplicated value

### Cleaning Data

In [None]:
##

**Insight:**
- Data yang diberikan sudah bersih jadi tidak diperlukan cleaning data


## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
day_df.describe(include="all")

In [None]:
day_df.groupby(by="weekday").agg({
    "holiday": "sum" ,
    "registered": "mean"
})

In [None]:
day_df.groupby(by="weekday").registered.nunique().sort_values(ascending=False)

**Insight:**
- Menjelajahi pertanyaan 1 "Apakah banyaknya hari libur mempengaruhi penyewaan sepeda tiap hari?"
- menggunakan groupby yang di aggregat dan sort values untuk melihat data

In [None]:
day_df[day_df['season'] == 2].groupby(by="yr").agg({
    "season" : "mean",
    "registered": "mean"
})

**Insight:**
- Menjelajahi petanyaan 2 "Bagaimana perubahan persewaan tiap musim gugur selama dua tahun terakhir?"
- Menggunakan nested filter kolom supaya bisa mencari musim gugur tiap tahunnya. Menggunakan "season" : "mean" supaya keluar penjelasan season.

## Visualization & Explanatory Analysis

### Pertanyaan 1:

In [None]:
holiReg = day_df.groupby(by="weekday").agg({
    "holiday": "sum",
    "registered": "mean"
}).reset_index()


days = ['Minggu', 'Senin', 'Selasa', 'Rabu', 'Kamis', 'Jumat', 'Sabtu']

holiReg['weekday'] = holiReg['weekday'].apply(lambda x: days[x])

fig, ax1 = plt.subplots(figsize=(10, 5))

color = 'tab:blue'
ax1.set_xlabel('Hari dalam Minggu')
ax1.set_ylabel('Jumlah Hari Libur', color=color)
ax1.bar(holiReg['weekday'], holiReg['holiday'], color=color, alpha=0.6, label='Jumlah Hari Libur')
ax1.tick_params(axis='y', labelcolor=color)

ax2 = ax1.twinx()
color = 'tab:red'
ax2.set_ylabel('Rata-rata Penyewaan Sepeda', color=color)
ax2.plot(holiReg['weekday'], holiReg['registered'], color=color, marker='o', label='Rata-rata Penyewaan Sepeda')
ax2.tick_params(axis='y', labelcolor=color)

plt.title('Pengaruh Hari Libur Terhadap Penyewaan Sepeda Tiap Hari')
fig.tight_layout()
plt.show()

**Insight:**
- Menggunakan bar plot dan line plot untuk membandingkan antara 3 point (Jumlah hari libur, Hari, Rata rata penyewaan sepeda)
- Hari mulai dari minggu karena mengikuti csv utama

### Pertanyaan 2:

In [None]:
seasonYr_df = day_df[day_df['season'] == 2].groupby(by="yr").agg({
    "season" : "nunique",
    "registered": "mean"
})

plt.figure(figsize=(5, 5))
plt.bar(seasonYr_df.index, seasonYr_df['registered'], color='blue')

plt.xlabel('Year (0: 2011, 1: 2012)')
plt.ylabel('Rata rata Sepeda disewa')
plt.title('Rata rata persewaan tiap musim gugur selama dua tahun terakhir')

plt.show()

**Insight:**
- menggunakan bar plot untuk membandingkan 2 musim


## Analisis Lanjutan (Opsional)

## Conclusion

- Konklusi dari test dan analisis yang sudah diakukan adalah tidak ada perbedaan yang signifikan dalam penyewaan speda pada hari libur dan weekday biasa.
- Ada perubahan persewaan sepeda yang signifikan dari musim gugur 2011 dan 2012. Jadi ada trend naik yang positif dalam dua tahun terakhir.