# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Muhammad Naufal Nugroho
- **Email:** naufalnugroho1@gmail.com
- **ID Dicoding:** avuz123

## Menentukan Pertanyaan Bisnis

1.Bulan Dengan Jumlah Pengguna Sepeda Terbanyak ada pada Bulan?
2.Musim Dengan Jumlah Perentalan terbanyak ada pada musim?
3.Perbandingan Antara Peminjam Sepeda dengan kategori Pengguna Terdaftar Diaplikasi dengan Pengguna Tidak Terdaftar Diaplikasi?
4.Apa penyebab terjadinya penurunan perentalan dan seberapa buruk dampaknya di bulan Sep, Okt, Nov Tahun 2012?

## Import Semua Packages/Library yang Digunakan

In [7]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [10]:
hour_df = pd.read_csv('Data/hour.csv',delimiter=',')

FileNotFoundError: [Errno 2] No such file or directory: 'hour.csv'

In [None]:
day_df = pd.read_csv('Data/day.csv',delimiter=',')

In [None]:
mixed_df = pd.merge(
     left=day_df,
     right=hour_df,
     how="outer",
     left_on="dteday",
     right_on="dteday")

### Assessing Data

In [None]:
hour_df['yr'] = hour_df['yr'].apply(lambda x: 2011 if x == 0 else 2012)

In [None]:
season = ["Spring", "Summer", "Fall", "Winter"]
hour_df['season'] = hour_df['season'].apply(
    lambda x: "Spring" if x == 1 else "Summer" if x == 2 else "Fall" if x == 3 
    else "Winter")
hour_df['season'] = pd.Categorical(hour_df['season'], categories=season, ordered=True)
hour_df.sort_values(by="season",inplace=True)

In [None]:
months = ["Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"]
hour_df['mnth'] = hour_df['mnth'].apply(
    lambda x: "Jan" if x == 1 else "Feb" if x == 2 else "Mar" if x == 3 
    else "Apr" if x == 4 else "May" if x == 5 else "Jun" if x == 6 
    else "Jul" if x == 7 else "Aug" if x == 8 else "Sep" if x == 9
    else "Oct" if x == 10 else "Nov" if x == 11 else "Dec")
hour_df['mnth'] = pd.Categorical(hour_df['mnth'], categories=months, ordered=True)
hour_df.sort_values(by="mnth",inplace=True)

In [None]:
hour_df['dteday'] = hour_df['dteday'].apply(lambda x: x.split('-')[2])
hour_df.sort_values(by="dteday",inplace=True)

### Cleaning Data

In [None]:
hour_df.isnull().sum()

In [None]:
hour_df.duplicated().sum()

In [None]:
day_df.isnull().sum()

In [None]:
day_df.duplicated().sum()

In [None]:
#Data Sudah Bersih.

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
hour_df.describe(include="all")

In [None]:
day_df.describe(include="all")

In [None]:
hour_df.sample(10)

In [None]:
day_df.sample(10)

In [None]:
hour_df.groupby(by=["yr", "season"], observed=False).agg({"casual": "sum","registered":"sum","cnt":"sum"})

In [None]:
hour_df.groupby(by=["yr", "mnth"], observed=False).agg({"casual": "sum","registered": "sum","cnt":  "sum"})

In [None]:
day_df.groupby(by=["yr", "season"], observed=False).agg({"casual": "sum","registered": "sum","cnt":  "sum"})

In [None]:
day_df.groupby(by=["yr", "mnth"], observed=False).agg({"casual": "sum","registered": "sum","cnt":  "sum"})

## Visualization & Explanatory Analysis

### Pertanyaan 1:

Pertanyaan 1 Bulan Dengan Jumlah Pengguna Sepeda Terbanyak ada pada Bulan?

In [None]:
table = hour_df.rename(columns={'yr' : 'Year', 'season' : 'Season', 'casual' : 'Pengguna Tidak Terdaftar', 'registered' : 'Pengguna Terdaftar', 'cnt' : 'Total', 'dteday' : 'Day', 'mnth' : 'Month' })

In [None]:
day_df.groupby(by=["yr", "mnth"], observed=False).agg({"casual": "sum","registered": "sum","cnt":  "sum"})

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(20, 6))
colors = ["#FFB4C2", "#9DBDFF", "#a2c4c9","#72BCD4","#e06666","#9fc5e8", "#FF9874","#cfe2f3","#d9d2e9"]
mask_2011 = table['Year'].values == 2011
total_2011 = table[mask_2011]
total_2011 = total_2011.groupby(by="Month", observed=False).agg({"Total":  "sum"})
mask_2012 = table['Year'].values == 2012
total_2012 = table[mask_2012]
total_2012 = total_2012.groupby(by="Month", observed=False).agg({"Total":  "sum"})
sns.barplot(y="Total", x="Month", data=total_2011, hue="Total", palette=colors, ax=ax[0])
ax[0].set_ylabel(None)
ax[0].set_xlabel(None)
ax[0].set_title("Bulan 2011", loc="center", fontsize=18)
ax[0].set_ylim(0, 700000)
ax[0].tick_params(axis ='x', labelsize=15)
sns.barplot(y="Total", x="Month", data=total_2012, hue="Total", palette=colors, ax=ax[1])
ax[1].set_ylabel(None)
ax[1].set_xlabel(None)
ax[1].set_title("Bulan 2012", loc="center", fontsize=18)
ax[1].set_ylim(0, 700000)
ax[1].tick_params(axis ='x', labelsize=15)
plt.suptitle("Total Peminjaman Berdasarkan Bulan", fontsize=20)
plt.show()

Berdasarkan data yang telah diperoleh dan diolah dengan barchart, maka bulan dengan peminjam sepeda terbanyak jatuh pada bulan Juni 2011 dengan sebanyak 143.512 dan untuk di tahun 2012 adalah pada bulan September sebanyak 218.573.

### Pertanyaan 2:

Musim Dengan Jumlah Perentalan terbanyak ada pada musim?

In [None]:
table.groupby(by=["Year", "Season"], observed=False).agg({"Total":  "sum"})

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(20, 6))
colors = ["#FFB4C2", "#9DBDFF", "#a2c4c9","#72BCD4"]
years_2011 = table['Year'].values == 2011
total_2011 = table[mask_2011]
total_2011 = total_2011.groupby(by="Season", observed=False).agg({"Total":  "sum"})
years_2012 = table['Year'].values == 2012
total_2012 = table[mask_2012]
total_2012 = total_2012.groupby(by="Season", observed=False).agg({"Total":  "sum"})
sns.barplot(y="Total", x="Season", data=total_2011, hue="Total", palette=colors, ax=ax[0])
ax[0].set_ylabel(None)
ax[0].set_xlabel(None)
ax[0].set_title("By Season (2011)", loc="center", fontsize=18)
ax[0].set_ylim(0, 700000)
ax[0].tick_params(axis ='x', labelsize=15)
sns.barplot(y="Total", x="Season", data=total_2012, hue="Total", palette=colors, ax=ax[1])
ax[1].set_ylabel(None)
ax[1].set_xlabel(None)
ax[1].set_title("By Season (2012)", loc="center", fontsize=18)
ax[1].set_ylim(0, 700000)
ax[1].tick_params(axis ='x', labelsize=15)
plt.suptitle("Total Peminjaman Berdasarkan Musim", fontsize=20)
plt.show()

Berdasarkan data yang telah diperoleh dan diolah dengan barchart, maka musim dengan peminjam sepeda terbanyak jatuh pada Musim Gugur dimana terdapat sebanyak 419.650 pada tahun 2011 dan 571.273 pada tahun 2012

### Pertanyaan 3:

Perbandingan Antara Peminjam Sepeda dengan kategori Pengguna Terdaftar Diaplikasi dengan Pengguna Tidak Terdaftar Diaplikasi?

Untuk mempermudah visualisasi data, dengan mengkategorikan data berdasarkan Tahun, dan Bulan. berikut adalah hasil dari perbandingan antara peminjam 'Pengguna Tidak Terdaftar' dan peminjam 'Pengguna Terdaftar' pada bisnis "Bike Sharing":

In [None]:
data_compare = table.groupby(by=["Year", "Month"], observed=False).agg({'Pengguna Tidak Terdaftar' : 'sum','Pengguna Terdaftar' : 'sum','Total':  'sum',})
data_compare["difference"] = data_compare["Pengguna Terdaftar"] - data_compare["Pengguna Tidak Terdaftar"]
data_compare["diff_percent"] = round(data_compare["difference"] / data_compare["Total"] * 100, 2)
data_compare

Karena selisih peminjam antara kedua jenis pengguna sangat bervariasi, kita hitung rata-ratanya agar lebih mudah dipahami. Berikut adalah rata-rata selisih tersebut:

In [None]:
round(data_compare.diff_percent.mean(), 2)

berdasarkan hasil diatas diketahuai rata rata yang didapat adalah 64.4% antara peminjam 'Pengguna Tidak Terdaftar' dan peminjam 'Pengguna Terdaftar'

In [None]:
years_2011 = table['Year'].values == 2011
user_2011 = table[years_2011]
user_2011 = user_2011.groupby(by="Month", observed=False).agg({'Pengguna Tidak Terdaftar' : 'sum','Pengguna Terdaftar' : 'sum','Total':  'sum',})
years_2012 = table['Year'].values == 2012
user_2012 = table[years_2012]
user_2012 = user_2012.groupby(by="Month", observed=False).agg({'Pengguna Tidak Terdaftar' : 'sum','Pengguna Terdaftar' : 'sum','Total':  'sum',})
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(20, 6))
ax[0].plot(months, user_2011['Pengguna Terdaftar'], label='Pengguna Terdaftar', marker="o", color='#72BCD4', figure=fig)
ax[0].plot(months, user_2011['Pengguna Tidak Terdaftar'], label='Pengguna Tidak Terdaftar', marker="*", color='#e06666', figure=fig)
ax[0].set_title("2011", loc="center", fontsize=20)
ax[0].set_ylim(0, 200000)
ax[0].legend()
ax[1].plot(months, user_2012['Pengguna Terdaftar'], label='Registered User', marker="o", color='#72BCD4', figure=fig)
ax[1].plot(months, user_2012['Pengguna Tidak Terdaftar'], label='Pengguna Tidak Terdaftar', marker="*", color='#e06666', figure=fig)
ax[1].set_title("2012", loc="center", fontsize=20)
ax[1].set_ylim(0, 200000)
ax[1].legend()
plt.suptitle("Rental Perbulan", fontsize=20)
plt.show()

### Pertanyaan 4:

Apa penyebab terjadinya penurunan perentalan dan seberapa buruk dampaknya di bulan Sep, Okt, Nov Tahun 2012?

Pada tanggal 29 Oktober 2012 terjadilah sebuah bencana alam yang bernama Hurricane Sandy, yang memiliki dampak yang buruk pada perekonomian USA, hal ini juga merambat pada bisnis Bike Sharing ,Data menunjukkan dampak Badai Sandy terhadap bisnis penyewaan sepeda, khususnya pada kategori 'Day'. Dampaknya divisualisasikan dalam tabel dan grafik:

In [None]:
years_2012 = table['Year'].values == 2012
data_2012 = table[years_2012]
month_sep = data_2012['Month'].values == 'Sep'
data_sep = data_2012[month_sep]
month_oct = data_2012['Month'].values == 'Oct'
data_oct = data_2012[month_oct]
month_nov = data_2012['Month'].values == 'Nov'
data_nov = data_2012[month_nov]
data_sep = data_sep.groupby(by="Day", observed=True).agg({'Day': 'unique','Total':  'sum'})
data_oct = data_oct.groupby(by="Day", observed=True).agg({'Day': 'unique','Total':  'sum'})
data_nov = data_nov.groupby(by="Day", observed=True).agg({'Day': 'unique','Total':  'sum'})
data_merge = data_oct
data_merge['Sep'] = data_sep['Total']
data_merge['Oct'] = data_oct['Total']
data_merge['Nov'] = data_nov['Total']
data_merge

In [None]:
plt.figure(figsize=(12, 6))
plt.plot(data_sep['Day'], data_sep['Total'], marker="o", label='Sep', color='#FFB4C2')
plt.plot(data_oct['Day'], data_oct['Total'], marker="*", label='Oct', color='#9DBDFF')
plt.plot(data_nov['Day'], data_nov['Total'], marker="s", label='Nov', color='#a2c4c9')
plt.title('Perentalan Sepeda Pada Bulan Sep, Okt, Nov Tahun 2012', size=18)
plt.xlabel('Tanggal',size=15)
plt.ylabel('Perentalan',size=15)
plt.xticks(np.arange(1, 32, 1))
plt.yticks(np.arange(0, 10000, 1000))
plt.ylim(0, 10000)
plt.xlim(0, 31)
plt.legend()
plt.show()

Bisnis penyewaan sepeda mengalami penurunan drastis saat Badai Sandy (29-30 Oktober 2012), tetapi berhasil pulih dengan cepat.

## Analisis Lanjutan (Opsional)

## Conclusion

1.Bulan Dengan Jumlah Pengguna Sepeda Terbanyak ada pada Bulan?
Berdasarkan data yang telah diperoleh dan diolah dengan barchart, maka bulan dengan peminjam sepeda terbanyak jatuh pada bulan Juni 2011 dengan
sebanyak 143.512 dan untuk di tahun 2012 adalah pada bulan September sebanyak 218.573.

2.Musim Dengan Jumlah Perentalan terbanyak ada pada musim?
Berdasarkan data yang telah diperoleh dan diolah dengan barchart, maka musim dengan peminjam sepeda terbanyak jatuh pada Musim Gugur dimana terdapat sebanyak 419.650 pada tahun 2011 dan 571.273 pada tahun 2012

3.Perbandingan Antara Peminjam Sepeda dengan kategori Pengguna Terdaftar Diaplikasi dengan Pengguna Tidak Terdaftar Diaplikasi?
rata rata yang didapat adalah 64.4% antara peminjam 'Pengguna Tidak Terdaftar' dan peminjam 'Pengguna Terdaftar'

4.Apa penyebab terjadinya penurunan perentalan dan seberapa buruk dampaknya di bulan Sep, Okt, Nov Tahun 2012?
Bisnis penyewaan sepeda mengalami penurunan drastis saat Badai Sandy (29-30 Oktober 2012), tetapi berhasil pulih dengan cepat.