# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Nadia Putri Natali Lubis
- **Email:** lubisputri16@gmail.com
- **ID Dicoding:** nadialubis

## Menentukan Pertanyaan Bisnis

- Bagaimana hubungan antara temperatur cuaca dan banyaknya penyewaan sepeda pada hari itu?
- Apakah terdapat hubungan signifikan antara holiday dan penyewaan sepeda harian?

## Import Semua Packages/Library yang Digunakan

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind

## Data Wrangling

### Gathering Data

In [None]:
day_df = pd.read_csv("data/day.csv")

In [None]:
day_df.info()

**Insight:**
- data yang tersedia merupakan data bike-sharing rent setiap harinya daru tahun 2011 hingga 2012.


### Assessing Data

In [None]:
day_df.isna().sum()

In [None]:
day_df.duplicated().sum()

In [None]:
day_df.describe()

**Insight:**
- Tidak terdapat missing value pada data
- Tidak terdapat duplikasi pada data
- Data yang ada telah akurat dan valid (pengecekan berdasarkan setiap kolom)

### Cleaning Data

**Insight:**
- Define : tidak ditemukan masalah pada tahap assesing data
- Code : tidak diperlukan code untuk cleaning data
- Test : data telah siap dianalisis

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
day_df.sample(5)

Untuk mengetahui hubungan antara temperatur cuaca dan banyaknya penyewaan sepeda pada hari itu, kita perlu mengetahui dan mengeksplorasi fitur temp (temperatur) dan cnt (banyaknya rental) 

Pertama buat dahulu dataframe baru yang berisi fitur 'instant','temp','cnt'.

In [None]:
temp_cnt_df = day_df[['instant','temp','cnt']]

temp_cnt_df.head()

Selanjutnya kita memeriksa distribusi data dengan menggunakan hist()

In [None]:
temp_cnt_df[['temp','cnt']].hist()

Kemudian kita dapat melihat korelasi antara temp dan cnt

In [None]:
temp_cnt_df[['temp','cnt']].corr()

In [None]:
temp_cnt_df[['temp','cnt']].cov()

In [None]:
temp_cnt_df.plot.scatter(x='temp', y='cnt')

**Insight:**

- Menurut pendapat saya, berdasarkan grafik histogram fitur "cnt", distribusi data cukup merata karena tidak terlihat data yang hanya menumpuk di satu sisi.
- Berdasarkan method corr() dan cov() terlihat bahwa terdapat hubungan antara fitur "temp" dan "cnt"
- Hasil scatter plot antara fitur "temp" dan "cnt" menunjukkan positive correlation.

(sumber : readME pada dataset)
- instant: record index
	- dteday : date
	- season : season (1:springer, 2:summer, 3:fall, 4:winter)
	- yr : year (0: 2011, 1:2012)
	- mnth : month ( 1 to 12)
	- hr : hour (0 to 23)
	- holiday : weather day is holiday or not (extracted from http://dchr.dc.gov/page/holiday-schedule)
	- weekday : day of the week
	- workingday : if day is neither weekend nor holiday is 1, otherwise is 0.
	+ weathersit :
		- 1: Clear, Few clouds, Partly cloudy, Partly cloudy
		- 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
		- 3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
		- 4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
	- temp : Normalized temperature in Celsius. The values are divided to 41 (max)
	- atemp: Normalized feeling temperature in Celsius. The values are divided to 50 (max)
	- hum: Normalized humidity. The values are divided to 100 (max)
	- windspeed: Normalized wind speed. The values are divided to 67 (max)
	- casual: count of casual users
	- registered: count of registered users
	- cnt: count of total rental bikes including both casual and registered


## Visualization & Explanatory Analysis

### Pertanyaan 1:

Kita dapat melakukan visualisasi data hubungan antara temperatur cuaca dan banyaknya penyewaan sepeda dengan menggunakan scatter plot.

In [None]:
plt.scatter(temp_cnt_df['temp'],temp_cnt_df['cnt'])

### Pertanyaan 2:

Untuk mengetahui apakah ada hubungan signifikan holiday dan banyaknya penyewaan sepeda, kita perlu mengetahui total rental pada holiday dan non-holiday.

In [None]:
sns.boxplot(x='holiday', y='cnt', data=day_df)
plt.title("Bike Rentals on Holiday vs Non-Holiday")
plt.xlabel("Holiday (1 = Holiday, 0 = Non-Holiday)")
plt.ylabel("Total Rentals")
plt.xticks([0, 1], ['Non-Holiday', 'Holiday'])
plt.show()

Kemudian kita dapat menguji hipotesa

In [None]:
holiday_rentals = day_df[day_df['holiday'] == 1]['cnt']
non_holiday_rentals = day_df[day_df['holiday'] == 0]['cnt']

t_stat, p_value = ttest_ind(holiday_rentals, non_holiday_rentals)

print(f"T-statistic: {t_stat}")
print(f"P-value: {p_value}")

if p_value < 0.05:
    print("There is a significant correlation between holiday and bike rentals (reject the null hypothesis).")
else:
    print("There is no significant correlation between holiday and bike rentals (fail to reject the null hypothesis).")

**Insight:**
- Dengan melakukan EDA dan visualisasi data, saya dapat memperoleh informasi mengenai banyaknya rental sepeda setiap musimnya. Saya juga mengetahui terdapat atau tidaknya hubungan antara Holiday dan banyaknya rental sepeda pada hari itu.

## Analisis Lanjutan (Opsional)

In [None]:
reference_date = day_df['dteday'].max()

rfm_df = day_df.groupby('instant').agg({
'dteday': lambda x: (reference_date - x.max()).days,
'instant': 'count',
'cnt': 'sum'
})

rfm_df.rename(columns={
    'dteday': 'Recency',
    'instant': 'Frequency',
    'cnt': 'Monetary'
    }, inplace=True)

rfm_df.sample(5)

## Conclusion

- Terdapat hubungan positif antara temperatur cuaca dan banyaknya penyewaan sepeda pada hari itu.
- Tidak terdapat korelasi signifikan antara holiday dan total penyewaan sepeda.