<a href="https://colab.research.google.com/github/raddva/bike-sharing-dataset/blob/main/notebook.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Nadya Auradiva
- **Email:** nadyaworkspaces@gmail.com
- **ID Dicoding:** raddva

## Menentukan Pertanyaan Bisnis

- Bagaimana cuaca memengaruhi penyewaan sepeda?
- Apakah terdapat perbedaan signifikan dalam penyewaan sepeda pada hari kerja dibandingkan dengan akhir pekan?

## Import Semua Packages/Library yang Digunakan

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [2]:
day = pd.read_csv("https://raw.githubusercontent.com/raddva/bike-sharing-dataset/refs/heads/main/data/day.csv")
hour = pd.read_csv("https://raw.githubusercontent.com/raddva/bike-sharing-dataset/refs/heads/main/data/hour.csv")

**Insight:**
- Mengumpulkan data yang berasal dari 2 sumber: `day.csv` dan `hour.csv`. Kedua data ini mencakup informasi rinci tentang penyewaan sepeda berdasarkan waktu, cuaca, dan juga suhu.

### Assessing Data

In [3]:
# melihat informasi data
day.info()
hour.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     731 non-null    int64  
 1   dteday      731 non-null    object 
 2   season      731 non-null    int64  
 3   yr          731 non-null    int64  
 4   mnth        731 non-null    int64  
 5   holiday     731 non-null    int64  
 6   weekday     731 non-null    int64  
 7   workingday  731 non-null    int64  
 8   weathersit  731 non-null    int64  
 9   temp        731 non-null    float64
 10  atemp       731 non-null    float64
 11  hum         731 non-null    float64
 12  windspeed   731 non-null    float64
 13  casual      731 non-null    int64  
 14  registered  731 non-null    int64  
 15  cnt         731 non-null    int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 91.5+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (tot

In [4]:
# menampilkan beberapa baris awal data
day.head()
hour.head()

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


In [5]:
# mengecek value yang hilang
day.isnull().sum()
hour.isnull().sum()

Unnamed: 0,0
instant,0
dteday,0
season,0
yr,0
mnth,0
hr,0
holiday,0
weekday,0
workingday,0
weathersit,0


**Insight:**
- Perbedaan antara kedua data tersebut terletak pada kolom `hr` dimana hanya tabel `hour.csv` yang memiliki kolom untuk value tersebut. Kolom `hr` digunakan sebagai nilai yang mencatat jam peminjaman.
- Kedua data tersebut telah berstatus bersih (clean) karena tidak lagi memiliki value yang berisi `null` yang perlu dibersihkan.

### Cleaning Data

In [6]:
# Menghapus atau mengisi nilai yang hilang
hour.dropna(inplace=True)
day.dropna(inplace=True)

# Memeriksa duplikasi
hour.drop_duplicates(inplace=True)
day.drop_duplicates(inplace=True)

**Insight:**
- Menjalankan fungsi `dropna()` dan `drop_duplicates()` untuk menghapus nilai yang hilang dan duplikasi. Namun, karena data sudah bersih (tidak ada nilai hilang atau duplikasi), operasi ini menjadi tidak diperlukan dan tidak memengaruhi dataset.

## Exploratory Data Analysis (EDA)

### Explore

In [12]:
# menggabungkan data
all_data = pd.concat([day, hour], ignore_index=True)

all_data.describe()

Unnamed: 0,instant,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt,hr
count,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,18110.0,17379.0
mean,8354.006405,2.501436,0.502485,6.537051,0.028769,3.003424,0.682772,1.424075,0.496922,0.475718,0.627256,0.190113,68.472336,295.158697,363.631033,11.546752
std,5180.77186,1.107045,0.500008,3.439213,0.16716,2.005677,0.46541,0.63583,0.192177,0.171496,0.191147,0.120851,216.588054,771.555142,950.827954,6.914405
min,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.02,0.0,0.0,0.0,0.0,0.0,1.0,0.0
25%,3797.25,2.0,0.0,4.0,0.0,1.0,0.0,1.0,0.34,0.3333,0.48,0.1045,4.0,37.0,43.0,6.0
50%,8324.5,3.0,1.0,7.0,0.0,3.0,1.0,1.0,0.5,0.4848,0.63,0.188951,18.0,123.0,152.0,12.0
75%,12851.75,3.0,1.0,10.0,0.0,5.0,1.0,2.0,0.66,0.6212,0.78,0.2537,55.0,238.0,305.0,18.0
max,17379.0,4.0,1.0,12.0,1.0,6.0,1.0,4.0,1.0,1.0,1.0,0.8507,3410.0,6946.0,8714.0,23.0


In [13]:
all_data.to_csv('main_data.csv', index=False)

**Insight:**
- Melakukan penggabungan terhadap kedua data dengan `concat()` karena kedua data memiliki struktur yang sama dan tidak saling terhubung satu sama lain.
- Menyimpan dataset gabungan ke file CSV bernama `main_data.csv` tanpa menyertakan indeks, sehingga siap digunakan untuk analisis lebih lanjut.

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana cuaca memengaruhi penyewaan sepeda?


### Pertanyaan 2: Apakah terdapat perbedaan signifikan dalam penyewaan sepeda pada hari kerja dibandingkan dengan akhir pekan?

**Insight:**
- xxx
- xxx

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1
- Conclution pertanyaan 2