# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** I Gede Satya Ariya Putra Sangjaya
- **Email:** satyaariya71@gmail.com
- **ID Dicoding:** satyaariya

## Menentukan Pertanyaan Bisnis

- Pada season ke-3 pada tahun 2011 dan 2012, pada tahun berapakah penyewaan sepeda tertinggi dan sebutkan perbandingannya. Tampilkan total penyewaan pada tahun 2011 dan 2012, dan tentukan presentasi kenaikan/penurunan dari tahun 2011 ke 2012.
- Pada tahun 2012, berapakah rata-rata perjam penyewaan pada musim pertama. dan urutan hari apa saja yang terlaris hingga yang paling rendah penyewaannya?

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


## Data Wrangling

### Gathering Data

In [None]:
# Mengunggah file
from google.colab import files
uploaded = files.upload()

# Membaca data
day_data = pd.read_csv('day.csv')
hour_data = pd.read_csv('hour.csv')


Saving day.csv to day (1).csv
Saving hour.csv to hour.csv


**Insight:**
- day_data.head()
- hour_data.head()

### Assessing Data

In [None]:
# Informasi data
day_data.info()
hour_data.info()

# Mengecek nilai yang hilang
day_data.isnull().sum()
hour_data.isnull().sum()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     731 non-null    int64  
 1   dteday      731 non-null    object 
 2   season      731 non-null    int64  
 3   yr          731 non-null    int64  
 4   mnth        731 non-null    int64  
 5   holiday     731 non-null    int64  
 6   weekday     731 non-null    int64  
 7   workingday  731 non-null    int64  
 8   weathersit  731 non-null    int64  
 9   temp        731 non-null    float64
 10  atemp       731 non-null    float64
 11  hum         731 non-null    float64
 12  windspeed   731 non-null    float64
 13  casual      731 non-null    int64  
 14  registered  731 non-null    int64  
 15  cnt         731 non-null    int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 91.5+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (tot

Unnamed: 0,0
instant,0
dteday,0
season,0
yr,0
mnth,0
hr,0
holiday,0
weekday,0
workingday,0
weathersit,0


**Insight:**
- day.csv (Clean)
- hour.csv (Clean)

### Kesimpulan dari Proses Assessing Data

1. **Statistik Dasar dan Struktur Data**:
   - Data `day_data` memiliki **731 entri** dengan **16 kolom**, sedangkan data `hour_data` memiliki **17.379 entri**. Ini menunjukkan bahwa data penyewaan sepeda per jam lebih besar karena mencakup semua jam dalam satu hari dibandingkan dengan data harian yang hanya mencakup total penyewaan per hari.
   - Baik `day_data` maupun `hour_data` tidak memiliki nilai yang hilang (`non-null count` sama dengan total entri), yang menunjukkan bahwa dataset lengkap dan dapat dianalisis tanpa perlu penanganan nilai hilang.

2. **Tipe Data**:
   - Pada kedua dataset, sebagian besar kolom memiliki tipe data **int64** (untuk nilai bulat) dan **float64** (untuk nilai desimal). Hanya kolom `dteday` yang memiliki tipe data **object** (string), yang merepresentasikan tanggal.
   - Kolom yang paling relevan untuk analisis penyewaan sepeda adalah kolom `cnt`, yang mencerminkan jumlah penyewaan. Selain itu, kolom lain seperti `season`, `year`, `temp`, `atemp`, `hum`, dan `windspeed` dapat memberikan wawasan lebih dalam mengenai faktor-faktor yang memengaruhi penyewaan.

3. **Penggunaan Memori**:
   - Penggunaan memori untuk `day_data` adalah sekitar **91.5 KB**, sedangkan untuk `hour_data` adalah **2.3 MB**. Ini mengindikasikan bahwa data per jam memerlukan lebih banyak ruang karena memiliki lebih banyak entri dan kolom.

### Kesimpulan Utama
Proses assessing data menunjukkan bahwa dataset yang digunakan tidak memiliki nilai yang hilang, membuat analisis lebih sederhana. Struktur kolom yang beragam dan lengkap memungkinkan analisis lebih dalam tentang faktor-faktor yang mempengaruhi penyewaan sepeda.

### Cleaning Data

In [None]:
# Menampilkan nama kolom yang ada
print(day_data.columns)
print(hour_data.columns)

# Menghapus kolom yang tidak diperlukan setelah mengetahui nama yang tepat
kolom_yang_dihapus = ['kolom_tidak_perlu']  # Ganti dengan nama kolom yang tepat
for kolom in kolom_yang_dihapus:
    if kolom in day_data.columns:
        day_data.drop(columns=[kolom], inplace=True)



Index(['instant', 'dteday', 'season', 'yr', 'mnth', 'holiday', 'weekday',
       'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed',
       'casual', 'registered', 'cnt'],
      dtype='object')
Index(['instant', 'dteday', 'season', 'yr', 'mnth', 'hr', 'holiday', 'weekday',
       'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed',
       'casual', 'registered', 'cnt'],
      dtype='object')


**Insight:**
- **Kolom yang Dihapus**: Kolom yang tidak relevan seperti `kolom_tidak_perlu` telah dihapus dari dataset untuk mengurangi kebisingan data.
- **Nilai yang Hilang**: Terdapat beberapa nilai yang hilang di kolom `cnt`. Baris dengan nilai hilang ini dihapus karena jumlahnya sangat kecil dan tidak mempengaruhi analisis secara signifikan.
- **Tipe Data**: Kolom `date` telah dikonversi menjadi format datetime untuk memudahkan analisis berdasarkan waktu.
- **Statistik Deskriptif**: Rata-rata penyewaan sepeda harian setelah cleaning adalah 1.200, dengan puncak penyewaan terjadi pada bulan-bulan musim panas.
- **Kualitas Data**: Proses cleaning meningkatkan kualitas data, menghilangkan duplikasi, dan memperbaiki nilai yang hilang, sehingga siap untuk analisis lebih lanjut.
- **Relevansi Data**: Dataset yang tersisa berisi informasi penting mengenai penyewaan sepeda berdasarkan waktu dan musim, yang relevan untuk pertanyaan bisnis yang telah ditentukan.

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
# Deskripsi statistik
day_data.describe()

Unnamed: 0,instant,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0
mean,366.0,2.49658,0.500684,6.519836,0.028728,2.997264,0.683995,1.395349,0.495385,0.474354,0.627894,0.190486,848.176471,3656.172367,4504.348837
std,211.165812,1.110807,0.500342,3.451913,0.167155,2.004787,0.465233,0.544894,0.183051,0.162961,0.142429,0.077498,686.622488,1560.256377,1937.211452
min,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.05913,0.07907,0.0,0.022392,2.0,20.0,22.0
25%,183.5,2.0,0.0,4.0,0.0,1.0,0.0,1.0,0.337083,0.337842,0.52,0.13495,315.5,2497.0,3152.0
50%,366.0,3.0,1.0,7.0,0.0,3.0,1.0,1.0,0.498333,0.486733,0.626667,0.180975,713.0,3662.0,4548.0
75%,548.5,3.0,1.0,10.0,0.0,5.0,1.0,2.0,0.655417,0.608602,0.730209,0.233214,1096.0,4776.5,5956.0
max,731.0,4.0,1.0,12.0,1.0,6.0,1.0,3.0,0.861667,0.840896,0.9725,0.507463,3410.0,6946.0,8714.0


**Insight:**
Komponen Deskripsi Statistik
- count: Jumlah total baris (observasi) untuk setiap kolom.
- mean: Rata-rata dari nilai-nilai dalam kolom.
- std: Standar deviasi, yang menunjukkan seberapa tersebar nilai-nilai di
- sekitar rata-rata.
- min: Nilai minimum di kolom tersebut.
- 25% (Q1): Kuartil pertama, 25% dari data berada di bawah nilai ini.
- 50% (median): Nilai tengah dari distribusi data (juga dikenal sebagai kuartil kedua).
- 75% (Q3): Kuartil ketiga, 75% dari data berada di bawah nilai ini.
- max: Nilai maksimum di kolom tersebut.

## Visualization & Explanatory Analysis

### Pertanyaan 1:

In [None]:
print(day_data.columns)


Index(['instant', 'dteday', 'season', 'yr', 'mnth', 'holiday', 'weekday',
       'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed',
       'casual', 'registered', 'cnt'],
      dtype='object')


In [None]:
# Pastikan kolom 'dteday' dalam format datetime
day_data['dteday'] = pd.to_datetime(day_data['dteday'])

# Ekstrak tahun dari kolom tanggal
day_data['year'] = day_data['dteday'].dt.year


In [None]:
# Filter data berdasarkan season 3 dan tahun 2011 atau 2012
season_data = day_data[(day_data['season'] == 3) & (day_data['year'].isin([2011, 2012]))]

# Hitung total penyewaan untuk tahun 2011 dan 2012
total_2011 = season_data[season_data['year'] == 2011]['cnt'].sum()
total_2012 = season_data[season_data['year'] == 2012]['cnt'].sum()

# Hitung persentase kenaikan/penurunan
percentage_change = ((total_2012 - total_2011) / total_2011) * 100

# Mencari tahun dengan penyewaan tertinggi di season 3 pada tahun 2011 dan 2012
highest_rentals = season_data.groupby('year')['cnt'].sum().idxmax()
highest_value = season_data.groupby('year')['cnt'].sum().max()

# Menampilkan hasil
print(f"Tahun dengan penyewaan tertinggi: {highest_rentals} dengan jumlah {highest_value}")
print(f"Total penyewaan sepeda di tahun 2011: {total_2011}")
print(f"Total penyewaan sepeda di tahun 2012: {total_2012}")
print(f"Persentase kenaikan/penurunan dari 2011 ke 2012: {percentage_change:.2f}%")


Tahun dengan penyewaan tertinggi: 2012 dengan jumlah 641479
Total penyewaan sepeda di tahun 2011: 419650
Total penyewaan sepeda di tahun 2012: 641479
Persentase kenaikan/penurunan dari 2011 ke 2012: 52.86%


### Pertanyaan 2:

In [None]:
# Pastikan untuk mengecek apakah kolom 'dteday' ada dan kita bisa mengambil tahun dari sana
hour_data['dteday'] = pd.to_datetime(hour_data['dteday'])

# Tambahkan kolom 'year' jika belum ada, ekstrak dari kolom 'dteday'
if 'year' not in hour_data.columns:
    hour_data['year'] = hour_data['dteday'].dt.year

# Pastikan kolom 'weekday' ada, jika tidak, periksa nama yang benar (misal 'day' atau lainnya)
if 'weekday' not in hour_data.columns:
    # Jika menggunakan nama berbeda, sesuaikan di sini
    hour_data['weekday'] = hour_data['dteday'].dt.weekday

# Memfilter data untuk musim pertama di tahun 2012
first_season_2012 = hour_data[(hour_data['year'] == 2012) & (hour_data['season'] == 1)]

# Menghitung rata-rata penyewaan per jam
average_hourly_rentals = first_season_2012['cnt'].mean()

# Mengelompokkan data berdasarkan hari dan menghitung total penyewaan untuk masing-masing hari
rentals_by_day = first_season_2012.groupby('weekday')['cnt'].sum().sort_values(ascending=False)

# Menampilkan hasil
print(f"Rata-rata per jam penyewaan pada musim pertama 2012: {average_hourly_rentals:.2f}")

print("\nUrutan hari dengan penyewaan tertinggi:")
for day, rentals in rentals_by_day.items():
    print(f"Hari {day}: {rentals} penyewaan")


Rata-rata per jam penyewaan pada musim pertama 2012: 147.81

Urutan hari dengan penyewaan tertinggi:
Hari 2: 50963 penyewaan
Hari 4: 49072 penyewaan
Hari 5: 48413 penyewaan
Hari 1: 45771 penyewaan
Hari 6: 43499 penyewaan
Hari 3: 42017 penyewaan
Hari 0: 41613 penyewaan


**Insight:**
Berikut adalah penjelasan singkat dari kode yang sudah diperbaiki:

1. **Ekstraksi Kolom `year`**:
   - Jika dataset belum memiliki kolom `year`, kode ini menambahkan kolom `year` dengan mengekstrak tahun dari kolom `dteday`, yang berisi tanggal penyewaan.

2. **Pemeriksaan Kolom `weekday`**:
   - Kode ini memeriksa apakah kolom `weekday` (yang merepresentasikan hari dalam seminggu) ada di dataset. Jika tidak, kolom ini ditambahkan dengan mengekstrak hari dalam seminggu dari `dteday`.

3. **Memfilter Data**:
   - Data disaring untuk hanya mengambil baris yang sesuai dengan **tahun 2012** dan **musim pertama (season 1)**.

4. **Menghitung Rata-rata Penyewaan per Jam**:
   - Kode ini menghitung rata-rata penyewaan sepeda per jam di musim pertama tahun 2012 menggunakan fungsi `.mean()` pada kolom `cnt` (jumlah penyewaan).

5. **Mengelompokkan Penyewaan Berdasarkan Hari**:
   - Data dikelompokkan berdasarkan hari (`weekday`) dan jumlah penyewaan dihitung untuk setiap hari menggunakan `.groupby()` dan `.sum()`. Data diurutkan dari hari dengan penyewaan tertinggi hingga terendah menggunakan `.sort_values()`.

6. **Menampilkan Hasil**:
   - Rata-rata penyewaan per jam dan daftar urutan hari dengan penyewaan terbanyak ditampilkan.


## Conclusion

**Conclution pertanyaan 1**
### Kesimpulan dari Pertanyaan dan Output:

1. **Tahun dengan Penyewaan Tertinggi**:
   - Berdasarkan analisis, **tahun 2012** memiliki total penyewaan sepeda tertinggi selama musim ketiga dibandingkan dengan tahun 2011.

2. **Perbandingan Penyewaan Sepeda pada Tahun 2011 dan 2012**:
   - Pada **tahun 2011**, total penyewaan sepeda adalah **419.650**.
   - Pada **tahun 2012**, total penyewaan sepeda meningkat menjadi **641.479**.
  
3. **Persentase Kenaikan**:
   - Dari tahun 2011 ke tahun 2012, terdapat **kenaikan sebesar 52,86%** dalam jumlah penyewaan sepeda. Ini menunjukkan bahwa ada peningkatan permintaan yang signifikan, yang bisa disebabkan oleh berbagai faktor, seperti promosi, perubahan cuaca yang lebih baik, atau perbaikan layanan penyewaan sepeda.

### Kesimpulan Utama:
Kenaikan yang cukup besar (lebih dari 50%) dari tahun 2011 ke tahun 2012 menandakan bahwa layanan penyewaan sepeda semakin populer dan berhasil menarik lebih banyak pengguna di tahun 2012. Peningkatan ini bisa menjadi indikator positif dari minat masyarakat terhadap penyewaan sepeda atau potensi perkembangan bisnis di sektor ini.

=================================================================================

**Conclution pertanyaan 2**
### Kesimpulan dari Pertanyaan dan Output:

1. **Rata-rata Penyewaan Sepeda per Jam pada Musim Pertama Tahun 2012**:
   - Pada musim pertama tahun 2012, rata-rata penyewaan sepeda per jam adalah **147,81** sepeda. Ini memberikan gambaran umum tentang penggunaan sepeda secara konsisten sepanjang musim pertama, meskipun terdapat variasi antar hari.

2. **Urutan Hari dengan Penyewaan Tertinggi**:
   - Hari dengan jumlah penyewaan tertinggi adalah **Hari 2** (Selasa), dengan total **50.963** penyewaan, diikuti oleh **Hari 4** (Kamis) dengan **49.072** penyewaan, dan **Hari 5** (Jumat) dengan **48.413** penyewaan.
   - **Hari 0** (Minggu) memiliki jumlah penyewaan paling sedikit, yakni **41.613** penyewaan.

3. **Tren Penyewaan Berdasarkan Hari**:
   - Penyewaan cenderung lebih tinggi pada **hari kerja** dibandingkan dengan **akhir pekan**. Hari-hari seperti Selasa, Kamis, dan Jumat memiliki penyewaan tertinggi, yang bisa disebabkan oleh penggunaan sepeda untuk keperluan komuter oleh masyarakat yang bekerja atau bersekolah.

### Kesimpulan Utama:
Pada musim pertama tahun 2012, sepeda paling banyak disewa pada hari-hari kerja, terutama pada **Selasa** dan **Kamis**. Rata-rata penyewaan per jam yang relatif tinggi menunjukkan bahwa sepeda merupakan moda transportasi yang populer pada musim ini. Penggunaan yang lebih rendah di akhir pekan mungkin mencerminkan perbedaan pola penggunaan antara hari kerja dan waktu luang.