# Proyek Analisis Data: Bike Sharing (day.csv)
- **Nama:** Dhiyaksa Rama Sathia
- **Email:** dhiyaksarama@gmail.com
- **ID Dicoding:** dhiyaksa

# Deskripsi Proyek

Proyek ini bertujuan untuk menganalisis data bike sharing, yaitu sebuah data yang berisi tentang perkembangan bisnis rental sepeda dari tahun 2011-2012 yang dipengaruhi oleh beberapa faktor seperti musim, cuaca, temperatur udara, dan jenis hari (libur atau hari kerja).

Proses analisis data dimulai dari:
1. Menentukan pertanyaan bisnis sebagai kompas agar proses analisis data memiliki tujuan sesuai kebutuhan bisni.
2. Mengimport semua library yang dibutuhkan selama proses analisis data.
3. Data wrangling, yang di dalamnya terdapat assesing data dan cleaning data.
4. Exploratory Data Analysis (EDA)
5. Data Visualization
6. Pengembangan Dashboard

# Menentukan Pertanyaan binis

1. Apakah musim berpengaruh terhadap jumlah penyewa sepeda?
2. Bagaimana perbandingan pengguna sepeda casual dan teregistrasi berdasarkan musim?
3. Bagimana perbandingan pengguna rental sepeda antara hari libur dan hari kerja?
4. Bagaimana tren jumlah penyewa sepeda selama 24 bulan?

# immport libary yang dibutuhkan

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import streamlit as st
from babel.numbers import format_currency
sns.set(style='dark')

# Data Wrangling

## Gathering Data

### Import Data

Dataset yang digunakan adalah data bike sharing per day yaitu data rental sepeda berdasarkan hari
* Proses pengumpulan dilakukan dengan  meengkoneksikan file ipynb ke googlie drive untuk mengimpor data yang akan di analisis
* Setelah google drive terkoneksi, langkah selanjutnya adalah mengimport data yang akan dianalisis dengan perintah pd.read_formatfile('file_path') dan menyimpannya ke dalam variabel bernama df

### Insight

**Insight:**
- Data Terdiri dari 731 baris dan 16 kolom
- Arti dari setiap kolom:
-instant: index
-dteday:  tanggal
-season: musim (1:Springer, 2:Summer, 3:Fall, 4:winter)
-yr: tahun (0: 2011, 1: 2012)
-mnth: bulan (1-12)
-holiday: apakah hari libur atau bukan
-weekday: jumlah hari dalam seminggu
-workingday: (0:hari libur, 1:bukan hari libur)
-weathersit:
-1: Clear, Few clouds, Partly cloudy, Partly cloudy
-2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
-3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
-4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
-temp: suhu normal dalam celcius (setiap value dibagi 41)
-atemp: feeling temperature dalam celcius (setiap value dibagi 50)
-hum: tingkat kelembapan (setiap value dibagi 100)
-windspeed: kedepatan angin (setiap value dibagi 67)
-casual: count pengguna kasual
-registered: count pengguna yang sudah terdaftar
-cnt: count jumlah pengguna casual dan registered

## Assesing Data

Proses ini bertujuan untuk mengidentifikasi masalah yang ada dalam data dan memastikan data berkualitas. Masalah yang diidentifikasi yaitu:
1. Tissing value
2. Duplicate value
3. Tipe data yang tidak sesuai

### Insight

**Insight:**
- Tidak terdapat nilai null
- Tidak terdapat Nilai yang terduplikasi
- Tipe data sudah sesuai yang berarti tidak terdapat inconcistent value atau inacurate value

## Cleaning Data

Jika masalah ditemukan dalam data, maka data tersebut harus dibersihkan agar data berkualitas sehingga  memperlancar proses analisis. Kebetulan pada data ini tidak terdapat missing value dan duplicate data, hanya tipe data yang tidak sesuai untuk variabel dteday yang harusnya bertipe datetime bukan object. Maka pembersihan data dilakukan dengan mengganti tipe data tersebut dari object ke datetime.

### Insight

**Insight:**
- Karen tidak terdapat missing value, dupilacte data, dan inacurate value maka data bisa dikatakn sudah bersih
- tipe data dteday sudah diganti dari object ke datetime untuk mempermudah proses analisis data

# Exploratory Data Analysis (EDA)

Proses EDA dilakukan untuk mengksplorasi parameter statistic dari data sehingga mendapatkan insight dari data. Proses eda dilakukan dengan cara:
1. Mendeskripsikan parameter statistic yang terdiri dari count, mean, min, max, dan standard deviation.
2. Mengelompokan data, data yang dikelompokan adalah:
* jumlah perental sepeda berdasarkan musim dan cuaca
dan menyimpannya ke dalam variable season_corr
* jumlah perental sepeda casual dan teregistrasi berdasarkan musim
dan menyimpannya ke dalam variabel user_comparison
* perbandingan pengguna rental sepeda casual dan registered beradasarkan hari libur dan hari kerja
dan menyimpannya ke dalam variabel workingday_comparison
* perbandingan jumlah penyewa casual dan registrered berdasarkan musim

Data yang dikelompokan harus bisa mewakili jawaban untuk setiap pertanyaan bisnis yang telah ditentukan

## Insight

**Insight:**
- Berdasarkan tabel season_corr, rental sepeda paling banyak dilakukan pada musim gugur dengan kondisi cuaca Clear, Few clouds, Partly cloudy, Partly cloudy. Dan rental paling sedikit terjadi di musim panas dengan kondis cuaca Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered cloud
- Berdasarkan tabel user_comparison baik pengguna casual maupun yang sudah terigstrasi keduanya paling banyak melakukan rental sepeda di musim gugur dan paling sedikit di musim semi
- Berdasarkan tabel workingday_comparison pengguna paling banyak melakukan rental sepeda pada hari kerja daripada hari libur.

# Data Visualization

Yaitu proses memvisualisasikan data yang sudah dikelomokan untuk mempermudah mengambil insight dari data tersebut. Data-data yang divisualisasikan adalah:
1. Membuat bar chart untuk melihat pengaruh Musim dan Cuaca terhadap Jumlah Penyewa Sepeda.
2. Membuat grafik bar chart perbandingan jumlah penyewa casual dan registrered berdasarkan musim
3. Membuat grafik bar chart perbandingan jumlah penyewa casual dan registrered berdasarkan hari libur dan hari kerja.
4. Membuat line chart untuk melihat trend jumlah user selama 24 bulan

Setiap visualisasi data harus mewakili jawaban setiap pertanyaan bisnis yang telah ditentukan

## Insight

**Insight:**
- Pada bar chart untuk tabel season_corr dapat dilihat bahwa kebanyakan rental sepeda terjadi pada saat cuaca Clear, Few clouds, Partly cloudy, Partly cloudy, terutama pada saat musim gugur atau fall.
- Pada grafik bar chart user_comparison terlihat bahwa kedua jenis penyewa paling banyak menyewa sepeda pada saat musim gugur atau fall.
- Pada bar chart tabel workingday_compariosn, terdapat perbedaan jumlah penyewa sepeda. Untuk pengguan casual, mereka lebih banyak merental sepeda di hari libur. Sedangkan pengguna registered paling banyak melakukan rental sepeda di hari kerja.
- Line chart untuk tabel ueser_trend menunjukan bahwa tren penyewa sepeda baik casual maupun registered masih fluktuatif namun keduanya memiliki pola yang hampir sama.

# Conclusion

- Conclution pertanyaan 1 : Kebanyakan rental sepeda terjadi pada saat cuaca Clear, Few clouds, Partly cloudy, Partly cloudy, terutama pada saat musim gugur atau fall.
-Conclution pertanyaan 2: Musim gugur atau fall adalah musim dimana rental sepeda paling banyak terjadi baik oleh penyewa casual maupun penyewa registered.
-Conclution pertanyaan 3: Penyewa casual paling banyak ada pada hari libur sedangkan penyewa registered paling banyak di hari kerja.
-Conclution pertanyaan 4: Tren penyewa sepeda baik casual maupun registered masih fluktuatif namun keduanya memiliki pola yang hampir sama.

# Pengembangan Dashboard

Setelah proses analisis data selesai, data yang sudah dibersihkan kemudian disimpan dalam format csv untuk dilakukan proses pengembangan dashboard. Proses pengenmbangan dashbord dilakukan menggunakan aplikasi streamlit. Proses pemogramannya dilakukan di code editor visual studio code.