# **PROYEK ANALISIS DATA: BIKE SHARING**


*   Nama: Dirga marin Ramadhan
*   Email: dirgamarin2@gmail.com
*   ID dicoding: Dirga Marin Ramadhan





# Menentukan pertanyaan bisnis


*   Apakah bulan dengan banyak hari libur memiliki lebih banyak penggunaan sepeda?
*   Pengguna sepeda lebih terpengaruh oleh suhu atau kecepatan angin?
*   Diantara keduanya mana yang paling banyak menggunakan sepeda, pengguna terdaftar atau tidak terdaftar?
*   Di musim apa sepeda paling banyak di rental?


## Import library

In [None]:
import numpy as np
import pandas as pd
import zipfile
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# DATA WRANGLING

# Gathering Data

In [None]:
# Mengambil data dari google drive
!gdown 1RaBmV6Q6FYWU4HWZs80Suqd7KQC34diQ

In [None]:
#Mengekstrak file zip
content = 'Bike-sharing-dataset.zip'
zip = zipfile.ZipFile(content, 'r')
zip.extractall('data/')
zip.close()

# Load Data

In [None]:
#Load data hour menjadi tabel
dfh = pd.read_csv("data/hour.csv")
dfh

In [None]:
#Load data day menjadi tabel
dfd = pd.read_csv("data/day.csv")
dfd

# Data Assesing

In [None]:
#Mencari missing value
missing_values = dfh.isnull().sum()
missing_values

In [None]:
missing_values = dfd.isnull().sum()
missing_values

In [None]:
#Mencari data duplikat
duplicate_rows = dfh.duplicated().sum()
duplicate_rows

In [None]:
duplicate_rows = dfd.duplicated().sum()
duplicate_rows

In [None]:
#Menampilkan statistik deskriptif data file hour
dfh.describe()

In [None]:
#Menampilkan statistik deskriptif data file day
dfd.describe()

# Data Cleaning


In [None]:
# Merubah nama kolom
dfh.rename(columns={'yr':'year',
                    'mnth':'month',
                    'hum':'humidity',
                    'cnt':'count',
                    'dteday':'Datetime',
                    'hr':'Hour'
                    }, inplace=True)

# Merubah huruf awal kolom menjadi kapital
dfh.columns = dfh.columns.str.title()


dfh

In [None]:
# Merubah nama kolom
dfd.rename(columns={'yr':'year',
                    'mnth':'month',
                    'hum':'humidity',
                    'cnt':'count',
                    'dteday':'Datetime'
                    }, inplace=True)

# Merubah huruf awal kolom menjadi kapital
dfd.columns = dfd.columns.str.title()

# Mengubah kolom datetime menjadi indeks
dfd['Datetime'] = pd.to_datetime(dfd['Datetime'])
dfd.set_index('Datetime', inplace=True)

dfd

# EDA

In [None]:
#Apakah bulan dengan banyak hari libur memiliki lebih banyak penggunaan sepeda?
dfd.groupby(by=["Year", "Month"]).agg({
    "Holiday": "sum",
    "Workingday": "sum",
    "Count": "sum"
})

In [None]:
#Apakah pengguna sepeda lebih terpengaruh oleh suhu atau kecepatan angin?
correlation_weather = dfd[['Temp', 'Windspeed', 'Count']].corr()

correlation_weather['Count'].sort_values(ascending=True)

In [None]:
#Diantara keduanya mana yang paling banyak menggunakan sepeda, pengguna terdaftar atau tidak terdaftar?
dfd.groupby(by="Year").agg({"Registered": "sum","Casual": "sum"})

Musim


*   1 : Spring
*   2 : Summer

*   3 : Fall
*   4 : Winter




In [None]:
#Di musim apa sepeda paling banyak di rental?
dfd.groupby('Season').Count.sum().sort_values(ascending=False)

## Visualization & Explanatory Analysis

No 1
Apakah bulan dengan banyak hari libur memiliki lebih banyak penggunaan seped

In [None]:
#Apakah bulan dengan banyak hari libur memiliki lebih banyak penggunaan sepeda
grouped_data = dfd.groupby(by=["Year", "Month"]).agg({
    "Holiday": "sum",
    "Workingday": "sum",
    "Count": "sum"
}).reset_index()

plt.figure(figsize=(10, 6))
sns.scatterplot(x='Holiday', y='Count', data=grouped_data, hue='Month', palette='tab20', s=100)

# Menambahkan judul dan label
plt.title('Hubungan Antara Jumlah Hari Libur dan Penggunaan Sepeda per Bulan')
plt.xlabel('Jumlah Hari Libur')
plt.ylabel('Jumlah Penggunaan Sepeda')

# Menampilkan legenda untuk bulan
plt.legend(title='Month', bbox_to_anchor=(1.05, 1), loc='upper left')

# Menampilkan plot
plt.tight_layout()
plt.show()

Dilihat dari hasil visualisasi data diatas, banyaknya hari libur tidak menentukan banyaknya pengguna sepeda pada bulan tersebut.

No 2 Apakah pengguna sepeda lebih terpengaruh oleh suhu atau kecepatan angin?

In [None]:
#Apakah pengguna sepeda lebih terpengaruh oleh suhu atau kecepatan angin?
correlation_weather = dfd[['Temp', 'Windspeed', 'Count']].corr()

# Membuat heatmap untuk melihat korelasi antar variabel
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_weather, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Heatmap Korelasi Antara Suhu, Kecepatan Angin, dan Penggunaan Sepeda')
plt.show()

In [None]:
# Membuat figure dan axis untuk plot
plt.figure(figsize=(12, 6))

# Scatter plot untuk suhu vs penggunaan sepeda
plt.subplot(1, 2, 1)  # 1 baris, 2 kolom, plot pertama
sns.scatterplot(x='Temp', y='Count', data=dfd, color='blue')
plt.title('Hubungan antara Suhu dan Penggunaan Sepeda')
plt.xlabel('Suhu (Temp)')
plt.ylabel('Jumlah Penggunaan Sepeda (Count)')

# Scatter plot untuk kecepatan angin vs penggunaan sepeda
plt.subplot(1, 2, 2)  # 1 baris, 2 kolom, plot kedua
sns.scatterplot(x='Windspeed', y='Count', data=dfd, color='red')
plt.title('Hubungan antara Kecepatan Angin dan Penggunaan Sepeda')
plt.xlabel('Kecepatan Angin (Windspeed)')
plt.ylabel('Jumlah Penggunaan Sepeda (Count)')

# Menambahkan layout yang lebih rapat
plt.tight_layout()

# Menampilkan plot
plt.show()

Bedasarkan diagram diatas dapat disimpulkan bahwa suhu dan kecepatan angin berpengaruh pada banyaknya pengguna sepeda. Pada bagian suhu semakin nilai suhunya kecil maka pengguna sepeda sedikit. Sementara pada kecepatan angin pengguna sepeda tidak terlalu berpengaruh besar dengan banyaknya pengguna sepeda.

No 3 Diantara keduanya mana yang paling banyak menggunakan sepeda, pengguna terdaftar atau tidak terdaftar?

In [None]:
# Menjumlahkan total pengguna terdaftar dan tidak terdaftar di seluruh dataset
total_data = dfd[['Registered', 'Casual']].sum().reset_index()
total_data.columns = ['User Type', 'Total']

# Membuat plot
plt.figure(figsize=(8, 6))

# Membuat bar plot untuk menampilkan total pengguna terdaftar dan tidak terdaftar
sns.barplot(x='User Type', y='Total', data=total_data, palette='viridis')

# Menambahkan judul dan label
plt.title('Total Penggunaan Sepeda: Terdaftar vs Tidak Terdaftar', fontsize=14)
plt.xlabel('Tipe Pengguna')
plt.ylabel('Jumlah Pengguna Sepeda (Data Asli)')

# Menampilkan plot
plt.tight_layout()
plt.show()

Dari data diatas dapat disimpulkan bahwa pengguna paling banyak didapatkan oleh pengguna yang terdaftar dengan total pengguna lebih dari 2,5jt.

No 4 Di musim apa sepeda paling banyak di rental?

In [None]:
# Mengelompokkan data berdasarkan musim dan menghitung total pengguna
seasonal_rentals = dfd.groupby('Season').agg({'Count': 'sum'}).sort_values('Count', ascending=False)

# Membuat visualisasi bar plot untuk perbandingan jumlah sepeda yang disewa per musim
plt.figure(figsize=(8, 6))
sns.barplot(x=seasonal_rentals.index, y=seasonal_rentals['Count'], palette='viridis')

# Menambahkan judul dan label
plt.title('Jumlah Sepeda yang Disewa per Musim', fontsize=14)
plt.xlabel('Musim')
plt.ylabel('Jumlah Pengguna Sepeda')

# Mengatur format sumbu y agar menampilkan angka ribuan
plt.gca().get_yaxis().set_major_formatter(plt.FuncFormatter(lambda x, loc: f"{int(x):,}"))

# Menampilkan plot
plt.tight_layout()
plt.show()

Dari data diatas menunjukan bahwa pengguna sepeda paling banyak pada musim gugur, bisa jadi karena cuaca di musim gugur yang sejuk dengan pemandangan gugurnya daun pohon yang membuat kesan romantis.