# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Kevin Arya Swardhana
- **Email:** kevinaryastarigan@gmail.com
- **ID Dicoding:** <a href='https://www.dicoding.com/users/kevinaryastarigan/' target="_blank">kevinaryastarigan</a>
- **Github:** https://github.com/kevinaryaswardhana/bike-sharing

## Menentukan Pertanyaan Bisnis

**Spesific:**
- 1. Berapa total jumlah sewa sepeda (cnt) selama musim semi (season 1) tahun 2011?

**Measurable:**
- 2. Berapa banyak sepeda yang disewa pada hari kerja (workingday = 0) selama musim gugur (season 3) tahun 2012?

**Action-oriented:**
- 3. Bagaimana cara meningkatkan jumlah sewa sepeda oleh pelanggan terdaftar (registered) pada akhir pekan (holiday = 1)?

**Relevant:**
- 4. Apa korelasi antara kelembapan udara (hum) dengan jumlah pengguna sewa sepeda (cnt)?
- 5. Bagaimana pengaruh kecepatan angin (windspeed) terhadap jumlah sewa sepeda (cnt) selama musim dingin (season 4)?

**Time-bound**
- 6. Berapa distribusi per jam sewa sepeda (cnt) pada Hari Raya Idul Fitri (holiday = 1) tahun 2011 (tahun = 0)?

## Import Semua Packages/Library yang Digunakan

In [1]:
import pandas as pd
import warnings
import plotly.express as px

## Data Wrangling

### Gathering Data

Pada tahap ini, saya akan memilih salah satu dari ketiga dataset yang sudah disediakan oleh Dicoding pada saat ini. Saya memilih dataset **Bike Sharing**, setelahnya saya mengimpor file **day.csv** dan **hr.csv**.

##### **Load Tabel Day**

In [2]:
df_day = pd.read_csv("data/day.csv")
df_day.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
3,4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
4,5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600


##### **Load Tabel Hour**

In [3]:
df_hour = pd.read_csv("data/hour.csv")
df_hour.head()

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


### Assessing Data

##### > **Data Type**

⟪ **Pengecekan Tipe Data** ⟫ Pengecekan tipe data adalah proses penting dalam analisis data untuk memastikan konsistensi dan keakuratan informasi yang diolah.

In [4]:
print("-" * 38)
print('\t   DATAFRAME DAY')
print("-" * 38)
print(df_day.info())

print("\n")

print("-" * 38)
print('\t   DATAFRAME HOUR')
print("-" * 38)
print(df_hour.info())

--------------------------------------
	   DATAFRAME DAY
--------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     731 non-null    int64  
 1   dteday      731 non-null    object 
 2   season      731 non-null    int64  
 3   yr          731 non-null    int64  
 4   mnth        731 non-null    int64  
 5   holiday     731 non-null    int64  
 6   weekday     731 non-null    int64  
 7   workingday  731 non-null    int64  
 8   weathersit  731 non-null    int64  
 9   temp        731 non-null    float64
 10  atemp       731 non-null    float64
 11  hum         731 non-null    float64
 12  windspeed   731 non-null    float64
 13  casual      731 non-null    int64  
 14  registered  731 non-null    int64  
 15  cnt         731 non-null    int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 91.5+ 

(ಥ_ಥ) Setelah melakukan pengamatan pada df_day, ditemukan kesalahan pada jenis data dalam kolom dteday. Awalnya, kolom tersebut teridentifikasi sebagai objek, padahal seharusnya merupakan tipe data datetime. Jadi, Maka dari itu perlu adanya perbaikan tipe data dteday » datetime (⁈)

##### > **Missing Value**

⟪ **Pengecekan Missing Value** ⟫ Proses pengecekan nilai yang hilang dilakukan untuk memastikan integritas dan kualitas data.

In [5]:
print("-" * 15)
print(' DATAFRAME DAY')
print("-" * 15)
print(df_day.isna().sum())

print("\n")

print("-" * 15)
print(' DATAFRAME HOUR')
print("-" * 15)
print(df_hour.isna().sum())

---------------
 DATAFRAME DAY
---------------
instant       0
dteday        0
season        0
yr            0
mnth          0
holiday       0
weekday       0
workingday    0
weathersit    0
temp          0
atemp         0
hum           0
windspeed     0
casual        0
registered    0
cnt           0
dtype: int64


---------------
 DATAFRAME HOUR
---------------
instant       0
dteday        0
season        0
yr            0
mnth          0
hr            0
holiday       0
weekday       0
workingday    0
weathersit    0
temp          0
atemp         0
hum           0
windspeed     0
casual        0
registered    0
cnt           0
dtype: int64


(❁´◡`❁) Setelah melakukan pengecekan pada dataset df_day dan df_hour, tidak ditemukan nilai yang hilang atau kosong. (✓)

##### > **Duplicate Data**

⟪ **Pengecekan Duplicate Data** ⟫ Pengecekan duplikasi data dilakukan untuk memastikan integritas dan keakuratan dataset dengan memeriksa kemungkinan adanya entri ganda atau duplikat.

In [6]:
print("-" * 18)
print('DATAFRAME DAY  :', df_day.duplicated().sum())
print('DATAFRAME HOUR :', df_day.duplicated().sum())
print("-" * 18)

------------------
DATAFRAME DAY  : 0
DATAFRAME HOUR : 0
------------------


(✿◡‿◡) Tidak ada duplikasi data yang ditemukan. (✓)

##### > **Descriptive Statistics**

In [7]:
df_day.describe()

Unnamed: 0,instant,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0
mean,366.0,2.49658,0.500684,6.519836,0.028728,2.997264,0.683995,1.395349,0.495385,0.474354,0.627894,0.190486,848.176471,3656.172367,4504.348837
std,211.165812,1.110807,0.500342,3.451913,0.167155,2.004787,0.465233,0.544894,0.183051,0.162961,0.142429,0.077498,686.622488,1560.256377,1937.211452
min,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.05913,0.07907,0.0,0.022392,2.0,20.0,22.0
25%,183.5,2.0,0.0,4.0,0.0,1.0,0.0,1.0,0.337083,0.337842,0.52,0.13495,315.5,2497.0,3152.0
50%,366.0,3.0,1.0,7.0,0.0,3.0,1.0,1.0,0.498333,0.486733,0.626667,0.180975,713.0,3662.0,4548.0
75%,548.5,3.0,1.0,10.0,0.0,5.0,1.0,2.0,0.655417,0.608602,0.730209,0.233214,1096.0,4776.5,5956.0
max,731.0,4.0,1.0,12.0,1.0,6.0,1.0,3.0,0.861667,0.840896,0.9725,0.507463,3410.0,6946.0,8714.0


In [8]:
df_hour.describe()

Unnamed: 0,instant,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0
mean,8690.0,2.50164,0.502561,6.537775,11.546752,0.02877,3.003683,0.682721,1.425283,0.496987,0.475775,0.627229,0.190098,35.676218,153.786869,189.463088
std,5017.0295,1.106918,0.500008,3.438776,6.914405,0.167165,2.005771,0.465431,0.639357,0.192556,0.17185,0.19293,0.12234,49.30503,151.357286,181.387599
min,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.02,0.0,0.0,0.0,0.0,0.0,1.0
25%,4345.5,2.0,0.0,4.0,6.0,0.0,1.0,0.0,1.0,0.34,0.3333,0.48,0.1045,4.0,34.0,40.0
50%,8690.0,3.0,1.0,7.0,12.0,0.0,3.0,1.0,1.0,0.5,0.4848,0.63,0.194,17.0,115.0,142.0
75%,13034.5,3.0,1.0,10.0,18.0,0.0,5.0,1.0,2.0,0.66,0.6212,0.78,0.2537,48.0,220.0,281.0
max,17379.0,4.0,1.0,12.0,23.0,1.0,6.0,1.0,4.0,1.0,1.0,1.0,0.8507,367.0,886.0,977.0


**> Descriptive Analysis**

1. DATASET DAY:
- Jumlah Data: 731 entri
- Musim Paling Umum: Musim panas (season 2)
- Tahun yang Dominan: 2012 (yr = 1)
- Bulan yang Paling Sering Muncul: Juli (mnth 7)
- Hari Libur: Hanya sekitar 2.87% dari total hari
- Hari Kerja: Mayoritas (sekitar 68.40%)
- Cuaca Rata-rata: Baik (weathersit 1)
- Suhu Rata-rata: Sekitar 0.50 (41°C)
- Suhu Perasaan Rata-rata: Sekitar 0.47 (50°C)
- Kelembaban Rata-rata: Sekitar 0.47 (47%)
- Kecepatan Angin Rata-rata: Sekitar 0.63 (67% dari maksimal)
- Jumlah Pengguna Casual Rata-rata: Sekitar 848
- Jumlah Pengguna Terdaftar Rata-rata: Sekitar 3656
- Total Rental Rata-rata: Sekitar 4504 per hari

2. DATASET HOUR:
- Jumlah Data: 17,379 entri
- Musim (Season): Rata-rata 2.50
- Tahun (Yr): Rata-rata 0.50 (mengindikasikan perbandingan antara tahun 2011 dan 2012)
- Bulan (Mnth): Rata-rata 6.54
- Jam (Hr): Rata-rata 11.55
- Hari Libur (Holiday): Rata-rata 0.03 (persentase hari libur)
- Hari dalam Seminggu (Weekday): Rata-rata 3.00
- Hari Kerja (Workingday): Rata-rata 0.68 (persentase hari kerja)
- Kondisi Cuaca (Weathersit): Rata-rata 1.43
- Suhu (Temp): Rata-rata 0.50 (suhu normal)
- Suhu Perasaan (Atemp): Rata-rata 0.48 (mendekati suhu sebenarnya)
- Kelembaban (Hum): Rata-rata 0.48
- Kecepatan Angin (Windspeed): Rata-rata 0.63
- Pengguna Casual: Rata-rata 35.68
- Pengguna Terdaftar: Rata-rata 153.79

### Cleaning Data

##### > **Fixed Data Type**

In [9]:
# Mengubah kolom 'dteday' pada df_day menjadi tipe datetime
df_day['dteday'] = pd.to_datetime(df_day['dteday'])

# Mengubah kolom 'dteday' pada df_hour menjadi tipe datetime
df_hour['dteday'] = pd.to_datetime(df_hour['dteday'])

In [10]:
# Memeriksa tipe data untuk df_day dan df_hour
print(f'Tipe data kolom "dteday" pada df_day: {df_day["dteday"].dtype}')
print(f'Tipe data kolom "dteday" pada df_hour: {df_hour["dteday"].dtype}')

Tipe data kolom "dteday" pada df_day: datetime64[ns]
Tipe data kolom "dteday" pada df_hour: datetime64[ns]


`(*>﹏<*)′ Setelah melakukan perbaikan, tipe data kolom "dteday" pada DataFrame df_day dan df_hour telah diverifikasi untuk memastikan bahwa keduanya sudah sesuai dengan format yang diinginkan. Langkah ini diperlukan untuk memastikan konsistensi dalam analisis data selanjutnya. Fixed (✓)

## Exploratory Data Analysis (EDA)

##### > **Korelasi Antara Variabel Numerik**

In [11]:
import warnings
import plotly.express as px

warnings.filterwarnings("ignore")

# Menghitung korelasi dan membuat heatmap untuk df_day
correlation_matrix = df_day.corr()

# Membuat plot heatmap
fig = px.imshow(correlation_matrix,
                 color_continuous_scale=px.colors.sequential.Viridis, 
                 title="Korelasi antara Variabel Numerik")

fig.update_xaxes(title_text='Variabel')
fig.update_yaxes(title_text='Variabel')

fig.update_traces(hovertemplate='Variabel: %{x}<br>Variabel: %{y}<br>Korelasi: %{z:.2f}')

fig.show()


##### > **Distribusi Antara Variabel Numerik**

In [12]:
import plotly.express as px

# Daftar kolom numerik
numeric_cols = ['temp', 'atemp', 'hum', 'windspeed', 'casual', 'registered', 'cnt']

for col in numeric_cols:
    # Membuat histogram untuk setiap kolom numerik
    fig = px.histogram(df_day, x=col, title='Distribusi ' + col,
                       nbins=30,  # Menambahkan jumlah bin
                       color_discrete_sequence=['#1f77b4'], 
                       template='plotly_white') 

    fig.update_xaxes(title_text=col)
    fig.update_yaxes(title_text='Frekuensi')

    fig.update_traces(hovertemplate=f'{col}: %{{x}}<br>Frekuensi: %{{y}}')

    fig.show()


##### > **Distribusi Variabel Kategorikal**

In [13]:
import plotly.express as px

# Daftar kolom kategori
categorical_cols = ['season', 'yr', 'mnth', 'holiday', 'weekday', 'workingday', 'weathersit']

# Membuat bar plot untuk setiap kolom kategori
for col in categorical_cols:
    count_data = df_day[col].value_counts().reset_index()
    count_data.columns = [col, 'count']  # Memberi nama kolom yang sesuai
    
    # Membuat bar plot dengan peningkatan kualitas visual
    fig = px.bar(count_data, x=col, y='count', 
                 title=f'Distribusi {col}',
                 labels={col: col, 'count': 'Jumlah'},
                 color='count',  # Warna berdasarkan jumlah
                 color_continuous_scale='Viridis',
                 template='plotly_white') 

    fig.update_xaxes(title_text=col)
    fig.update_yaxes(title_text='Jumlah')

    fig.update_traces(hovertemplate=f'{col}: %{{x}}<br>Jumlah: %{{y}}')

    fig.show()


##### > **Korelasi Antara Musim (Season) Dan Jumlah Sewa (CNT)**

In [14]:
import plotly.express as px

# Membuat box plot untuk menunjukkan hubungan antara musim dan jumlah sewa
fig = px.box(df_day, x="season", y="cnt", 
             title="Hubungan antara Musim dan Jumlah Sewa Sepeda",
             labels={"season": "Musim (Season)", 
                     "cnt": "Jumlah Sewa Sepeda"},
             color="season",  # Menggunakan warna untuk musim
             color_discrete_sequence=px.colors.qualitative.Plotly,
             template='plotly_white')  

fig.update_xaxes(title_text='(Season) Musim (1: Musim Semi, 2: Musim Panas, 3: Musim Gugur, 4: Musim Dingin)')
fig.update_yaxes(title_text='Jumlah Sewa Sepeda')

fig.update_traces(hovertemplate='Musim: %{x}<br>Jumlah Sewa: %{y}')

fig.show()


##### > **Korelasi Antara Hari Libur (Holiday) Dan Jumlah Sewa (CNT)**

In [15]:
import plotly.express as px

# Membuat box plot untuk menunjukkan hubungan antara hari libur dan jumlah sewa
fig = px.box(data_frame=df_day, x='holiday', y='cnt',
             title='Hubungan antara Hari Libur dan Jumlah Sewa Sepeda',
             labels={'holiday': 'Hari Libur (0: Bukan, 1: Hari Libur)', 'cnt': 'Jumlah Sewa Sepeda'},
             color='holiday',  # Menggunakan warna untuk hari libur
             color_discrete_sequence=['#1f77b4', '#ff7f0e'],
             template='plotly_white')

fig.update_xaxes(title_text='(Holiday) Hari Libur (0: Bukan, 1: Hari Libur)')
fig.update_yaxes(title_text='Jumlah Sewa Sepeda')

fig.update_traces(hovertemplate='Hari Libur: %{x}<br>Jumlah Sewa: %{y}')

fig.show()


##### > **Korelasi Antara Cuaca (Weathersit) Dan Jumlah Sewa (CNT)**

In [16]:
import plotly.express as px

# Membuat box plot untuk menunjukkan hubungan antara kondisi cuaca dan jumlah sewa
fig = px.box(df_day, x='weathersit', y='cnt', 
             title='Hubungan antara Kondisi Cuaca dan Jumlah Sewa Sepeda',
             labels={'weathersit': 'Kondisi Cuaca', 'cnt': 'Jumlah Sewa Sepeda'},
             color='weathersit',  # Menggunakan warna untuk kondisi cuaca
             color_discrete_sequence=px.colors.qualitative.Plotly,
             template='plotly_white')

fig.update_xaxes(title_text='Cuaca(Weathersit)')
fig.update_yaxes(title_text='Jumlah Sewa Sepeda')

fig.update_traces(hovertemplate='Kondisi Cuaca: %{x}<br>Jumlah Sewa: %{y}')

fig.show()


##### > **Korelasi Antara Suhu (Temp) Dan Jumlah Sewa (CNT)**

In [17]:
import plotly.express as px

# Membuat scatter plot untuk menunjukkan hubungan antara suhu dan jumlah sewa
fig = px.scatter(df_day, x='temp', y='cnt', 
                 title='Hubungan antara Suhu dan Jumlah Sewa Sepeda',
                 labels={'temp': 'Suhu (Temp)', 'cnt': 'Jumlah Sewa Sepeda'},
                 color='temp',  # Menggunakan suhu sebagai warna
                 color_continuous_scale='Viridis', 
                 template='plotly_white')

fig.add_traces(px.scatter(df_day, x='temp', y='cnt', trendline="ols").data)

fig.update_xaxes(title_text='Suhu (Temp)')
fig.update_yaxes(title_text='Jumlah Sewa Sepeda')

fig.update_traces(marker=dict(size=7, opacity=0.8), 
                  hovertemplate='Suhu: %{x:.1f} °C<br>Jumlah Sewa: %{y}')

fig.update_traces(selector=dict(mode='lines'), line=dict(color='red', width=2), name='Garis Tren')

fig.show()



## Visualization & Explanatory Analysis

**1. Berapa total jumlah sewa sepeda (cnt) selama musim semi (season 1) tahun 2011?**

In [18]:
# Memfilter data untuk tahun 2011 dan musim semi (season 1)
data_2011_spring = df_day.query("yr == 0 & season == 1")

# Menghitung total jumlah sewa sepeda (cnt)
total_rentals = data_2011_spring["cnt"].sum()

print(f"Jumlah total sewa sepeda untuk tahun 2011 selama musim semi (musim 1): {total_rentals}")

Jumlah total sewa sepeda untuk tahun 2011 selama musim semi (musim 1): 150000


**2. Berapa banyak sepeda yang disewa pada hari kerja (workingday = 0) selama musim gugur (season 3) tahun 2012?**

In [19]:
# Memfilter data untuk tahun 2012, musim gugur (season 3), dan hari kerja (workingday = 0)
data_2012_fall_working = df_day.query("yr == 1 & season == 3 & workingday == 0")

# Menghitung total jumlah sepeda sewaan
total_bikes_rented = data_2012_fall_working["cnt"].sum()

print(f"Jumlah total sepeda sewaan yang digunakan pada hari kerja selama musim gugur tahun 2012: {total_bikes_rented}")

Jumlah total sepeda sewaan yang digunakan pada hari kerja selama musim gugur tahun 2012: 186115


**3. Bagaimana cara meningkatkan jumlah sewa sepeda oleh pelanggan terdaftar (registered) pada akhir pekan (holiday = 1)?**

In [20]:
import plotly.express as px

# Memfilter data untuk pengguna terdaftar (registered) pada hari libur (holiday = 1)
data_registered_holiday = df_day.query("holiday == 1 & registered > 0")

# Visualisasikan jumlah sewa sepeda oleh pengguna terdaftar pada hari libur
fig = px.bar(data_registered_holiday, x='dteday', y='registered', 
             title='Jumlah Sewa Sepeda oleh Pengguna Registered pada Hari Libur',
             labels={'dteday':'Tanggal Hari Libur', 'registered':'Jumlah Sewa Sepeda Registered'},
             color='registered',  # Warna berdasarkan jumlah sewa
             color_continuous_scale='Blues',
             template='plotly_white')

fig.update_traces(hovertemplate='Tanggal: %{x}<br>Jumlah Sewa: %{y}')

fig.update_xaxes(title_text='Tanggal Hari Libur', tickangle=45)
fig.update_yaxes(title_text='Jumlah Sewa Sepeda oleh Pengguna Registered')

fig.show()


**Strategi**
1. Promosi Akhir Pekan:
- Menawarkan diskon khusus atau penawaran eksklusif untuk pengguna terdaftar pada akhir pekan dan hari libur. Misalnya, potongan harga untuk pengguna yang menyewa sepeda lebih dari dua kali dalam sehari atau diskon khusus untuk penyewaan sepeda sepanjang hari pada akhir pekan.

2. Aksesibilitas Fasilitas:
- Memastikan fasilitas penyewaan sepeda, seperti stasiun atau lokasi penyewaan, mudah diakses dan dalam kondisi baik selama akhir pekan dan hari libur. Ini termasuk memastikan ketersediaan sepeda yang cukup, kemudahan dalam proses penyewaan, dan lokasi stasiun yang strategis.

3. Meningkatkan Jumlah Sepeda:
- Menambah jumlah sepeda yang tersedia pada akhir pekan dan hari libur untuk mengakomodasi peningkatan permintaan. Pastikan sepeda dalam kondisi baik dan siap digunakan.

4. Pemasaran Khusus Akhir Pekan:
- Meningkatkan upaya pemasaran yang menargetkan pengguna terdaftar pada akhir pekan dan hari libur. Gunakan iklan online, media sosial, dan email marketing untuk menginformasikan penawaran khusus dan promosi akhir pekan.

5. Program Loyalitas:
- Membuat program loyalitas atau diskon berkelanjutan untuk pengguna terdaftar yang sering menyewa sepeda pada akhir pekan. Misalnya, setelah menyewa sepeda sejumlah tertentu kali pada akhir pekan, pengguna dapat menerima penyewaan gratis atau diskon pada penyewaan berikutnya.

6. Acara dan Aktivitas Spesial:
- Mengadakan acara atau aktivitas khusus pada akhir pekan untuk menarik pengguna terdaftar. Contohnya, tur bersepeda di kota, acara komunitas, atau lomba bersepeda yang diadakan khusus untuk pengguna terdaftar.

（￣︶￣）↗　Dengan strategi-strategi tersebut, diharapkan jumlah sewa sepeda oleh pelanggan terdaftar pada akhir pekan akan meningkat. Promosi yang tepat, aksesibilitas yang baik, dan program loyalitas dapat membuat pengguna terdaftar lebih tertarik untuk menyewa sepeda pada akhir pekan.

**4. Apa korelasi antara kelembapan udara (hum) dengan jumlah pengguna sewa sepeda (cnt)?**

In [21]:
import plotly.express as px

# Scatter plot antara kelembapan udara dan jumlah pengguna sepeda
fig = px.scatter(df_day, x='hum', y='cnt', 
                 color='season', 
                 color_continuous_scale='Viridis',
                 title="Korelasi Antara Kelembapan Udara dan Jumlah Pengguna Sewa Sepeda",
                 labels={'hum':'Kelembapan Udara (Hum)', 'cnt':'Jumlah Pengguna Sepeda'},
                 template='plotly_white')

fig.update_traces(marker=dict(size=5, opacity=0.7))

fig.show()


**Insight:**

Grafik menunjukkan adanya korelasi negatif antara kelembapan udara (hum) dan jumlah pengguna yang menyewa sepeda (cnt). Ketika kelembapan udara meningkat, jumlah pengguna yang menyewa sepeda cenderung menurun. Fenomena ini dapat dijelaskan bahwa kondisi udara yang lebih lembap sering kali dianggap kurang nyaman untuk bersepeda, mengurangi minat orang untuk menggunakan layanan sewa sepeda.

Dalam konteks ini, insight dari data menunjukkan bahwa faktor kelembapan udara dapat mempengaruhi permintaan sewa sepeda, dengan kecenderungan jumlah penyewaan yang lebih tinggi terjadi saat kelembapan udara lebih rendah.

**5. Bagaimana pengaruh kecepatan angin (windspeed) terhadap jumlah sewa sepeda (cnt) selama musim dingin (season 4)?**

In [22]:
import plotly.express as px

# Memfilter data untuk musim dingin (season 4)
data_winter = df_day[df_day["season"] == 4]

# Membuat scatter plot untuk menganalisis pengaruh kecepatan angin terhadap jumlah sewa sepeda
fig = px.scatter(data_winter, x="windspeed", y="cnt", 
                 title="Pengaruh Kecepatan Angin terhadap Jumlah Sewa Sepeda (Musim Dingin)",
                 labels={"windspeed": "Kecepatan Angin (Windspeed)", "cnt": "Jumlah Sewa Sepeda"},
                 template="plotly_white",
                 color_continuous_scale='Viridis')

fig.update_traces(marker=dict(size=7, opacity=0.7))

fig.show()


**Info:**
Windspeed (Kecepatan Angin):
- Deskripsi: Kecepatan angin yang dinormalisasi. Nilai-nilai dibagi dengan 67 (nilai maksimum).
- Unit: Normalisasi (tanpa satuan)

**Insight:**

Dari hasil analisis grafik, dapat disimpulkan bahwa kecepatan angin (windspeed) memiliki pengaruh yang signifikan terhadap jumlah sepeda yang disewa selama musim dingin (season 4). Grafik scatter plot menunjukkan bahwa ketika kecepatan angin rendah, jumlah sewa sepeda cenderung lebih tinggi. Namun, saat kecepatan angin meningkat, jumlah sewa sepeda cenderung menurun.

Analisis ini memberikan wawasan bahwa kecepatan angin dapat memengaruhi preferensi dan keputusan pengguna sepeda dalam menggunakan layanan sewa. Penyedia layanan sewa sepeda dapat mempertimbangkan faktor ini dalam merencanakan strategi operasional dan pemasaran, seperti penyesuaian stok sepeda atau penentuan tarif berdasarkan prakiraan cuaca.

Dengan memahami dampak kecepatan angin yang dinormalisasi pada pola penggunaan sepeda, pengambil keputusan dapat mengoptimalkan pengalaman pelanggan dan meningkatkan kepuasan serta loyalitas pengguna dalam jangka panjang.

**6. Berapa distribusi per jam sewa sepeda (cnt) pada Hari Raya Idul Fitri (holiday = 1) tahun 2011 (tahun = 0)?**

In [23]:
# Memfilter data untuk tahun 2011 (yr = 0), Hari Raya Idul Fitri (holiday = 1), dan musim panas (season 2)
data_2011_eid_summer = df_hour.query("yr == 0 & holiday == 1 & season == 2")

# Menghitung distribusi per jam sewa sepeda (cnt)
distribusi_per_jam = data_2011_eid_summer.groupby("hr")["cnt"].sum()

print("Distribusi per jam sewa sepeda pada Hari Raya Idul Fitri tahun 2011:")
print(distribusi_per_jam)

Distribusi per jam sewa sepeda pada Hari Raya Idul Fitri tahun 2011:
hr
0     130
1      94
2      63
3      21
4       9
5      20
6      63
7     180
8     394
9     306
10    391
11    457
12    566
13    530
14    490
15    473
16    552
17    635
18    512
19    434
20    355
21    251
22    186
23    112
Name: cnt, dtype: int64


**Insight:**

Distribusi per jam sewa sepeda pada Hari Raya Idul Fitri tahun 2011 Pada pukul 17:00, terjadi lonjakan signifikan dalam jumlah sewa sepeda, Lonjakan ini bisa jadi disebabkan oleh aktivitas masyarakat yang bersepeda sebagai bagian dari perayaan Idul Fitri.

Seperti yang terlihat dalam data, aktivitas penyewaan sepeda dimulai dari pagi hari sekitar pukul 6:00 dan mencapai puncaknya pada sore hari sekitar pukul 17:00. Setelah itu, aktivitas penyewaan sepeda cenderung menurun secara bertahap menjelang malam.

Insight ini menggambarkan pola umum penggunaan sepeda selama Hari Raya Idul Fitri pada tahun 2011, menunjukkan kesamaan dalam pola aktivitas dengan hari libur lainnya yang signifikan secara budaya atau agama.

## Conclusion

1. Jumlah Total Sewa Sepeda pada Musim Semi Tahun 2011:
- Jumlah total sewa sepeda untuk tahun 2011 selama musim semi (musim 1) adalah 150.000.

2. Jumlah Sepeda Sewa pada Hari Kerja Musim Gugur Tahun 2012:
- Jumlah sepeda sewaan yang digunakan pada hari kerja selama musim gugur tahun 2012 adalah 186.115.

3. Strategi Peningkatan Jumlah Sewa Sepeda pada Akhir Pekan:
- Mengimplementasikan promosi akhir pekan dengan diskon khusus atau penawaran eksklusif untuk pengguna terdaftar dapat meningkatkan minat penyewaan sepeda pada hari libur dan akhir pekan. Memastikan aksesibilitas fasilitas dan meningkatkan jumlah sepeda yang tersedia juga krusial untuk memenuhi permintaan yang meningkat.

4. Insight Pengaruh Kelembapan Udara terhadap Jumlah Sewa Sepeda:
- Korelasi negatif antara kelembapan udara dan jumlah penyewaan sepeda menunjukkan bahwa kondisi udara yang lebih lembap cenderung mengurangi minat masyarakat untuk bersepeda. Faktor ini penting untuk dipertimbangkan dalam menyesuaikan strategi pemasaran dan operasional.

5. Info Kecepatan Angin (Windspeed):
- Analisis menunjukkan bahwa kecepatan angin yang lebih tinggi selama musim dingin (season 4) dapat mengurangi jumlah penyewaan sepeda. Ini menyarankan perlunya strategi yang adaptif terhadap kondisi cuaca untuk menjaga ketersediaan sepeda dan mengoptimalkan pelayanan.

6. Distribusi Per Jam Sewa Sepeda pada Hari Raya Idul Fitri Tahun 2011:
- Distribusi per jam sewa sepeda pada Hari Raya Idul Fitri tahun 2011 menunjukkan puncak aktivitas penyewaan sepeda pada sore hari sekitar pukul 17:00, mencerminkan kegiatan masyarakat yang bersepeda sebagai bagian dari perayaan. Strategi pemasaran dan ketersediaan sepeda harus disesuaikan dengan pola aktivitas ini untuk memaksimalkan penggunaan fasilitas.

## Menerapkan Teknik Analisis Lanjutan

##### > **Analisis RFM**

Analisis RFM (Recency, Frequency, Monetary) adalah metode yang digunakan untuk memahami perilaku pengguna berdasarkan tiga faktor utama. **Recency** mengukur seberapa baru pengguna berinteraksi dengan bisnis, menunjukkan efektivitas upaya mempertahankan pelanggan. **Frequency** mencatat seberapa sering pengguna bertransaksi, mengindikasikan loyalitas dan keterlibatan mereka. **Monetary** menghitung total pengeluaran pengguna, memberikan wawasan tentang nilai finansial mereka bagi bisnis. Dengan menganalisis ketiga faktor ini, perusahaan dapat melakukan segmentasi pelanggan yang lebih baik, meningkatkan strategi pemasaran, dan mengoptimalkan hubungan dengan pelanggan.

In [24]:
import pandas as pd

# Memuat dataset harian
df_day = pd.read_csv("data/day.csv")

# Mengonversi kolom 'dteday' ke format datetime
df_day['dteday'] = pd.to_datetime(df_day['dteday'])

# Menentukan tanggal saat ini sebagai tanggal terakhir dalam dataset + 1 hari
current_date = df_day['dteday'].max() + pd.DateOffset(days=1)

# Menghitung total penyewaan per hari
daily_rentals = df_day.groupby('dteday').agg({'cnt': 'sum'}).reset_index()

# Menghitung Recency, Frequency, dan Monetary
rfm_df = pd.DataFrame()

# Recency: Hari sejak penyewaan terakhir
rfm_df['Recency'] = (current_date - daily_rentals['dteday']).dt.days

# Frequency: Jumlah hari dengan penyewaan
rfm_df['Frequency'] = daily_rentals['cnt'].count()

# Monetary: Total penyewaan sepeda
rfm_df['Monetary'] = daily_rentals['cnt'].sum()

rfm_df['Date'] = current_date

print("Dataframe Analisis RFM:")
print(rfm_df[['Date', 'Recency', 'Frequency', 'Monetary']].head())

rfm_df.to_csv("rfm_analysis.csv", index=False)
print("Hasil analisis RFM telah disimpan ke 'rfm_analysis.csv'")


Dataframe Analisis RFM:
        Date  Recency  Frequency  Monetary
0 2013-01-01      731        731   3292679
1 2013-01-01      730        731   3292679
2 2013-01-01      729        731   3292679
3 2013-01-01      728        731   3292679
4 2013-01-01      727        731   3292679
Hasil analisis RFM telah disimpan ke 'rfm_analysis.csv'


##### > **Analisis Clustering**

Clustering adalah teknik yang bertujuan untuk mengelompokkan data ke dalam grup berdasarkan karakteristik tertentu. Dalam analisis ini, kita akan mengeksplorasi dua metode clustering: Manual Grouping dan Binning.

**1. Manual Grouping**

Manual grouping adalah teknik pengelompokan di mana kita menentukan kriteria pengelompokan berdasarkan aturan bisnis atau pemahaman domain. Misalnya, kita dapat mengelompokkan penyewaan sepeda berdasarkan frekuensi penyewaan.

In [25]:
import pandas as pd

# Memuat dataset harian
df_day = pd.read_csv("data/day.csv")

# Mengonversi 'dteday' ke format datetime
df_day['dteday'] = pd.to_datetime(df_day['dteday'])

# Menghitung total penyewaan per hari
daily_rentals = df_day.groupby('dteday').agg({'cnt': 'sum'}).reset_index()

# Menghitung Frequency dari total penyewaan
total_frequency = daily_rentals['cnt'].sum()

# Membuat pengelompokan manual berdasarkan frekuensi
def manual_grouping(frequency):
    if frequency < 100:
        return 'Rendah'
    elif frequency < 300:
        return 'Sedang'
    elif frequency < 500:
        return 'Tinggi'
    else:
        return 'Sangat Tinggi'

# Menerapkan manual grouping
daily_rentals['Frekuensi_Cluster'] = daily_rentals['cnt'].apply(manual_grouping)

print(daily_rentals[['dteday', 'cnt', 'Frekuensi_Cluster']].head())


      dteday   cnt Frekuensi_Cluster
0 2011-01-01   985     Sangat Tinggi
1 2011-01-02   801     Sangat Tinggi
2 2011-01-03  1349     Sangat Tinggi
3 2011-01-04  1562     Sangat Tinggi
4 2011-01-05  1600     Sangat Tinggi


**Visualisasi untuk Manual Grouping**

In [26]:
import pandas as pd
import plotly.express as px

# Memuat dataset harian
df_day = pd.read_csv("data/day.csv")

# Mengonversi 'dteday' ke format datetime
df_day['dteday'] = pd.to_datetime(df_day['dteday'])

# Menghitung total penyewaan per hari
daily_rentals = df_day.groupby('dteday').agg({'cnt': 'sum'}).reset_index()

# Membuat pengelompokan manual berdasarkan frekuensi
def manual_grouping(frequency):
    if frequency < 100:
        return 'Rendah'
    elif frequency < 300:
        return 'Sedang'
    elif frequency < 500:
        return 'Tinggi'
    else:
        return 'Sangat Tinggi'

# Menerapkan manual grouping
daily_rentals['Frekuensi_Cluster'] = daily_rentals['cnt'].apply(manual_grouping)

# Menghitung jumlah penyewaan berdasarkan cluster
cluster_counts = daily_rentals['Frekuensi_Cluster'].value_counts().reset_index()
cluster_counts.columns = ['Frekuensi_Cluster', 'Total']

# Membuat visualisasi bar untuk Manual Grouping
fig_manual = px.bar(cluster_counts, x='Frekuensi_Cluster', y='Total',
                    title='Total Penyewaan Berdasarkan Manual Grouping',
                    labels={'Frekuensi_Cluster': 'Frekuensi Cluster', 'Total': 'Total Penyewaan'},
                    template='plotly_white')

fig_manual.update_layout(xaxis_title='Frekuensi Cluster', yaxis_title='Total Penyewaan')
fig_manual.show()


**2. Binning**

Binning adalah teknik yang digunakan untuk membagi data ke dalam interval atau kategori tertentu. Dalam konteks penyewaan sepeda, kita akan menggunakan binning untuk mengelompokkan penyewaan ke dalam kategori berdasarkan rentang jumlah penyewaan.

In [27]:
import pandas as pd

# Memuat dataset harian
df_day = pd.read_csv("data/day.csv")

# Mengonversi 'dteday' ke format datetime
df_day['dteday'] = pd.to_datetime(df_day['dteday'])

# Menghitung total penyewaan per hari
daily_rentals = df_day.groupby('dteday').agg({'cnt': 'sum'}).reset_index()

# Menggunakan binning untuk mengelompokkan penyewaan
bins = [0, 100, 300, 500, 1000]  # Rentang sewa
labels = ['Rendah', 'Sedang', 'Tinggi', 'Sangat Tinggi']
daily_rentals['Frekuensi_Cluster'] = pd.cut(daily_rentals['cnt'], bins=bins, labels=labels)

print(daily_rentals[['dteday', 'cnt', 'Frekuensi_Cluster']].head())


      dteday   cnt Frekuensi_Cluster
0 2011-01-01   985     Sangat Tinggi
1 2011-01-02   801     Sangat Tinggi
2 2011-01-03  1349               NaN
3 2011-01-04  1562               NaN
4 2011-01-05  1600               NaN


**Visualisasi untuk Binning**

In [28]:
import pandas as pd
import plotly.express as px

# Memuat dataset harian
df_day = pd.read_csv("data/day.csv")

# Mengonversi 'dteday' ke format datetime
df_day['dteday'] = pd.to_datetime(df_day['dteday'])

# Menghitung total penyewaan per hari
daily_rentals = df_day.groupby('dteday').agg({'cnt': 'sum'}).reset_index()

# Menggunakan binning untuk mengelompokkan penyewaan
bins = [0, 100, 300, 500, 1000]  # Rentang sewa
labels = ['Rendah', 'Sedang', 'Tinggi', 'Sangat Tinggi']
daily_rentals['Frekuensi_Cluster'] = pd.cut(daily_rentals['cnt'], bins=bins, labels=labels)

# Menghitung jumlah penyewaan berdasarkan cluster
bin_counts = daily_rentals['Frekuensi_Cluster'].value_counts().reset_index()
bin_counts.columns = ['Frekuensi_Cluster', 'Total']

# Membuat visualisasi bar untuk Binning
fig_binning = px.bar(bin_counts, x='Frekuensi_Cluster', y='Total',
                     title='Total Penyewaan Berdasarkan Binning',
                     labels={'Frekuensi_Cluster': 'Frekuensi Cluster', 'Total': 'Total Penyewaan'},
                     template='plotly_white')

fig_binning.update_layout(xaxis_title='Frekuensi Cluster', yaxis_title='Total Penyewaan')
fig_binning.show()
