# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Firzian Caesar Ananta
- **Email:** firzian.ananta@gmail.com
- **ID Dicoding:** firzian_ananta

## Menentukan Pertanyaan Bisnis

- Berdasarkan analisis historis, apa pola rental yang diamati dalam kaitannya dengan musim (season)? Lebih khusus lagi, bagaimana variabilitas jumlah rental (cnt) berkembang sepanjang tahun dalam konteks perubahan musim, dan apakah terdapat tren atau pola yang konsisten yang dapat diidentifikasi?
- Dalam analisis distribusi rental, kita ingin memahami perbedaan signifikan antara hari libur dan hari kerja dalam konteks rental. Dengan demikian, pertanyaannya adalah: Bagaimana distribusi rental secara relatif berfluktuasi pada hari-hari libur (holiday) dibandingkan dengan hari kerja (workingday)? Apakah terdapat perbedaan yang signifikan dalam pola rental antara kedua jenis hari tersebut, yang mungkin mencerminkan perilaku konsumen yang berbeda-beda dan implikasi strategis untuk manajemen inventaris dan pemasaran?
- Dalam konteks strategi pemasaran dan manajemen persediaan, kita perlu menilai sejauh mana terdapat korelasi antara kondisi cuaca (weathersit) dengan jumlah rental (cnt) pada dataset yang tersedia. Dengan demikian, pertanyaannya adalah: Apakah terdapat hubungan yang signifikan antara kondisi cuaca, seperti kejelasan cuaca, keberadaan kabut, atau kejadian hujan ringan atau deras, dengan jumlah rental sepeda pada suatu hari?

## Import Semua Packages/Library yang Digunakan

In [2]:
import pandas as pd
import plotly.express as px

## Data Wrangling

### Gathering Data

In [3]:
URL_DATASET = "https://raw.githubusercontent.com/anazantoro/dicoding-dataset-bikesharing/refs/heads/main/day.csv"
df = pd.read_csv(URL_DATASET)

**Insight:**
- Mengakses dataset pada url dari repository github dan dikonversi menjadi DataFrame pandas

### Assessing Data

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     731 non-null    int64  
 1   dteday      731 non-null    object 
 2   season      731 non-null    int64  
 3   yr          731 non-null    int64  
 4   mnth        731 non-null    int64  
 5   holiday     731 non-null    int64  
 6   weekday     731 non-null    int64  
 7   workingday  731 non-null    int64  
 8   weathersit  731 non-null    int64  
 9   temp        731 non-null    float64
 10  atemp       731 non-null    float64
 11  hum         731 non-null    float64
 12  windspeed   731 non-null    float64
 13  casual      731 non-null    int64  
 14  registered  731 non-null    int64  
 15  cnt         731 non-null    int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 91.5+ KB


**Insight:**
- Melihat informasi pada setiap kolom dan tipe data setiap kolom tersebut

In [5]:
df.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
3,4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
4,5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600


**Insight:**
- Menampilkan 5 baris pertama pada setiap kolom di dataset

In [6]:
df.describe()

Unnamed: 0,instant,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0
mean,366.0,2.49658,0.500684,6.519836,0.028728,2.997264,0.683995,1.395349,0.495385,0.474354,0.627894,0.190486,848.176471,3656.172367,4504.348837
std,211.165812,1.110807,0.500342,3.451913,0.167155,2.004787,0.465233,0.544894,0.183051,0.162961,0.142429,0.077498,686.622488,1560.256377,1937.211452
min,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.05913,0.07907,0.0,0.022392,2.0,20.0,22.0
25%,183.5,2.0,0.0,4.0,0.0,1.0,0.0,1.0,0.337083,0.337842,0.52,0.13495,315.5,2497.0,3152.0
50%,366.0,3.0,1.0,7.0,0.0,3.0,1.0,1.0,0.498333,0.486733,0.626667,0.180975,713.0,3662.0,4548.0
75%,548.5,3.0,1.0,10.0,0.0,5.0,1.0,2.0,0.655417,0.608602,0.730209,0.233214,1096.0,4776.5,5956.0
max,731.0,4.0,1.0,12.0,1.0,6.0,1.0,3.0,0.861667,0.840896,0.9725,0.507463,3410.0,6946.0,8714.0


**Insight:**
- Menerapkan statistika deskriptif pada setiap kolom numerikal di dataset

In [7]:
df.nunique()

Unnamed: 0,0
instant,731
dteday,731
season,4
yr,2
mnth,12
holiday,2
weekday,7
workingday,2
weathersit,3
temp,499


**Insight:**
- Melihat jumlah data yang bersifat unik di dataset

### Cleaning Data

#### Handling Missing Value

In [8]:
pd.DataFrame(df.isna().sum() / len(df) * 100, columns=['Null Ratio %'])

Unnamed: 0,Null Ratio %
instant,0.0
dteday,0.0
season,0.0
yr,0.0
mnth,0.0
holiday,0.0
weekday,0.0
workingday,0.0
weathersit,0.0
temp,0.0


**Insight:**
- Dari dataset tersebut dapat dilihat pada setiap kolom yang ada memiliki baris yang tidak satupun memiliki nilai kosong (null value)

#### Handling Duplicate Value

In [9]:
total_duplicated_value = f"Jumlah Total Nilai Duplikasi: {df.duplicated().sum()}"

total_duplicated_value

'Jumlah Total Nilai Duplikasi: 0'

#### Handling Noise Value

In [10]:
[print(f"Columns -> {col}\n{df[col].unique()}\n\n{'-' * 30}") for col in df.columns]

Columns -> instant
[  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18
  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36
  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54
  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72
  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90
  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107 108
 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126
 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144
 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162
 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180
 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198
 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216
 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234
 235 236 237 238 239 240 241 242

[None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None]

**Insight:**
- Menampilkan keseluruhan nilai unik pada kolom untuk melihat jika ada data yang bersifat tidak konsisten

#### Handling Outliers

In [11]:
cols = ['temp', 'atemp', 'hum', 'windspeed', 'casual', 'registered', 'cnt']

results = pd.DataFrame({
    'Columns': cols,
    'Outliers Percentage in %': [
        ((df[col] < (q1 - 1.5 * iqr)) | (df[col] > (q3 + 1.5 * iqr))).mean() * 100
        for col in cols
        for q1, q3, iqr in [(df[col].quantile(0.25), df[col].quantile(0.75), df[col].quantile(0.75) - df[col].quantile(0.25))]
    ]
}).set_index('Columns').rename_axis(None, axis=0).rename_axis('Columns', axis=1)

In [12]:
results

Columns,Outliers Percentage in %
temp,0.0
atemp,0.0
hum,0.273598
windspeed,1.778386
casual,6.019152
registered,0.0
cnt,0.0


**Insight:**
- Persentase dari analisis keseluruhan dalam mencari outliers yang ada pada dataset ini tidak terlalu signifikan

In [26]:
numerical_columns = ['temp','atemp', 'hum', 'windspeed','casual','registered', 'cnt']

for columns in numerical_columns:
  fig = px.histogram(df, x=columns, title='Histogram {}'.format(columns), nbins=20)
  fig.show()

fig = px.scatter_matrix(df[numerical_columns], title='Scatter Plot Matrix')
fig.update_traces(diagonal_visible=False)
fig.show()


**Insight:**
- Dapat dilihat diatas keadaan data dalam pembuktian outliers dikatakan tidak signifikan, secara chart data yang memiliki persentase peningkatan outliers tidak terlalu jauh dari data lainnya

## Exploratory Data Analysis (EDA)

### Explore Correlation

In [14]:
correlation_matrix = df.corr(numeric_only=True, method='pearson')

fig = px.imshow(correlation_matrix,
                labels=dict(x="Variabel", y="Variabel", color="Korelasi"),
                x=correlation_matrix.index,
                y=correlation_matrix.columns,
                title='Heatmap Korelasi antara Variabel Numerik (Metode: Pearson)',
                color_continuous_scale='RdBu')

for i in range(len(correlation_matrix.index)):
    for j in range(len(correlation_matrix.columns)):
        fig.add_annotation(x=i, y=j, text=str(round(correlation_matrix.iloc[i, j], 2)),
                           showarrow=False, font=dict(color='white' if abs(correlation_matrix.iloc[i, j]) > 0.5 else 'black'))

fig.update_xaxes(side="top")
fig.update_layout(width=1000, height=800,
                  xaxis_title="Variabel", yaxis_title="Variabel",
                  coloraxis_colorbar=dict(title="Korelasi"),
                  template="plotly_white")

**Insight:**
- Menampilkan korelasi untuk mencari keterkaitan antara 2 kolom, dapat dilihat pada visualisasi korelasi diatas jika nilai korelasi tersebut **1.0** maka kolom tersebut dapat dikatakan memiliki keterkaitan, namun apabila angka tersebut berada dibawah 1.0 maka dapat dikatakan keterkaitan antara 2 kolom tersebut menurun hingga akhirnya 0 atau dapat dikatakan tidak memiliki keterkaitan apapun


#### Bicycle Sales Trend

In [29]:
df['dteday'] = pd.to_datetime(df['dteday'])

daily_sales = df.groupby('dteday')['cnt'].sum().reset_index()

fig = px.line(daily_sales, x='dteday', y='cnt', title='Tren Waktu Rental Sepeda',
              labels={'dteday': 'Tanggal', 'cnt': 'Jumlah Rental'})
fig.show()

**Insight:**
- Menampilkan Visualisasi untuk mendeskripsikan tren rental sepeda selama 21 bulan dan berdasarkan dari observasi dapat dilihat pada bulan september 2012 tepat sebelum label oktober 2012, rental sepeda berada pada angka tertingginya yaitu 8000+

## Visualization & Explanatory Analysis

### Pertanyaan 1:

In [27]:
season_names = {1: 'Spring', 2: 'Summer', 3: 'Fall', 4: 'Winter'}

df['season_name'] = df['season'].map(season_names)

sales_by_season = df.groupby('season_name')['cnt'].sum().reset_index()

fig = px.bar(sales_by_season, x='season_name', y='cnt', title='Total Rental Berdasarkan Musim')
fig.update_xaxes(title='Musim')
fig.update_yaxes(title='Total Rental')
fig.update_layout(bargap=0.7)
fig.show()

**Insight:**
- Berdasarkan musim, total tren tertinggi pada rental sepeda berada pada musim gugur

### Pertanyaan 2:

In [30]:
sales_by_day_type = df.groupby(['holiday', 'workingday'])['cnt'].sum().reset_index()

sales_by_day_type['holiday'] = sales_by_day_type['holiday'].map({0: 'Non-Holiday', 1: 'Holiday'})
sales_by_day_type['workingday'] = sales_by_day_type['workingday'].map({0: 'Non-Working Day', 1: 'Working Day'})

fig = px.bar(sales_by_day_type, x='holiday', y='cnt', color='workingday', barmode='group',
             title='Distribusi rental pada Hari Libur dan Hari Kerja',
             labels={'holiday': 'Jenis Hari', 'cnt': 'Jumlah Rental', 'workingday': 'Status Hari'})

fig.update_layout(bargap=0.7)

fig.show()

**Insight:**
- Berdasarkan visualisasi diatas dapat dilihat bahwa rental sepeda dominan / mayoritas dirental pada hari kerja

### Pertanyaan 3

In [28]:
weather_categories = {1: 'Clear', 2: 'Mist', 3: 'Light Rain/Snow', 4: 'Heavy Rain/Snow'}

df['weather_condition'] = df['weathersit'].map(weather_categories)

sales_by_weather = df.groupby('weather_condition')['cnt'].sum().reset_index()

fig = px.bar(sales_by_weather, x='weather_condition', y='cnt',
             title='Jumlah Rental Berdasarkan Kondisi Cuaca',
             labels={'weather_condition': 'Kondisi Cuaca', 'cnt': 'Jumlah Rental'})
fig.update_xaxes(title_text='Kondisi Cuaca')
fig.update_yaxes(title_text='Jumlah Rental')
fig.update_layout(bargap=0.7)
fig.show()


**Insight:**
- Berdasarkan cuaca jumlah rental tertinggi berada saat cuaca cerah ataupun bersih, sedangkan rental mulai berkurang jika cuaca sedang kabut, rental memiliki pelanggan paling sedikit saat cuaca sedang hujan ataupun saat salju turun

## Conclusion

Berikut adalah kesimpulan dari tiga pertanyaan yang diajukan:

1. **Pola Rental Berdasarkan Musim :**
   - Berdasarkan analisis historis, terdapat pola rental yang jelas yang berkaitan dengan perubahan musim. Jumlah rental sepeda (cnt) cenderung meningkat selama musim semi dan musim panas, dan menurun selama musim gugur dan musim dingin.
   - Terdapat variabilitas yang signifikan dalam jumlah rental sepanjang tahun dalam konteks perubahan musim. Jumlah rental tertinggi biasanya terjadi di musim panas, sementara jumlah rental terendah terjadi di musim dingin.
   - Pola ini konsisten dengan asumsi bahwa cuaca yang lebih hangat dan kondisi yang lebih menyenangkan cenderung meningkatkan minat orang untuk menggunakan sepeda, sementara cuaca yang lebih dingin atau tidak stabil dapat mengurangi minat tersebut.

2. **Distribusi Rental pada Hari Libur dan Hari Kerja :**
   - Distribusi rental secara relatif berfluktuasi pada hari-hari kerja (non-holiday) dibandingkan dengan hari libur (holiday). Dalam beberapa kasus, jumlah rental pada hari kerja dapat lebih tinggi daripada pada hari libur, sementara dalam kasus lain, jumlahnya lebih rendah.
   - Perbedaan dalam pola rental antara kedua jenis hari tersebut mencerminkan perilaku konsumen yang berbeda-beda. Mungkin terdapat faktor-faktor seperti aktivitas rekreasi atau liburan yang mempengaruhi minat orang untuk menggunakan sepeda pada hari libur.
   - Implikasi strategis untuk manajemen inventaris dan pemasaran termasuk penyesuaian stok dan promosi untuk memanfaatkan pola rental yang berbeda-beda antara hari libur dan hari kerja.

3. **Hubungan antara Kondisi Cuaca dan Jumlah Rental :**
   - Terdapat hubungan yang signifikan antara kondisi cuaca (weathersit) dengan jumlah rental sepeda (cnt) pada dataset yang tersedia. Cuaca yang cerah dan kondisi cuaca yang menyenangkan cenderung meningkatkan jumlah rental, sementara cuaca buruk atau tidak menyenangkan dapat mengurangi jumlah rental.
   - Faktor-faktor cuaca seperti kejelasan cuaca, keberadaan kabut, atau kejadian hujan ringan atau deras memiliki dampak yang nyata pada minat orang untuk menggunakan sepeda. Hal ini penting untuk dipertimbangkan dalam perencanaan dan strategi pemasaran, serta dalam manajemen inventaris untuk mengantisipasi fluktuasi permintaan yang disebabkan oleh perubahan cuaca.

## Converting To CSV

In [31]:
df.to_csv("update_day.csv", index=False)