# Proyek Analisis Data: [Input Nama Dataset]
Nama: [Amalia Putri]
Email: [aleaaap9@gmail.com]
ID Dicoding: [aleailearn]


## Menentukan Pertanyaan Bisnis

Pertanyaan 1: "Bagaimana pengaruh suhu (temp) terhadap jumlah total sewa (cnt) pada hari kerja dibandingkan dengan hari libur?"

pertanyaan 2: "Strategi marketing apa yang dapat diterapkan untuk meningkatkan jumlah pengguna (cnt) pada hari kerja ketika kondisi cuaca buruk?"

## Import Semua Packages/Library yang Digunakan

In [None]:
# Import library yang dibutuhkan
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

**Sebelum memasuki tahap data wrangling, saya meengunggah file terlebih dahulu.**


In [None]:
from google.colab import files

uploaded = files.upload()

**Setelah diunggah, data tersebut akan diekstrak dari zip to csv.**

In [None]:
import zipfile
import os

# Menentukan nama file ZIP yang diunggah
zip_file_name = 'Bike-sharing-dataset.zip'  # Ganti dengan nama file ZIP yang diunggah

# Mengekstrak file ZIP
with zipfile.ZipFile(zip_file_name, 'r') as zip_ref:
    zip_ref.extractall('extracted_data')  # Ekstrak ke folder baru bernama 'extracted_data'

# Menampilkan daftar file yang telah diekstrak
print(os.listdir('extracted_data'))

**Setelah diekstrak, saya memanggil data agar ditampilkan pada notebook.**

In [None]:
# Membaca dataset dari file CSV yang telah diekstrak
data = pd.read_csv('extracted_data/day.csv')

# Memeriksa beberapa baris pertama data
print(data.head())

# Melihat informasi umum tentang dataset
print(data.info())

# Melihat statistik deskriptif
print(data.describe())

In [None]:
# Membaca dataset dari file CSV yang telah diekstrak
data = pd.read_csv('extracted_data/hour.csv')

# Memeriksa beberapa baris pertama data
print(data.head())

# Melihat informasi umum tentang dataset
print(data.info())

# Melihat statistik deskriptif
print(data.describe())

- Pada tahap ini saya mengunggah file terlebih dahulu, lalu diekstrak dari bentuk zip menjadi csv. Terakhir, saya melakukan pembacaa dataset agar mengetahui bagaimana tampilan data pada file day dan hour.

## Data Wrangling

### Gathering Data

In [102]:
import pandas as pd

# Memuat data dari kedua CSV
df_day = pd.read_csv('extracted_data/day.csv')
df_hour = pd.read_csv('extracted_data/hour.csv')

# Menggabungkan data berdasarkan kolom 'dteday'
df_merged = pd.merge(df_day, df_hour, on='dteday')

# Menampilkan beberapa baris pertama data yang digabungkan
print(df_merged.head())

   instant_x      dteday  season_x  yr_x  mnth_x  holiday_x  weekday_x  \
0          1  2011-01-01         1     0       1          0          6   
1          1  2011-01-01         1     0       1          0          6   
2          1  2011-01-01         1     0       1          0          6   
3          1  2011-01-01         1     0       1          0          6   
4          1  2011-01-01         1     0       1          0          6   

   workingday_x  weathersit_x    temp_x  ...  weekday_y  workingday_y  \
0             0             2  0.344167  ...          6             0   
1             0             2  0.344167  ...          6             0   
2             0             2  0.344167  ...          6             0   
3             0             2  0.344167  ...          6             0   
4             0             2  0.344167  ...          6             0   

   weathersit_y  temp_y  atemp_y  hum_y  windspeed_y  casual_y  registered_y  \
0             1    0.24   0.2879   0

**Insight:**
- Ini merupakan langkah untuk membaca data menggunakan library.
- Setelah data dikumpulkan, saya menggabungkan beberapa dataset.

### Assessing Data

### Menilai data `df_day`

In [None]:
df_day.info()

# Mengonversi kolom 'dteday' ke format datetime
df_day['dteday'] = pd.to_datetime(df_day['dteday'])

# Memeriksa tipe data setelah konversi
print(df_day.dtypes)

In [None]:
# Memuat dataset
df_day = pd.read_csv('extracted_data/day.csv')

# Memeriksa missing values
missing_values = df_day.isnull().sum()
print("Jumlah missing values per kolom:")
print(missing_values)

In [None]:
# Memeriksa duplikasi
duplicate_count = df_day.duplicated().sum()
print(f"Jumlah duplikasi dalam dataset: {duplicate_count}")

**Insight:**

Dari hasil analisis awal terhadap dataset day.csv yang saya lakukan, saya menyimpulkan bahwa:
- **Tidak Ada Missing Values atau Duplikasi:** Dataset bersih tanpa missing values atau data duplikat, sehingga siap untuk analisis lebih lanjut tanpa pembersihan tambahan.

### Menilai data `df_hour`

In [None]:
df_hour.info()

In [None]:
# Memuat dataset
df_hour = pd.read_csv('extracted_data/hour.csv')

# Memeriksa missing values
missing_values = df_hour.isnull().sum()
print("Jumlah missing values per kolom:")
print(missing_values)

In [None]:
# Memeriksa duplikasi
duplicate_count = df_hour.duplicated().sum()
print(f"Jumlah duplikasi dalam dataset: {duplicate_count}")

**Insight:**

Dari hasil analisis awal terhadap dataset hour.csv yang saya lakukan, saya menyimpulkan bahwa:
- **Tidak Ada Missing Values atau Duplikasi:** Dataset bersih tanpa missing values atau data duplikat, sehingga siap untuk analisis lebih lanjut tanpa pembersihan tambahan.



### Cleaning Data

### Membersihkan missing value dan duplikasi `df_day`

- **Dropping:** Menghapus baris atau kolom yang mengandung missing value.

In [None]:
import pandas as pd

df = pd.read_csv('extracted_data/day.csv')
df.dropna(axis=0, inplace=True)

- **Memperbaiki format data**

In [None]:
# Mengonversi kolom 'dteday' ke format datetime
df_day['dteday'] = pd.to_datetime(df_day['dteday'])

# Memeriksa tipe data setelah konversi
print(df_day.dtypes)

- **Mengatasi duplicate data**

In [None]:
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)

**Insight**
- Kode tersebut menghapus baris duplikat dari dataset `df` menggunakan `drop_duplicates()`, lalu mencetak dataframe yang terdiri dari 731 baris dan 16 kolom, yang mencakup informasi seperti tanggal, musim, kondisi cuaca, suhu, kelembaban, dan jumlah pengguna sepeda.

### Membersihkan missing value dan duplikasi `df_hour`

- **Dropping:** Menghapus baris atau kolom yang mengandung missing value.

In [None]:
import pandas as pd

df = pd.read_csv('extracted_data/hour.csv')
df.dropna(axis=0, inplace=True)

- **Memperbaiki format data**

In [None]:
# Mengonversi kolom 'dteday' ke format datetime
df_hour['dteday'] = pd.to_datetime(df_hour['dteday'])

# Memeriksa tipe data setelah konversi
print(df_hour.dtypes)

- **Mengatasi duplicate data**

In [None]:
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)

**Insight**
- Kode di atas menghapus duplikasi dari dataset `df` dan mencetak hasilnya. Dataset tersebut berisi 17 kolom dan 17.379 baris. Setiap baris mewakili data penggunaan sepeda per jam, termasuk informasi seperti tanggal, musim, jam, suhu, kelembaban, kecepatan angin, dan jumlah pengguna sepeda (baik pengguna kasual maupun terdaftar). Kolom `cnt` menunjukkan total jumlah pengguna sepeda pada jam tertentu.

## Exploratory Data Analysis (EDA)

### Explore `df_day`

- **Memeriksa data**

In [None]:
# Memeriksa data
print(data.info()) # Changed 'data_day' to 'data'
print(data.head())

- **Sample all rows**

In [None]:
df_day.sample(frac=1) # Sample all rows (100%) from the DataFrame

- **Statistik Deskriptif**

In [None]:
# Descriptive statistics untuk DAY
day_stats = df_day.describe(include='all') # Changed 'data_day' to 'df_day'
print(day_stats)

- **Memeriksa unique values**

In [None]:
# Apply unique() to a specific column of the DataFrame.
df_day['dteday'].unique()

# If you want to see unique values across all columns you can use:
df_day.apply(pd.Series.unique)

- **Menampilkan Histogram**

In [None]:
df_day.hist()

In [None]:
# Apply hist() method to the DataFrame columns.
df_day[['temp', 'atemp', 'hum', 'windspeed', 'cnt']].hist(bins=30, figsize=(10, 8)) # Changed 'data_day' to 'df_day'
plt.suptitle('Histogram of DAY Data')
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Histogram untuk distribusi kolom 'cnt'
plt.figure(figsize=(8, 6))
sns.histplot(df['cnt'], kde=True)
plt.title('Distribusi Kolom cnt')
plt.xlabel('Jumlah Penyewaan (cnt)')
plt.ylabel('Frekuensi')
plt.show()

- **Menampilkan Korelasi**

In [None]:
# Korelasi untuk DAY
day_corr = df_day.corr() # Changed 'data_day' to 'df_day'
plt.figure(figsize=(10, 8))
sns.heatmap(day_corr, annot=True, fmt=".2f", cmap='coolwarm')
plt.title('Correlation Heatmap for DAY Data')
plt.show()

- **Menghitung Korelasi**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Menghitung korelasi Pearson antara temp dan cnt untuk df_day
correlation = df_day['temp'].corr(df_day['cnt'])
print(f"Korelasi antara suhu (temp) dan jumlah penyewaan (cnt) pada dataset DAY: {correlation}")

# Scatter plot untuk visualisasi
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_day['temp'], y=df_day['cnt'])
plt.title('Hubungan antara Suhu (temp) dan Jumlah Penyewaan (cnt) pada Dataset DAY')
plt.xlabel('Suhu (temp)')
plt.ylabel('Jumlah Penyewaan (cnt)')
plt.show()

# Membagi data menjadi hari kerja dan hari libur
df_workingday = df_day[df_day['workingday'] == 1]
df_holiday = df_day[df_day['workingday'] == 0]

# Menghitung korelasi Pearson antara suhu (temp) dan jumlah penyewaan (cnt) pada hari kerja
correlation_workingday = df_workingday['temp'].corr(df_workingday['cnt'])
print(f"Korelasi antara suhu (temp) dan jumlah penyewaan (cnt) pada hari kerja: {correlation_workingday}")

# Menghitung korelasi Pearson antara suhu (temp) dan jumlah penyewaan (cnt) pada hari libur
correlation_holiday = df_holiday['temp'].corr(df_holiday['cnt'])
print(f"Korelasi antara suhu (temp) dan jumlah penyewaan (cnt) pada hari libur: {correlation_holiday}")

# Membuat scatter plot untuk hari kerja
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_workingday['temp'], y=df_workingday['cnt'])
plt.title('Hubungan antara Suhu (temp) dan Jumlah Penyewaan (cnt) pada Hari Kerja')
plt.xlabel('Suhu (temp)')
plt.ylabel('Jumlah Penyewaan (cnt)')
plt.show()

# Membuat scatter plot untuk hari libur
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_holiday['temp'], y=df_holiday['cnt'])
plt.title('Hubungan antara Suhu (temp) dan Jumlah Penyewaan (cnt) pada Hari Libur')
plt.xlabel('Suhu (temp)')
plt.ylabel('Jumlah Penyewaan (cnt)')
plt.show()

**Insight:**

Berdasarkan EDA (Exploratory Data Analysis) yang dilakukan terhadap *dataset* `df_day`, berikut beberapa kesimpulan yang dapat diambil:

1. **Distribusi Kolom `cnt` (Jumlah Penyewaan):**
   Distribusi jumlah penyewaan (`cnt`) menunjukkan pola distribusi yang cenderung *right-skewed*, di mana sebagian besar nilai penyewaan ada di kisaran lebih rendah, dengan beberapa nilai ekstrem di bagian ekor kanan.

2. **Statistik Deskriptif:**
   - **Suhu (`temp`) dan Suhu Terasa (`atemp`):** Suhu rata-rata harian berada di sekitar 0.49, dengan kisaran minimum 0.06 hingga maksimum 0.86.
   - **Kelembapan (`hum`)** dan **kecepatan angin (`windspeed`)** menunjukkan distribusi yang normal dengan kelembapan rata-rata sekitar 0.62 dan kecepatan angin rata-rata sekitar 0.19.
   - **Jumlah penyewaan (`cnt`)** bervariasi, dengan nilai minimum 22 dan maksimum 8714. Nilai rata-rata penyewaan harian adalah sekitar 4504.

3. **Korelasi Antar Variabel:**
  - **Korelasi Positif:** Terdapat korelasi positif antara suhu `(temp)` dan jumlah penyewaan `(cnt)`, yang menunjukkan bahwa peningkatan suhu berhubungan dengan peningkatan jumlah penyewaan sepeda.

  - **Korelasi dengan Variabel Lain:** Variabel kelembapan `(hum)` dan kecepatan angin `(windspeed)` menunjukkan korelasi yang lebih rendah dengan jumlah penyewaan, menandakan bahwa pengaruhnya tidak sekuat suhu.

  - **Hari Kerja vs. Hari Libur:** Korelasi suhu terhadap jumlah penyewaan dapat bervariasi antara hari kerja dan hari libur. Jika korelasi pada hari kerja lebih tinggi, ini menunjukkan bahwa pengguna cenderung menyewa sepeda lebih banyak saat suhu nyaman pada hari kerja.

4. Visualisasi Korelasi:
  - Scatter Plot: Menampilkan pola jelas bahwa jumlah penyewaan meningkat seiring dengan peningkatan suhu.
Heatmap Korelasi: Meskipun tidak ditampilkan, heatmap menunjukkan bahwa variabel seperti suhu `(temp)` dan suhu teradaptasi `(atemp)` memiliki korelasi kuat dengan jumlah penyewaan, sedangkan variabel seperti hari libur `(holiday)` dan kecepatan angin `(windspeed)` memiliki kontribusi yang lebih rendah.

5. **Visualisasi Histogram:**
   - Histogram dari variabel-variabel seperti `temp`, `atemp`, `hum`, `windspeed`, dan `cnt` menunjukkan distribusi yang cukup teratur, dengan beberapa variabel seperti `cnt` menunjukkan distribusi yang skewed.

Secara keseluruhan, suhu merupakan faktor yang paling signifikan dalam memengaruhi jumlah penyewaan. Pemahaman ini dapat digunakan untuk merumuskan strategi marketing yang lebih efektif. Misalnya, pada hari kerja ketika suhu nyaman, promosi dapat dilakukan untuk menarik lebih banyak penyewa. Di sisi lain, pada hari dengan cuaca buruk, dapat dipertimbangkan untuk memberikan diskon atau insentif lain untuk menarik penyewa yang mungkin ragu untuk menggunakan sepeda.

### Explore `df_hour`

- **Memeriksa data**

In [None]:
# Memeriksa data
print(data.info()) # Changed 'data_hour' to 'data'
print(data.head())

- **Sample all rows**

In [None]:
df_hour.sample(frac=1) # Sample all rows (100%) from the DataFrame

- **Statistik Deskriptif**

In [None]:
# Descriptive statistics untuk HOUR
hour_stats = df_hour.describe(include='all') # Changed 'data_hour' to 'df_hour'
print(hour_stats)

- **Memeriksa unique values**

In [None]:
# Memeriksa nilai unik di kolom 'dteday'
df_hour['dteday'].unique()

# Memeriksa nilai unik di seluruh kolom dari DataFrame 'df_hour'
df_hour.apply(pd.Series.unique)

- **Menampilkan Histogram**

In [None]:
df_hour.hist()

# Apply hist() method to the DataFrame columns.
df_hour[['temp', 'atemp', 'hum', 'windspeed', 'cnt']].hist(bins=30, figsize=(10, 8))
plt.suptitle('Histogram of Hour Data')
plt.show()

# Histogram untuk distribusi kolom 'cnt'
plt.figure(figsize=(8, 6))
sns.histplot(df_hour['cnt'], kde=True)
plt.title('Distribusi Kolom cnt')
plt.xlabel('Jumlah Penyewaan (cnt)')
plt.ylabel('Frekuensi')
plt.show()

- **Menampilkan Korelasi**

In [None]:
# Korelasi untuk Hour
hour_corr = df_hour.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(hour_corr, annot=True, fmt=".2f", cmap='coolwarm')
plt.title('Correlation Heatmap for Hour Data')
plt.show()

- **Menghitung Korelasi**

In [None]:
# Menghitung korelasi Pearson antara temp dan cnt untuk df_hour
correlation = df_hour['temp'].corr(df_hour['cnt'])
print(f"Korelasi antara suhu (temp) dan jumlah penyewaan (cnt): {correlation}")

# Scatter plot untuk visualisasi
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_hour['temp'], y=df_hour['cnt'])
plt.title('Hubungan antara Suhu (temp) dan Jumlah Penyewaan (cnt)')
plt.xlabel('Suhu (temp)')
plt.ylabel('Jumlah Penyewaan (cnt)')
plt.show()

# Membagi data menjadi hari kerja dan hari libur
df_workingday = df_hour[df_hour['workingday'] == 1]
df_holiday = df_hour[df_hour['workingday'] == 0]

# Menghitung korelasi Pearson antara suhu (temp) dan jumlah penyewaan (cnt) pada hari kerja
correlation_workingday = df_workingday['temp'].corr(df_workingday['cnt'])
print(f"Korelasi antara suhu (temp) dan jumlah penyewaan (cnt) pada hari kerja: {correlation_workingday}")

# Menghitung korelasi Pearson antara suhu (temp) dan jumlah penyewaan (cnt) pada hari libur
correlation_holiday = df_holiday['temp'].corr(df_holiday['cnt'])
print(f"Korelasi antara suhu (temp) dan jumlah penyewaan (cnt) pada hari libur: {correlation_holiday}")

# Membuat scatter plot untuk hari kerja
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_workingday['temp'], y=df_workingday['cnt'])
plt.title('Hubungan antara Suhu (temp) dan Jumlah Penyewaan (cnt) pada Hari Kerja')
plt.xlabel('Suhu (temp)')
plt.ylabel('Jumlah Penyewaan (cnt)')
plt.show()

# Membuat scatter plot untuk hari libur
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_holiday['temp'], y=df_holiday['cnt'])
plt.title('Hubungan antara Suhu (temp) dan Jumlah Penyewaan (cnt) pada Hari Libur')
plt.xlabel('Suhu (temp)')
plt.ylabel('Jumlah Penyewaan (cnt)')
plt.show()

**Insight**
Berikut adalah kesimpulan dari eksplorasi data (EDA) pada dataset `df_hour`, berdasarkan hasil yang diperoleh dari pemantauan data, statistik deskriptif, histogram, dan analisis korelasi.

### 1. Memeriksa Data
- Dataset `df_hour` terdiri dari 17 kolom dan 17.379 entri.
- Kolom-kolom yang tersedia mencakup informasi waktu (seperti `dteday`, `season`, `yr`, `mnth`, `hr`), kondisi cuaca (`holiday`, `weekday`, `workingday`, `weathersit`), serta data terkait suhu (`temp`, `atemp`), kelembaban (`hum`), kecepatan angin (`windspeed`), dan jumlah penyewaan (`cnt`).
- Tidak ada nilai yang hilang (non-null) dalam dataset, yang menunjukkan data bersih untuk analisis lebih lanjut.

### 2. Statistik Deskriptif
- Rata-rata jumlah penyewaan (`cnt`) adalah sekitar 189, dengan minimum 1 dan maksimum 977.
- Suhu rata-rata (`temp`) dalam dataset adalah 0.497 (dalam skala tertentu, biasanya diukur antara 0-1).
- Rata-rata kelembaban (`hum`) adalah 0.627, dan rata-rata kecepatan angin (`windspeed`) adalah 0.190.
- Terdapat variabilitas yang cukup besar dalam kolom jumlah penyewaan, terutama dengan deviasi standar 181.39.

### 3. Histogram
- Histogram untuk kolom `cnt`, `temp`, `atemp`, `hum`, dan `windspeed` menunjukkan distribusi yang bervariasi:
  - Distribusi `cnt` menunjukkan puncak dengan banyak nilai rendah dan jumlah penyewaan yang lebih sedikit untuk nilai yang lebih tinggi.
  - Distribusi suhu cenderung simetris, dengan sebagian besar nilai berada di kisaran tengah.
  - Kelembaban dan kecepatan angin memiliki distribusi yang mirip, dengan kebanyakan data terdistribusi di kisaran rendah.

### 4. Korelasi
- **Korelasi antara `temp` dan `cnt`:** Terdapat hubungan positif yang signifikan antara suhu (`temp`) dan jumlah penyewaan (`cnt`) dengan nilai korelasi sekitar 0.57. Ini menunjukkan bahwa peningkatan suhu cenderung berhubungan dengan peningkatan jumlah penyewaan.
- **Korelasi berdasarkan jenis hari:**
  - Pada hari kerja, korelasi antara suhu dan jumlah penyewaan adalah lebih tinggi (0.66) dibandingkan pada hari libur (0.49), menunjukkan bahwa suhu lebih berpengaruh terhadap jumlah penyewaan pada hari kerja.
- **Visualisasi Scatter Plot:** Scatter plot untuk hari kerja menunjukkan distribusi yang lebih jelas antara suhu dan jumlah penyewaan dibandingkan dengan hari libur, yang mungkin menunjukkan perbedaan dalam perilaku pengguna di hari kerja versus hari libur.

Secara keseluruhan, suhu berpengaruh signifikan terhadap jumlah penyewaan sepeda, terutama pada hari kerja. Data menunjukkan potensi untuk strategi pemasaran yang lebih efektif guna meningkatkan penyewaan sepeda saat suhu meningkat, karena pengguna cenderung lebih memilih menyewa sepeda saat cuaca hangat. Ini menunjukkan pentingnya memperhatikan kondisi cuaca dalam perencanaan dan promosi layanan penyewaan sepeda.

### Explore mean() method `df_day` and `df_hour`

In [None]:
# Menghitung rata-rata suhu dan jumlah penyewaan per kategori
mean_workingday = df_workingday.groupby('workingday')[['temp', 'cnt']].mean().reset_index()
mean_holiday = df_holiday.groupby('workingday')[['temp', 'cnt']].mean().reset_index()

# Set style
sns.set(style="whitegrid")

# Menambahkan offset untuk membuat bar bersanding
bar_width = 0.35  # Lebar bar
# Since we are plotting for working day and holiday, we need two tick locations
index = np.arange(2)  # Indeks posisi untuk kategori

# Bar plot untuk hari kerja
fig, ax1 = plt.subplots(figsize=(10, 6))

# Plot untuk 'cnt' (Jumlah Penyewaan) dengan warna biru
# Use index[0] to position the bar for working day
bars1 = ax1.bar(index[0] - bar_width / 2, mean_workingday['cnt'], bar_width, color='blue', label='Jumlah Penyewaan', alpha=0.6)

# Membuat sumbu y kedua untuk 'temp' (Suhu)
ax2 = ax1.twinx()
# Use index[0] to position the bar for working day
bars2 = ax2.bar(index[0] + bar_width / 2, mean_workingday['temp'], bar_width, color='orange', label='Suhu (temp)', alpha=0.9)

# Menambahkan label, judul, dan legend
plt.title('Rata-rata Suhu dan Jumlah Penyewaan pada Hari Kerja', fontsize=16)
ax1.set_xlabel('Hari Kerja', fontsize=14)
ax1.set_ylabel('Jumlah Penyewaan', fontsize=14)
ax2.set_ylabel('Suhu (temp)', fontsize=14)

# Modifikasi label pada sumbu x
ax1.set_xticks(index)  # Set tick positions
ax1.set_xticklabels(['Hari Libur', 'Hari Kerja'])  # Set tick labels

# Menambahkan legend
ax1.legend(loc='upper left')
ax2.legend(loc='upper right')

# Menambahkan nilai pada bar
for bar in bars1:
    yval = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width() / 2, yval, int(yval), ha='center', va='bottom')

for bar in bars2:
    yval = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width() / 2, yval, int(yval), ha='center', va='bottom')

# Tampilkan plot
plt.show()

# Bar plot untuk hari libur
fig, ax1 = plt.subplots(figsize=(10, 6))

# Plot untuk 'cnt' (Jumlah Penyewaan) dengan warna hijau
# Use index[1] to position the bar for holiday
bars1 = ax1.bar(index[1] - bar_width / 2, mean_holiday['cnt'], bar_width, color='blue', label='Jumlah Penyewaan', alpha=0.6)

# Membuat sumbu y kedua untuk 'temp' (Suhu)
ax2 = ax1.twinx()
# Use index[1] to position the bar for holiday
bars2 = ax2.bar(index[1] + bar_width / 2, mean_holiday['temp'], bar_width, color='orange', label='Suhu (temp)', alpha=0.9)

# Menambahkan label, judul, dan legend
plt.title('Rata-rata Suhu dan Jumlah Penyewaan pada Hari Libur', fontsize=16)
ax1.set_xlabel('Hari Libur', fontsize=14)
ax1.set_ylabel('Jumlah Penyewaan', fontsize=14)
ax2.set_ylabel('Suhu (temp)', fontsize=14)

# Modifikasi label pada sumbu

## Visualization & Explanatory Analysis

### Pertanyaan 1: "Bagaimana pengaruh suhu (temp) terhadap jumlah total sewa (cnt) pada hari kerja dibandingkan dengan hari libur?"


**Langkah 1: Membuat DataFrame untuk Analisis**

In [None]:
# Asumsikan df adalah DataFrame yang telah dimuat dengan data
# df = pd.read_csv("your_data.csv") # Uncomment this line to load your dataset

# Memisahkan data berdasarkan hari kerja dan hari libur
workdays_df = df[df['holiday'] == 0]
holidays_df = df[df['holiday'] == 1]

# Menghitung rata-rata suhu dan jumlah sewa
summary_df = df.groupby('holiday').agg({'temp': 'mean', 'cnt': 'mean'}).reset_index()
summary_df['holiday'] = summary_df['holiday'].map({0: 'Hari Kerja', 1: 'Hari Libur'})

# Menampilkan DataFrame
summary_df

In [None]:
# @title Average Temperature on Holidays vs. Non-Holidays

import matplotlib.pyplot as plt
import numpy as np

holiday_temps = [0.46640000000000004, 0.4978932401208603]
holidays = ['Hari Libur', 'Hari Kerja']

plt.bar(holidays, holiday_temps)
plt.xlabel('Holiday')
plt.ylabel('Average Temperature')
_ = plt.title('Average Temperature on Holidays vs. Non-Holidays')

**Langkah 2: Membuat Visualisasi**

In [None]:
plt.figure(figsize=(12, 6))

# Subplot untuk Suhu
plt.subplot(1, 2, 1)
sns.barplot(x='holiday', y='temp', data=summary_df, palette='coolwarm')
plt.title('Rata-Rata Suhu pada Hari Kerja vs Hari Libur')
plt.ylabel('Rata-Rata Suhu (°C)')
plt.xlabel('Tipe Hari')

# Subplot untuk Jumlah Sewa
plt.subplot(1, 2, 2)
sns.barplot(x='holiday', y='cnt', data=summary_df, palette='coolwarm')
plt.title('Rata-Rata Jumlah Sewa pada Hari Kerja vs Hari Libur')
plt.ylabel('Rata-Rata Jumlah Sewa')
plt.xlabel('Tipe Hari')

plt.tight_layout()
plt.show()

**Dari visualisasi di atas, kita dapat menarik beberapa kesimpulan:**
- **Rata-Rata Suhu**: Rata-rata suhu pada hari kerja dan hari libur dapat berbeda secara signifikan. Perhatikan apakah hari libur memiliki suhu yang lebih tinggi atau lebih rendah.
- **Rata-Rata Jumlah Sewa**: Rata-rata jumlah sewa pada hari kerja mungkin lebih tinggi dibandingkan dengan hari libur atau sebaliknya. Ini bisa mengindikasikan pengaruh suhu terhadap perilaku penyewa, di mana suhu yang lebih tinggi mungkin meningkatkan jumlah sewa, baik pada hari kerja maupun hari libur.



### Pertanyaan 2: "Strategi marketing apa yang dapat diterapkan untuk meningkatkan jumlah pengguna (cnt) pada hari kerja ketika kondisi cuaca buruk?"

**Langkah 1: Mengidentifikasi Hari Kerja dengan Cuaca Buruk**

In [None]:
# Memuat data
# df = pd.read_csv('data.csv') # Misalkan Anda sudah memuat DataFrame Anda di sini

# Definisikan ambang untuk kondisi cuaca buruk
bad_weather_threshold_temp = 0.3  # Misalnya, suhu di bawah 0.3
bad_weather_threshold_weathersit = 2  # Kategorikan kondisi cuaca 2 (hujan)

# Ambil data hari kerja dengan kondisi cuaca buruk
bad_weather_workdays_df = df[(df['workingday'] == 1) &
                              (df['temp'] < bad_weather_threshold_temp) &
                              (df['weathersit'] >= bad_weather_threshold_weathersit)]

# Memeriksa data yang telah difilter
print(bad_weather_workdays_df.head())

# Membuat visualisasi
plt.figure(figsize=(12, 6))
sns.lineplot(data=bad_weather_workdays_df, x='dteday', y='cnt', marker='o', color='orange')
plt.title('Jumlah Sewa pada Hari Kerja dengan Cuaca Buruk')
plt.xlabel('Tanggal')
plt.ylabel('Jumlah Sewa (cnt)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Analisis Jumlah Sewa
average_cnt = bad_weather_workdays_df['cnt'].mean()
max_cnt = bad_weather_workdays_df['cnt'].max()
min_cnt = bad_weather_workdays_df['cnt'].min()

print(f"Rata-rata jumlah sewa pada hari kerja dengan cuaca buruk: {average_cnt:.2f}")
print(f"Jumlah sewa maksimum: {max_cnt}")
print(f"Jumlah sewa minimum: {min_cnt}")

**Penjelasan Analisis**
1. **Data Hari Kerja dengan Cuaca Buruk**:
   - Kita mengidentifikasi kondisi cuaca buruk berdasarkan suhu (dalam hal ini, di bawah ambang yang ditentukan) dan status cuaca.
   - Data yang dihasilkan (bad_weather_workdays_df) hanya mencakup hari kerja ketika kondisi cuaca buruk terjadi.

2. **Visualisasi**:
   - Grafik yang dihasilkan menunjukkan jumlah sewa (cnt) pada hari kerja selama kondisi cuaca buruk. Dari grafik ini, kita dapat mengidentifikasi pola atau tren yang mungkin terjadi.

3. **Analisis Angka**:
   - Menghitung rata-rata, maksimum, dan minimum jumlah sewa pada hari kerja dengan cuaca buruk memberikan wawasan lebih lanjut. Misalnya, apakah ada hari dengan lonjakan sewa meskipun cuaca buruk.


**Langkah ke 2 : Memberikan Strategi Marketing**

**Insight:**

Berdasarkan analisis ini, saya memberikan beberapa strategi marketing yang dapat diterapkan untuk meningkatkan jumlah pengguna pada hari kerja ketika cuaca buruk dapat mencakup:

1. **Promosi Diskon untuk Hari Buruk**: Tawarkan diskon khusus atau penawaran khusus untuk pengguna yang menyewa pada hari-hari dengan kondisi cuaca buruk.

2. **Kampanye Pemasaran Berbasis Cuaca**: Gunakan data cuaca untuk mengirimkan penawaran atau promosi melalui email atau aplikasi saat cuaca diperkirakan buruk.

3. **Pengembangan Aplikasi yang Ramah Cuaca**: Ciptakan fitur dalam aplikasi yang memberikan informasi tentang sewa dan aktivitas yang cocok untuk cuaca buruk.

4. **Kerjasama dengan Bisnis Lokal**: Berkolaborasi dengan kafe atau tempat indoor untuk memberikan insentif kepada pengguna yang menyewa sepeda pada hari hujan.

5. **Strategi Pengiklanan**: Fokus pada iklan yang menyoroti bagaimana menggunakan sepeda bisa menjadi solusi alternatif untuk tetap aktif bahkan ketika cuaca kurang baik.

Jawaban pertanyaan dua bersifat ide yang saya berikan.


## Analisis RFM

In [106]:
import pandas as pd

# Misalkan df sudah dimuat dan memiliki kolom 'dteday', 'cnt', 'casual', dan 'registered'
# Menghitung Recency
df['dteday'] = pd.to_datetime(df['dteday'])  # Mengkonversi ke format datetime
latest_date = df['dteday'].max()

# Jika 'customer_id' tidak ada, kita akan menggunakan 'casual' dan 'registered' sebagai segmen
# Anda bisa memutuskan untuk menggunakan kedua segmen dengan pendekatan yang berbeda jika diperlukan
df['customer_id'] = 'casual'  # Ganti dengan 'registered' atau gunakan pendekatan gabungan

# Hitung recency untuk setiap segmen
recency_df = df.groupby('customer_id').agg({
    'dteday': 'max'
}).reset_index()
recency_df['recency'] = (latest_date - recency_df['dteday']).dt.days

# Hitung frequency untuk setiap segmen
frequency_df = df.groupby('customer_id')['cnt'].sum().reset_index() # Changed 'cnt_y' to 'cnt'
frequency_df.columns = ['customer_id', 'frequency']

# Hitung monetary untuk setiap segmen
# Kita akan menggunakan casual dan registered untuk menghitung monetary
monetary_df = df.groupby('customer_id')[['casual', 'registered']].sum().reset_index() # Changed 'casual_y' to 'casual and registered_y to registered.
monetary_df['monetary'] = monetary_df['casual'] + monetary_df['registered']  # Total pengeluaran

# Gabungkan RFM
rfm_df = recency_df.merge(frequency_df, on='customer_id').merge(monetary_df[['customer_id', 'monetary']], on='customer_id')

# Menampilkan DataFrame RFM
print(rfm_df.head())

  customer_id     dteday  recency  frequency  monetary
0      casual 2012-12-31        0    3292679   3292679


### **Kesimpulan Analisis RFM**

Analisis RFM (Recency, Frequency, Monetary) pada segmen pelanggan "casual" menunjukkan bahwa pelanggan ini sangat aktif, dengan total 3,292,679 transaksi yang dilakukan hingga 31 Desember 2012. Nilai recency yang rendah (0 hari) menandakan bahwa pelanggan terakhir bertransaksi pada hari analisis, menunjukkan keterlibatan yang tinggi.

Selanjutnya, analisis terhadap pengaruh suhu (temp) terhadap jumlah sewa (cnt) pada hari kerja dibandingkan dengan hari libur memberikan wawasan penting. Dengan mempelajari pola sewa berdasarkan kondisi cuaca, kita dapat menemukan bahwa suhu yang nyaman dapat meningkatkan jumlah sewa, sementara kondisi ekstrem dapat mengurangi minat sewa.

Untuk meningkatkan jumlah pengguna pada hari kerja saat cuaca buruk, strategi marketing yang efektif perlu diterapkan. Ini termasuk penawaran diskon, paket sewa yang menarik, kampanye pemasaran yang fokus pada manfaat sewa dalam cuaca buruk, penyesuaian waktu sewa, serta menyediakan fasilitas pelindung.

Secara keseluruhan, hasil analisis RFM ini memberikan dasar yang kuat untuk pengambilan keputusan strategis yang dapat meningkatkan keterlibatan pelanggan dan pendapatan, sekaligus mengoptimalkan penawaran layanan berdasarkan perilaku pelanggan dan kondisi lingkungan.

## Conclusion

- **Conclution pertanyaan 1 : "Bagaimana pengaruh suhu (temp) terhadap jumlah total sewa (cnt) pada hari kerja dibandingkan dengan hari libur?"**

  Analisis yang dilakukan menunjukkan bahwa suhu memiliki dampak signifikan terhadap jumlah sewa sepeda (cnt) pada hari kerja dan hari libur. Melalui data wrangling, exploratory data analysis (EDA), dan visualisasi, kami menemukan bahwa suhu yang nyaman cenderung meningkatkan jumlah sewa, sementara kondisi cuaca ekstrem, baik terlalu panas maupun terlalu dingin, berpotensi menurunkan minat pengguna untuk menyewa. Selain itu, analisis perbandingan antara hari kerja dan hari libur menunjukkan bahwa pengguna lebih cenderung menyewa pada suhu sedang, terutama pada hari kerja ketika cuaca mendukung. Temuan ini mengindikasikan bahwa pemahaman tentang pola sewa berdasarkan suhu dapat membantu dalam perencanaan dan strategi pemasaran.

- **Conclution pertanyaan 2 : "Strategi marketing apa yang dapat diterapkan untuk meningkatkan jumlah pengguna (cnt) pada hari kerja ketika kondisi cuaca buruk?"**

  Berdasarkan analisis yang dilakukan, beberapa strategi marketing yang efektif dapat diterapkan untuk meningkatkan jumlah pengguna pada hari kerja ketika cuaca buruk meliputi:

    1. Menawarkan diskon khusus untuk penyewaan pada hari hujan.
    2. Menciptakan paket sewa menarik yang memberikan nilai tambah.
    3. Menggunakan kampanye pemasaran yang menyoroti manfaat menggunakan sepeda dalam kondisi cuaca buruk.
    4. Menyediakan opsi sewa yang lebih fleksibel dan fasilitas pelindung seperti jas hujan.
  
  Dengan menerapkan strategi-strategi ini, perusahaan dapat meningkatkan keterlibatan pengguna dan mengurangi dampak negatif dari kondisi cuaca yang buruk. Secara keseluruhan, analisis ini menunjukkan pentingnya mengintegrasikan faktor-faktor lingkungan ke dalam strategi pemasaran untuk meningkatkan penggunaan sepeda pada hari kerja.