# Proyek Analisis Data : Analisis Data Penggunaan Sepeda: Waktu, Musim, dan Aktivitas Harian

Proyek ini melakukan analisis terkait penggunaan sepeda berdasarkan dataset yang mencakup faktor-faktor seperti suhu, musim, hari kerja/libur, dan kondisi cuaca. Analisis ini terdiri dari beberapa langkah yang meliputi pengumpulan data, pembersihan data, analisis eksploratif, serta analisis lanjutan.

# Proyek Analisis Data: Analisis Data Penggunaan Sepeda: Waktu, Musim, dan Aktivitas Harian
- **Nama:** Abi Eka Putra Wulyono
- **Email:** abiekapw@gmail.com
- **ID Dicoding:** abi_eka_putra_we6p

## Menentukan Pertanyaan Bisnis

- Bagaimana pengaruh musim (season) terhadap jumlah total pengguna sepeda per hari?
- Bagaimana pola penggunaan sepeda berdasarkan waktu (jam) dalam sehari?

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

## 1. Pengumpulan Data (Data Wrangling)
Langkah pertama adalah pengumpulan data. Saya akan menggunakan dataset 'day.csv' dan 'hour.csv'. Dataset ini memuat informasi harian dan per jam mengenai penggunaan sepeda.

In [None]:
# Memuat dataset
day_data = pd.read_csv('data/day.csv')
hour_data = pd.read_csv('data/hour.csv')

# Menampilkan lima data teratas dari setiap dataset
day_data.head(), hour_data.head()    

**Insight:**
Pada langkah ini, kita melihat sekilas struktur dataset yang akan kita gunakan. Ini membantu untuk memahami variabel yang ada, seperti 'cnt' (jumlah pengguna sepeda), 'temp' (suhu), 'season' (musim), dan 'workingday' (hari kerja).

## 2. Pemeriksaan Data (Data Assessing)

In [None]:
# Mengecek apakah ada data kosong dalam dataset
print("Jumlah data kosong di 'day.csv':")
print(day_data.isnull().sum())

print("\nJumlah data kosong di 'hour.csv':")
print(hour_data.isnull().sum())

# Mengecek apakah ada duplikasi data
print("\nJumlah data duplikat di 'day.csv':")
day_duplicates = day_data.duplicated().sum()
print(day_duplicates)

print("\nJumlah data duplikat di 'hour.csv':")
hour_duplicates = hour_data.duplicated().sum()
print(hour_duplicates)

# Melihat statistik deskriptif untuk memahami distribusi data
print("\nStatistik deskriptif untuk 'day.csv':")
print(day_data.describe())

print("\nStatistik deskriptif untuk 'hour.csv':")
print(hour_data.describe())

**Insight:**
Pada tahap ini, kita mendapatkan pemahaman awal mengenai kualitas data yang tersedia. Pemeriksaan terhadap data kosong, duplikasi, dan statistik deskriptif membantu memastikan bahwa dataset yang kita gunakan bebas dari masalah teknis yang dapat memengaruhi hasil analisis. Langkah ini juga memberikan wawasan awal tentang variabel-variabel penting yang akan kita analisis, seperti jumlah pengguna sepeda, suhu, musim, dan hari kerja.

## 3. Pembersihan Data (Data Cleaning)
Di sini kita akan memeriksa data yang kosong serta mendeteksi dan menghapus duplikasi yang mungkin ada dalam dataset.

In [None]:
# Mengecek data kosong
day_data.isnull().sum(), hour_data.isnull().sum()

# Mengecek duplikasi data
day_duplicates = day_data.duplicated().sum()
hour_duplicates = hour_data.duplicated().sum()

# Menghapus duplikasi jika ada
day_data_cleaned = day_data.drop_duplicates() if day_duplicates > 0 else day_data
hour_data_cleaned = hour_data.drop_duplicates() if hour_duplicates > 0 else hour_data

day_data_cleaned.head(), hour_data_cleaned.head()    

**Insight:**
Setelah membersihkan data, kita memastikan bahwa dataset bebas dari data kosong dan duplikasi. Ini memastikan analisis lebih lanjut akan akurat dan bebas dari kesalahan data.

## 4. Exploratory Data Analysis (EDA)
Pada tahap ini, kita akan melakukan analisis eksploratif untuk mendapatkan pemahaman awal mengenai pola dalam data. Saya akan memvisualisasikan distribusi penggunaan sepeda dan melihat korelasi antara variabel.

In [None]:
# Visualisasi distribusi penggunaan sepeda per hari
plt.figure(figsize=(10, 6))
sns.histplot(day_data_cleaned['cnt'], kde=True, color='purple')
plt.title('Distribusi Penggunaan Sepeda Per Hari')
plt.xlabel('Jumlah Pengguna')
plt.ylabel('Frekuensi')
plt.show()

# Korelasi antara variabel numerik
corr_matrix = day_data_cleaned[['temp', 'atemp', 'hum', 'windspeed', 'cnt']].corr()
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matriks Korelasi Variabel')
plt.show()
    

**Insight:**
Distribusi penggunaan sepeda menunjukkan bahwa jumlah pengguna sepeda bervariasi setiap harinya. Melalui matriks korelasi, kita melihat bahwa suhu ('temp') mungkin memiliki hubungan yang cukup kuat dengan jumlah pengguna sepeda ('cnt').

## 5. Visualization & Explanatory Analysis
Saya akan menambahkan filter untuk melihat rata-rata penggunaan sepeda berdasarkan musim, hari kerja/libur, dan jam.

In [None]:

# Mengelompokkan data berdasarkan musim dan menghitung rata-rata pengguna
season_grouping = day_data_cleaned.groupby('season')['cnt'].mean().reset_index()
season_map = {1: 'Semi', 2: 'Panas', 3: 'Gugur', 4: 'Dingin'}
season_grouping['season'] = season_grouping['season'].map(season_map)

# Visualisasi penggunaan sepeda per musim
plt.figure(figsize=(8, 6))
sns.barplot(x='season', y='cnt', data=season_grouping, palette='coolwarm')
plt.title('Rata-rata Pengguna Sepeda Berdasarkan Musim')
plt.xlabel('Musim')
plt.ylabel('Rata-rata Pengguna')
plt.show()

# Visualisasi penggunaan sepeda pada hari kerja dan libur
working_day_grouping = day_data_cleaned.groupby('workingday')['cnt'].mean().reset_index()
working_day_grouping['workingday'] = working_day_grouping['workingday'].map({0: 'Hari Libur', 1: 'Hari Kerja'})

plt.figure(figsize=(8, 6))
sns.barplot(x='workingday', y='cnt', data=working_day_grouping, palette='viridis')
plt.title('Penggunaan Sepeda pada Hari Kerja vs Libur')
plt.xlabel('Hari')
plt.ylabel('Rata-rata Pengguna')
plt.show()

# Visualisasi penggunaan sepeda berdasarkan jam
hour_grouping = hour_data_cleaned.groupby('hr')['cnt'].mean().reset_index()
plt.figure(figsize=(10, 6))
sns.lineplot(x='hr', y='cnt', data=hour_grouping, marker='o', color='green')
plt.title('Rata-rata Pengguna Sepeda Berdasarkan Jam')
plt.xlabel('Jam')
plt.ylabel('Rata-rata Pengguna')
plt.show()
    

**Insight:**
- **Musim**: Penggunaan sepeda cenderung lebih tinggi pada musim panas dan semi, yang mungkin karena cuaca lebih bersahabat.
- **Hari Kerja vs Libur**: Ada perbedaan jumlah pengguna sepeda pada hari kerja dan hari libur. Hari kerja cenderung memiliki lebih banyak pengguna.
- **Jam**: Pengguna sepeda lebih aktif pada pagi hari dan sore hari, yang menunjukkan bahwa orang cenderung menggunakan sepeda untuk perjalanan harian seperti pergi dan pulang kerja.

## 6. Analisis Lanjutan
Pada bagian ini, kita akan melihat hubungan antara suhu dan jumlah pengguna sepeda serta melakukan analisis lebih lanjut.

In [None]:

# Scatter plot hubungan antara suhu dan jumlah pengguna sepeda
plt.figure(figsize=(10, 6))
sns.scatterplot(x='temp', y='cnt', data=day_data_cleaned, color='orange')
plt.title('Hubungan Suhu dengan Penggunaan Sepeda')
plt.xlabel('Suhu')
plt.ylabel('Jumlah Pengguna')
plt.show()
    

**Insight:**
Terdapat hubungan yang jelas antara suhu dan jumlah pengguna sepeda. Jumlah pengguna meningkat saat suhu lebih nyaman (tidak terlalu rendah atau terlalu tinggi). Ini menunjukkan bahwa suhu merupakan faktor penting dalam memengaruhi perilaku pengguna sepeda.

## 7. Conclusion

- 1. Bagaimana pola penggunaan sepeda berdasarkan musim dan hari kerja/libur?
     - Penggunaan sepeda lebih tinggi pada musim semi dan musim panas, yang mungkin disebabkan oleh cuaca yang lebih bersahabat untuk  aktivitas luar ruangan.
     - Pada hari kerja, rata-rata pengguna sepeda lebih banyak dibandingkan pada hari libur. Ini menunjukkan bahwa sepeda lebih banyak digunakan sebagai alat transportasi harian, kemungkinan besar untuk bekerja atau sekolah.
     - Pada musim dingin dan musim gugur, penggunaan sepeda menurun secara signifikan, kemungkinan karena cuaca yang tidak mendukung.
- 2. Bagaimana pola penggunaan sepeda berdasarkan waktu (jam) dalam sehari?
     - Pola penggunaan sepeda menunjukkan puncak aktivitas pada jam 8 pagi dan jam 5 sore, yang sesuai dengan waktu sibuk saat orang pergi dan pulang kerja/sekolah.
     - Penggunaan sepeda cenderung lebih sedikit pada siang hari (di luar jam sibuk) dan malam hari setelah jam 8 malam, yang mungkin disebabkan oleh berkurangnya kebutuhan transportasi pada waktu tersebut.
     - Aktivitas pengguna sepeda pada pagi dan sore hari ini mengindikasikan bahwa sepeda digunakan sebagai moda transportasi utama untuk perjalanan rutin, terutama untuk keperluan pekerjaan dan sekolah.