In [None]:
# Analisis Data Bike Sharing

## 1. Memuat dan Menjelajahi Data
```python
import pandas as pd

# Memuat data
hour_df = pd.read_csv('hour.csv')
day_df = pd.read_csv('day.csv')

# Menampilkan informasi data
print("Data Hour:")
print(hour_df.head())
print(hour_df.info())

print("\nData Day:")
print(day_df.head())
print(day_df.info())

# Mengonversi kolom 'dteday' menjadi tipe datetime
hour_df['dteday'] = pd.to_datetime(hour_df['dteday'])
day_df['dteday'] = pd.to_datetime(day_df['dteday'])

# Memeriksa nilai yang hilang
print("Missing values in hour_df:")
print(hour_df.isnull().sum())

print("\nMissing values in day_df:")
print(day_df.isnull().sum())

print("Descriptive Statistics for Hour Data:")
print(hour_df.describe())

print("\nDescriptive Statistics for Day Data:")
print(day_df.describe())
import matplotlib.pyplot as plt
import seaborn as sns

# a. Penyewaan Sepeda per Jam
plt.figure(figsize=(12, 6))
hour_df.groupby('hr')['cnt'].mean().plot(kind='bar')
plt.title('Rata-rata Jumlah Penyewaan Sepeda per Jam')
plt.xlabel('Jam')
plt.ylabel('Jumlah Penyewaan')
plt.xticks(rotation=0)
plt.show()

# b. Penyewaan Sepeda per Hari dan Musim
plt.figure(figsize=(12, 6))
sns.lineplot(data=day_df, x='dteday', y='cnt', hue='season')
plt.title('Jumlah Penyewaan Sepeda per Hari berdasarkan Musim')
plt.xlabel('Tanggal')
plt.ylabel('Jumlah Penyewaan')
plt.legend(title='Musim')
plt.show()

# c. Penyewaan Sepeda Berdasarkan Cuaca
plt.figure(figsize=(12, 6))
sns.boxplot(data=hour_df, x='weathersit', y='cnt')
plt.title('Jumlah Penyewaan Sepeda berdasarkan Kondisi Cuaca')
plt.xlabel('Kondisi Cuaca')
plt.ylabel('Jumlah Penyewaan')
plt.show()

correlation = hour_df[['temp', 'atemp', 'hum', 'windspeed', 'cnt']].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Korelasi antara Fitur dan Jumlah Penyewaan Sepeda')
plt.show()

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Memilih fitur dan target
X = hour_df[['temp', 'atemp', 'hum', 'windspeed']]
y = hour_df['cnt']

# Membagi data menjadi set pelatihan dan pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Membuat dan melatih model
model = LinearRegression()
model.fit(X_train, y_train)

# Memprediksi dan mengevaluasi
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)

print(f"Mean Squared Error: {mse:.2f}")

# Deteksi anomali
threshold = hour_df['cnt'].quantile(0.95)
anomalies = hour_df[hour_df['cnt'] > threshold]

print("Anomali ditemukan pada:")
print(anomalies[['dteday', 'hr', 'cnt']])

