<a href="https://colab.research.google.com/github/Nauviii/first_project_DataAnalayst/blob/main/Notebook.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyek Analisis Data: Bike Sharing Dataset
- **Nama:** Fikri Kurnia
- **Email:** ds.fikri.kurnia@gmail.com]
- **ID Dicoding:** https://www.dicoding.com/users/fikrikurnia/academies

## Menentukan Pertanyaan Bisnis

- Pertanyaan 1 : Bagaimana pengaruh musim (musim panas, dingin, gugur, semi) terhadap jumlah sepeda yang dipinjam?
- Pertanyaan 2 : Apakah jumlah sepeda yang dipinjam lebih tinggi pada hari kerja dibandingkan akhir pekan?

## Import Semua Packages/Library yang Digunakan

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [2]:
bike_day_df = pd.read_csv("sample_data/day.csv")
display(bike_day_df.head())

FileNotFoundError: [Errno 2] No such file or directory: 'sample_data/day.csv'

In [None]:
bike_hour_df = pd.read_csv("sample_data/hour.csv")
display(bike_hour_df.head())

**Insight:**
- Terdapat fitur dan variabel yang sama pada kedua dataset tersebut (day.csv & hour.csv)

### Assessing Data

### **Menilai data day.csv**

**1. Memahami stuktur data**

In [None]:
bike_day_df.info() # Informasi kolom, tipe data, dan missing values

Terdapat columns yang memiliki tipe data yang kurang tepat, yaitu columns :

* dteday (object yang seharusnya bertipe datetime)
* season, yr, mnth, weekday, workingday, dan holiday (int64 yang seharusnya bertipe str)

**2. Memeriksa Missing Value**

In [None]:
bike_day_df.isna().sum()

" Tidak terdapat data yang kosong(Missing Value) pada dataset day.csv"

**3. Memeriksa Duplikat**

In [None]:
bike_day_df.duplicated().sum()

" Tidak terdapat duplikat data pada dataset day.csv"

**4. Memeriksa Parameter Statistik**

In [None]:
bike_day_df.describe()

- Distribusi Normal ,dapat dilihat bahwa mean dan medianya tidak begitu berbeda jauh.

- Tidak terdapat Outlier

- Tidak ada columns yang memiliki jumlah baris yang berbeda

### **Menilai data hour.csv**

**1. Memahami Struktur Data**

In [None]:
bike_hour_df.info() # Informasi kolom dan tipe data

Terdapat columns yang memiliki tipe data yang kurang tepat, yaitu columns :

* dteday (object yang seharusnya bertipe datetime)
* season, yr, mnth, weekday, workingday, dan holiday (int64 yang seharusnya bertipe str)

**2. Memeriksa Missing Value**

In [None]:
bike_hour_df.isna().sum()

" Tidak terdapat data yang kosong(Missing Value) pada dataset day.csv"

**3. Memeriksa Duplikat**

In [None]:
bike_hour_df.duplicated().sum()

" Tidak terdapat duplikat data pada dataset day.csv"

**4. Memeriksa Parameter Statistik**

In [None]:
bike_hour_df.describe()

- Distribusi Normal ,dapat dilihat bahwa mean dan medianya tidak begitu berbeda jauh.

- Tidak terdapat Outlier

- Tidak ada columns yang memiliki jumlah baris yang berbeda

**Insight:**
- Kedua dataset tersebut memiliki Penilaian yang sama ,mulai dari Struktur Data,missing value,duplicated, sampai parameter statistik.

### Cleaning Data

 Membersihkan data day.csv dan hour.csv . Berikut tahapan yang akan dilakukan pada cleaning Data :
- Menagani missing values(✅)
- Menagani data duplikat(✅)
- Memeriksa dan menstandarakan format data(❎)

### **Data day.csv dan hour.csv**

Memeriksa dan menstandarkan format data pada :

### 1. dteday (Mengubah tipe data object menjadi tipe data datetime)

In [None]:
# Data day.csv
bike_day_df["dteday"] = pd.to_datetime(bike_day_df["dteday"])
display(bike_day_df.info())

In [None]:
# Data hour.csv
bike_hour_df["dteday"] = pd.to_datetime(bike_hour_df["dteday"])
display(bike_hour_df.info())

Terlihat bahwa tipe data dteday pada dataset day.csv dan hour.csv sudah berubah menjadi bertipe data datetime

### 2. Season, yr, mnth, weekday, holiday, dan workingday (Mengubah tipe data int menjadi nilai string yang seharusnya)

1. Mengubah tipe data season yang memiliki value (1, 2, 3, 4), dimana {1:'Spring', 2:'Summer', 3:'Fall', 4:'Winter'}.
2. Mengubah tipe data yr menjadi keterangan tahun.
3. Mengubah tipe data mnth menjadi keterangan bulan.
4. Mengubah tipe data weekday menjadi keterangan hari.
5. Mengubah tipe data holiday menjadi keterangan hari libur/tidak.
6. Mengubah tipe data workingday menjadi keterangan hari kerja/tidak.

In [None]:
# Mengubah tipe data season
def replacing_season(data_df : pd.core.frame.DataFrame )->pd.core.frame.DataFrame :
  """
   Mengubah nilai numerik pada kolom 'season' menjadi nama musim di DataFrame 'data_df'.

    Fungsi ini memetakan nilai numerik dalam kolom 'season' ke nama musim (Spring, Summer, Fall, Winter)
    menggunakan dictionary mapping. Nilai dalam kolom 'season' akan dimodifikasi secara langsung, dan
    DataFrame yang telah diperbarui dikembalikan sebagai output.

    Mapping yang digunakan:
        1 -> Spring
        2 -> Summer
        3 -> Fall
        4 -> Winter

    Returns:
        pd.core.frame.DataFrame: DataFrame 'data_df' yang telah diperbarui dengan kolom 'season'
        berisi nama musim sebagai string.
  """
  dictionary = {
      1 : "Spring",
      2 : "Summer",
      3 : "Fall",
      4 : "Winter"
  }
  data_df["season"] = data_df["season"].replace(dictionary)
  return data_df

# replacing_season()
# display(bike_day_df)
# display(bike_day_df["season"].value_counts())



In [None]:
# Mengubah tipe data season pada dataset day.csv
replacing_season(bike_day_df)
display(bike_day_df)
display(bike_day_df["season"].value_counts())

In [None]:
# Mengubah tipe data season pada dataset hour.csv
replacing_season(bike_hour_df)
display(bike_hour_df)
display(bike_hour_df["season"].value_counts())

**keterangan : dapat dilihat bahwa columns season pada kedua dataset sudah diperbaiki menjadi nilai yang sebenarnya**

In [None]:
# Mengubah tipe data yr, mnth ,

**Insight:**
- xxx
- xxx

## Exploratory Data Analysis (EDA)

### Explore ...

**Insight:**
- xxx
- xxx

## Visualization & Explanatory Analysis

### Pertanyaan 1:

### Pertanyaan 2:

**Insight:**
- xxx
- xxx

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1
- Conclution pertanyaan 2