# **DS : Time Series Sunsplot**
---
## **Outcome Utama**

1. **Pemahaman Pola Historis**
   - Mengidentifikasi tren, musiman (seasonality), dan fluktuasi dalam data.
   - Pola siklus tahunan/mingguan ditemukan dan menjadi dasar perencanaan bisnis.

2. **Model Prediksi Akurat**
   - Menggunakan model seperti **ARIMA**, **SARIMA**, atau **LSTM** untuk prediksi masa depan.
   - Mengukur akurasi model dengan metrik seperti:
     - **RMSE (Root Mean Squared Error)**
     - **MAE (Mean Absolute Error)**
     - **MAPE (Mean Absolute Percentage Error)**
   - Model terbaik memberikan hasil prediksi dengan error rendah.

3. **Deteksi Anomali**
   - Mengidentifikasi outlier atau kejadian abnormal, seperti:
     - Lonjakan mendadak dalam penjualan.
     - Penurunan performa sistem secara tiba-tiba.
   - Membantu mitigasi risiko dan respons cepat terhadap masalah.

4. **Perencanaan dan Pengambilan Keputusan**
   - Forecasting digunakan untuk mendukung pengambilan keputusan strategis, seperti:
     - Pengelolaan inventaris.
     - Alokasi sumber daya.
     - Strategi pemasaran.
   - Membantu organisasi mempersiapkan diri menghadapi musim puncak atau fluktuasi pasar.

5. **Automasi dan Visualisasi**
   - Membuat dashboard interaktif untuk monitoring data secara real-time.
   - Automasi pipeline analisis untuk pembaruan model secara berkala.

6. **Dampak Bisnis**
   - **Efisiensi operasional** meningkat dengan prediksi yang lebih akurat.
   - **Optimalisasi biaya dan sumber daya** berdasarkan data historis dan prediktif.
   - Mengidentifikasi **peluang bisnis baru** berdasarkan wawasan tren masa depan.

---

### **Kesimpulan**
Proyek data science berbasis time series memberikan wawasan berharga untuk memahami pola data historis dan memproyeksikan masa depan. Hal ini memungkinkan organisasi untuk mengambil keputusan berbasis data yang lebih strategis dan responsif terhadap perubahan.


## **1.Data Wrangling**
---
pada tahap ini kita akan mencoba untuk melihat datasheet yang kita gunakan dalam project ini dan memeriksa proporsi dari jumlah kolom dan baris serta mengecek ada atau tidak adanya data yang hilang ataupun duplikat

In [8]:
# import library yang dibutuhkan 
import numpy as np                  # Library untuk komputasi numerik dengan python 
import pandas as pd                 # Library untuk pengolahan dataframe dengan pandas 
import warnings                     # Library untuk handling error 

import matplotlib.pyplot as plt     # Library untuk visualisasi data dengan matplotlib 
import seaborn as sns               # Library untuk visualisasi data dengan seaborn 

from dateutil.parser import parse   # Libary untuk pengolahan dataframe time series 

# variabel untuk menghilangkan error dan visualisasi
warnings.filterwarnings('ignore')
dateparse=lambda dates:parse(dates)
%matplotlib inline

### **1.1 Load datasheet**
---
pada bagian ini kita akan melakukan file import datasheet yang akan kita analisis ke pandas 

In [9]:
# load file csv datasheet ke pandas 
df = pd.read_csv('../data/raw/Sunspots.csv', parse_dates=['Date'], date_parser=dateparse)

# kemudian tampilkan 5 datasheet teratas 
df.head()

Unnamed: 0.1,Unnamed: 0,Date,Monthly Mean Total Sunspot Number
0,0,1749-01-31,96.7
1,1,1749-02-28,104.3
2,2,1749-03-31,116.7
3,3,1749-04-30,92.8
4,4,1749-05-31,141.7


<b>Insight :</b>
<p>dari hasil berikut diketahui bahwa kita memiliki fitur data dalam bentuk rentang waktu dan total jumlah mean sunspot number, 
kita akan menggunakan 2 fitur tersebut dan menghapus fitur unnamed karena kita tidak memerlukan fitur kolom tersebut dalam analisis kita</p>

### **1.2 Menghapus kolom unnamed**
---
kita akan menghapus kolom unnamed karena kita tidak memerlukan kolom ini dalam analisis kita 

In [10]:
df = df.drop(columns='Unnamed: 0', axis=True)
df.head()

Unnamed: 0,Date,Monthly Mean Total Sunspot Number
0,1749-01-31,96.7
1,1749-02-28,104.3
2,1749-03-31,116.7
3,1749-04-30,92.8
4,1749-05-31,141.7


<b>Insight :</b>
<p>Setelah kita menghapus kolom unnamed: kita akan melakukan melakukan EDA</p>

### **1.3 Melihat Informasi dari datasheet**
---
selanjutnya kita akan melihat informasi dari datasheet yang kita punya

In [11]:
# melihat informasi dari datasheet yang kita punya 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3252 entries, 0 to 3251
Data columns (total 2 columns):
 #   Column                             Non-Null Count  Dtype         
---  ------                             --------------  -----         
 0   Date                               3252 non-null   datetime64[ns]
 1   Monthly Mean Total Sunspot Number  3252 non-null   float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 50.9 KB


<b>Insight :</b>
<p> disini kita bisa tau bahwa pada kolom fitur date sudah memiliki tipe data datetime64 hal ini bisa terjadi karena diawal kita sudah menambahkan library dateparser untuk kolom fitur date</p> 

### **1.3 Melihat jumlah proporsi dari setiap fitur datasheet**
---
<p>pada tahap ini kita ingin melihat jumlah baris dan kolom dari datasheet yang kita punya</p>

In [12]:
# melihat proporsi jumlah kolom dan baris dari datasheet yang kita punya 
print(f'jumlah baris pada datasheet adalah : {df.shape[0]} baris') # cek jumlah baris pada datasheet 
print(f'jumlah kolom pada datasheet adalah : {df.shape[1]} kolom') # cek jumlah kolom pada datasheet 

jumlah baris pada datasheet adalah : 3252 baris
jumlah kolom pada datasheet adalah : 2 kolom


<b>Insight :</b>
<p>dari hasil analisis tersebut dapat diketahui bahwa kita memiliki jumlah baris sebanyak 3252 baris dan 2 kolom data</p>