# <CENTER> TREND ANALYSIS</CENTER>

<img src='https://raw.githubusercontent.com/mdsatria/dataviz_course/master/notebook/img/kowalski.png'>

Analisis tren adalah proses untuk mendapatkan pola yang memiliki generalisasi terhadap data dan memiliki sifat yang berulang-ulang. Pola ini merupakan terdiri dari dua komponen, variabel bebas ($x$) dan variabel tergantung ($y$).

Variabel $x$ umumnya merupakan satuan waktu (detik, jam, hari, bulan, tahun, dsb) dan variabel $y$ merupakan hasil pengukuran **satu atribut** dari **suatu objek**. Namun, variabel $x$ dapat juga bukan merupakan waktu melainkan suatu sekuen nilai yang linear. Misalnya [1, 2, 3, 4, ..., n] atau $[x_1, x_2, x_3, x_4, ..., x_n]$.

Pola yang tercipta dari analisis tren dapat digunakan untuk memprediksikan nilai $y_n$. Visualisasi tren sudah dapat menemukan pola secara garis besar. Secara lebih jauh, kita dapat menggunakan perhitungan matematika untuk menentukan pola dan membuat prediksi.



## Analisis Cuaca di Denpasar pada Tahun 1990-2020

## Dataset

**Deskripsi dataset :**

Dataset tersebut menggambarkan keadaan cuaca di Denpasar dari kurun waktu 1990-2020 yang diambil setiap jam.

## Data Cleaning

## Datetime Handling

Salah satu kelebihan Pandas adalah kemampuan memproses time series data (https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html). Data yang memiliki tipe time series  bermanfaat untuk analisis trend dengan lebih mudah. Kita dapat mengekstrak pola berdasarkan interval waktu, memberikan informasi yang mudah dicerna melalui visualisasi serta melakukan prediksi nilai.

## Indexing dengan Datetime

<img src='https://raw.githubusercontent.com/mdsatria/dataviz_course/master/notebook/img/iwillfindyou.png'>

**Indexing DataFrame biasa di Pandas**

Indexing row/object data dalam pandas dapat menggunakan fungsi *.loc* atau *.iloc*. Secara umum formatnya adalah sebagai berikut :

    nama_DataFrame.iloc[*index]  # dapat menggunakan label
    nama_DataFrame.loc[*index]   # hanya dapat menggunakan posisi integer

*index terdiri dari 2 int

[:,:] = memilih semua row dan column <br>
[0,:] = memilih row ke-0 dan semua column <br>
[:,0] = memilih semua row dan column ke-0

**Indexing dengan DateTime**

Adanya timestamp dalam dataset dapat memudahkan kita dalam melihat data sesuai dengan waktu yang kita ingginkan. Misalkan saja, Anda ingin mengetahui suhu sepanjang tahun 1990, suhu pada bulan Desember 2010 atau suhu pada tanggal 1 Januari 2002 pukul 15.00. 

Untuk melakukan hal tersebut, kita harus mengubah index data kita dengan timestamp.

Jika Anda perhatikan cuplikan dataset di atas, terlihat index dataset saat ini adalah date/tanggal. Dengan index tersebut kita dapat memilih (istilahnya *slicing* data) objek data/row dengan datetime. 

Indexing sesuai dengan format tanggal. Dalam contoh dataset kita, formatnya adalah YYYY-MM-DD, HH-MM-SS (year - month - day, hour - minute - second). Maka, sesuai format tersebut kita dapat memilih object data sebagai berikut :

    1. df.loc['1990'] = menampilkan semua data pada tahun 1990
    2. df.loc['1990-01'] = menampilkan semua data pada bulan Januari tahun 1990
    3. df.loc['1990-01-01'] = menampilkan semua data pada tanggal 1 bulan Januari tahun 1990
    dst
    
Secara umum, penulisannya adalah sebagai berikut :
**nama_DataFrame['YYYY-MM-DD  HH:MM:SS']**

### <div class="alert alert-block alert-info">Latihan 1</div> 

*1. Tampilkan data pada hari tanggal 3 september 2002 ?*

In [1]:
# tulis code di sini

(tulis jawaban di sini)

*2. Berapakah rata-rata suhu pada bulan Januari 2010?*

In [2]:
# tulis code di sini

(tulis jawaban di sini)

*3. Di antara dua bulan, yaitu bulan Desember 1998 dan Desember 1997, manakah yang memiliki kelembapan rata-rata yang lebih rendah?*

In [3]:
# tulis code di sini

(tulis jawaban di sini)

## Feature Engineering

Dengan index berupa datetime, kita dapat melakukan feature engineering lebih lanjut untuk mendapatkan atribut seperti tahun, bulan, tanggal dst.

### <div class="alert alert-block alert-info">QUIZ TIME!</div>

**Apa yang disebut dengan feature engineering ?**

<img src='https://raw.githubusercontent.com/mdsatria/dataviz_course/master/notebook/img/batman.gif'>



*(gunakan bahasa sendiri, jangan cuma copas dari google)*

* Feature engineering adalah .......................



* Tujuan dari feature engineering secara umum adalah..............





## Datetime Resample

Mari kita coba visualisasikan suhu

Dari plot di atas kita dapat melihat grafik yang kita tampilkan terlalu dense/padat. Hal ini dikarenakan banyaknya poin data yang terhubung, sejumlah $RentangTahun\times12\times365\times24$.

Untuk mengatasi hal tersebut, kita dapat menggunakan **.resample()** untuk menyampling ulang dataset ke dalam bentuk aggregatnya. Misalnya dalam bentuk per-bulan, per-tahun, per-kuartal, dst.

**PERHATIKAN TIPE ATRIBUT UNTUK RESAMPLING**

Tidak semua tipe atribut cocok diterapkan untuk fungsi aggregat yang sama. Lihat lagi materi tentang Data dalam folder materi.

Contoh kali ini kita akan menggunakan atribut numerik/ratio.

Penentuan parameter resample dapat Anda lihat di https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

Kali ini kita akan sampling data per-bulan.

### <div class="alert alert-block alert-info">Latihan 2</div> 

*1. Resample data menjadi 3 bulan sekali dan simpan ke variabel df_quarter*

In [4]:
# code di sini

*2. Bulan apakah yang memiliki kecepatan angin terendah dalam tahun 1998? Buktikan dalam visualisasi*

In [5]:
# code di sini

(tulis jawaban di sini)

## Visualization

### Pertanyaan

    1. Bulan apakah yang paling kering dalam tahun 2019 ?
    2. Bagaimana pola hujan dari tahun 1990, 1995, 2000, 2005, 2010, 2015 ?
    3. Bagaimana pola suhu dalam satu bulan di bulan Desember 1995 ?

### Solusi

**Bulan apakah yang paling kering dalam tahun 2019 ?**

Dalam menentukan bulan yang paling kering kita dapat melihat tipe cuaca dari kolom weather_main

**Bagaimana pola hujan dari tahun 1990, 1995, 2000, 2005, 2010 2015 ?**

Jawaban ini hampir sama dengan jawaban sebelumnya, untuk memudahkan kita akan membuat function dari proses di atas.

**Bagaimana pola suhu dalam satu bulan di bulan Desember 1995**

Untuk menjawab pertanyaan ini, kita akan menggunakan grafik heatmap dan function pivot_table pada Pandas (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html)

## Storytelling

* **Who**<br>
    Siapa target audience Anda. Gunakan gaya bahasa yang sesuai dengan audience Anda. Namun, bahasa baku dengan ejaan yang benar adalah hal yang wajib
* **Why**<br>
    Kenapa Anda harus menceritakan data tersebut? Apa yang dapat diperoleh audience?
* **What**<br>
    Apa grafik yang Anda buat ?Pesan apa yang ingin Anda sampaikan? Dalam sekian banyak visual yang ada dalam sebuah grafik apa yang harus ditekankan? Apa pola yang menarik dalam sebuah grafik?
* **How**<br>
    Bagaimana cara Anda menceritakan informasi dalam visualisasi? Apakah dengan perbandingan kategori? Apakah dengan menceritakan perubahan nilai? Apakah menceritakan hubungan antar data?

Contoh penyajian informasi dalam grafik heatmap di atas :


Pada grafik heatmap di atas digambarkan suhu per-jam sepanjang hari selama bulan Desember tahun 2019. Sumbu x merupakan jam saat nilai suhu diambil dan sumbu y merupakan hari dalam bulan tersebut. Selain itu, nilai suhu digambarkan menggunakan gradasi warna dari biru ke merah. Semakin biru suhu semakin rendah dan semakin merah suhu semakin panas.

Suhu pada bulan Desember tahun 2019 mengalami perubahan setiap jamnya. Namun begitu, sepanjang hari dalam periode tersebut memiliki pola yang hampir sama. Suhu mengalami kenaikan dimulai dari pukul 00.00 hingga mencapai puncaknya di kisaran waktu 03.00-09.00.  Suhu terpanas pada bulan tersebut mencapai puncaknya pada tanggal 7, 24, 25 dan 30 Desember. Pada tanggal tersebut, periode terpanas (03.00-09.00) mencapai suhu tertinggi hingga 34 derajat Celcius. Tidak sama seperti pada jam-jam yang panas, periode dingin dalam sehari lebih menyebar waktunya.  Suhu paling ekstrim terjadi pada tanggal 7 Desember 2019 pada periode tersebut. Tercatat suhu terendah dan suhu tertinggi terjadi dalam hari yang sama. Secara umum, suhu akan menurun dari pagi sekitar jam 09.00 hingga malam pukul 23.00 dan kemudian meningkat hingga pagi sekitar pukul 06.00.


### <div class="alert alert-block alert-info">Latihan 3</div>

*1. Buatlah grafik heatmap yang menggambarkan kecepatan angin-perjam dalam bulan Januari 1990 dan Januari 2019!*

In [6]:
# code di sini

In [7]:
# code di sini

*2. Informasi apa yang dapat Anda ambil dalam grafik Latihan 3 no 1 di atas? Kemukakan minimal 3 informasi penting dalam kalimat yang memiliki minimal 120 kata*

(tulis jawaban di sini)