# Bina model regresi: sediakan dan visualkan data

## **Regresi Linear untuk Labu - Pelajaran 2**
#### Pengenalan

Sekarang anda telah dilengkapi dengan alat yang diperlukan untuk mula membina model pembelajaran mesin menggunakan Tidymodels dan Tidyverse, anda bersedia untuk mula bertanya soalan kepada data anda. Semasa anda bekerja dengan data dan menerapkan penyelesaian ML, adalah sangat penting untuk memahami cara bertanya soalan yang betul untuk membuka potensi dataset anda dengan tepat.

Dalam pelajaran ini, anda akan belajar:

-   Cara menyediakan data anda untuk pembinaan model.

-   Cara menggunakan `ggplot2` untuk visualisasi data.

Soalan yang perlu dijawab akan menentukan jenis algoritma ML yang akan anda gunakan. Dan kualiti jawapan yang anda peroleh sangat bergantung pada sifat data anda.

Mari kita lihat ini dengan melalui latihan praktikal.


<p >
   <img src="../../images/unruly_data.jpg"
   width="700"/>
   <figcaption>Karya seni oleh @allison_horst</figcaption>


<!--![Karya seni oleh \@allison_horst](../../../../../../2-Regression/2-Data/images/unruly_data.jpg)<br>Karya seni oleh \@allison_horst-->


## 1. Mengimport data labu dan memanggil Tidyverse

Kita akan memerlukan pakej-pakej berikut untuk memproses dan menganalisis pelajaran ini:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) adalah [koleksi pakej R](https://www.tidyverse.org/packages) yang direka untuk menjadikan sains data lebih pantas, mudah, dan menyeronokkan!

Anda boleh memasangnya seperti berikut:

`install.packages(c("tidyverse"))`

Skrip di bawah akan memeriksa sama ada anda mempunyai pakej yang diperlukan untuk melengkapkan modul ini dan memasangnya untuk anda jika ada yang belum dipasang.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse)

Sekarang, mari kita hidupkan beberapa pakej dan muatkan [data](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/data/US-pumpkins.csv) yang disediakan untuk pelajaran ini!


In [None]:
# Load the core Tidyverse packages
library(tidyverse)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n =50)

Satu `glimpse()` pantas menunjukkan terdapat kekosongan dan campuran antara rentetan (`chr`) dan data berangka (`dbl`). `Date` adalah jenis karakter dan terdapat juga satu lajur pelik yang dipanggil `Package` di mana datanya adalah campuran antara `sacks`, `bins` dan nilai-nilai lain. Data ini, sebenarnya, agak bersepah 😤.

Sebenarnya, tidaklah biasa untuk menerima dataset yang sudah siap sepenuhnya untuk digunakan bagi mencipta model ML secara langsung. Tetapi jangan risau, dalam pelajaran ini, anda akan belajar cara menyediakan dataset mentah menggunakan pustaka R standard 🧑‍🔧. Anda juga akan belajar pelbagai teknik untuk memvisualkan data.📈📊
<br>

> Ulang kaji: Operator paip (`%>%`) melaksanakan operasi dalam urutan logik dengan menghantar objek ke hadapan ke dalam fungsi atau ekspresi panggilan. Anda boleh menganggap operator paip sebagai mengatakan "dan kemudian" dalam kod anda.


## 2. Periksa data yang hilang

Salah satu isu paling biasa yang perlu ditangani oleh saintis data ialah data yang tidak lengkap atau hilang. R mewakili nilai yang hilang, atau tidak diketahui, dengan nilai sentinel khas: `NA` (Not Available).

Jadi, bagaimana kita tahu bahawa rangka data mengandungi nilai yang hilang?
<br>
-   Salah satu cara yang mudah adalah dengan menggunakan fungsi asas R `anyNA` yang mengembalikan objek logik `TRUE` atau `FALSE`.


In [None]:
pumpkins %>% 
  anyNA()

Hebat, nampaknya ada beberapa data yang hilang! Itu adalah tempat yang baik untuk bermula.

-   Cara lain adalah dengan menggunakan fungsi `is.na()` yang menunjukkan elemen lajur individu yang hilang dengan nilai logik `TRUE`.


In [None]:
pumpkins %>% 
  is.na() %>% 
  head(n = 7)

Baiklah, sudah selesai tetapi dengan bingkai data yang besar seperti ini, ia akan menjadi tidak efisien dan hampir mustahil untuk menyemak semua baris dan lajur secara individu😴.

-   Cara yang lebih intuitif adalah dengan mengira jumlah nilai yang hilang untuk setiap lajur:


In [None]:
pumpkins %>% 
  is.na() %>% 
  colSums()

Data yang hilang mungkin tidak menjadi masalah untuk tugasan ini. Mari kita lihat apa yang akan dibawa oleh analisis lanjut.

> Bersama-sama dengan set pakej dan fungsi yang hebat, R mempunyai dokumentasi yang sangat baik. Sebagai contoh, gunakan `help(colSums)` atau `?colSums` untuk mengetahui lebih lanjut tentang fungsi tersebut.


## 3. Dplyr: Tatabahasa untuk Manipulasi Data

<p>
   <img src="../../images/dplyr_wrangling.png"
   width="569"/>
   <figcaption>Karya seni oleh @allison_horst</figcaption>


<!--![Karya seni oleh \@allison_horst](../../../../../../2-Regression/2-Data/images/dplyr_wrangling.png)<br/>Karya seni oleh \@allison_horst-->


[`dplyr`](https://dplyr.tidyverse.org/), sebuah pakej dalam Tidyverse, adalah tatabahasa manipulasi data yang menyediakan satu set kata kerja yang konsisten untuk membantu anda menyelesaikan cabaran manipulasi data yang paling biasa. Dalam bahagian ini, kita akan meneroka beberapa kata kerja dplyr!


#### dplyr::select()

`select()` ialah fungsi dalam pakej `dplyr` yang membantu anda memilih lajur untuk disimpan atau dikecualikan.

Untuk menjadikan rangka data anda lebih mudah digunakan, buang beberapa lajur dengan menggunakan `select()`, dan simpan hanya lajur yang anda perlukan.

Sebagai contoh, dalam latihan ini, analisis kita akan melibatkan lajur `Package`, `Low Price`, `High Price` dan `Date`. Mari kita pilih lajur-lajur ini.


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(Package, `Low Price`, `High Price`, Date)


# Print data set
pumpkins %>% 
  slice_head(n = 5)

#### dplyr::mutate()

`mutate()` adalah fungsi dalam pakej `dplyr` yang membantu anda mencipta atau mengubah suai lajur, sambil mengekalkan lajur yang sedia ada.

Struktur umum `mutate` adalah:

`data %>%   mutate(new_column_name = what_it_contains)`

Mari kita cuba menggunakan `mutate` dengan lajur `Date` dengan melakukan operasi berikut:

1. Tukarkan tarikh (yang kini dalam jenis karakter) kepada format bulan (ini adalah tarikh AS, jadi formatnya adalah `MM/DD/YYYY`).

2. Ekstrak bulan daripada tarikh ke dalam lajur baru.

Dalam R, pakej [lubridate](https://lubridate.tidyverse.org/) memudahkan kerja dengan data tarikh-masa. Jadi, mari kita gunakan `dplyr::mutate()`, `lubridate::mdy()`, `lubridate::month()` dan lihat bagaimana untuk mencapai objektif di atas. Kita boleh membuang lajur `Date` kerana kita tidak akan memerlukannya lagi dalam operasi seterusnya.


In [None]:
# Load lubridate
library(lubridate)

pumpkins <- pumpkins %>% 
  # Convert the Date column to a date object
  mutate(Date = mdy(Date)) %>% 
  # Extract month from Date
  mutate(Month = month(Date)) %>% 
  # Drop Date column
  select(-Date)

# View the first few rows
pumpkins %>% 
  slice_head(n = 7)

Woohoo! 🤩

Seterusnya, mari kita cipta lajur baru `Price`, yang mewakili harga purata labu. Sekarang, mari kita ambil purata daripada lajur `Low Price` dan `High Price` untuk mengisi lajur Price yang baru.


In [None]:
# Create a new column Price
pumpkins <- pumpkins %>% 
  mutate(Price = (`Low Price` + `High Price`)/2)

# View the first few rows of the data
pumpkins %>% 
  slice_head(n = 5)

Yeees!💪

"Tapi tunggu!", anda akan berkata selepas meneliti keseluruhan set data dengan `View(pumpkins)`, "Ada sesuatu yang pelik di sini!"🤔

Jika anda melihat pada lajur `Package`, labu dijual dalam pelbagai konfigurasi. Ada yang dijual dalam ukuran `1 1/9 bushel`, ada yang dalam ukuran `1/2 bushel`, ada yang dijual per labu, ada yang per paun, dan ada yang dalam kotak besar dengan lebar yang berbeza-beza.

Mari kita sahkan ini:


In [None]:
# Verify the distinct observations in Package column
pumpkins %>% 
  distinct(Package)

Hebat!👏

Labu nampaknya sangat sukar untuk ditimbang secara konsisten, jadi mari kita tapis dengan memilih hanya labu yang mempunyai perkataan *bushel* dalam lajur `Package` dan letakkan ini dalam kerangka data baharu `new_pumpkins`.


#### dplyr::filter() dan stringr::str_detect()

[`dplyr::filter()`](https://dplyr.tidyverse.org/reference/filter.html): menghasilkan subset data yang hanya mengandungi **baris** yang memenuhi syarat anda, dalam kes ini, labu dengan string *bushel* dalam lajur `Package`.

[stringr::str_detect()](https://stringr.tidyverse.org/reference/str_detect.html): mengesan kehadiran atau ketiadaan corak dalam satu string.

Pakej [`stringr`](https://github.com/tidyverse/stringr) menyediakan fungsi mudah untuk operasi string yang biasa.


In [None]:
# Retain only pumpkins with "bushel"
new_pumpkins <- pumpkins %>% 
       filter(str_detect(Package, "bushel"))

# Get the dimensions of the new data
dim(new_pumpkins)

# View a few rows of the new data
new_pumpkins %>% 
  slice_head(n = 5)

Anda boleh lihat bahawa kami telah mengecilkan kepada kira-kira 415 baris data yang mengandungi labu mengikut jumlah besar.🤩
<br>


#### dplyr::case_when()

**Tapi tunggu! Ada satu perkara lagi yang perlu dilakukan**

Adakah anda perasan bahawa jumlah bushel berbeza untuk setiap baris? Anda perlu menormalkan harga supaya anda menunjukkan harga per bushel, bukan per 1 1/9 atau 1/2 bushel. Masa untuk melakukan sedikit matematik untuk menyeragamkannya.

Kita akan menggunakan fungsi [`case_when()`](https://dplyr.tidyverse.org/reference/case_when.html) untuk *mutate* lajur Harga bergantung kepada beberapa syarat. `case_when` membolehkan anda memvektorkan beberapa pernyataan `if_else()`.


In [None]:
# Convert the price if the Package contains fractional bushel values
new_pumpkins <- new_pumpkins %>% 
  mutate(Price = case_when(
    str_detect(Package, "1 1/9") ~ Price/(1 + 1/9),
    str_detect(Package, "1/2") ~ Price/(1/2),
    TRUE ~ Price))

# View the first few rows of the data
new_pumpkins %>% 
  slice_head(n = 30)

Sekarang, kita boleh menganalisis harga per unit berdasarkan ukuran bushel mereka. Namun, semua kajian tentang bushel labu ini menunjukkan betapa `pentingnya` untuk `memahami sifat data anda`!

> ✅ Menurut [The Spruce Eats](https://www.thespruceeats.com/how-much-is-a-bushel-1389308), berat bushel bergantung pada jenis hasil tanaman, kerana ia adalah ukuran isipadu. "Sebagai contoh, satu bushel tomato sepatutnya mempunyai berat 56 paun... Daun dan sayur-sayuran mengambil lebih banyak ruang dengan berat yang kurang, jadi satu bushel bayam hanya 20 paun." Semuanya agak rumit! Jangan susahkan diri dengan membuat penukaran bushel kepada paun, sebaliknya tetapkan harga berdasarkan bushel. Namun, semua kajian tentang bushel labu ini menunjukkan betapa pentingnya untuk memahami sifat data anda!
>
> ✅ Adakah anda perasan bahawa labu yang dijual dalam setengah bushel sangat mahal? Bolehkah anda fikirkan sebabnya? Petunjuk: labu kecil jauh lebih mahal daripada yang besar, mungkin kerana terdapat lebih banyak labu kecil dalam satu bushel, memandangkan ruang yang tidak digunakan oleh satu labu pai besar yang berongga.


Sekarang akhirnya, demi sedikit pengembaraan 💁‍♀️, mari kita pindahkan juga lajur Bulan ke posisi pertama iaitu `sebelum` lajur `Pakej`.

`dplyr::relocate()` digunakan untuk menukar kedudukan lajur.


In [None]:
# Create a new data frame new_pumpkins
new_pumpkins <- new_pumpkins %>% 
  relocate(Month, .before = Package)

new_pumpkins %>% 
  slice_head(n = 7)

Kerja yang bagus!👌 Anda kini mempunyai set data yang bersih dan teratur untuk membina model regresi baharu anda!


## 4. Visualisasi data dengan ggplot2

<p >
   <img src="../../images/data-visualization.png"
   width="600"/>
   <figcaption>Infografik oleh Dasani Madipalli</figcaption>


<!--![Infografik oleh Dasani Madipalli](../../../../../../2-Regression/2-Data/images/data-visualization.png){width="600"}-->

Terdapat satu pepatah *bijak* yang berbunyi seperti ini:

> "Graf mudah telah membawa lebih banyak maklumat kepada pemikiran penganalisis data berbanding alat lain." --- John Tukey

Sebahagian daripada peranan saintis data adalah untuk menunjukkan kualiti dan sifat data yang mereka sedang kerjakan. Untuk melakukan ini, mereka sering mencipta visualisasi yang menarik, atau plot, graf, dan carta, yang menunjukkan pelbagai aspek data. Dengan cara ini, mereka dapat menunjukkan hubungan dan jurang secara visual yang mungkin sukar untuk dikesan.

Visualisasi juga boleh membantu menentukan teknik pembelajaran mesin yang paling sesuai untuk data tersebut. Sebagai contoh, scatterplot yang kelihatan mengikuti satu garis menunjukkan bahawa data tersebut adalah calon yang baik untuk latihan regresi linear.

R menawarkan beberapa sistem untuk membuat graf, tetapi [`ggplot2`](https://ggplot2.tidyverse.org/index.html) adalah salah satu yang paling elegan dan serba boleh. `ggplot2` membolehkan anda menyusun graf dengan **menggabungkan komponen-komponen bebas**.

Mari kita mulakan dengan scatter plot mudah untuk lajur Price dan Month.

Jadi dalam kes ini, kita akan bermula dengan [`ggplot()`](https://ggplot2.tidyverse.org/reference/ggplot.html), menyediakan set data dan pemetaan estetik (dengan [`aes()`](https://ggplot2.tidyverse.org/reference/aes.html)) kemudian menambah lapisan (seperti [`geom_point()`](https://ggplot2.tidyverse.org/reference/geom_point.html)) untuk scatter plot.


In [None]:
# Set a theme for the plots
theme_set(theme_light())

# Create a scatter plot
p <- ggplot(data = new_pumpkins, aes(x = Price, y = Month))
p + geom_point()

Adakah ini plot yang berguna 🤷? Adakah apa-apa mengenainya mengejutkan anda?

Ia tidak begitu berguna kerana apa yang dilakukan hanyalah memaparkan data anda sebagai taburan titik dalam bulan tertentu.  
<br>


### **Bagaimana kita menjadikannya berguna?**

Untuk memaparkan carta dengan data yang berguna, anda biasanya perlu mengelompokkan data dengan cara tertentu. Sebagai contoh, dalam kes kita, mencari harga purata labu untuk setiap bulan akan memberikan lebih banyak pandangan terhadap corak asas dalam data kita. Ini membawa kita kepada satu lagi ciri **dplyr**:

#### `dplyr::group_by() %>% summarize()`

Pengagregatan berkelompok dalam R boleh dikira dengan mudah menggunakan

`dplyr::group_by() %>% summarize()`

-   `dplyr::group_by()` mengubah unit analisis daripada keseluruhan dataset kepada kumpulan individu seperti setiap bulan.

-   `dplyr::summarize()` mencipta kerangka data baharu dengan satu lajur untuk setiap pembolehubah pengelompokan dan satu lajur untuk setiap statistik ringkasan yang telah anda tentukan.

Sebagai contoh, kita boleh menggunakan `dplyr::group_by() %>% summarize()` untuk mengelompokkan labu berdasarkan lajur **Month** dan kemudian mencari **harga purata** untuk setiap bulan.


In [None]:
# Find the average price of pumpkins per month
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price))

Ringkas!✨

Ciri-ciri kategori seperti bulan lebih sesuai diwakili menggunakan plot bar 📊. Lapisan yang bertanggungjawab untuk carta bar adalah `geom_bar()` dan `geom_col()`. Rujuk `?geom_bar` untuk mengetahui lebih lanjut.

Jom kita buat satu!


In [None]:
# Find the average price of pumpkins per month then plot a bar chart
new_pumpkins %>%
  group_by(Month) %>% 
  summarise(mean_price = mean(Price)) %>% 
  ggplot(aes(x = Month, y = mean_price)) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("Pumpkin Price")

🤩🤩Ini adalah visualisasi data yang lebih berguna! Ia kelihatan menunjukkan bahawa harga tertinggi untuk labu berlaku pada bulan September dan Oktober. Adakah itu memenuhi jangkaan anda? Mengapa atau mengapa tidak?

Tahniah kerana telah menyelesaikan pelajaran kedua 👏! Anda telah menyediakan data anda untuk pembinaan model, kemudian menemui lebih banyak maklumat menggunakan visualisasi!



---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat yang kritikal, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.
