## Regresi Linear dan Polinomial untuk Penentuan Harga Labu - Pelajaran 3
<p >
   <img src="../../images/linear-polynomial.png"
   width="800"/>
   <figcaption>Infografik oleh Dasani Madipalli</figcaption>


#### Pengenalan

Setakat ini, anda telah meneroka apa itu regresi dengan data sampel yang dikumpulkan daripada dataset harga labu yang akan kita gunakan sepanjang pelajaran ini. Anda juga telah memvisualisasikannya menggunakan `ggplot2`. 💪

Kini anda bersedia untuk mendalami regresi untuk pembelajaran mesin. Dalam pelajaran ini, anda akan mempelajari lebih lanjut tentang dua jenis regresi: *regresi linear asas* dan *regresi polinomial*, bersama dengan beberapa matematik yang mendasari teknik-teknik ini.

> Sepanjang kurikulum ini, kami mengandaikan pengetahuan matematik yang minimum, dan berusaha menjadikannya mudah diakses untuk pelajar dari bidang lain, jadi perhatikan nota, 🧮 penjelasan, diagram, dan alat pembelajaran lain untuk membantu pemahaman.

#### Persediaan

Sebagai peringatan, anda memuatkan data ini untuk menjawab soalan-soalan mengenainya.

-   Bilakah masa terbaik untuk membeli labu?

-   Berapakah harga yang boleh saya jangkakan untuk satu kotak labu mini?

-   Patutkah saya membelinya dalam bakul setengah gantang atau dalam kotak 1 1/9 gantang? Mari kita teruskan menyelidik data ini.

Dalam pelajaran sebelumnya, anda telah mencipta `tibble` (penyusunan semula moden bagi bingkai data) dan mengisinya dengan sebahagian daripada dataset asal, menstandardkan harga mengikut gantang. Dengan melakukan itu, bagaimanapun, anda hanya dapat mengumpulkan kira-kira 400 titik data dan hanya untuk bulan-bulan musim luruh. Mungkin kita boleh mendapatkan sedikit lebih banyak perincian tentang sifat data ini dengan membersihkannya lebih lanjut? Kita akan lihat... 🕵️‍♀️

Untuk tugasan ini, kita memerlukan pakej berikut:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) ialah [koleksi pakej R](https://www.tidyverse.org/packages) yang direka untuk menjadikan sains data lebih pantas, mudah dan menyeronokkan!

-   `tidymodels`: Rangka kerja [tidymodels](https://www.tidymodels.org/) ialah [koleksi pakej](https://www.tidymodels.org/packages/) untuk pemodelan dan pembelajaran mesin.

-   `janitor`: Pakej [janitor](https://github.com/sfirke/janitor) menyediakan alat kecil yang mudah untuk memeriksa dan membersihkan data yang kotor.

-   `corrplot`: Pakej [corrplot](https://cran.r-project.org/web/packages/corrplot/vignettes/corrplot-intro.html) menyediakan alat penerokaan visual pada matriks korelasi yang menyokong penyusunan semula pembolehubah secara automatik untuk membantu mengesan pola tersembunyi antara pembolehubah.

Anda boleh memasangnya seperti berikut:

`install.packages(c("tidyverse", "tidymodels", "janitor", "corrplot"))`

Skrip di bawah akan memeriksa sama ada anda mempunyai pakej yang diperlukan untuk melengkapkan modul ini dan memasangnya untuk anda sekiranya ia tidak tersedia.


In [None]:
suppressWarnings(if (!require("pacman")) install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, janitor, corrplot)

Kami akan memuatkan pakej-pakej hebat ini dan menjadikannya tersedia dalam sesi R semasa kita. (Ini hanya untuk ilustrasi, `pacman::p_load()` sudah melakukannya untuk anda)

## 1. Garis regresi linear

Seperti yang anda pelajari dalam Pelajaran 1, tujuan latihan regresi linear adalah untuk dapat melukis *garis* *terbaik* untuk:

-   **Menunjukkan hubungan pemboleh ubah**. Menunjukkan hubungan antara pemboleh ubah.

-   **Membuat ramalan**. Membuat ramalan yang tepat tentang di mana titik data baru akan berada dalam hubungan dengan garis tersebut.

Untuk melukis jenis garis ini, kita menggunakan teknik statistik yang dipanggil **Regresi Kuadrat Terkecil**. Istilah `kuadrat terkecil` bermaksud semua titik data di sekitar garis regresi dikira kuadratnya dan kemudian dijumlahkan. Sebaiknya, jumlah akhir itu sekecil mungkin, kerana kita mahukan bilangan kesalahan yang rendah, atau `kuadrat terkecil`. Oleh itu, garis terbaik adalah garis yang memberikan nilai terendah untuk jumlah kesalahan kuadrat - maka nama *regresi kuadrat terkecil*.

Kita melakukannya kerana kita ingin memodelkan garis yang mempunyai jarak kumulatif paling kecil dari semua titik data kita. Kita juga mengkuadratkan istilah sebelum menjumlahkannya kerana kita lebih mengambil berat tentang magnitudnya daripada arahnya.

> **🧮 Tunjukkan matematiknya**
>
> Garis ini, yang dipanggil *garis terbaik* boleh dinyatakan dengan [persamaan](https://en.wikipedia.org/wiki/Simple_linear_regression):
>
>     Y = a + bX
>
> `X` adalah '`pemboleh ubah penjelas` atau `peramal`'. `Y` adalah '`pemboleh ubah bergantung` atau `hasil`'. Kecerunan garis adalah `b` dan `a` adalah pintasan-y, yang merujuk kepada nilai `Y` apabila `X = 0`.
>

> ![](../../../../../../2-Regression/3-Linear/solution/images/slope.png "kecerunan = $y/x$")
    Infografik oleh Jen Looper
>
> Pertama, kira kecerunan `b`.
>
> Dalam erti kata lain, dan merujuk kepada soalan asal data labu kita: "ramalkan harga labu per gantang mengikut bulan", `X` merujuk kepada harga dan `Y` merujuk kepada bulan jualan.
>
> ![](../../../../../../2-Regression/3-Linear/solution/images/calculation.png)
    Infografik oleh Jen Looper
> 
> Kira nilai Y. Jika anda membayar sekitar \$4, itu mesti bulan April!
>
> Matematik yang mengira garis mesti menunjukkan kecerunan garis, yang juga bergantung pada pintasan, atau di mana `Y` berada apabila `X = 0`.
>
> Anda boleh melihat kaedah pengiraan untuk nilai-nilai ini di laman web [Math is Fun](https://www.mathsisfun.com/data/least-squares-regression.html). Juga lawati [Kalkulator Kuadrat Terkecil](https://www.mathsisfun.com/data/least-squares-calculator.html) untuk melihat bagaimana nilai-nilai angka mempengaruhi garis.

Tidak begitu menakutkan, kan? 🤓

#### Korelasi

Satu lagi istilah yang perlu difahami ialah **Pekali Korelasi** antara pemboleh ubah X dan Y yang diberikan. Dengan menggunakan plot taburan, anda boleh dengan cepat memvisualisasikan pekali ini. Plot dengan titik data yang tersebar dalam garis yang kemas mempunyai korelasi tinggi, tetapi plot dengan titik data yang tersebar di mana-mana antara X dan Y mempunyai korelasi rendah.

Model regresi linear yang baik adalah model yang mempunyai Pekali Korelasi tinggi (lebih dekat kepada 1 daripada 0) menggunakan kaedah Regresi Kuadrat Terkecil dengan garis regresi.


## **2. Menari dengan data: mencipta rangka data yang akan digunakan untuk pemodelan**

<p >
   <img src="../../images/janitor.jpg"
   width="700"/>
   <figcaption>Karya seni oleh @allison_horst</figcaption>


<!--![Karya seni oleh \@allison_horst](../../../../../../2-Regression/3-Linear/images/janitor.jpg){width="700"}-->


Muatkan perpustakaan dan set data yang diperlukan. Tukarkan data kepada bingkai data yang mengandungi subset data:

-   Hanya ambil labu yang harganya berdasarkan unit bushel

-   Tukarkan tarikh kepada bulan

-   Kira harga sebagai purata harga tinggi dan rendah

-   Tukarkan harga untuk mencerminkan harga berdasarkan kuantiti bushel

> Kami telah membincangkan langkah-langkah ini dalam [pelajaran sebelumnya](https://github.com/microsoft/ML-For-Beginners/blob/main/2-Regression/2-Data/solution/lesson_2-R.ipynb).


In [None]:
# Load the core Tidyverse packages
library(tidyverse)
library(lubridate)

# Import the pumpkins data
pumpkins <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/2-Regression/data/US-pumpkins.csv")


# Get a glimpse and dimensions of the data
glimpse(pumpkins)


# Print the first 50 rows of the data set
pumpkins %>% 
  slice_head(n = 5)

Dalam semangat pengembaraan sejati, mari kita terokai [`pakej janitor`](../../../../../../2-Regression/3-Linear/solution/R/github.com/sfirke/janitor) yang menyediakan fungsi mudah untuk memeriksa dan membersihkan data yang kotor. Sebagai contoh, mari kita lihat nama lajur untuk data kita:


In [None]:
# Return column names
pumpkins %>% 
  names()

🤔 Kita boleh lakukan dengan lebih baik. Mari jadikan nama lajur ini `friendR` dengan menukarkannya kepada konvensyen [snake_case](https://en.wikipedia.org/wiki/Snake_case) menggunakan `janitor::clean_names`. Untuk mengetahui lebih lanjut tentang fungsi ini: `?clean_names`


In [None]:
# Clean names to the snake_case convention
pumpkins <- pumpkins %>% 
  clean_names(case = "snake")

# Return column names
pumpkins %>% 
  names()

Bersihkan data dengan lebih kemas 🧹! Sekarang, mari menari dengan data menggunakan `dplyr` seperti dalam pelajaran sebelum ini! 💃


In [None]:
# Select desired columns
pumpkins <- pumpkins %>% 
  select(variety, city_name, package, low_price, high_price, date)



# Extract the month from the dates to a new column
pumpkins <- pumpkins %>%
  mutate(date = mdy(date),
         month = month(date)) %>% 
  select(-date)



# Create a new column for average Price
pumpkins <- pumpkins %>% 
  mutate(price = (low_price + high_price)/2)


# Retain only pumpkins with the string "bushel"
new_pumpkins <- pumpkins %>% 
  filter(str_detect(string = package, pattern = "bushel"))


# Normalize the pricing so that you show the pricing per bushel, not per 1 1/9 or 1/2 bushel
new_pumpkins <- new_pumpkins %>% 
  mutate(price = case_when(
    str_detect(package, "1 1/9") ~ price/(1.1),
    str_detect(package, "1/2") ~ price*2,
    TRUE ~ price))

# Relocate column positions
new_pumpkins <- new_pumpkins %>% 
  relocate(month, .before = variety)


# Display the first 5 rows
new_pumpkins %>% 
  slice_head(n = 5)

Kerja yang bagus!👌 Anda kini mempunyai set data yang bersih dan teratur untuk membina model regresi baharu anda!

Bagaimana dengan plot serakan?


In [None]:
# Set theme
theme_set(theme_light())

# Make a scatter plot of month and price
new_pumpkins %>% 
  ggplot(mapping = aes(x = month, y = price)) +
  geom_point(size = 1.6)


Plot taburan mengingatkan kita bahawa kita hanya mempunyai data bulan dari Ogos hingga Disember. Kita mungkin memerlukan lebih banyak data untuk dapat membuat kesimpulan secara linear.

Mari kita lihat semula data pemodelan kita:


In [None]:
# Display first 5 rows
new_pumpkins %>% 
  slice_head(n = 5)

Bagaimana jika kita ingin meramalkan `price` labu berdasarkan kolum `city` atau `package` yang merupakan jenis karakter? Atau lebih mudah lagi, bagaimana kita boleh mencari korelasi (yang memerlukan kedua-dua inputnya bersifat numerik) antara, contohnya, `package` dan `price`? 🤷🤷

Model pembelajaran mesin berfungsi dengan lebih baik menggunakan ciri-ciri numerik berbanding nilai teks, jadi secara amnya anda perlu menukar ciri-ciri kategori kepada representasi numerik.

Ini bermaksud kita perlu mencari cara untuk memformat semula peramal kita supaya lebih mudah digunakan oleh model secara efektif, satu proses yang dikenali sebagai `feature engineering`.


## 3. Pra-pemprosesan data untuk pemodelan dengan resipi 👩‍🍳👨‍🍳

Aktiviti yang menstruktur semula nilai peramal untuk menjadikannya lebih mudah digunakan oleh model secara berkesan dikenali sebagai `feature engineering`.

Model yang berbeza mempunyai keperluan pra-pemprosesan yang berbeza. Sebagai contoh, kaedah kuasa dua terkecil memerlukan `pengekodan pemboleh ubah kategori` seperti bulan, jenis, dan nama bandar. Ini melibatkan `menerjemahkan` satu lajur dengan `nilai kategori` kepada satu atau lebih `lajur berangka` yang menggantikan lajur asal.

Sebagai contoh, andaikan data anda mengandungi ciri kategori berikut:

|  bandar   |
|:---------:|
| Denver    |
| Nairobi   |
|  Tokyo    |

Anda boleh menggunakan *pengekodan ordinal* untuk menggantikan setiap kategori dengan nilai integer unik, seperti ini:

| bandar |
|:------:|
|   0    |
|   1    |
|   2    |

Dan itulah yang akan kita lakukan pada data kita!

Dalam bahagian ini, kita akan meneroka satu lagi pakej Tidymodels yang hebat: [recipes](https://tidymodels.github.io/recipes/) - yang direka untuk membantu anda memproses data anda **sebelum** melatih model anda. Pada asasnya, resipi adalah objek yang menentukan langkah-langkah yang perlu diterapkan pada set data untuk menjadikannya sedia untuk pemodelan.

Sekarang, mari kita cipta resipi yang menyediakan data kita untuk pemodelan dengan menggantikan integer unik bagi semua pemerhatian dalam lajur peramal:


In [None]:
# Specify a recipe
pumpkins_recipe <- recipe(price ~ ., data = new_pumpkins) %>% 
  step_integer(all_predictors(), zero_based = TRUE)


# Print out the recipe
pumpkins_recipe

Hebat! 👏 Kita baru sahaja mencipta resipi pertama yang menentukan hasil (harga) dan peramal yang sepadan, serta memastikan semua lajur peramal ditukar kepada satu set nombor bulat 🙌! Mari kita pecahkan langkah-langkahnya:

-   Panggilan kepada `recipe()` dengan formula memberitahu resipi tentang *peranan* pemboleh ubah menggunakan data `new_pumpkins` sebagai rujukan. Sebagai contoh, lajur `price` telah diberikan peranan sebagai `outcome`, manakala lajur-lajur lain diberikan peranan sebagai `predictor`.

-   `step_integer(all_predictors(), zero_based = TRUE)` menentukan bahawa semua peramal perlu ditukar kepada satu set nombor bulat dengan penomboran bermula dari 0.

Kami pasti anda mungkin berfikir: "Ini sangat menarik!! Tetapi bagaimana jika saya perlu memastikan bahawa resipi ini benar-benar melakukan apa yang saya harapkan? 🤔"

Itu adalah pemikiran yang hebat! Anda lihat, setelah resipi anda ditentukan, anda boleh menganggarkan parameter yang diperlukan untuk memproses data, dan kemudian mengekstrak data yang telah diproses. Anda biasanya tidak perlu melakukan ini apabila menggunakan Tidymodels (kita akan lihat konvensyen biasa sebentar lagi-\> `workflows`), tetapi ia boleh berguna apabila anda ingin melakukan semakan untuk memastikan resipi berfungsi seperti yang diharapkan.

Untuk itu, anda memerlukan dua kata kerja tambahan: `prep()` dan `bake()`, dan seperti biasa, rakan kecil R kita oleh [`Allison Horst`](https://github.com/allisonhorst/stats-illustrations) membantu anda memahami ini dengan lebih baik!

<p >
   <img src="../../images/recipes.png"
   width="550"/>
   <figcaption>Karya oleh @allison_horst</figcaption>


[`prep()`](https://recipes.tidymodels.org/reference/prep.html): menganggarkan parameter yang diperlukan daripada set latihan yang kemudiannya boleh digunakan pada set data lain. Sebagai contoh, untuk satu lajur peramal tertentu, pemerhatian mana yang akan diberikan integer 0 atau 1 atau 2 dan sebagainya.

[`bake()`](https://recipes.tidymodels.org/reference/bake.html): mengambil resipi yang telah disediakan dan melaksanakan operasi pada mana-mana set data.

Dengan itu, mari kita sediakan dan laksanakan resipi kita untuk benar-benar mengesahkan bahawa di sebalik tabir, lajur peramal akan terlebih dahulu dikodkan sebelum model dipasang.


In [None]:
# Prep the recipe
pumpkins_prep <- prep(pumpkins_recipe)

# Bake the recipe to extract a preprocessed new_pumpkins data
baked_pumpkins <- bake(pumpkins_prep, new_data = NULL)

# Print out the baked data set
baked_pumpkins %>% 
  slice_head(n = 10)

Woo-hoo!🥳 Data yang telah diproses `baked_pumpkins` mempunyai semua peramal yang telah dikodkan, mengesahkan bahawa langkah-langkah praproses yang ditakrifkan sebagai resipi kita akan berfungsi seperti yang diharapkan. Ini menjadikannya lebih sukar untuk anda baca tetapi jauh lebih mudah difahami oleh Tidymodels! Luangkan masa untuk mengetahui pemerhatian mana yang telah dipetakan kepada integer yang sepadan.

Perlu juga disebutkan bahawa `baked_pumpkins` adalah bingkai data yang kita boleh lakukan pengiraan ke atasnya.

Sebagai contoh, mari kita cuba mencari korelasi yang baik antara dua titik data anda untuk berpotensi membina model ramalan yang baik. Kita akan menggunakan fungsi `cor()` untuk melakukannya. Taipkan `?cor()` untuk mengetahui lebih lanjut tentang fungsi tersebut.


In [None]:
# Find the correlation between the city_name and the price
cor(baked_pumpkins$city_name, baked_pumpkins$price)

# Find the correlation between the package and the price
cor(baked_pumpkins$package, baked_pumpkins$price)


Ternyata, terdapat hanya hubungan yang lemah antara Bandar dan Harga. Namun, terdapat sedikit hubungan yang lebih baik antara Pakej dan Harganya. Itu masuk akal, bukan? Biasanya, semakin besar kotak hasil, semakin tinggi harganya.

Sementara kita sedang melakukannya, mari kita cuba dan visualkan matriks korelasi bagi semua lajur menggunakan pakej `corrplot`.


In [None]:
# Load the corrplot package
library(corrplot)

# Obtain correlation matrix
corr_mat <- cor(baked_pumpkins %>% 
                  # Drop columns that are not really informative
                  select(-c(low_price, high_price)))

# Make a correlation plot between the variables
corrplot(corr_mat, method = "shade", shade.col = NA, tl.col = "black", tl.srt = 45, addCoef.col = "black", cl.pos = "n", order = "original")

🤩🤩 Lebih baik lagi.

Satu soalan yang bagus untuk ditanya sekarang ialah: '`Berapakah harga yang boleh saya jangkakan untuk satu pakej labu tertentu?`' Mari kita teruskan!

> Nota: Apabila anda **`bake()`** resipi yang telah disediakan **`pumpkins_prep`** dengan **`new_data = NULL`**, anda akan mengekstrak data latihan yang telah diproses (iaitu, yang telah dikodkan). Jika anda mempunyai set data lain, contohnya set ujian, dan ingin melihat bagaimana resipi akan memprosesnya, anda hanya perlu bake **`pumpkins_prep`** dengan **`new_data = test_set`**

## 4. Bina model regresi linear

<p >
   <img src="../../images/linear-polynomial.png"
   width="800"/>
   <figcaption>Infografik oleh Dasani Madipalli</figcaption>


<!--![Infografik oleh Dasani Madipalli](../../../../../../2-Regression/3-Linear/images/linear-polynomial.png){width="800"}-->


Sekarang kita telah membina resipi dan mengesahkan bahawa data akan diproses dengan betul, mari kita bina model regresi untuk menjawab soalan: `Berapakah harga yang boleh saya jangkakan untuk satu pakej labu tertentu?`

#### Latih model regresi linear menggunakan set latihan

Seperti yang mungkin telah anda perhatikan, kolum *price* adalah pemboleh ubah `hasil` manakala kolum *package* adalah pemboleh ubah `peramal`.

Untuk melakukannya, kita akan mula dengan membahagikan data di mana 80% akan dimasukkan ke dalam set latihan dan 20% ke dalam set ujian, kemudian mendefinisikan resipi yang akan mengekod kolum peramal ke dalam satu set integer, dan seterusnya membina spesifikasi model. Kita tidak akan menyediakan dan memanggang resipi kita kerana kita sudah tahu ia akan memproses data seperti yang diharapkan.


In [None]:
set.seed(2056)
# Split the data into training and test sets
pumpkins_split <- new_pumpkins %>% 
  initial_split(prop = 0.8)


# Extract training and test data
pumpkins_train <- training(pumpkins_split)
pumpkins_test <- testing(pumpkins_split)



# Create a recipe for preprocessing the data
lm_pumpkins_recipe <- recipe(price ~ package, data = pumpkins_train) %>% 
  step_integer(all_predictors(), zero_based = TRUE)



# Create a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>% 
  set_mode("regression")

Kerja yang bagus! Sekarang kita sudah ada resipi dan spesifikasi model, kita perlu cari cara untuk menggabungkan kedua-duanya ke dalam satu objek yang akan terlebih dahulu memproses data (prep+bake di belakang tabir), melatih model pada data yang telah diproses, dan juga membolehkan aktiviti pasca-pemprosesan dilakukan jika perlu. Bagaimana dengan itu untuk ketenangan fikiran anda!🤩

Dalam Tidymodels, objek yang mudah ini dipanggil [`workflow`](https://workflows.tidymodels.org/) dan ia dengan mudah menyimpan komponen pemodelan anda! Ini adalah apa yang kita panggil *pipelines* dalam *Python*.

Jadi, mari kita gabungkan semuanya ke dalam satu workflow!📦


In [None]:
# Hold modelling components in a workflow
lm_wf <- workflow() %>% 
  add_recipe(lm_pumpkins_recipe) %>% 
  add_model(lm_spec)

# Print out the workflow
lm_wf

Sebagai tambahan, aliran kerja boleh disesuaikan/dilatih dengan cara yang hampir sama seperti model.


In [None]:
# Train the model
lm_wf_fit <- lm_wf %>% 
  fit(data = pumpkins_train)

# Print the model coefficients learned 
lm_wf_fit

Dari output model, kita dapat melihat pekali yang dipelajari semasa latihan. Pekali ini mewakili pekali garis terbaik yang memberikan ralat keseluruhan paling rendah antara pemboleh ubah sebenar dan yang diramalkan.

#### Menilai prestasi model menggunakan set ujian

Sudah tiba masanya untuk melihat bagaimana prestasi model 📏! Bagaimana kita melakukannya?

Sekarang setelah kita melatih model, kita boleh menggunakannya untuk membuat ramalan bagi test_set menggunakan `parsnip::predict()`. Kemudian kita boleh membandingkan ramalan ini dengan nilai label sebenar untuk menilai sejauh mana (atau tidak!) model berfungsi.

Mari kita mulakan dengan membuat ramalan untuk set ujian kemudian gabungkan lajur dengan set ujian.


In [None]:
# Make predictions for the test set
predictions <- lm_wf_fit %>% 
  predict(new_data = pumpkins_test)


# Bind predictions to the test set
lm_results <- pumpkins_test %>% 
  select(c(package, price)) %>% 
  bind_cols(predictions)


# Print the first ten rows of the tibble
lm_results %>% 
  slice_head(n = 10)

Ya, anda baru sahaja melatih model dan menggunakannya untuk membuat ramalan! 🔮 Adakah ia bagus? Mari kita nilai prestasi model tersebut!

Dalam Tidymodels, kita lakukan ini menggunakan `yardstick::metrics()`! Untuk regresi linear, mari kita fokus pada metrik berikut:

-   `Root Mean Square Error (RMSE)`: Punca kuasa dua daripada [MSE](https://en.wikipedia.org/wiki/Mean_squared_error). Ini memberikan metrik mutlak dalam unit yang sama seperti label (dalam kes ini, harga labu). Nilai yang lebih kecil menunjukkan model yang lebih baik (secara ringkas, ia mewakili purata harga di mana ramalan adalah salah!).

-   `Coefficient of Determination (biasanya dikenali sebagai R-squared atau R2)`: Metrik relatif di mana nilai yang lebih tinggi menunjukkan kesesuaian model yang lebih baik. Secara asasnya, metrik ini mewakili sejauh mana varians antara nilai label yang diramal dan sebenar dapat dijelaskan oleh model.


In [None]:
# Evaluate performance of linear regression
metrics(data = lm_results,
        truth = price,
        estimate = .pred)

Prestasi model menurun. Mari kita lihat jika kita boleh mendapatkan petunjuk yang lebih baik dengan memvisualisasikan plot taburan pakej dan harga, kemudian menggunakan ramalan yang dibuat untuk melapiskan garis terbaik.

Ini bermaksud kita perlu menyediakan dan memproses set ujian untuk mengekodkan lajur pakej, kemudian menggabungkannya dengan ramalan yang dibuat oleh model kita.


In [None]:
# Encode package column
package_encode <- lm_pumpkins_recipe %>% 
  prep() %>% 
  bake(new_data = pumpkins_test) %>% 
  select(package)


# Bind encoded package column to the results
lm_results <- lm_results %>% 
  bind_cols(package_encode %>% 
              rename(package_integer = package)) %>% 
  relocate(package_integer, .after = package)


# Print new results data frame
lm_results %>% 
  slice_head(n = 5)


# Make a scatter plot
lm_results %>% 
  ggplot(mapping = aes(x = package_integer, y = price)) +
  geom_point(size = 1.6) +
  # Overlay a line of best fit
  geom_line(aes(y = .pred), color = "orange", size = 1.2) +
  xlab("package")
  


Hebat! Seperti yang anda lihat, model regresi linear tidak benar-benar menggambarkan hubungan antara pakej dan harga yang sepadan dengan baik.

🎃 Tahniah, anda baru sahaja mencipta model yang boleh membantu meramalkan harga beberapa jenis labu. Ladang labu percutian anda pasti akan kelihatan indah. Tetapi anda mungkin boleh mencipta model yang lebih baik!

## 5. Bina model regresi polinomial

<p >
   <img src="../../images/linear-polynomial.png"
   width="800"/>
   <figcaption>Infografik oleh Dasani Madipalli</figcaption>


<!--![Infografik oleh Dasani Madipalli](../../../../../../2-Regression/3-Linear/images/linear-polynomial.png){width="800"}-->


Kadang-kadang data kita mungkin tidak mempunyai hubungan linear, tetapi kita masih ingin meramalkan hasil. Regresi polinomial boleh membantu kita membuat ramalan untuk hubungan tidak linear yang lebih kompleks.

Sebagai contoh, lihat hubungan antara pakej dan harga dalam set data labu kita. Walaupun kadang-kadang terdapat hubungan linear antara pemboleh ubah - semakin besar labu dari segi isipadu, semakin tinggi harganya - kadang-kadang hubungan ini tidak boleh diplotkan sebagai satah atau garis lurus.

> ✅ Berikut adalah [beberapa contoh lagi](https://online.stat.psu.edu/stat501/lesson/9/9.8) data yang boleh menggunakan regresi polinomial
>
> Lihat semula hubungan antara Jenis kepada Harga dalam plot sebelumnya. Adakah scatterplot ini kelihatan seperti ia semestinya perlu dianalisis dengan garis lurus? Mungkin tidak. Dalam kes ini, anda boleh mencuba regresi polinomial.
>
> ✅ Polinomial adalah ekspresi matematik yang mungkin terdiri daripada satu atau lebih pemboleh ubah dan koefisien

#### Latih model regresi polinomial menggunakan set latihan

Regresi polinomial mencipta *garis melengkung* untuk lebih sesuai dengan data tidak linear.

Mari kita lihat sama ada model polinomial akan memberikan prestasi yang lebih baik dalam membuat ramalan. Kita akan mengikuti prosedur yang agak serupa seperti yang kita lakukan sebelum ini:

-   Cipta resipi yang menentukan langkah-langkah praproses yang perlu dilakukan pada data kita untuk menjadikannya sedia untuk pemodelan iaitu: pengekodan pemboleh ubah dan pengiraan polinomial darjah *n*

-   Bina spesifikasi model

-   Gabungkan resipi dan spesifikasi model ke dalam satu aliran kerja

-   Cipta model dengan menyesuaikan aliran kerja

-   Nilai sejauh mana model berprestasi pada data ujian

Mari kita teruskan!


In [None]:
# Specify a recipe
poly_pumpkins_recipe <-
  recipe(price ~ package, data = pumpkins_train) %>%
  step_integer(all_predictors(), zero_based = TRUE) %>% 
  step_poly(all_predictors(), degree = 4)


# Create a model specification
poly_spec <- linear_reg() %>% 
  set_engine("lm") %>% 
  set_mode("regression")


# Bundle recipe and model spec into a workflow
poly_wf <- workflow() %>% 
  add_recipe(poly_pumpkins_recipe) %>% 
  add_model(poly_spec)


# Create a model
poly_wf_fit <- poly_wf %>% 
  fit(data = pumpkins_train)


# Print learned model coefficients
poly_wf_fit

  

#### Menilai prestasi model

👏👏Anda telah membina model polinomial, mari buat ramalan pada set ujian!


In [None]:
# Make price predictions on test data
poly_results <- poly_wf_fit %>% predict(new_data = pumpkins_test) %>% 
  bind_cols(pumpkins_test %>% select(c(package, price))) %>% 
  relocate(.pred, .after = last_col())


# Print the results
poly_results %>% 
  slice_head(n = 10)

Woo-hoo, mari kita menilai bagaimana model berprestasi pada test_set menggunakan `yardstick::metrics()`.


In [None]:
metrics(data = poly_results, truth = price, estimate = .pred)

🤩🤩 Prestasi yang jauh lebih baik.

`rmse` menurun daripada kira-kira 7 kepada kira-kira 3, menunjukkan pengurangan ralat antara harga sebenar dan harga yang diramal. Anda boleh *secara longgar* mentafsirkan ini sebagai bermaksud bahawa secara purata, ramalan yang salah adalah tersasar sekitar \$3. `rsq` meningkat daripada kira-kira 0.4 kepada 0.8.

Semua metrik ini menunjukkan bahawa model polinomial berprestasi jauh lebih baik daripada model linear. Kerja yang bagus!

Mari kita lihat jika kita boleh menggambarkannya!


In [None]:
# Bind encoded package column to the results
poly_results <- poly_results %>% 
  bind_cols(package_encode %>% 
              rename(package_integer = package)) %>% 
  relocate(package_integer, .after = package)


# Print new results data frame
poly_results %>% 
  slice_head(n = 5)


# Make a scatter plot
poly_results %>% 
  ggplot(mapping = aes(x = package_integer, y = price)) +
  geom_point(size = 1.6) +
  # Overlay a line of best fit
  geom_line(aes(y = .pred), color = "midnightblue", size = 1.2) +
  xlab("package")


Anda boleh melihat garis lengkung yang lebih sesuai dengan data anda! 🤩

Anda boleh menjadikannya lebih lancar dengan memberikan formula polinomial kepada `geom_smooth` seperti ini:


In [None]:
# Make a scatter plot
poly_results %>% 
  ggplot(mapping = aes(x = package_integer, y = price)) +
  geom_point(size = 1.6) +
  # Overlay a line of best fit
  geom_smooth(method = lm, formula = y ~ poly(x, degree = 4), color = "midnightblue", size = 1.2, se = FALSE) +
  xlab("package")

Sama seperti lengkung yang lancar!🤩

Berikut adalah cara untuk membuat ramalan baru:


In [None]:
# Make a hypothetical data frame
hypo_tibble <- tibble(package = "bushel baskets")

# Make predictions using linear model
lm_pred <- lm_wf_fit %>% predict(new_data = hypo_tibble)

# Make predictions using polynomial model
poly_pred <- poly_wf_fit %>% predict(new_data = hypo_tibble)

# Return predictions in a list
list("linear model prediction" = lm_pred, 
     "polynomial model prediction" = poly_pred)


Ramalan `polynomial model` memang masuk akal, berdasarkan plot taburan `price` dan `package`! Dan, jika ini adalah model yang lebih baik daripada yang sebelumnya, melihat data yang sama, anda perlu merancang bajet untuk labu yang lebih mahal ini!

🏆 Tahniah! Anda telah mencipta dua model regresi dalam satu pelajaran. Dalam bahagian terakhir mengenai regresi, anda akan belajar tentang regresi logistik untuk menentukan kategori.

## **🚀Cabaran**

Uji beberapa pemboleh ubah yang berbeza dalam notebook ini untuk melihat bagaimana korelasi berkait dengan ketepatan model.

## [**Kuiz selepas kuliah**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/14/)

## **Ulasan & Kajian Kendiri**

Dalam pelajaran ini, kita telah belajar tentang Regresi Linear. Terdapat jenis Regresi lain yang penting. Baca tentang teknik Stepwise, Ridge, Lasso dan Elasticnet. Kursus yang baik untuk belajar lebih lanjut ialah [Stanford Statistical Learning course](https://online.stanford.edu/courses/sohs-ystatslearning-statistical-learning).

Jika anda ingin belajar lebih lanjut tentang cara menggunakan rangka kerja Tidymodels yang hebat, sila semak sumber berikut:

-   Laman web Tidymodels: [Mulakan dengan Tidymodels](https://www.tidymodels.org/start/)

-   Max Kuhn dan Julia Silge, [*Tidy Modeling with R*](https://www.tmwr.org/)*.*

###### **TERIMA KASIH KEPADA:**

[Allison Horst](https://twitter.com/allison_horst?lang=en) kerana mencipta ilustrasi yang hebat yang menjadikan R lebih mesra dan menarik. Cari lebih banyak ilustrasi di [galerinya](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).



---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila ambil maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat penting, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.
