# Multiple Linear Regression

## Importing the libraries

Code tersebut menggunakan tiga library, yaitu NumPy untuk operasi numerik, Matplotlib untuk membuat plot grafik, dan Pandas untuk manipulasi dan analisis data. Code ini kemungkinan besar digunakan untuk melakukan visualisasi data.

```python
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
```

- `import numpy as np`: Mengimpor library NumPy dan memberikan alias "np" untuk memudahkan penggunaan.
- `import matplotlib.pyplot as plt`: Mengimpor modul "pyplot" dari library Matplotlib dan memberikan alias "plt" untuk memudahkan penggunaan.
- `import pandas as pd`: Mengimpor library Pandas dan memberikan alias "pd" untuk memudahkan penggunaan.

Kode tersebut adalah bagian awal dari sebuah program atau skrip Python yang kemungkinan besar akan melibatkan pengolahan data dan/atau visualisasi menggunakan NumPy, Matplotlib, dan Pandas.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Importing the dataset

```python
dataset = pd.read_csv('50_Startups.csv')
```
Membaca file CSV '50_Startups.csv' dan menyimpan datanya dalam variabel dataset.

```python
X = dataset.iloc[:, :-1].values
```
Mengambil semua baris dan kolom kecuali kolom terakhir dari dataset sebagai variabel X.

```python
y = dataset.iloc[:, -1].values
```
Mengambil semua baris dari kolom terakhir dataset sebagai variabel y.

In [None]:
dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

```python
print(X)
```
Mencetak nilai variabel X.

In [None]:
print(X)

[[165349.2 136897.8 471784.1 'New York']
 [162597.7 151377.59 443898.53 'California']
 [153441.51 101145.55 407934.54 'Florida']
 [144372.41 118671.85 383199.62 'New York']
 [142107.34 91391.77 366168.42 'Florida']
 [131876.9 99814.71 362861.36 'New York']
 [134615.46 147198.87 127716.82 'California']
 [130298.13 145530.06 323876.68 'Florida']
 [120542.52 148718.95 311613.29 'New York']
 [123334.88 108679.17 304981.62 'California']
 [101913.08 110594.11 229160.95 'Florida']
 [100671.96 91790.61 249744.55 'California']
 [93863.75 127320.38 249839.44 'Florida']
 [91992.39 135495.07 252664.93 'California']
 [119943.24 156547.42 256512.92 'Florida']
 [114523.61 122616.84 261776.23 'New York']
 [78013.11 121597.55 264346.06 'California']
 [94657.16 145077.58 282574.31 'New York']
 [91749.16 114175.79 294919.57 'Florida']
 [86419.7 153514.11 0.0 'New York']
 [76253.86 113867.3 298664.47 'California']
 [78389.47 153773.43 299737.29 'New York']
 [73994.56 122782.75 303319.26 'Florida']
 [67532

Output tersebut menampilkan nilai dari variabel X, yang berisi data numerik dan kategorikal dari dataset. Setiap baris mewakili satu entitas bisnis dengan atribut numerik pertama hingga ketiga dan atribut kategorikal terakhir.

## Encoding categorical data

```python
from sklearn.compose import ColumnTransformer
```
Mengimpor modul `ColumnTransformer` dari pustaka scikit-learn.

```python
from sklearn.preprocessing import OneHotEncoder
```
Mengimpor modul `OneHotEncoder` dari pustaka scikit-learn.

```python
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough')
```
Membuat objek `ct` dari kelas `ColumnTransformer` dengan menggunakan transformer OneHotEncoder untuk kolom ke-4 dan menyertakan seluruh kolom yang tidak diubah.

```python
X = np.array(ct.fit_transform(X))
```
Mengubah data array X menggunakan objek ColumnTransformer yang telah dibuat sebelumnya.

Catatan: Kode ini diasumsikan menggunakan modul NumPy (`np`), dan harus ada import NumPy sebelumnya untuk menghindari kesalahan.

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

```python
print(X)
```
Mencetak nilai variabel X.

In [None]:
print(X)

[[0.0 0.0 1.0 165349.2 136897.8 471784.1]
 [1.0 0.0 0.0 162597.7 151377.59 443898.53]
 [0.0 1.0 0.0 153441.51 101145.55 407934.54]
 [0.0 0.0 1.0 144372.41 118671.85 383199.62]
 [0.0 1.0 0.0 142107.34 91391.77 366168.42]
 [0.0 0.0 1.0 131876.9 99814.71 362861.36]
 [1.0 0.0 0.0 134615.46 147198.87 127716.82]
 [0.0 1.0 0.0 130298.13 145530.06 323876.68]
 [0.0 0.0 1.0 120542.52 148718.95 311613.29]
 [1.0 0.0 0.0 123334.88 108679.17 304981.62]
 [0.0 1.0 0.0 101913.08 110594.11 229160.95]
 [1.0 0.0 0.0 100671.96 91790.61 249744.55]
 [0.0 1.0 0.0 93863.75 127320.38 249839.44]
 [1.0 0.0 0.0 91992.39 135495.07 252664.93]
 [0.0 1.0 0.0 119943.24 156547.42 256512.92]
 [0.0 0.0 1.0 114523.61 122616.84 261776.23]
 [1.0 0.0 0.0 78013.11 121597.55 264346.06]
 [0.0 0.0 1.0 94657.16 145077.58 282574.31]
 [0.0 1.0 0.0 91749.16 114175.79 294919.57]
 [0.0 0.0 1.0 86419.7 153514.11 0.0]
 [1.0 0.0 0.0 76253.86 113867.3 298664.47]
 [0.0 0.0 1.0 78389.47 153773.43 299737.29]
 [0.0 1.0 0.0 73994.56 122782.75 3

Output menunjukkan data set setelah proses transformasi menggunakan `ColumnTransformer` dengan `OneHotEncoder` untuk kolom ke-4 (indeks 3). Hasil transformasi ini membagi kategori unik pada kolom tersebut menjadi kolom-kolom biner baru, yang mewakili setiap kategori dengan nilai 0 atau 1. Kolom-kolom biner ini kemudian digabungkan kembali dengan kolom-kolom lainnya dari data set asli.

Sebagai contoh, pada baris pertama output, kita dapat melihat bahwa kategori pada kolom ke-4 adalah 1.0, yang berarti kolom pertama dari hasil transformasi adalah 0.0, kolom kedua 0.0, dan kolom ketiga 1.0. Kemudian, nilai-nilai dari kolom-kolom lainnya (kolom ke-5 sampai ke-7) dipertahankan. Proses ini diulang untuk setiap baris dalam data set asli.

## Splitting the dataset into the Training set and Test set

```python
from sklearn.model_selection import train_test_split
```
Mengimpor fungsi `train_test_split` dari modul `model_selection` dalam pustaka `sklearn`.

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
```
Memisahkan dataset menjadi dua set, yaitu set pelatihan (`X_train` dan `y_train`) serta set pengujian (`X_test` dan `y_test`). Proporsi data pengujian adalah 20%, dan `random_state` digunakan agar hasil pemisahan dapat direproduksi.

Note: Kode ini mengasumsikan bahwa variabel `X` dan `y` telah didefinisikan sebelumnya.



In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

## Training the Multiple Linear Regression model on the Training set

```python
from sklearn.linear_model import LinearRegression
```
Mengimpor modul Linear Regression dari pustaka scikit-learn.

```python
regressor = LinearRegression()
```
Membuat objek regressor sebagai instance dari kelas LinearRegression.

```python
regressor.fit(X_train, y_train)
```
Melatih model menggunakan data pelatihan (X_train) dan target pelatihan (y_train). Model akan belajar untuk menyesuaikan diri dengan pola dalam data pelatihan.

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Hasil output tersebut adalah representasi dari model Linear Regression yang telah dilatih. Parameter-parameter default dari model ditampilkan setelah model dilatih dengan menggunakan metode `fit`.

## Predicting the Test set results

```python
y_pred = regressor.predict(X_test)
```
Menggunakan model regresi untuk memprediksi nilai pada data uji.

```python
np.set_printoptions(precision=2)
```
Mengatur opsi cetak untuk NumPy agar menampilkan angka desimal dengan presisi 2 digit.

```python
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))
```
Menggabungkan dan mencetak nilai prediksi dan nilai aktual secara berdampingan, dengan format yang diubah agar tampilan lebih rapi.

In [None]:
y_pred = regressor.predict(X_test)
np.set_printoptions(precision=2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

[[103015.2  103282.38]
 [132582.28 144259.4 ]
 [132447.74 146121.95]
 [ 71976.1   77798.83]
 [178537.48 191050.39]
 [116161.24 105008.31]
 [ 67851.69  81229.06]
 [ 98791.73  97483.56]
 [113969.44 110352.25]
 [167921.07 166187.94]]


Output menampilkan dua kolom angka yang merupakan hasil prediksi (kolom pertama) dan nilai aktual (kolom kedua) untuk setiap baris data uji.