# 1. Data Input

## Importing Library

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

## Data Ingestion

In [2]:
df_train = pd.read_csv("train_sample.csv")
df_test = pd.read_csv("test_sample.csv")

### Data Comparison

In [3]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1600 entries, 0 to 1599
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   sold_date   1136 non-null   object 
 1   sold_price  1136 non-null   float64
 2   year_built  1433 non-null   float64
 3   garage      1023 non-null   float64
 4   sqft        1150 non-null   float64
 5   type        1600 non-null   object 
 6   price       1594 non-null   float64
 7   transport   1600 non-null   bool   
 8   services    1600 non-null   int64  
 9   beds        1550 non-null   float64
 10  floors      1303 non-null   float64
 11  baths       1599 non-null   float64
 12  lot_sqft    792 non-null    float64
dtypes: bool(1), float64(9), int64(1), object(2)
memory usage: 151.7+ KB


In [4]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   sold_date   279 non-null    object 
 1   sold_price  279 non-null    float64
 2   year_built  357 non-null    float64
 3   garage      259 non-null    float64
 4   sqft        297 non-null    float64
 5   type        400 non-null    object 
 6   transport   400 non-null    bool   
 7   services    400 non-null    int64  
 8   beds        390 non-null    float64
 9   floors      317 non-null    float64
 10  baths       400 non-null    float64
 11  lot_sqft    200 non-null    float64
dtypes: bool(1), float64(8), int64(1), object(2)
memory usage: 34.9+ KB


# 2. Working with Data. Preprocessing

## Preprocessing

### Batasan
- **Batas waktu program berjalan**: 10 detik  
- **Batas memori**: 128MB  
- **Input**: input standar atau `input.txt`  
- **Output**: output standar atau `output.txt`  

---

### Deskripsi

Siapkan data untuk pekerjaan selanjutnya dengan model machine learning. Untuk melakukan ini, gunakan metode dari pustaka berikut:

- `sklearn.preprocessing.MinMaxScaler`
- `sklearn.model_selection.train_test_split`

Tulis fungsi bernama:

```preprocessing(X: np.ndarray, y: np.ndarray, test_size=0.33)``` 

dengan parameter input berikut:
- `X` : Matriks NumPy berisi fitur objek.
- `y`: Vektor NumPy berisi label kebenaran (target).
- `test_size`: Menentukan ukuran dataset pengujian sebagai `test_size * 100%` dari total sampel (nilai default dari argumen `test_size` adalah 0.33).

Catatan bahwa data harus diacak sebelum dibagi.
Gunakan argumen `random_state=1234` pada fungsi `train_test_split` untuk validasi fungsi yang benar.

Fungsi ini akan mengembalikan data yang telah diskalakan menggunakan metode `MinMaxScaler`, dan dibagi menjadi dataset pelatihan dan pengujian, di mana panjang dataset pengujian adalah `test_size` dari total sampel. Output harus berupa tuple dengan 4 item:

```(X_train: np.ndarray, y_train: np.ndarray, X_test: np.ndarray, y_test: np.ndarray)```

> *Pastikan untuk mengikuti urutan operasi yang benar dalam memproses data.*


### Contoh
#### Input
```
import numpy as np

X, y = np.array([[1, 2], [3, 4], [1, 2]]), np.array([1, 2, 3])
X_train, y_train, X_test, y_test = preprocessing(X, y, test_size=0.33)
print(X_train, y_train, X_test, y_test, sep='\n')
```

#### Output
```
[[1. 1.]
 [0. 0.]]
[2 3]
[[0. 0.]]
[1]
```

In [5]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

def preprocessing(X: np.ndarray, y: np.ndarray, test_size=0.33):
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=test_size, random_state=1234
    )
    scaler = MinMaxScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    return X_train_scaled, y_train, X_test_scaled, y_test


In [6]:
X = df_train.drop(columns=['price']).to_numpy()
y = df_train['price'].to_numpy()

# X_train, y_train, X_test, y_test = preprocessing(X, y)
# print(X_train)

## Hold-Out Validation
**Hold-Out Validation** adalah metode paling dasar dalam evaluasi performa model machine learning. Prinsipnya sederhana: kamu **membagi dataset menjadi dua bagian — satu untuk melatih model (training set)** dan satu lagi untuk **mengujinya (test set)**. Ini memungkinkanmu mengukur seberapa baik model bekerja pada data yang tidak pernah dilihat sebelumnya.

Penjelasan langkah-langkahnya:
1. Pisahkan data fitur (`X`) dan target (`y`).
2. Tentukan ukuran data uji, misalnya `test_size=0.33` berarti 33% dari data total akan jadi test set.
3. Acak urutan data agar tidak bias (dalam instruksi ini dengan `np.random.seed(1234)`).
4. Bagi data menjadi training dan test set berdasarkan proporsi yang ditentukan.
5. Gunakan training set untuk membangun model, dan test set untuk menilai performa.

Metode ini cepat, sederhana, dan berguna saat data cukup banyak. Tapi kalau datanya kecil atau ingin validasi lebih stabil, kita bisa menggunakan **k-fold cross-validation**.

### Batasan
- **Batas waktu program berjalan**: 1 detik  
- **Batas memori**: 64MB  
- **Input**: input standar atau `input.txt`  
- **Output**: output standar atau `output.txt`  

---

### Deskripsi
Lakukan Hold-Out validation dengan meniru perilaku fungsi `train_test_split` dari `sklearn.model_selection`.
Kamu tidak boleh menggunakan fungsi bawaan tersebut.

Tulis fungsi bernama:

```train_test_split(X: np.ndarray, y: np.ndarray, test_size=0.33)``` 

dengan parameter input berikut:
- `X` : Matriks NumPy berisi fitur objek.
- `y`: Vektor NumPy berisi label kebenaran (target).
- `test_size`: Menentukan ukuran dataset pengujian sebagai `test_size * 100%` dari total sampel (nilai default dari argumen `test_size` adalah 0.33).

Fungsi ini harus membagi data menjadi data latih dan data uji, **dengan panjang data uji sebesar `test_size` dari total sampel.**
Gunakan fungsi `round()` untuk menghitung jumlah data uji.
Output harus berupa **tuple berisi 4 elemen**:

```(X_train: np.ndarray, y_train: np.ndarray, X_test: np.ndarray, y_test: np.ndarray)```

#### Catatan Penting

- Data harus di-*shuffle* (acak) **sebelum dibagi**.
- Gunakan nilai seed `1234` untuk `np.random.seed` agar validasi sistem bisa benar.
- Hasil pengacakan harus diatur agar data dengan indeks awal (sebanyak `test_size` dari total) masuk ke data uji, dan sisanya ke data latih.
- Ini penting agar hasil pembagian *deterministik* dan sesuai sistem pengecekan.


### Contoh
#### Input
```
import numpy as np
X = np.array([[2, 3], [2, 3], [2, 3]])
y = np.array([1, 1, 1])
X_train, y_train, X_test, y_test = train_test_split(X, y, test_size=0.33)
```

#### Output
```
[[2 3]]     ← X_train
[1 1]       ← y_train
[[2 3]]     ← X_test
[1]         ← y_test
```

In [7]:
import numpy as np

def train_test_split(X: np.ndarray, y: np.ndarray, test_size=0.33):
    np.random.seed(1234)
    n_samples = len(X)
    indices = np.arange(n_samples)
    np.random.shuffle(indices)

    test_count = round(test_size * n_samples)
    test_indices = indices[:test_count]
    train_indices = indices[test_count:]

    X_train = X[train_indices]
    y_train = y[train_indices]
    X_test = X[test_indices]
    y_test = y[test_indices]

    return X_train, y_train, X_test, y_test


## OneHot Encoder

### Batasan
- **Batas waktu program berjalan**: 1 detik  
- **Batas memori**: 64MB  
- **Input**: input standar atau `input.txt`  
- **Output**: output standar atau `output.txt`  

---

### Deskripsi
Implementasikan versi sederhana dari transformasi one_hot_encoding tanpa menggunakan `pd.get_dummies` atau `sklearn.preprocessing.OneHotEncoder`.

Tulis fungsi bernama:

```def onehot_encoding(X: np.ndarray) -> np.ndarray:``` 

- Fungsi ini menerima X sebagai input, yaitu array NumPy berdimensi satu yang berisi nilai kategori.
- Fungsi harus mengembalikan array NumPy bertipe integer (isi 0 atau 1) dengan ukuran: ```(jumlah data) × (jumlah nilai unik dalam X)``` yang menunjukkan representasi one-hot dari masing-masing elemen dalam X.

#### Urutan kolom:

- Vektor biner (hasil one-hot) disusun berdasarkan urutan menaik dari nilai kategori.

- Contoh: jika nilai unik dalam X adalah b, a, dan c, maka mereka akan diurutkan menjadi a, b, c.

- Kolom pertama dalam output mewakili a, kolom kedua b, dan kolom terakhir c.


### Contoh
#### Input
```
x = np.array([3, 2, 2, 1])
print(onehot_encoding(x))
```

#### Output
```
[[0 0 1]
 [0 1 0]
 [0 1 0]
 [1 0 0]]
```
> Karena nilai unik dalam X adalah `1, 2, 3` (urut menaik), maka:
> - "`1` → [1, 0, 0]"
> - "`2` → [0, 1, 0]"
> - "`3` → [0, 0, 1]"

In [8]:
import numpy as np

def onehot_encoding(X: np.ndarray) -> np.ndarray:
    unique_vals = np.sort(np.unique(X))
    val_to_index = {val: idx for idx, val in enumerate(unique_vals)}
    
    onehot = np.zeros((X.shape[0], unique_vals.shape[0]), dtype=int)
    for i, val in enumerate(X):
        onehot[i, val_to_index[val]] = 1

    return onehot


## MinMax Scaler

### Batasan
- **Batas waktu program berjalan**: 1 detik  
- **Batas memori**: 64MB  
- **Input**: input standar atau `input.txt`  
- **Output**: output standar atau `output.txt`  

---

### Deskripsi
Lakukan transformasi MinMaxScaler yang meniru perilaku dari metode `sklearn.preprocessing.MinMaxScaler`. Kamu **tidak boleh menggunakan** metode bawaan dari pustaka tersebut.

Buatlah fungsi `minmax_scale(X: np.ndarray) -> np.ndarray` yang menerima matriks fitur `X` dalam format array NumPy dan mengembalikan matriks yang telah diskalakan menggunakan metode **MinMaxScaler** dalam format array NumPy.

**Pastikan kamu juga menangani kasus ketika suatu fitur hanya memiliki satu nilai. Dalam kasus seperti itu, fungsi harus mengembalikan nilai normalisasi paling minimum (yaitu 0).**


### Contoh
#### Input
```
import numpy as np
X = np.array([[1, 2],
              [2, 1]])

print(minmax_scale(X))
```

#### Output
```
[[0. 1.]
 [1. 0.]]
```

### Catatan
File yang dikirim ke sistem pengujian hanya boleh berisi fungsi yang diminta dalam soal beserta fungsi pembantu (jika ada). Jangan lupa juga mengimpor pustaka yang digunakan.

In [9]:
import numpy as np

def minmax_scale(X: np.ndarray) -> np.ndarray:
    X_min = X.min(axis=0)
    X_max = X.max(axis=0)
    denom = X_max - X_min
    denom[denom == 0] = 1  # Hindari pembagian dengan nol
    return (X - X_min) / denom


---

# 3. Linear Regression