<a href="https://colab.research.google.com/github/HendricoYehezky/Tugas-1/blob/main/Bab_2_2_(Data_Preprocessing)_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
### Aplikasi dalam melakukan manipulasi data yang tersimpan dalam tensor akan sangat berguna dalam menyelesaikan permasalahan sehari-hari ###
### Dimulai dengan preprocessing data mentah ###
### Dalam python untuk analisis data dikenal dengan modul Panda dimana data yang tersimpan dala CSV Format akan diformatkan ke dalam Tensor ###
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # Column names
    f.write('NA,Pave,127500\n')  # Each row represents a data example
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [3]:
### Membaca Data Set ###
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


In [5]:
### Mengatasi Missing Data ###
### Terdapat dua cara untuk mengatasi missing data yaitu kita imputation dan deletion data missing tersebut ###
### Imputasi berarti kita mengganti missing data dengan data lain dan deletion berarti kita menghapus data missing tersebut ###
### Dengan menggunakan fungsi (iloc) yaitu integer location based indexing, kita membagi data kedalam nilai input dan output ###
### Untuk kasus data numerik, input yang missing akan menggantikan nilai yang hilang yaitu NaN dengan rata-rata nilai yang sekolom dengan missing data tersebut ###
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


  import sys


In [6]:
### Untuk kasus kategorik atau diskrit, kita akan menggunakan kategori Alley Pave dan Alley NaN yang masing-masing mengartikan adanya data dengan nilai 1 pada alley_pave dan nilai 0 pada alley_nan serta data missing dengan alley_pave bernilai 0 dan alley_nan bernilai 1 ###
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


In [8]:
### Konversi Data ke dalam Format Tensor ###
import torch
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

In [9]:
### Tensor ###
X = torch.arange(24).reshape(2, 3, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

In [10]:
### Sifat Dasar Operator Arimatika atas Tensor ###
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()  # Assign a copy of `A` to `B` by allocating new memory
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]), tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [11]:
### Perkalian Hadamard ###
A * B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [13]:
### Perkalian skalar dan Penjumlahan skalar dengan tensor ###
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]), torch.Size([2, 3, 4]))

In [15]:
### Jumlah Reduksi ###
### Operasi yang berguna dalam menjumlahkan sejumlah elemen di dalam X dapat menggunakan fungsi berikut ini ###
x = torch.arange(4, dtype=torch.float32)
x, x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

In [18]:
### Operasi jumlah atas elemen-elemen di dalam tensor berdasarkan posisi indeks ###
A.shape, A.sum()

(torch.Size([5, 4]), tensor(190.))

In [19]:
### Mencari rata0rata dari sejumlah elemen di dalam tensir ###
A.mean(), A.sum() / A.numel()
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

In [20]:
### ketika kita menjumlahkan elemen dengan memberikan spesifikasi pada sumbu = 0 ###
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [21]:
### ketika kita menjumlahkan elemen dengan memberikan spesifikasi pada sumbu = 1 ###
A.sum(axis=[0, 1])  # Same as `A.sum()`

tensor(190.)

In [22]:
### jumlah Non-Reduksi###
sum_A = A.sum(axis=1, keepdims=True)
sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

In [23]:
### Tensor A dibagi dengan jumlah non-reduksi ###
A / sum_A 

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

In [24]:
### Jumlah akumulatif dalam tensor A
A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

In [25]:
### Dot Products ###
y = torch.ones(4, dtype = torch.float32)
x, y, torch.dot(x, y)
torch.sum(x * y)

tensor(6.)

In [26]:
### Produk Matriks-Vektor ###
A.shape, x.shape, torch.mv(A, x)


(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

In [27]:
### Perkalian Matriks ###
B = torch.ones(4, 3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

In [28]:
### Norm ###
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

In [29]:
### Frobenius Norm ###
torch.norm(torch.ones((4, 9)))

tensor(6.)