# Normalisasi data menggunakan metode min max scaller

Contoh data yang sering memerlukan normalisasi adalah data yang memiliki skala yang sangat berbeda antara fitur-fiturnya. Misalnya, dalam dataset berikut, terdapat dua fitur yang memiliki skala yang berbeda:

Fitur A memiliki nilai yang jauh lebih besar dibandingkan dengan fitur B. Hal ini dapat menyebabkan masalah dalam beberapa algoritma machine learning yang sensitif terhadap skala, seperti regresi linear dan k-nearest neighbors.

Dengan normalisasi, kita dapat mengubah kedua fitur ini sehingga memiliki skala yang serupa, misalnya dalam rentang 0 hingga 1, sehingga memudahkan dalam pemrosesan data lebih lanjut.

In [20]:
# Import library yang digunakan
import numpy as np
import pandas as pd

In [21]:
# Dataset yang diberikan dalam bentuk dictionary
data = {'Fitur A': [100, 50, 200, 150],
        'Fitur B': [5, 2, 7, 3]}

# Membuat DataFrame dari dataset
df = pd.DataFrame(data)

In [22]:
# Mendefinisikan fungsi untuk melakukan penskalaan Min-Max pada dictionary
def min_max_scale_dict(data):
    # Mengambil kunci (nama kolom) dari dictionary
    keys = data.keys()
    # Membuat dictionary untuk menyimpan data yang sudah dinormalisasi
    scaled_data = {}
    # Iterasi melalui setiap kunci (nama kolom) dalam dictionary
    for key in keys:
        # Menghitung nilai minimum dan maksimum dari kolom yang bersangkutan
        min_val = np.min(data[key])
        max_val = np.max(data[key])
        # Normalisasi setiap nilai dalam kolom menggunakan rumus Min-Max scaling
        scaled_data[key] = [(val - min_val) / (max_val - min_val) for val in data[key]]
    # Mengembalikan dictionary yang berisi data yang sudah dinormalisasi
    return scaled_data

In [23]:
# Memanggil fungsi min_max_scale_dict untuk melakukan normalisasi
normalized_data = min_max_scale_dict(data)

# Membuat DataFrame baru dari data yang sudah dinormalisasi
df_normalized = pd.DataFrame(normalized_data, columns=df.columns)

In [24]:
# Menampilkan DataFrame yang sudah dinormalisasi
print(df_normalized)

    Fitur A  Fitur B
0  0.333333      0.6
1  0.000000      0.0
2  1.000000      1.0
3  0.666667      0.2


Setelah proses normalisasi Min-Max, data yang awalnya memiliki rentang nilai yang berbeda untuk setiap kolomnya telah diubah sehingga setiap nilai dalam setiap kolom memiliki rentang antara 0 dan 1.

1. Kolom A


*   Nilai 100 dinormalisasi menjadi 0.25. Ini berarti nilai 100 dalam kolom A setelah dinormalisasi menjadi 0.25, yang menunjukkan bahwa nilai 100 adalah sekitar 25% dari rentang nilai dalam kolom A.
*   Nilai 50 dinormalisasi menjadi 0.0. Ini berarti nilai 50 dalam kolom A setelah dinormalisasi menjadi 0.0, yang menunjukkan bahwa nilai 50 adalah nilai minimum dalam kolom A setelah dinormalisasi.
*   Nilai 200 dinormalisasi menjadi 1.0. Ini berarti nilai 200 dalam kolom A setelah dinormalisasi menjadi 1.0, yang menunjukkan bahwa nilai 200 adalah nilai maksimum dalam kolom A setelah dinormalisasi.
*   Nilai 150 dinormalisasi menjadi 0.75. Ini berarti nilai 150 dalam kolom A setelah dinormalisasi menjadi 0.75, yang menunjukkan bahwa nilai 150 adalah sekitar 75% dari rentang nilai dalam kolom A.

2. Kolom B


*   Nilai 5 dinormalisasi menjadi 0.5. Ini berarti nilai 5 dalam kolom B setelah dinormalisasi menjadi 0.5, yang menunjukkan bahwa nilai 5 adalah sekitar 50% dari rentang nilai dalam kolom B.
*   Nilai 2 dinormalisasi menjadi 0.0. Ini berarti nilai 2 dalam kolom B setelah dinormalisasi menjadi 0.0, yang menunjukkan bahwa nilai 2 adalah nilai minimum dalam kolom B setelah dinormalisasi.
*   Nilai 7 dinormalisasi menjadi 1.0. Ini berarti nilai 7 dalam kolom B setelah dinormalisasi menjadi 1.0, yang menunjukkan bahwa nilai 7 adalah nilai maksimum dalam kolom B setelah dinormalisasi.
*   Nilai 3 dinormalisasi menjadi 0.25. Ini berarti nilai 3 dalam kolom B setelah dinormalisasi menjadi 0.25, yang menunjukkan bahwa nilai 3 adalah sekitar 25% dari rentang nilai dalam kolom B.












Dengan melakukan normalisasi, kita dapat membandingkan dan menganalisis data dengan lebih mudah karena semua nilai telah diperhitungkan dalam rentang yang sama.