# Proyek Feature Engineering: [*House Price*]
- **Nama:** [Rama Syailana Dewa]
- **Email:** [ramasyailana3@gmail.com]
- **Source Dataset** [https://www.kaggle.com/c/house-prices-advanced-regression-techniques]

**Goals**
- **Imputasi nilai hilang.**
- **Encoding fitur kategorikal.**
- **Normalisasi fitur numerik.**
- **Membuat fitur baru yang relevan (contoh: rasio antara luas rumah dan jumlah kamar).** 


## Langkah 1: Import Library dan Load Data

Pertama, kita akan mengimport library yang diperlukan dan memuat dataset.

In [1]:
# Import library yang diperlukan
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.impute import SimpleImputer

# Set opsi tampilan pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

In [3]:
def load_and_prepare_data(filepath):
    """
    Load dataset dan tampilkan informasi awal
    """
    df = pd.read_csv(filepath)
    
    print("=== Informasi Dataset ===")
    print(f"Jumlah baris: {df.shape[0]}")
    print(f"Jumlah kolom: {df.shape[1]}")
    print("\n=== Tipe Data Kolom ===")
    print(df.dtypes.value_counts())
    
    return df

# Load dataset
filepath = "dataset/train.csv"  # Sesuaikan dengan path dataset Anda
df = load_and_prepare_data(filepath)

# Tampilkan 5 baris pertama
df.head()

=== Informasi Dataset ===
Jumlah baris: 1460
Jumlah kolom: 81

=== Tipe Data Kolom ===
object     43
int64      35
float64     3
Name: count, dtype: int64


Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,RoofStyle,RoofMatl,Exterior1st,Exterior2nd,MasVnrType,MasVnrArea,ExterQual,ExterCond,Foundation,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,Heating,HeatingQC,CentralAir,Electrical,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,FireplaceQu,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,PavedDrive,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2003,2003,Gable,CompShg,VinylSd,VinylSd,BrkFace,196.0,Gd,TA,PConc,Gd,TA,No,GLQ,706,Unf,0,150,856,GasA,Ex,Y,SBrkr,856,854,0,1710,1,0,2,1,3,1,Gd,8,Typ,0,,Attchd,2003.0,RFn,2,548,TA,TA,Y,0,61,0,0,0,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,FR2,Gtl,Veenker,Feedr,Norm,1Fam,1Story,6,8,1976,1976,Gable,CompShg,MetalSd,MetalSd,,0.0,TA,TA,CBlock,Gd,TA,Gd,ALQ,978,Unf,0,284,1262,GasA,Ex,Y,SBrkr,1262,0,0,1262,0,1,2,0,3,1,TA,6,Typ,1,TA,Attchd,1976.0,RFn,2,460,TA,TA,Y,298,0,0,0,0,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2001,2002,Gable,CompShg,VinylSd,VinylSd,BrkFace,162.0,Gd,TA,PConc,Gd,TA,Mn,GLQ,486,Unf,0,434,920,GasA,Ex,Y,SBrkr,920,866,0,1786,1,0,2,1,3,1,Gd,6,Typ,1,TA,Attchd,2001.0,RFn,2,608,TA,TA,Y,0,42,0,0,0,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,Corner,Gtl,Crawfor,Norm,Norm,1Fam,2Story,7,5,1915,1970,Gable,CompShg,Wd Sdng,Wd Shng,,0.0,TA,TA,BrkTil,TA,Gd,No,ALQ,216,Unf,0,540,756,GasA,Gd,Y,SBrkr,961,756,0,1717,1,0,1,0,3,1,Gd,7,Typ,1,Gd,Detchd,1998.0,Unf,3,642,TA,TA,Y,0,35,272,0,0,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,FR2,Gtl,NoRidge,Norm,Norm,1Fam,2Story,8,5,2000,2000,Gable,CompShg,VinylSd,VinylSd,BrkFace,350.0,Gd,TA,PConc,Gd,TA,Av,GLQ,655,Unf,0,490,1145,GasA,Ex,Y,SBrkr,1145,1053,0,2198,1,0,2,1,4,1,Gd,9,Typ,1,TA,Attchd,2000.0,RFn,3,836,TA,TA,Y,192,84,0,0,0,0,,,,0,12,2008,WD,Normal,250000


**Insight**

Dataset Overview
Dataset terdiri dari **1460 baris** dan **81 kolom** dengan distribusi tipe data sebagai berikut:
- **43 kolom kategori** (`object`): Membutuhkan proses encoding agar dapat digunakan oleh model.
- **35 kolom numerik** (`int64`) dan **3 kolom numerik desimal** (`float64`): Membutuhkan standardisasi untuk memastikan skala data seragam.

**Key Issues**

Missing Values
- **Kolom kategori** seperti `Alley` memiliki banyak nilai `NaN`.
- **Kolom numerik** seperti `LotFrontage` juga memiliki nilai yang hilang.

Encoding
- **Kolom kategori** perlu diubah menjadi representasi numerik (encoding) agar dapat diproses oleh model.

Data Scaling
- **Kolom numerik** membutuhkan proses standardisasi agar setiap fitur memiliki pengaruh yang seimbang dalam model.


## Langkah 2: Analisis dan Penanganan Missing Values

### 2.1 Analisis Missing Values

In [4]:
# Analisis missing values
missing_analysis = pd.DataFrame({
    'Missing Values': df.isnull().sum(),
    'Percentage': (df.isnull().sum() / len(df) * 100).round(2)
})

# Tampilkan kolom dengan missing values
missing_analysis[missing_analysis['Missing Values'] > 0].sort_values('Missing Values', ascending=False)

Unnamed: 0,Missing Values,Percentage
PoolQC,1453,99.52
MiscFeature,1406,96.3
Alley,1369,93.77
Fence,1179,80.75
MasVnrType,872,59.73
FireplaceQu,690,47.26
LotFrontage,259,17.74
GarageType,81,5.55
GarageYrBlt,81,5.55
GarageFinish,81,5.55


### 2.2 Implementasi Penanganan Missing Values

In [5]:
def handle_missing_values(df):
    """
    Menangani missing values dengan strategi yang sesuai untuk setiap tipe data
    """
    df_clean = df.copy()
    
    # Imputasi numerik
    num_cols = df_clean.select_dtypes(include=['int64', 'float64']).columns
    num_imputer = SimpleImputer(strategy='median')
    df_clean[num_cols] = num_imputer.fit_transform(df_clean[num_cols])
    
    # Imputasi kategorikal
    cat_cols = df_clean.select_dtypes(include=['object']).columns
    cat_imputer = SimpleImputer(strategy='constant', fill_value='Missing')
    df_clean[cat_cols] = cat_imputer.fit_transform(df_clean[cat_cols])
    
    return df_clean

# Terapkan imputasi
df_clean = handle_missing_values(df)

# Verifikasi hasil
print("Jumlah missing values setelah imputasi:", df_clean.isnull().sum().sum())

Jumlah missing values setelah imputasi: 0


**Insight**

**Kolom dengan Persentase Missing Values**

Kolom dengan Missing Values Tinggi
- **PoolQC**, **MiscFeature**, **Alley**, dan **Fence** memiliki persentase missing values lebih dari **80%**, bahkan **PoolQC** mencapai **99.52%**.
- Data pada kolom ini kemungkinan tidak informatif karena sebagian besar nilainya hilang. Oleh karena itu, kolom-kolom ini dapat dipertimbangkan untuk dihapus.

Kolom dengan Missing Values Sedang
- **FireplaceQu** (47.26%) dan **LotFrontage** (17.74%) masih memiliki potensi untuk diimputasi.
- Keputusan untuk mengimputasi atau menghapus kolom ini bergantung pada pentingnya fitur tersebut dalam analisis atau model.

Kolom dengan Missing Values Rendah
- Kolom seperti **GarageType**, **GarageYrBlt**, dan **Electrical** memiliki persentase missing values yang rendah (**<6%**) dan lebih cocok untuk diimputasi tanpa mengorbankan kualitas data.


## Langkah 3: Pembuatan Fitur Baru

### 3.1 Implementasi Feature Engineering

In [6]:
def create_new_features(df):
    """
    Membuat fitur-fitur baru yang relevan
    """
    df_new = df.copy()
    
    # 1. Total Square Footage
    df_new['TotalSF'] = df_new['TotalBsmtSF'] + df_new['1stFlrSF'] + df_new['2ndFlrSF']
    
    # 2. Total Bathrooms
    df_new['TotalBathrooms'] = df_new['FullBath'] + (0.5 * df_new['HalfBath']) + \
                               df_new['BsmtFullBath'] + (0.5 * df_new['BsmtHalfBath'])
    
    # 3. Rooms per Square Foot
    df_new['RoomsPerSF'] = df_new['TotRmsAbvGrd'] / df_new['TotalSF']
    
    # 4. House Age
    df_new['HouseAge'] = df_new['YrSold'] - df_new['YearBuilt']
    
    # 5. Remodel Age
    df_new['RemodAge'] = df_new['YrSold'] - df_new['YearRemodAdd']
    
    # 6. Total Porch Area
    df_new['TotalPorchSF'] = df_new['OpenPorchSF'] + df_new['EnclosedPorch'] + \
                             df_new['3SsnPorch'] + df_new['ScreenPorch']
    
    # 7. Lot Ratio
    df_new['LotRatio'] = df_new['LotArea'] / df_new['TotalSF']
    
    # 8. Overall Quality Score
    df_new['OverallQual_Cond'] = df_new['OverallQual'] * df_new['OverallCond']
    
    return df_new

# Buat fitur baru
df_featured = create_new_features(df_clean)

# Tampilkan statistik fitur baru
new_features = ['TotalSF', 'TotalBathrooms', 'RoomsPerSF', 'HouseAge', 
               'RemodAge', 'TotalPorchSF', 'LotRatio', 'OverallQual_Cond']

print("Statistik Fitur Baru:")
print(df_featured[new_features].describe())

Statistik Fitur Baru:
            TotalSF  TotalBathrooms   RoomsPerSF     HouseAge     RemodAge  \
count   1460.000000     1460.000000  1460.000000  1460.000000  1460.000000   
mean    2567.048630        2.210616     0.002657    36.547945    22.950000   
std      821.714421        0.785399     0.000669    30.250152    20.640653   
min      334.000000        1.000000     0.001021     0.000000    -1.000000   
25%     2009.500000        2.000000     0.002235     8.000000     4.000000   
50%     2474.000000        2.000000     0.002590    35.000000    14.000000   
75%     3004.000000        2.500000     0.002929    54.000000    41.000000   
max    11752.000000        6.000000     0.006679   136.000000    60.000000   

       TotalPorchSF     LotRatio  OverallQual_Cond  
count   1460.000000  1460.000000       1460.000000  
mean      87.084932     4.183708         33.864384  
std      105.190364     2.965049          9.219624  
min        0.000000     0.726257          1.000000  
25%       

### 3.2 Analisis Korelasi Fitur Baru

In [7]:
# Hitung korelasi dengan SalePrice
correlations = df_featured[new_features + ['SalePrice']].corr()['SalePrice'].sort_values(ascending=False)
print("\nKorelasi dengan SalePrice:")
print(correlations)


Korelasi dengan SalePrice:
SalePrice           1.000000
TotalSF             0.782260
TotalBathrooms      0.631731
OverallQual_Cond    0.565294
TotalPorchSF        0.195739
LotRatio           -0.028093
RoomsPerSF         -0.439539
RemodAge           -0.509079
HouseAge           -0.523350
Name: SalePrice, dtype: float64


**Insight**
**Statistik Deskriptif Fitur Baru**

**Gambaran Umum Fitur Baru**
Fitur tambahan memberikan wawasan penting untuk analisis prediktif terhadap harga rumah:

- **TotalSF**: Total luas bangunan (rata-rata 2567 sqft).
- **TotalBathrooms**: Total kamar mandi, termasuk setengah kamar mandi (rata-rata 2.2).
- **RoomsPerSF**: Rasio jumlah kamar terhadap luas (rata-rata 0.0027).
- **HouseAge**: Usia rumah (rata-rata 36 tahun).
- **RemodAge**: Usia sejak renovasi terakhir (rata-rata 23 tahun).
- **TotalPorchSF**: Total luas area beranda (rata-rata 87 sqft).
- **LotRatio**: Rasio luas lahan terhadap total luas bangunan (rata-rata 4.18).
- **OverallQual_Cond**: Skor kualitas dan kondisi keseluruhan (rata-rata 33.86).

**Hubungan Fitur Baru dengan SalePrice**
Fitur-fitur baru menunjukkan hubungan signifikan terhadap **SalePrice**, baik positif maupun negatif.

Positif Kuat
- **TotalSF**: Korelasi tertinggi (**0.782**) menunjukkan bahwa luas total bangunan memiliki pengaruh besar terhadap harga rumah.
- **TotalBathrooms**: Korelasi cukup kuat (**0.632**) menunjukkan pentingnya jumlah kamar mandi.

Positif Sedang
- **OverallQual_Cond**: Korelasi sedang (**0.565**) menunjukkan pengaruh kualitas dan kondisi keseluruhan rumah.

Positif Lemah
- **TotalPorchSF**: Korelasi positif kecil (**0.196**) menunjukkan bahwa luas beranda memiliki pengaruh yang kurang signifikan terhadap harga rumah.

Negatif
- **HouseAge**: Korelasi negatif (**-0.523**) menunjukkan bahwa rumah yang lebih tua cenderung memiliki harga lebih rendah.
- **RemodAge**: Korelasi negatif (**-0.509**) menunjukkan bahwa renovasi yang dilakukan lebih lama cenderung menurunkan harga rumah.
- **RoomsPerSF**: Korelasi negatif (**-0.440**) menunjukkan bahwa rasio jumlah kamar terhadap luas dapat terkait dengan desain rumah yang kurang menarik.
- **LotRatio**: Korelasi sangat rendah (**-0.028**) menunjukkan hampir tidak ada pengaruh terhadap harga rumah.


## Langkah 4: Encoding Fitur Kategorikal

### 4.1 Analisis Fitur Kategorikal

In [8]:
# Identifikasi fitur kategorikal
cat_cols = df_featured.select_dtypes(include=['object']).columns
print("Fitur Kategorikal:")
for col in cat_cols:
    print(f"\n{col}:")
    print(f"Unique values: {df_featured[col].nunique()}")
    print(df_featured[col].value_counts().head())

Fitur Kategorikal:

MSZoning:
Unique values: 5
MSZoning
RL         1151
RM          218
FV           65
RH           16
C (all)      10
Name: count, dtype: int64

Street:
Unique values: 2
Street
Pave    1454
Grvl       6
Name: count, dtype: int64

Alley:
Unique values: 3
Alley
Missing    1369
Grvl         50
Pave         41
Name: count, dtype: int64

LotShape:
Unique values: 4
LotShape
Reg    925
IR1    484
IR2     41
IR3     10
Name: count, dtype: int64

LandContour:
Unique values: 4
LandContour
Lvl    1311
Bnk      63
HLS      50
Low      36
Name: count, dtype: int64

Utilities:
Unique values: 2
Utilities
AllPub    1459
NoSeWa       1
Name: count, dtype: int64

LotConfig:
Unique values: 5
LotConfig
Inside     1052
Corner      263
CulDSac      94
FR2          47
FR3           4
Name: count, dtype: int64

LandSlope:
Unique values: 3
LandSlope
Gtl    1382
Mod      65
Sev      13
Name: count, dtype: int64

Neighborhood:
Unique values: 25
Neighborhood
NAmes      225
CollgCr    150
OldTown

### 4.2 Implementasi Label Encoding

In [9]:
def encode_categorical_features(df):
    """
    Encoding fitur kategorikal menggunakan LabelEncoder
    """
    df_encoded = df.copy()
    label_encoders = {}
    
    for col in df_encoded.select_dtypes(include=['object']).columns:
        label_encoders[col] = LabelEncoder()
        df_encoded[col] = label_encoders[col].fit_transform(df_encoded[col])
    
    return df_encoded, label_encoders

# Terapkan encoding
df_encoded, label_encoders = encode_categorical_features(df_featured)

# Tampilkan hasil encoding
print("Sample hasil encoding:")
print(df_encoded[list(label_encoders.keys())[:5]].head())

Sample hasil encoding:
   MSZoning  Street  Alley  LotShape  LandContour
0         3       1      1         3            3
1         3       1      1         3            3
2         3       1      1         0            3
3         3       1      1         0            3
4         3       1      1         0            3


**Insight** 
**Proses Encoding Fitur Kategorikal**

Distribusi dan Karakteristik Fitur
- **MSZoning**: Memiliki 5 kategori unik, seperti RL, RM, dan FV.
- **Street**: Hanya terdiri dari 2 kategori, yaitu Pave (jalan beraspal) dan Grvl (jalan kerikil).
- Beberapa fitur seperti **Alley**, **PoolQC**, dan **Fence** memiliki banyak nilai hilang, sehingga pengaruhnya terhadap model perlu dievaluasi lebih lanjut.

Dampak Encoding terhadap Dataset
1. **Label Encoding**:
   - Fitur kategorikal seperti **MSZoning** dan **Street** diubah menjadi nilai numerik, misalnya:
     - RL dikodekan sebagai 3, RM sebagai 4.
     - Pave dikodekan sebagai 1, Grvl sebagai 0.
   - Encoding ini memberikan representasi numerik yang efisien, tetapi perlu diingat potensi bias jika model menganggap adanya hubungan ordinal yang sebenarnya tidak ada.

2. **Kemudahan Interpretasi**:
   - Encoding memungkinkan fitur kategorikal digunakan langsung oleh algoritma machine learning.
   - Representasi numerik konsisten membantu menjaga efisiensi komputasi.

Hubungan Encoding dengan Pemodelan
- **Positif**:
  - Encoding mempermudah model untuk memahami data dan menemukan pola penting dari kategori yang ada.
- **Tantangan**:
  - Fitur dengan banyak nilai hilang, seperti **Alley** dan **PoolQC**, membutuhkan strategi imputasi atau dapat dihapus jika dianggap tidak signifikan.

Implikasi pada Model
- **Fitur Penting**:
  - Fitur kategorikal yang telah di-encode, seperti **MSZoning**, dapat memberikan pengaruh signifikan terhadap variabel target, terutama jika kategorinya berhubungan langsung dengan nilai properti.
- **Fitur Marginal**:
  - Fitur dengan nilai unik kecil atau distribusi tidak merata, seperti **Street**, mungkin memiliki korelasi yang lemah dengan target dan memerlukan evaluasi lebih lanjut.



## Langkah 5: Normalisasi Fitur Numerik

### 5.1 Analisis Distribusi Fitur Numerik

In [10]:
# Analisis statistik fitur numerik
num_cols = df_encoded.select_dtypes(include=['int64', 'float64']).columns
print("Statistik fitur numerik sebelum normalisasi:")
print(df_encoded[num_cols].describe())

Statistik fitur numerik sebelum normalisasi:
                Id   MSSubClass     MSZoning  LotFrontage        LotArea  \
count  1460.000000  1460.000000  1460.000000  1460.000000    1460.000000   
mean    730.500000    56.897260     3.028767    69.863699   10516.828082   
std     421.610009    42.300571     0.632017    22.027677    9981.264932   
min       1.000000    20.000000     0.000000    21.000000    1300.000000   
25%     365.750000    20.000000     3.000000    60.000000    7553.500000   
50%     730.500000    50.000000     3.000000    69.000000    9478.500000   
75%    1095.250000    70.000000     3.000000    79.000000   11601.500000   
max    1460.000000   190.000000     4.000000   313.000000  215245.000000   

            Street        Alley     LotShape  LandContour    Utilities  \
count  1460.000000  1460.000000  1460.000000  1460.000000  1460.000000   
mean      0.995890     0.993836     1.942466     2.777397     0.000685   
std       0.063996     0.249667     1.409156    

### 5.2 Implementasi Normalisasi

In [11]:
def normalize_numeric_features(df):
    """
    Normalisasi fitur numerik menggunakan StandardScaler
    """
    df_normalized = df.copy()
    
    # Exclude Id dan SalePrice
    num_cols = df_normalized.select_dtypes(include=['int64', 'float64']).columns
    num_cols = num_cols.drop(['Id', 'SalePrice']) if 'SalePrice' in num_cols else num_cols.drop('Id')
    
    scaler = StandardScaler()
    df_normalized[num_cols] = scaler.fit_transform(df_normalized[num_cols])
    
    return df_normalized, scaler

# Terapkan normalisasi
df_normalized, scaler = normalize_numeric_features(df_encoded)

# Tampilkan hasil normalisasi
print("\nStatistik setelah normalisasi:")
print(df_normalized[num_cols].describe())


Statistik setelah normalisasi:
                Id    MSSubClass      MSZoning   LotFrontage       LotArea  \
count  1460.000000  1.460000e+03  1.460000e+03  1.460000e+03  1.460000e+03   
mean    730.500000 -8.455945e-17 -2.457699e-16  2.798370e-16 -5.840077e-17   
std     421.610009  1.000343e+00  1.000343e+00  1.000343e+00  1.000343e+00   
min       1.000000 -8.725628e-01 -4.793863e+00 -2.219047e+00 -9.237292e-01   
25%     365.750000 -8.725628e-01 -4.553194e-02 -4.479400e-01 -2.969908e-01   
50%     730.500000 -1.631095e-01 -4.553194e-02 -3.922314e-02 -1.040633e-01   
75%    1095.250000  3.098594e-01 -4.553194e-02  4.149067e-01  1.087080e-01   
max    1460.000000  3.147673e+00  1.537245e+00  1.104155e+01  2.051827e+01   

             Street         Alley      LotShape   LandContour     Utilities  \
count  1.460000e+03  1.460000e+03  1.460000e+03  1.460000e+03  1.460000e+03   
mean   5.961746e-16 -1.520853e-17  5.840077e-17 -1.557354e-16  1.460019e-17   
std    1.000343e+00  1.00034

**Insight** 
**Normalisasi Data**

Sebelum Normalisasi
1. **Mean dan Deviasi Standar (Std Dev)**:
   - Rata-rata dan deviasi standar memberikan gambaran tentang distribusi data di setiap kolom.
   - Contoh:
     - **LotArea**: Memiliki rata-rata 10.516 dan deviasi standar 9.981, menunjukkan variasi nilai yang cukup besar dalam dataset.

2. **Rentang Nilai**:
   - Perbedaan signifikan antara nilai minimum dan maksimum di beberapa kolom menunjukkan skala data yang berbeda.
   - Contoh:
     - **LotArea**: Nilai minimum 1.300 dan maksimum 215.245, menunjukkan fitur ini memiliki skala yang jauh lebih besar dibandingkan fitur lain.

Setelah Normalisasi
1. **Rata-rata 0 dan Standar Deviasi 1**:
   - Setelah normalisasi menggunakan **StandardScaler**, semua fitur memiliki rata-rata mendekati 0 dan standar deviasi mendekati 1.
   - Ini memastikan data distandarkan, sehingga fitur dengan skala besar tidak mendominasi model.

2. **Skala Seragam**:
   - Normalisasi menghasilkan nilai fitur yang berada dalam rentang seragam.
   - Hal ini penting untuk model seperti regresi linear, Support Vector Machines (SVM), atau algoritma berbasis gradien, yang sensitif terhadap skala fitur.

## Langkah 6: Validasi dan Penyimpanan Hasil

### 6.1 Validasi Hasil Processing

In [12]:
# Validasi final
print("=== Validasi Final ===")
print(f"Jumlah baris: {df_normalized.shape[0]}")
print(f"Jumlah kolom: {df_normalized.shape[1]}")
print(f"Jumlah missing values: {df_normalized.isnull().sum().sum()}")
print(f"Statistik Fitur Numerik:")
print(df_normalized.describe())

### 6.2 Simpan Dataset yang Sudah Diproses
# Simpan hasil preprocessing ke file CSV
df_normalized.to_csv('processed_house_prices.csv', index=False)
print('Dataset yang telah diproses berhasil disimpan ke processed_house_prices.csv')

=== Validasi Final ===
Jumlah baris: 1460
Jumlah kolom: 89
Jumlah missing values: 0
Statistik Fitur Numerik:
                Id    MSSubClass      MSZoning   LotFrontage       LotArea  \
count  1460.000000  1.460000e+03  1.460000e+03  1.460000e+03  1.460000e+03   
mean    730.500000 -8.455945e-17 -2.457699e-16  2.798370e-16 -5.840077e-17   
std     421.610009  1.000343e+00  1.000343e+00  1.000343e+00  1.000343e+00   
min       1.000000 -8.725628e-01 -4.793863e+00 -2.219047e+00 -9.237292e-01   
25%     365.750000 -8.725628e-01 -4.553194e-02 -4.479400e-01 -2.969908e-01   
50%     730.500000 -1.631095e-01 -4.553194e-02 -3.922314e-02 -1.040633e-01   
75%    1095.250000  3.098594e-01 -4.553194e-02  4.149067e-01  1.087080e-01   
max    1460.000000  3.147673e+00  1.537245e+00  1.104155e+01  2.051827e+01   

             Street         Alley      LotShape   LandContour     Utilities  \
count  1.460000e+03  1.460000e+03  1.460000e+03  1.460000e+03  1.460000e+03   
mean   5.961746e-16 -1.520853e

**Validasi Final Dataset**

**Hasil Validasi**
Dataset telah melalui proses preprocessing dengan sukses, memastikan bahwa data siap untuk digunakan dalam analisis dan pemodelan lebih lanjut.

**Ringkasan Validasi:**
1. **Jumlah Baris**: 1.460
2. **Jumlah Kolom**: 89
3. **Jumlah Missing Values**: **0** (tidak ada nilai kosong)

Statistik Fitur Numerik:
- **Mean**:
  - Semua fitur numerik (kecuali kolom **Id**) memiliki nilai rata-rata mendekati **0**, menandakan bahwa proses normalisasi berhasil.
- **Standar Deviasi**:
  - Standar deviasi semua fitur numerik (kecuali kolom **Id**) mendekati **1**, mengonfirmasi bahwa data telah distandarkan dengan baik.

**Penyimpanan Dataset:**
Hasil preprocessing telah disimpan ke dalam file **`processed_house_prices.csv`** untuk mempermudah pengolahan lebih lanjut.

**Kesimpulan**
Dataset telah diproses dengan memastikan kualitas dan konsistensi data. Semua fitur numerik distandarkan dengan normalisasi yang efektif, sementara nilai kosong telah ditangani. Dataset ini sekarang siap digunakan untuk analisis prediktif atau pengembangan model machine learning.
