**TAHAP 3 - Membuat Fungsi untuk Data Baru & Memprediksinya dengan Model Sebelumnya**

**START**

**A. Pendahuluan**

*Model yang sudah dibuat harus bisa digunakan sehari-hari untuk memprediksi data baru. Untuk itu kamu harus **mempersiapkan datanya kembali dan kemudian melakukan prediksi dengan parameter dan model yang sudah dibuat.***

*Jika kamu dapat mengoperasionalkan model tersebut, maka tim bisnis dapat dengan cepat mengetahui segmen dari pelanggan dan juga bisa mengatur **strategi marketing** mereka dengan lebih efisien.*

**B. Tujuan**
1. *Membuat Fungsi berdasarkan proses yang ada pada model sebelumnya untuk memproses Data Baru*
2. *Memprediksi segment Data Baru*

**C. Mempersiapkan Data Baru**

*Disini kamu membuat contoh data baru untuk diprediksi dengan model yang sudah dibuat. Hal ini kamu lakukan dengan membuat satu buah dataframe yang berisi informasi pelanggan.*

In [None]:
import pandas as pd
# Data Baru  
data = [{  
    'Customer_ID': 'CUST-100' ,  
    'Nama Pelanggan': 'Joko' ,  
    'Jenis Kelamin': 'Pria',  
    'Umur': 45,  
    'Profesi': 'Wiraswasta',  
    'Tipe Residen': 'Cluster' ,  
    'NilaiBelanjaSetahun': 8230000  
      
}]  
  
# Membuat Data Frame  
new_df = pd.DataFrame(data)  
  
# Melihat Data  
print(new_df)  

  Customer_ID Nama Pelanggan Jenis Kelamin  Umur     Profesi Tipe Residen  \
0    CUST-100           Joko          Pria    45  Wiraswasta      Cluster   

   NilaiBelanjaSetahun  
0              8230000  


**B. Membuat Fungsi Data Pemrosesan**

*Selanjutnya kamu perlu membuat fungsi untuk melakukan pemrosesan data berdasarkan parameter yang sama pada saat kita melakukan permodelan dan kita panggil dengan data baru kita.*

*Jadi fungsi ini nantinya akan bisa digunakan untuk:*

1. *Fungsi untuk melakukan konversi data kategorikal menjadi numerik*
    - Dengan kriteria : 
    - Jenis Kelamin
        0 : Pria
        1 : Wanita
    - Profesi
        0 : Ibu Rumah Tangga
        1 : Mahasiswa
        2 : Pelajar
        3 : Professional
        4 : Wiraswasta
    - Tipe Residen
        1 : Sector
        0 : Cluster
        
2. *Fungsi untuk melakukan standardisasi kolom numerikal*
    - Umur
        Rata - rata: 37.5
        Standard Deviasi: 14.7
    - NilaiBelanjaSetahun
        Rata - rata: 7069874.8
        Standard Deviasi: 2590619.0
        
3. *Fungsi untuk menggabungkan hasil dua proses sebelumnya menjadi satu dataframe*


In [2]:
# Membuat Fungsi Data Pemrosesan
import pandas as pd

# Data Baru
data = [{  
    'Customer_ID': 'CUST-100' ,  
    'Nama Pelanggan': 'Joko' ,  
    'Jenis Kelamin': 'Pria',  
    'Umur': 45,  
    'Profesi': 'Wiraswasta',  
    'Tipe Residen': 'Cluster' ,  
    'NilaiBelanjaSetahun': 8230000  
      
}]

# Membuat Data Frame 
new_df = pd.DataFrame(data) 

#[Membuat Fungsi Data Pemrosesan]
def data_preprocess(data):  
    # Konversi Kategorikal data  
    kolom_kategorikal = ['Jenis Kelamin','Profesi','Tipe Residen']  
      
    df_encode = data[kolom_kategorikal].copy()  
  
    ## Jenis Kelamin   
    df_encode['Jenis Kelamin'] = df_encode['Jenis Kelamin'].map({  
        'Pria': 0,  
        'Wanita' : 1  
    })  
      
    ## Profesi  
    df_encode['Profesi'] = df_encode['Profesi'].map({  
        'Ibu Rumah Tangga': 0,  
        'Mahasiswa' : 1,  
        'Pelajar': 2,  
        'Professional': 3,  
        'Wiraswasta': 4  
    })  
      
    ## Tipe Residen  
    df_encode['Tipe Residen'] = df_encode['Tipe Residen'].map({  
        'Cluster': 0,  
        'Sector' : 1  
    })  
      
    # Standardisasi Numerical Data  
    kolom_numerik = ['Umur','NilaiBelanjaSetahun']  
    df_std = data[kolom_numerik].copy()  
      
    ## Standardisasi Kolom Umur  
    df_std['Umur'] = (df_std['Umur'] - 37.5)/14.7  
      
    ## Standardisasi Kolom Nilai Belanja Setahun  
    df_std['NilaiBelanjaSetahun'] = (df_std['NilaiBelanjaSetahun'] - 7069874.8)/2590619.0  
      
    # Menggabungkan Kategorikal dan numerikal data  
    df_model = df_encode.merge(df_std, left_index = True,  
                           right_index=True, how = 'left')  
      
    return df_model  

# Menjalankan fungsi  
new_df_model = data_preprocess(new_df)  
  
print(new_df_model) 

   Jenis Kelamin  Profesi  Tipe Residen      Umur  NilaiBelanjaSetahun
0              0        4             0  0.510204             0.447818


**C. Memanggil Model dan Melakukan Prediksi**

*Setelah kamu memiliki data yang siap digunakan, saatnya memanggil model yang sudah disimpan sebelumnya dan dilanjutkan dengan **melakukan prediksi.***

*Untuk melakukan hal tersebut, kamu perlu membuat prosesnya menjadi dalam satu fungsi yang bernama modelling dengan menggunakan data baru sebagai input-nya.*

In [4]:
import pickle
import pandas as pd
data = [{  
    'Customer_ID': 'CUST-100' ,  
    'Nama Pelanggan': 'Joko' ,  
    'Jenis Kelamin': 'Pria',  
    'Umur': 45,  
    'Profesi': 'Wiraswasta',  
    'Tipe Residen': 'Cluster' ,  
    'NilaiBelanjaSetahun': 8230000  
      
}]
new_df = pd.DataFrame(data) 

def data_preprocess(data):
    kolom_kategorikal = ['Jenis Kelamin','Profesi','Tipe Residen']
    df_encode = data[kolom_kategorikal].copy()
    df_encode['Jenis Kelamin'] = df_encode['Jenis Kelamin'].map({  
        'Pria': 0,  
        'Wanita' : 1  
    })
    df_encode['Profesi'] = df_encode['Profesi'].map({  
        'Ibu Rumah Tangga': 0,  
        'Mahasiswa' : 1,  
        'Pelajar': 2,  
        'Professional': 3,  
        'Wiraswasta': 4  
    }) 
    df_encode['Tipe Residen'] = df_encode['Tipe Residen'].map({  
        'Cluster': 0,  
        'Sector' : 1  
    }) 
    kolom_numerik = ['Umur','NilaiBelanjaSetahun']  
    df_std = data[kolom_numerik].copy()
    df_std['Umur'] = (df_std['Umur'] - 37.5)/14.7 
    df_std['NilaiBelanjaSetahun'] = (df_std['NilaiBelanjaSetahun'] - 7069874.8)/2590619.0
    df_model = df_encode.merge(df_std, left_index = True,  
                           right_index=True, how = 'left')  
    return df_model  
  
new_df_model = data_preprocess(new_df)

def modelling(data):  
      
    # Memanggil Model  
    kpoto = pickle.load(open('cluster.pkl', 'rb'))  
      
    # Melakukan Prediksi  
    clusters = kpoto.predict(data,categorical=[0,1,2])  
      
    return clusters  
  
# Menjalankan Fungsi  
clusters = modelling(new_df_model)  
  
print(clusters)  


[1]


**D. Menamakan Segmen**

*Sama dengan sebelumnya, kamu perlu membuat fungsi untuk melakukan proses ini. Nama cluster  yang sudah didapat di tahap sebelumnya perlu diubah menjadi nama segmen agar lebih mudah diidentifikasi.*

In [7]:
import pickle
import pandas as pd
data = [{  
    'Customer_ID': 'CUST-100' ,  
    'Nama Pelanggan': 'Joko' ,  
    'Jenis Kelamin': 'Pria',  
    'Umur': 45,  
    'Profesi': 'Wiraswasta',  
    'Tipe Residen': 'Cluster' ,  
    'NilaiBelanjaSetahun': 8230000  
      
}]
new_df = pd.DataFrame(data) 

def data_preprocess(data):
    kolom_kategorikal = ['Jenis Kelamin','Profesi','Tipe Residen']
    df_encode = data[kolom_kategorikal].copy()
    df_encode['Jenis Kelamin'] = df_encode['Jenis Kelamin'].map({  
        'Pria': 0,  
        'Wanita' : 1  
    })
    df_encode['Profesi'] = df_encode['Profesi'].map({  
        'Ibu Rumah Tangga': 0,  
        'Mahasiswa' : 1,  
        'Pelajar': 2,  
        'Professional': 3,  
        'Wiraswasta': 4  
    }) 
    df_encode['Tipe Residen'] = df_encode['Tipe Residen'].map({  
        'Cluster': 0,  
        'Sector' : 1  
    }) 
    kolom_numerik = ['Umur','NilaiBelanjaSetahun']  
    df_std = data[kolom_numerik].copy()
    df_std['Umur'] = (df_std['Umur'] - 37.5)/14.7 
    df_std['NilaiBelanjaSetahun'] = (df_std['NilaiBelanjaSetahun'] - 7069874.8)/2590619.0
    df_model = df_encode.merge(df_std, left_index = True,  
                           right_index=True, how = 'left')  
    return df_model  
  
new_df_model = data_preprocess(new_df)  

def modelling (data): 
    kpoto = pickle.load(open('cluster.pkl', 'rb'))
    clusters = kpoto.predict(data,categorical=[0,1,2])  
    return clusters  
    
clusters = modelling(new_df_model)

def menamakan_segmen (data_asli, clusters):  
      
    # Menggabungkan cluster dan data asli  
    final_df = data_asli.copy()  
    final_df['cluster'] = clusters
      
    # Menamakan segmen  
    final_df['segmen'] = final_df['cluster'].map({  
        0: 'Diamond Young Member',  
        1: 'Diamond Senior Member',  
        2: 'Silver Students',  
        3: 'Gold Young Member',  
        4: 'Gold Senior Member'  
    })  
      
    return final_df
  
# Menjalankan Fungsi  
new_final_df = menamakan_segmen(new_df,clusters)  
  
new_final_df.head() 

Unnamed: 0,Customer_ID,Nama Pelanggan,Jenis Kelamin,Umur,Profesi,Tipe Residen,NilaiBelanjaSetahun,cluster,segmen
0,CUST-100,Joko,Pria,45,Wiraswasta,Cluster,8230000,1,Diamond Senior Member


**E. Kesimpulan**

*Akhirnya, kamu juga berhasil membuat alur proses untuk mengoperasikan model. Selanjutnya kamu dapat menjadwalkan kode ini. Apakah akan dijalankan secara real-time setiap ada data masuk atau secara batch misal satu hari sekali.*

**Tips:**

*Di industri khususnya untuk mengoperasikan model bisa bermacam-macam caranya. Ada yang membuat dengan python script lalu dibuat interval jam jalannya. Selain itu bisa juga menggunakan bantuan software untuk melakukan deployment. Hal ini akan tergantung di mana kamu bekerja.*

**End of Project**