# Kelompok 1 - Algoritma Hash Function - SHA 256

Anggota :
- Arafil Azmi
- Adelina Suciko
- Budi Prasetyo
- M. Fikry
- Maharani Safitri
- Ella Dwipujana


# Algoritma Hash Function - SHA-256

Algoritma hash function adalah serangkaian langkah dan operasi matematika yang diterapkan pada suatu input (pesan) untuk menghasilkan output yang unik dan konsisten dengan panjang tetap, yang disebut sebagai nilai hash.

SHA-256 (Secure Hash Algorithm 256-bit) adalah salah satu fungsi hash kriptografis yang paling umum digunakan. Fungsi hash SHA-256 menghasilkan hash dengan panjang 256 bit, setara dengan 32 byte atau 64 karakter dalam representasi heksadesimal.

Algoritma ini didesain untuk menghasilkan hash yang kuat sehingga sulit untuk mendapatkan pesan yang menghasilkan hash yang sama atau mengurai hash menjadi pesan aslinya.

SHA-256 adalah fungsi hash kriptografis yang banyak digunakan dalam berbagai aplikasi keamanan, termasuk protokol keamanan, penyimpanan sandi, dan integritas data.


# Analisis Churn Pelanggan menggunakan Hash Function - SHA 256

Dalam program hash function - SHA 256 digunakan untuk menjaga integritas data pada suatu dataset. Dataset yang digunakan adalah Churn_Modelling.

**Churn_Modelling** adalah dataset yang digunakan untuk menganalisis churn (pergantian) pelanggan dalam industri perbankan. Dataset ini berisi informasi tentang atribut pelanggan yang dapat digunakan untuk memprediksi apakah seorang pelanggan akan keluar (berhenti menggunakan layanan) atau tetap menjadi nasabah.

Deskripsi dari kolom-kolom dalam dataset "churn_modelling" sebagai berikut:

- **Row Number**: Nomor baris dalam dataset.
- **Customer Id**: Identitas unik untuk setiap pelanggan.
- **Surname**: Nama belakang pelanggan.
- **Credit Score**: Skor kredit pelanggan.
- **Geography**: Lokasi geografis pelanggan.
- **Gender**: Jenis kelamin pelanggan.
- **Age**: Usia pelanggan.
- **Tenure**: Jumlah tahun pelanggan telah menjadi nasabah bank.
- **Balance**: Saldo rekening pelanggan.
- **Number Of Products**: Jumlah produk keuangan yang dimiliki oleh pelanggan.
- **Has Cr Card**: Indikator apakah pelanggan memiliki kartu kredit atau tidak.
- **Is Active Member**: Indikator apakah pelanggan aktif atau tidak dalam menggunakan layanan bank.
- **Estimated Salary**: Estimasi gaji tahunan pelanggan.
- **Exited**: Indikator apakah pelanggan telah keluar (berhenti menggunakan layanan) atau tidak.


# Penggunaan Hash Function SHA-256 dalam Dataset Churn_Modelling

Penerapan hash function SHA-256 pada dataset churn_modelling memiliki beberapa use case yang menarik dan berguna, termasuk melindungi privasi data pelanggan dan memastikan integritas dataset.

## Privasi Data Pelanggan
Dalam konteks hash function SHA-256, kita dapat mengambil kolom-kolom sensitif seperti "Customer Id", "Surname" dan "Geography" dalam dataset churn_modelling dan mengubah nilai-nilai dalam kolom-kolom tersebut menjadi nilai hash yang tidak dapat dikembalikan ke bentuk aslinya. Dengan demikian, privasi identitas pelanggan terlindungi dengan cara yang unik dan aman. Hashing menjadi bentuk langkah keamanan tambahan yang dapat digunakan untuk melindungi informasi identitas pelanggan.

## Integritas Data
Dengan memanfaatkan hash function SHA-256, kita dapat menghasilkan nilai hash dari keseluruhan dataset churn_modelling. Nilai hash ini dapat disimpan secara terpisah atau diunggah ke tempat yang aman. Ketika ingin memverifikasi integritas data, kita dapat menghasilkan kembali nilai hash baru dari dataset saat ini dan membandingkannya dengan nilai hash yang disimpan sebelumnya. Kesamaan nilai hash menunjukkan bahwa data tetap utuh, sementara perbedaan nilai hash menunjukkan bahwa data telah mengalami perubahan.

Dengan menggunakan hash function SHA-256 dalam penggunaan ini, kita dapat mengamankan data pelanggan dengan melindungi privasi identitas mereka dan memastikan integritas dataset. Hal ini membantu meminimalkan risiko perubahan atau pengungkapan informasi sensitif yang tidak diinginkan.


In [None]:
import hashlib
import pandas as pd

# Membaca dataset
dataset = pd.read_csv("Churn_Modelling.csv")

dataset.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [None]:
# Fungsi untuk melakukan hash SHA-256
def hash_sha256(value):
    hashed_value = hashlib.sha256(str(value).encode()).hexdigest()
    return hashed_value

# Kolom-kolom yang perlu di-hash
columns_to_hash = ['CustomerId', 'Surname', 'Geography']

# Buat DataFrame baru untuk menyimpan hasil hash
hashed_df = pd.DataFrame()

# Lakukan hash SHA-256 pada kolom-kolom yang perlu di-hash
for column in columns_to_hash:
    hashed_values = dataset[column].apply(hash_sha256)
    hashed_df[column] = hashed_values

# Tambahkan kolom yang tidak perlu di-hash ke dalam DataFrame baru
for column in dataset.columns:
    if column not in columns_to_hash:
        hashed_df[column] = dataset[column]

# Tampilkan DataFrame hasil hash
hashed_df.head()


Unnamed: 0,CustomerId,Surname,Geography,RowNumber,CreditScore,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,7b69812cb7cf8f312db2ffcba150d6ebf3aaf01860503a...,fdcd57e82ffc3f0a94b4c3d966a7c6d891d1e54894492f...,7a1ca4ef7515f7276bae7230545829c27810c9d9e98ab2...,1,619,Female,42,2,0.0,1,1,1,101348.88,1
1,7a776f3f5a848260f9214f095abc27de3f3781b7d802ab...,21f5358c1fd3b713a0b8d13634c18d381383d67b2ab0f0...,8ef41e6f4b07432a0cb4eb7a8774e7a3878fd3e385f49a...,2,608,Female,41,1,83807.86,1,0,1,112542.58,0
2,2b53254cb3852065c2b4a522c02b446c1b53b5bfe642d7...,b839933c7be156a656ee5b30a2c7c034ba1851c635166e...,7a1ca4ef7515f7276bae7230545829c27810c9d9e98ab2...,3,502,Female,42,8,159660.8,3,1,0,113931.57,1
3,21f504abf5e378a5d44876cf1ceee9b5eeaaf8256f1eb1...,cb1edc7273ba5f307f4914574aaf642914fbfb38ab7572...,7a1ca4ef7515f7276bae7230545829c27810c9d9e98ab2...,4,699,Female,39,1,0.0,2,0,0,93826.63,0
4,6a25d3f4270c22bbeaab8a0d13a84ed3521be1ea7f062c...,483d4bce16af8025b73a0b055655a34de45b7c3628e091...,8ef41e6f4b07432a0cb4eb7a8774e7a3878fd3e385f49a...,5,850,Female,43,2,125510.82,1,1,1,79084.1,0


In [None]:
# Simpan DataFrame hasil hash ke dalam file CSV baru
hashed_df.to_csv("Churn_Modelling_Hashed.csv", index=False)