# Peninjauan dan Profiling Data (Data Review & Profiling) / Data Understanding / Tahapan Menelaah Data
Mendapatkan pemahaman awal tentang struktur dan kualitas data mentah.

**Libraries:**
- [Pandas](https://pandas.pydata.org/)

## Data Loading

In [None]:
import pandas as pd
from termcolor import cprint


df = pd.read_csv('data/data_nasabah.csv', delimiter=';') # Load Data CSV
df.head()

## Data Review & Profiling

In [None]:
cprint(f" Data Dimension (rows, columns): {df.shape}", "green") # Show the shape of the DataFrame (rows, columns)

cprint("\nInformation data types and encoding", "green") # Display data types and encoding scheme
print(df.info())

cprint("\nData descriptive statistics for numerical data :", "green") # Display descriptive statistics for numerical data
print(df.describe())

cprint("Missing Values:", "red")
print(df.isnull().sum()) # Display Mising Value

# Display the number of unique values for each column
cprint("\nJumlah nilai unik untuk setiap kolom:", "green")
for column in df.columns:
    print(f"{column}: {df[column].nunique()}")

## Transformasi Data (Data Transformation)

In [18]:
# Convert categorical columns to numerical encoding
df['jenis_kelamin'] = df['jenis_kelamin'].map({'Laki-Laki': 1, 'Perempuan': 2})
df['jenis_produk'] = df['jenis_produk'].map({'tabungan': 1, 'kartu_kredit': 2, 'deposito': 3})
df['pengguna_mobile_banking'] = df['pengguna_mobile_banking'].map({'YA':1, 'TIDAK': 2})

df.head() # Display Data after encoding

Unnamed: 0,nasabah_id,umur,jenis_kelamin,pendapatan,saldo_rata_rata,jumlah_transaksi,jenis_produk,frekuensi_kunjungi_cabang,pengguna_mobile_banking,skor_kredit
0,N001,22,2,5800000,1508000,19,1,1,2,900
1,N002,64,2,5700000,1254000,9,2,2,2,900
2,N003,27,2,2950000,590000,12,1,1,1,500
3,N004,34,2,3100000,186000,16,3,5,2,700
4,N005,45,1,6700000,1474000,15,2,3,1,800


2. Exploring Data / Eksplorasi Data [Tahapan Menelaah Data]

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

data = pd.read_csv('data/data_nasabah.csv', delimiter=';')
print(data.head())

cprint('\nInformasi tentang data:', 'green')
print(data.info())

cprint('\nStatistik deskriptif untuk data numerik:', 'green')
print(data.describe())

cprint('\nMenampilkan jumlah nilai unik untuk setiap kolom (Untuk memahami kategori)', 'green')
for column in data.columns:
    print(f"{column}: {data[column].nunique()}")

# Analysis Distribution of Numerical Data
cprint('\nAnalisis Distribusi Data Numerik:', 'green')
numerical_features = data.select_dtypes(include=['number'])
for feature in numerical_features:
    plt.figure(figsize=(8, 6))
    sns.histplot(data[feature], kde=True)
    plt.title(f"Distribusi {feature}")
    plt.show()

# Analysis Correlation Between Numerical Variables
cprint('\nAnalisis Korelasi Antara Variabel Numerik:', 'green')
numerical_data = data.select_dtypes(include=['number'])
correlation_matrix = numerical_data.corr() # Calculate correlation on numerical data only
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')

# Display the correlation matrix
cprint('\nAnalisis Data Kategorikal:', 'green')
categorical_features = data.select_dtypes(include=['object']).columns
for feature in categorical_features:
    plt.figure(figsize=(8, 6))
    sns.countplot(x=feature, data=data)
    plt.title(f"Jumlah kemunculan {feature}")
    plt.xticks(rotation=45)
    plt.show()

# Analysis Missing Values
cprint('\nAnalisis Nilai Hilang (Missing Values):', 'green')
missing_value = data.isnull().sum()
print(f"\nJumlah Nilai Hilang Setiap Kolom:")
print(missing_value)

# Analysis Outliers (Nilai Aneh/ Anomali)
cprint('\nAnalisis Outlier (Nilai Aneh):', 'green')
for feature in numerical_features:
    plt.figure(figsize=(8, 6))
    sns.boxplot(x=data[feature])
    plt.title(f"Deteksi Outlier pada {feature}")
    plt.show()

#  Displaying Distribution of Data for Specific Column (e.g., 'umur')
cprint('\nMenampilkan distribusi data untuk kolom tertentu (umur):', 'green')
plt.figure(figsize=(8, 6))
sns.histplot(data['umur'], kde=True)
plt.title("Distribusi Umur")
plt.xlabel("Umur X")
plt.ylabel("Frekuensi Y")
plt.show()

# Displaying Relationship Between Two Numerical Variables (e.g., 'umur' and 'pendapatan')
cprint('\nAnalisis hubungan antara dua variabel numerik (umur dan Pendapatan):', 'green')
plt.figure(figsize=(8, 6))
sns.scatterplot(x='umur', y='pendapatan', data=data)
plt.title('Hubungan antara Umur dan Pendapatan')
plt.xlabel('Umur X')
plt.ylabel('Pendapatan Y')
plt.show()

# Displaying Distribution of Data for Categorical Column (e.g., 'jenis_kelamin')
cprint('\nMenampilkan distribusi data untuk kolom Jenis Kelamin:', 'green')
plt.figure(figsize=(8, 6))
sns.countplot(x='jenis_kelamin', data=data)
plt.title('Distribusi Jenis Kelamin')
plt.xlabel('Jenis Kelamin X')
plt.ylabel('Jumlah Y')
plt.show()

# Displaying Relationship Between Categorical and Numerical Variables (e.g., 'jenis_kelamin' and 'pendapatan')
cprint('\nMenampilkan hubungan antara Jenis Kelamin dan Pendapatan:', 'green')
plt.figure(figsize=(8, 6))
sns.boxplot(x='jenis_kelamin', y='pendapatan', data=data)
plt.title('Hubungan antara Jenis Kelamin dan Pendapatan')
plt.xlabel('Jenis Kelamin X')
plt.ylabel('Pendapatan Y')
plt.show()


3. Verifying Data Quality / Verifikasi Kualitas Data [Tahapan Memvalidasi Data]

In [None]:
# Validasi Data Mendalam dan Detail
# 1. Periksa konsistensi data
#   - Periksa apakah nilai dalam kolom tertentu sesuai dengan batasan yang diharapkan.
#   - Contoh: Periksa apakah kolom 'umur' hanya bernilai positif.

cprint(f"\nValidasi Umur:", "green")
if data['umur'].min() < 0:
    print(f"Terdapat nilai umur negatif perlu diperiksa lebih lanjut.")
else:
    print(f"Semua nilai umur valid (positif).")

#  - Periksa apakah kolom 'jenis_kelamin' hanya bersisi 'Laki-Laki' atau 'Perempuan'.
cprint(f"\nValidasi Jenis Kelamin:", "green")
invalid_gender = data['jenis_kelamin'].apply(lambda x: x not in ['Laki-Laki', 'Perempuan']).sum()
if invalid_gender:
    print(f"Terdapat {invalid_gender} nilai jenis kelamin yang tidak valid.")
else:
    print(f"Semua nilai jenis kelamin valid.")

# 2. Deteksi dan tangani duplikasi data
#  - Periksa apakah ada baris data yang duplikat dan hapus jika perlu.
cprint(f"\nDeteksi Duplikasi Data:", "green")
duplicate_rows = data.duplicated().sum()
if duplicate_rows > 0:
    print(f"\nTerdapat {duplicate_rows} baris data duplikat.")
    # data.drop_duplicates()
else:
    print(f"Tidak ada baris data duplikat.")

# 3. Validasi rentang Data
#   - Periksa apakah nilai dalam kolom tertentu berada dalam rentang yang wajar.
#   Contoh: Periksa apakah kolom 'saldo_rata_rata' memiliki nilai yang realistis.
cprint(f"\nValidasi Rentang Saldo Rata-Rata:", "green")
if data['saldo_rata_rata'].max() > 1972000: # Ganti dengan batas atas yang sesuai
    print("Terdapat nilai saldo rata-rata yang tidak realistis, perlu diperiksa.")
else:
    print("Semua nilai saldo rata-rata berada dalam rentang yang wajar.")

