In [3]:
#1: Import libraries
import pandas as pd
import numpy as np

In [12]:
#2: Load data & exploratory analysis  
data = pd.read_csv('calon_tni.csv')
data.columns = data.columns.str.strip().str.lower()

print("=== Data Awal ===")
print(data, "\n")

print("=== Statistik Dasar Tinggi Badan ===")
print(data['tinggi'].describe())

print(f"\nRata-rata tinggi : {data['tinggi'].mean():.2f} cm")
print(f"Tertinggi : {data['tinggi'].max()} cm")
print(f"Terendah : {data['tinggi'].min()} cm")
print(f"Median : {data['tinggi'].median()} cm")


=== Data Awal ===
    nama                    alamat  tinggi
0   Andi        JL. Merdeka No. 10     175
1   Budi        JL. Sudirman No. 5     178
2  Citra        JL. Thamrin No. 20     180
3   Dewi  JL. Gatot Subroto No. 15     180
4    Eka     JL. Rasuna Said No. 8     183
5  Fajar       JL. Kuningan No. 12     185
6   Gina          JL. Cikini No. 3     170
7   Hadi       JL. Pal Merah No. 7     168
8  Indah         JL. Senayan No. 9     178
9  Jilan        JL. Kuningan No. 2     160 

=== Statistik Dasar Tinggi Badan ===
count     10.000000
mean     175.700000
std        7.645623
min      160.000000
25%      171.250000
50%      178.000000
75%      180.000000
max      185.000000
Name: tinggi, dtype: float64

Rata-rata tinggi : 175.70 cm
Tertinggi : 185 cm
Terendah : 160 cm
Median : 178.0 cm


In [13]:
#3: Deteksi masalah data
print("\n=== Deteksi Masalah Data ===")

print("\nCek missing value:")
print(data.isnull().sum())

print("\nCek data duplikat:")
print(data.duplicated().sum())

print("\nDeteksi nilai tinggi tidak wajar (<150 atau >200):")
print(data[(data['tinggi'] < 150) | (data['tinggi'] > 200)])



=== Deteksi Masalah Data ===

Cek missing value:
nama      0
alamat    0
tinggi    0
dtype: int64

Cek data duplikat:
0

Deteksi nilai tinggi tidak wajar (<150 atau >200):
Empty DataFrame
Columns: [nama, alamat, tinggi]
Index: []


In [17]:
#4: Imputasi data
if data['tinggi'].isnull().sum() > 0:
    mean_tinggi = data['tinggi'].mean()
    data['tinggi'].fillna(mean_tinggi, inplace=True)
    print(f"\nNilai kosong di kolom 'tinggi' diisi dengan rata-rata: {mean_tinggi:.2f}")
else:
    print("\nTidak ada data kosong di kolom 'tinggi'.")

rata2 = data['tinggi'].mean()
atas_rata = data[data['tinggi'] > rata2]
print("\n=== Calon di atas rata-rata tinggi ===")
print(atas_rata[['nama', 'alamat', 'tinggi']])

urut_tinggi = data.sort_values(by='tinggi', ascending=False)
print("\n=== Urutan dari Tertinggi ke Terendah ===")
print(urut_tinggi[['nama', 'alamat', 'tinggi']])

def kategori_tinggi(x):
    if x >= 180:
        return "Tinggi"
    elif x >= 170:
        return "Sedang"
    else:
        return "Pendek"

data['kategori'] = data['tinggi'].apply(kategori_tinggi)
print("\n=== Data dengan Kategori ===")
print(data[['nama', 'alamat', 'tinggi', 'kategori']])

print("\n=== Jumlah Calon per Kategori ===")
print(data['kategori'].value_counts())

print("\n=== Statistik Lanjutan ===")
print("Standar Deviasi :", round(data['tinggi'].std(), 2))
print("Variansi :", round(data['tinggi'].var(), 2))

maks = data[data['tinggi'] == data['tinggi'].max()]
print("\n=== Calon dengan Tinggi Badan Tertinggi ===")
for i, row in maks.iterrows():
    print("Nama :", row['nama'])
    print("Alamat :", row['alamat'])
    print("Tinggi :", int(row['tinggi']), "cm")


Tidak ada data kosong di kolom 'tinggi'.

=== Calon di atas rata-rata tinggi ===
    nama                    alamat  tinggi
1   Budi        JL. Sudirman No. 5     178
2  Citra        JL. Thamrin No. 20     180
3   Dewi  JL. Gatot Subroto No. 15     180
4    Eka     JL. Rasuna Said No. 8     183
5  Fajar       JL. Kuningan No. 12     185
8  Indah         JL. Senayan No. 9     178

=== Urutan dari Tertinggi ke Terendah ===
    nama                    alamat  tinggi
5  Fajar       JL. Kuningan No. 12     185
4    Eka     JL. Rasuna Said No. 8     183
3   Dewi  JL. Gatot Subroto No. 15     180
2  Citra        JL. Thamrin No. 20     180
8  Indah         JL. Senayan No. 9     178
1   Budi        JL. Sudirman No. 5     178
0   Andi        JL. Merdeka No. 10     175
6   Gina          JL. Cikini No. 3     170
7   Hadi       JL. Pal Merah No. 7     168
9  Jilan        JL. Kuningan No. 2     160

=== Data dengan Kategori ===
    nama                    alamat  tinggi kategori
0   Andi        JL.