In [15]:
#1. Import libraries
import pandas as pd
import numpy as np

#2. Load data and exploratory analysis
df = pd.read_csv("datatni.csv")

print("Data Calon TNI ===")
print(df.to_string(index=True))

# Statistik dasar tinggi badan
print("\nStatistik Dasar Tinggi Badan ===")
statistik = df['tinggi'].describe()
print(statistik.to_string())
print(f"Name: tinggi, dtype: float64")

# Rata-rata, tertinggi, terendah, median
print(f"\nRata-rata tinggi : {df['tinggi'].mean():.2f} cm")
print(f"Tertinggi        : {df['tinggi'].max()} cm")
print(f"Terendah         : {df['tinggi'].min()} cm")
print(f"Median           : {df['tinggi'].median()} cm")

# Calon di atas rata-rata tinggi
rata_rata = df['tinggi'].mean()
calon_diatas_rata = df[df['tinggi'] > rata_rata]
print("\nCalon di atas rata-rata tinggi ===")
print(calon_diatas_rata.to_string(index=True))

# Urutan dari tertinggi ke terendah
df_sorted = df.sort_values('tinggi', ascending=False)
print("\nUrutan dari Tertinggi ke Terendah ===")
print(df_sorted.to_string(index=True))

# Data dengan kategori
def kategori_tinggi(tinggi):
    if tinggi >= 180:
        return 'Tinggi'
    elif tinggi >= 170:
        return 'Sedang'
    else:
        return 'Pendek'

df['kategori'] = df['tinggi'].apply(kategori_tinggi)
print("\nData dengan kategori ===")
print(df.to_string(index=True))

# Jumlah calon per kategori
print("\nJumlah Calon per Kategori ===")
jumlah_kategori = df['kategori'].value_counts()
print(jumlah_kategori.to_string())

# Statistik lanjutan
print("\nStatistik Lanjutan ===")
print(f"Standar Deviasi : {df['tinggi'].std():.2f}")
print(f"Variansi        : {df['tinggi'].var():.2f}")

# Calon dengan tinggi badan tertinggi
calon_tertinggi = df[df['tinggi'] == df['tinggi'].max()]
print("\nCalon dengan Tinggi Badan Tertinggi ===")
print(calon_tertinggi.to_string(index=True))

#3. deteksi masalah data
print("\nMissing values:\n", df.isnull().sum())

#4. imputasi data
if df.isnull().sum().sum() > 0:
    numerical_cols = df.select_dtypes(include=[np.number]).columns
    categorical_cols = df.select_dtypes(include=['object']).columns
    if df.isnull().sum().sum() > 0:
        # Numerical - imputasi median
        num_cols = df.select_dtypes(include=[np.number])
        df[num_cols.columns] = num_cols.fillna(num_cols.median())
        
        # Categorical - imputasi mode
        cat_cols = df.select_dtypes(include=['object'])
        df[cat_cols.columns] = cat_cols.fillna(cat_cols.mode().iloc[0])

print("\nHasil - Missing values:", df.isnull().sum().sum())


Data Calon TNI ===
    name                    alamat  tinggi kategori
0   Andi        Jl. Merdeka No. 18     175   Sedang
1   Budi        Jl. Sudirman No. 5     178   Sedang
2   Cira        Jl. Thamrin No. 20     180   Tinggi
3   Devd  Jl. Gatot Subroto No. 15     180   Tinggi
4    Eka     Jl. Rasuna Said No. 8     183   Tinggi
5  Fajar       Jl. Kuningan No. 12     185   Tinggi
6   Gina          Jl. Cikini No. 3     170   Sedang
7   Hadi        Jl. Palmerah No. 7     168   Pendek
8  Indah         Jl. Senayan No. 9     178   Sedang
9  Jilan        Jl. Kuningan No. 2     160   Pendek

Statistik Dasar Tinggi Badan ===
count     10.000000
mean     175.700000
std        7.645623
min      160.000000
25%      171.250000
50%      178.000000
75%      180.000000
max      185.000000
Name: tinggi, dtype: float64

Rata-rata tinggi : 175.70 cm
Tertinggi        : 185 cm
Terendah         : 160 cm
Median           : 178.0 cm

Calon di atas rata-rata tinggi ===
    name                    alamat  ting