## Investigasi Sampel Data Titanic, berikut dengan cara :
1. Cek secara head, tail, sample, info lalu observasi apa yang bisa anda peroleh ... ?
2. Lakukan Statistical Summary dengan mengekstrak informasi yang didapat dari observasi anda ... ?
3. Cek apakah ada duplikat dan bagaimana handlenya ... ?
4. Cek apakah ada missing value, berapa persentasenya jika ada, dan bagaimana cara handlenya ... ?


---



Penungasan Dikerjakan oleh **Haidar Nabiilah Sunu** dari *SMK Telkom Purwokerto* ...

## Import Libraries

In [None]:
# Mengimpor library numpy untuk operasi numerik
import numpy as np
# Mengimpor library pandas untuk manipulasi data
import pandas as pd
# Mengimpor seaborn untuk visualisasi data yang menarik dan informatif
import seaborn as sns
# Mengimpor matplotlib.pyplot untuk membuat grafik dan plot
import matplotlib.pyplot as plt
# Mengatur tampilan pandas agar menampilkan semua kolom saat mencetak DataFrame
pd.set_option("display.max_columns", None)
# Mengatur tampilan pandas agar menampilkan semua baris saat mencetak DataFrame
pd.set_option("display.max_rows", None)

## Check Handle of the Head, Tail, dan Sample for Data

In [None]:
# Import data
df = pd.read_excel('titanic.xlsx')
df.head() # Import data head [ Menampilan 5 data teratas dari 'titanic.xlsx' ]

Unnamed: 0,survived,name,sex,age
0,1,"Allen, Miss. Elisabeth Walton",female,29.0
1,1,"Allison, Master. Hudson Trevor",male,0.9167
2,0,"Allison, Miss. Helen Loraine",female,2.0
3,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0
4,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0


In [None]:
# Import data tail [ Menampilkan 5 data terbawah dari 'titanic.xlsx' ]
df.tail()

Unnamed: 0,survived,name,sex,age
495,1,"Mallet, Mrs. Albert (Antoinette Magnin)",female,24.0
496,0,"Mangiavacchi, Mr. Serafino Emilio",male,
497,0,"Matthews, Mr. William John",male,30.0
498,0,"Maybery, Mr. Frank Hubert",male,40.0
499,0,"McCrae, Mr. Arthur Gordon",male,32.0


In [None]:
# Import data sample 5 baris data [ diberi secara acak tertiap dijalankan ]
df.sample(5)

Unnamed: 0,survived,name,sex,age
0,1,"Allen, Miss. Elisabeth Walton",female,29.0
9,0,"Artagaveytia, Mr. Ramon",male,71.0
268,0,"Smith, Mr. Lucien Philip",male,24.0
184,0,"Lewy, Mr. Ervin G",male,
30,0,"Blackwell, Mr. Stephen Weart",male,45.0


Pengamatan :
1. Semua kolom (survived, name, sex, age) terlihat sesuai dengan tipe data yang diharapkan: survived berupa nilai biner (0 atau 1), name berupa string, sex berupa kategori (male/female), dan age berupa numerik.

2. Terdapat nilai NaN pada kolom age, yang menunjukkan adanya missing data dan perlu dipertimbangkan untuk ditangani (misalnya dengan imputasi).

3. Nilai pada kolom sex hanya terdiri dari dua kategori, menandakan kolom ini bisa dikonversi menjadi data kategorikal/biner.

4. Tidak ditemukan anomali yang mencolok antara nama kolom dan isi datanya — semuanya tampak logis dan sesuai konteks.

In [None]:
# Menampilkan informasi ringkas tentang struktur DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  500 non-null    int64  
 1   name      500 non-null    object 
 2   sex       500 non-null    object 
 3   age       451 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 15.8+ KB


Pengamatan :
1. Dataset terdiri dari 500 baris dan 4 kolom: survived, name, sex, dan age.

2. Tiga kolom (survived, name, dan sex) tidak memiliki nilai yang hilang (non-null = 500), sedangkan kolom age memiliki 451 nilai, berarti ada 49 data yang hilang.

3. Tipe data sudah sesuai: survived bertipe integer (karena biner 0/1), name dan sex bertipe objek (string/kategori), dan age bertipe float karena mungkin ada nilai desimal atau nilai kosong yang menyebabkan konversi otomatis.

4. Penggunaan memori relatif kecil, hanya sekitar 15.8 KB, menandakan data cukup ringan untuk diproses.

## Statistical Summary

In [None]:
# Menampilakan Kolom data
df.columns

Index(['survived', 'name', 'sex', 'age'], dtype='object')

In [None]:
# Membuat kelompok 'categoricals' dan 'numericals'
categoricals = ['sex'] # Menentukan kolom-kolom kategorikal

# Menentukan kolom-kolom numerikal
numericals = ['survived', 'name', 'age',]

In [None]:
# Ringkasan statistik Numerik
df[numericals].describe()

Unnamed: 0,survived,age
count,500.0,451.0
mean,0.54,35.917775
std,0.498897,14.766454
min,0.0,0.6667
25%,0.0,24.0
50%,1.0,35.0
75%,1.0,47.0
max,1.0,80.0


Pengamatan :
* Nilai minimum dan maksimum pada kolom survived dan age terlihat masuk akal. Kolom survived memiliki nilai 0 dan 1, menandakan data biner (tidak selamat atau selamat), sedangkan kolom age berkisar dari bayi (0.67 tahun) hingga lansia (80 tahun).

* Rata-rata usia (35.9) mendekati median (35), menunjukkan bahwa distribusi usia cukup simetris.

* Kolom survived adalah data biner, sehingga tidak perlu dianalisis simetrisitasnya. Yang perlu diperhatikan hanya keseimbangan kelas : 54% selamat dan 46% tidak selamat, menunjukkan distribusi kelas yang cukup seimbang.

* Untuk analisis lebih lanjut, distribusi nilai pada kolom-kolom lainnya dapat divisualisasikan, khususnya jika ada kolom kategorikal atau diskrit lainnya.

In [None]:
# Menampilkan statistik deskriptif untuk kolom kategorikal
df[categoricals].describe()

Unnamed: 0,sex
count,500
unique,2
top,male
freq,288


Pengamatan :
* Kolom sex memiliki total 500 entri tanpa missing value.

* Terdapat 2 nilai unik dalam kolom ini, yaitu male dan female.

* Nilai yang paling sering muncul adalah male dengan frekuensi 288, menunjukkan bahwa mayoritas individu dalam data adalah laki-laki.

In [None]:
categoricals

['sex']

In [None]:
for col in categoricals:
  print(f"Value counts of {col} column")
  print(df[col].value_counts(), '\n')

Value counts of sex column
sex
male      288
female    212
Name: count, dtype: int64 



In [None]:
for col in numericals:
  print(f"==== {col} ====")
  print(df[col].value_counts(), '\n')

==== survived ====
survived
1    270
0    230
Name: count, dtype: int64 

==== name ====
name
Eustis, Miss. Elizabeth Mussey                                                        2
Becker, Miss. Ruth Elizabeth                                                          1
Becker, Miss. Marion Louise                                                           1
Becker, Master. Richard F                                                             1
Beauchamp, Mr. Henry James                                                            1
Beane, Mrs. Edward (Ethel Clarke)                                                     1
Beane, Mr. Edward                                                                     1
Bateman, Rev. Robert James                                                            1
Banfield, Mr. Frederick James                                                         1
Ball, Mrs. (Ada E Hall)                                                               1
Baimbrigge, Mr. Charles Ro

# Data Inspection and Cleaning




## 1. Duplicate Handling
### Identifying Duplicate


In [None]:
len(df) # Menampilan jumlah baris di data

500

In [None]:
# Menampilkan jumlah baris setelah menghapus duplikat
len(df.drop_duplicates())

499

In [None]:
# Menghitung proporsi baris unik dibandingkan dengan total baris
len(df.drop_duplicates()) / len(df)

0.998

In [None]:
list(df.columns) # Mendapatkan daftar kolom dalam DataFrame

['survived', 'name', 'sex', 'age']

In [None]:
# Ambil baris duplikat (termasuk yang asli)
duplicates = df[df.duplicated(keep=False)]

In [None]:
duplicates

Unnamed: 0,survived,name,sex,age
104,1,"Eustis, Miss. Elizabeth Mussey",female,54.0
349,1,"Eustis, Miss. Elizabeth Mussey",female,54.0


In [None]:
duplicates.groupby(list(df.columns)).size()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,0
survived,name,sex,age,Unnamed: 4_level_1
1,"Eustis, Miss. Elizabeth Mussey",female,54.0,2


In [None]:
duplicates.groupby(list(df.columns)).size().reset_index(name='jumlah duplikat')

Unnamed: 0,survived,name,sex,age,jumlah duplikat
0,1,"Eustis, Miss. Elizabeth Mussey",female,54.0,2


In [None]:
# Hitung frekuensi kemunculan tiap baris duplikat
duplicate_counts = duplicates.groupby(list(df.columns)).size().reset_index(name='jumlah_duplikat')

# Urutkan berdasarkan jumlah duplikat
sorted_duplicates = duplicate_counts.sort_values(by='jumlah_duplikat', ascending=False)

# Tampilkan hasil
print("Baris duplikat yang sudah diurutkan berdasarkan jumlah kemunculannya:")
sorted_duplicates

Baris duplikat yang sudah diurutkan berdasarkan jumlah kemunculannya:


Unnamed: 0,survived,name,sex,age,jumlah_duplikat
0,1,"Eustis, Miss. Elizabeth Mussey",female,54.0,2


Pada kode (df[df.duplicated(keep=False)]), Anda langsung mencetak baris yang memiliki duplikat dengan menggunakan metode duplicated dan memasukkan parameter keep=False. Ini mencetak semua baris yang memiliki duplikat tanpa mengurangi apa pun dari DataFrame.

In [None]:
# Menghapus duplikat dan menyimpan hasilnya kembali ke DataFrame (df)
df = df.drop_duplicates()

In [None]:
len(df.drop_duplicates()) / len(df)
# Jika output dari code di cell ini tidak bernilai 1 maka terdapat duplikat

1.0

#### Telah di Handling Drop Duplikat dari Data

## 2. Missing Value Handling
### Identifying Missing Value

In [None]:
# Mengecek jumlah nilai yang hilang (NaN) di setiap kolom DataFrame
df.isna().sum()

Unnamed: 0,0
survived,0
name,0
sex,0
age,49


In [None]:
# Mengembalikan DataFrame dengan nilai yang mengandung NaN (null)
df.isnull().sum()

Unnamed: 0,0
survived,0
name,0
sex,0
age,49


In [None]:
for column in df.columns:
    print(f"============= {column} =================")
    display(df[column].value_counts())
    print()



Unnamed: 0_level_0,count
survived,Unnamed: 1_level_1
1,269
0,230





Unnamed: 0_level_0,count
name,Unnamed: 1_level_1
"McCrae, Mr. Arthur Gordon",1
"Allen, Miss. Elisabeth Walton",1
"Allison, Master. Hudson Trevor",1
"Lehmann, Miss. Bertha",1
"Laroche, Mrs. Joseph (Juliette Marie Louise Lafargue)",1
"Laroche, Mr. Joseph Philippe Lemercier",1
"Laroche, Miss. Simonne Marie Anne Andree",1
"Laroche, Miss. Louise",1
"Lamb, Mr. John Joseph",1
"Lahtinen, Rev. William",1





Unnamed: 0_level_0,count
sex,Unnamed: 1_level_1
male,288
female,211





Unnamed: 0_level_0,count
age,Unnamed: 1_level_1
24.0,23
30.0,20
36.0,19
18.0,14
42.0,14
45.0,14
35.0,14
22.0,12
28.0,12
23.0,11





In [None]:
# Menghitung jumlah baris (row) dalam DataFrame (df)
total_rows = len(df)
total_rows # Menampilkan nilai dari variabel total_rows

499

In [None]:
# Menampilakan Kolom data
df.columns

Index(['survived', 'name', 'sex', 'age'], dtype='object')

In [None]:
# Menghitung total baris dalam DataFrame
total_rows = len(df)

# Loop untuk setiap kolom di DataFrame
for column in df.columns:
    # Hitung jumlah nilai yang hilang (NaN) di kolom
    missing_count = df[column].isna().sum()

    # Hitung persentase nilai yang hilang terhadap total baris
    missing_percentage = (missing_count / total_rows) * 100

    # Tampilkan jumlah dan persentase nilai yang hilang
    print(f"Column '{column}' Has {missing_count} missing values ({missing_percentage:.2f}%)")

Column 'survived' Has 0 missing values (0.00%)
Column 'name' Has 0 missing values (0.00%)
Column 'sex' Has 0 missing values (0.00%)
Column 'age' Has 49 missing values (9.82%)


Pengamatan :
* Kolom 'age' memiliki 49 missing values (sekitar 9.82%).

* Kolom lain seperti 'survived', 'name', dan 'sex' tidak memiliki nilai hilang (0%).

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 499 entries, 0 to 499
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  499 non-null    int64  
 1   name      499 non-null    object 
 2   sex       499 non-null    object 
 3   age       450 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 19.5+ KB


In [None]:
df['sex'].dtype

dtype('O')

In [None]:
df['sex'].mode()[0]

'male'

In [None]:
df['survived'].median()

1.0

In [None]:
# Loop untuk setiap kolom dalam DataFrame
for column in df.columns:

    # Jika tipe datanya adalah object (kategorikal)
    if df[column].dtype == 'object':
        # Isi missing value dengan nilai paling sering (modus)
        df[column].fillna(df[column].mode()[0], inplace=True)

    else:
        # Jika numerik, isi missing value dengan nilai tengah (median)
        df[column].fillna(df[column].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[column].fillna(df[column].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[column].fillna(df[column].mode()[0], inplace=True)


In [None]:
df.isna().sum()

Unnamed: 0,0
survived,0
name,0
sex,0
age,0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 499 entries, 0 to 499
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  499 non-null    int64  
 1   name      499 non-null    object 
 2   sex       499 non-null    object 
 3   age       499 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 19.5+ KB


Berhasil menghapus nilai NULL pada DataFrame ... !

## Thank you :)