### *Pembersihan & Pra-pemrosesan Data Titanic Beginner*
#### Proyek tantangan untuk mengaplikasikan skill Python, Pandas
#### Nama: Salsabila Putri Halimi | https://github.com/putrihalimi | IG:@salsabilaputrihalimi19

"""
🚀 Latar Belakang & Konteks Proyek
Proyek ini mensimulasikan tugas krusial pertama dalam siklus hidup sains data: pembersihan dan pra-pemrosesan data. Menggunakan dataset Titanic yang terkenal, Anda akan berlatih mengubah data mentah yang berantakan menjadi data bersih yang siap untuk analisis dan pemodelan. Dataset ini berisi informasi tentang penumpang kapal Titanic, seperti nama, usia, kelas kabin, dan yang terpenting, status kelangsungan hidup mereka. Proyek ini adalah portofolio yang sangat bagus karena menunjukkan kemampuan praktis Anda dalam menggunakan Python dan Pandas—dua pilar utama dalam ekosistem data science. Skill yang akan terbukti meliputi manipulasi DataFrame, penanganan nilai yang hilang (missing values), transformasi tipe data, dan feature engineering dasar.
"""

In [3]:
# Langkah 1: Persiapan Awal (Setup Environment & Tools)
# Buat environment virtual baru (opsional tapi disarankan)
#python -m venv titanic-env

# Aktifkan environment virtual
# Pada Windows:
#titanic-env\Scripts\activate
# Pada macOS/Linux:
#source titanic-env/bin/activate

# Install library yang diperlukan
!pip install pandas numpy matplotlib seaborn jupyter

# Unduh dataset Titanic (train.csv) dari sumber seperti Kaggle:
# https://www.kaggle.com/c/titanic/data
# Simpan file 'train.csv' di folder project Anda.



In [4]:
# Langkah 2: Memuat Data dan Eksplorasi Awal (Exploratory Data Analysis - EDA)
# Import library yang diperlukan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Muat dataset
df = pd.read_csv('trainTitanic.csv')

In [5]:
# 1. Lihat 5 baris pertama data
print(df.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


In [6]:
# 2. Dapatkan informasi umum tentang DataFrame: jumlah entri, tipe data, nilai non-null
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


In [7]:
# 3. Dapatkan statistik deskriptif untuk kolom numerik
print(df.describe())

       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000   80.000000    8.000000   

            Parch        Fare  
count  891.000000  891.000000  
mean     0.381594   32.204208  
std      0.806057   49.693429  
min      0.000000    0.000000  
25%      0.000000    7.910400  
50%      0.000000   14.454200  
75%      0.000000   31.000000  
max      6.000000  512.329200  


In [8]:
# 4. Periksa jumlah nilai yang hilang (missing values) per kolom
print(df.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [9]:
# Langkah 3: Penanganan Nilai yang Hilang (Missing Values)
# 1. Tangani 'Age': Isi nilai yang hilang dengan median usia
# Median lebih robust terhadap outlier dibanding mean
df['Age'] = df['Age'].fillna(df['Age'].median())

In [10]:
# 2. Tangani 'Embarked': Ini adalah data kategorikal. Isi dengan modus (nilai yang paling sering muncul)
mode_embarked = df['Embarked'].mode()[0]
df['Embarked'] = df['Embarked'].fillna(mode_embarked)

In [12]:
# 3. Tangani 'Cabin': Terlalu banyak nilai yang hilang. Kita akan membuat fitur baru 'Has_Cabin'
df['Has_Cabin'] = df['Cabin'].notnull().astype(int)
# Lalu drop kolom 'Cabin' asli karena tidak bisa diandalkan
#df.drop('Cabin', axis=1, inplace=True)

In [16]:
# Lihat kolom dataframe
print(df.columns)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked', 'Has_Cabin'],
      dtype='object')


In [18]:
# Cara aman (hindari error kalau Cabin tidak ada):
if 'Cabin' in df.columns:
    df['Has_Cabin'] = df['Cabin'].notnull().astype(int)
    df.drop('Cabin', axis=1, inplace=True)
else:
    print("Kolom 'Cabin' tidak ada di dataset")

In [22]:
# Langkah 4: Feature Engineering dan Transformasi Data
# 1. Ekstrak gelar (Title) dari kolom 'Name'
df['Title'] = df['Name'].str.extract(r' ([A-Za-z]+)\.', expand=False)

# Group gelar yang tidak umum ke dalam kategori 'Rare'
df['Title'] = df['Title'].replace(['Lady', 'Countess','Capt', 'Col', 'Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
df['Title'] = df['Title'].replace('Mlle', 'Miss')
df['Title'] = df['Title'].replace('Ms', 'Miss')
df['Title'] = df['Title'].replace('Mme', 'Mrs')

In [24]:
# 2. Buat fitur 'FamilySize' dan 'IsAlone' dari 'SibSp' dan 'Parch'
df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
df['IsAlone'] = 0
df.loc[df['FamilySize'] == 1, 'IsAlone'] = 1

In [26]:
# 3. Kelompokkan usia ke dalam beberapa bin (kelompok)
df['AgeBand'] = pd.cut(df['Age'], 5) # Membagi usia menjadi 5 kelompok yang lebarnya sama
# Atau gunakan qcut untuk kelompok berdasarkan kuantil
# df['AgeBand'] = pd.qcut(df['Age'], 4) # 4 kelompok, masing-masing berisi 25% data

In [28]:
# 4. Map data kategorikal ('Sex', 'Embarked', 'Title') ke nilai numerik
df['Sex'] = df['Sex'].map( {'female': 0, 'male': 1} ).astype(int)
title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}
df['Title'] = df['Title'].map(title_mapping)
df['Embarked'] = df['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2} ).astype(int)

In [30]:
# 5. Drop kolom yang sudah tidak diperlukan untuk pemodelan
# Kolom seperti 'Name', 'Ticket', 'PassengerId', 'AgeBand' (jika hanya untuk grouping) bisa di-drop
# 'AgeBand' contohnya menghasilkan interval, yang mungkin perlu di-encode juga.
df.drop(['Name', 'Ticket', 'PassengerId'], axis=1, inplace=True)
# Pilihan: Drop 'SibSp', 'Parch', 'FamilySize' jika sudah menggunakan 'IsAlone'
# df.drop(['SibSp', 'Parch', 'FamilySize'], axis=1, inplace=True)

In [32]:
# Lihat DataFrame akhir
print(df.head(10))
print(df.info())

   Survived  Pclass  Sex   Age  SibSp  Parch     Fare  Embarked  Has_Cabin  \
0         0       3    1  22.0      1      0   7.2500         0          0   
1         1       1    0  38.0      1      0  71.2833         1          1   
2         1       3    0  26.0      0      0   7.9250         0          0   
3         1       1    0  35.0      1      0  53.1000         0          1   
4         0       3    1  35.0      0      0   8.0500         0          0   
5         0       3    1  28.0      0      0   8.4583         2          0   
6         0       1    1  54.0      0      0  51.8625         0          1   
7         0       3    1   2.0      3      1  21.0750         0          0   
8         1       3    0  27.0      0      2  11.1333         0          0   
9         1       2    0  14.0      1      0  30.0708         1          0   

   Title  FamilySize  IsAlone           AgeBand  
0      1           2        0  (16.336, 32.252]  
1      3           2        0  (32.252, 4

In [34]:
#Selesai