 # <center> Data Preprocessing dengan Pandas

## <div class="alert alert-block alert-info">Pengenalan Library Pandas</div>

![Pandas Icon](img/pandas.png)
Pandas adalah alat analisis dan manipulasi data open source yang cepat, kuat, fleksibel dan mudah digunakan, dibangun di atas bahasa pemrograman Python. Secara khusus, Pandas menawarkan operasi struktur data dan operasi untuk memanipulasi tabel numerik serta deret waktu (*time-series*)

## <div class="alert alert-block alert-info"> Operasi Dasar Pandas pada Dataframe </div>

### <div class="alert alert-block alert-success"> Import library </div>

In [2]:
# import library
import pandas as pd

pd adalah alias yang umum digunakan untuk library pandas. Hal ini digunakan untuk memudahkan penggunaan library pandas

In [4]:
# read dataset
df = pd.read_csv('../dataset/occupation.csv')

In [3]:
df.head(3)

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1001,24,M,technician,85711
1,1002,53,F,other,94043
2,1003,23,M,writer,32067


<div class="alert alert-block alert-warning">

*read_csv* merupakan function dari library pandas. Untuk melihat parameter yang bisa digunakan, Anda bisa melihatnya dengan cara menjalankan *pd.read_csv?*

*head* merupakan method dari objek df. Sama seperti function, untuk melihat dokumentasinya Anda bisa mengakses dengan cara menjalankan *df.head?*
</div>

Pada dataset df, terdapat 5 kolom/atribut, yaitu user_id, age, gender, occupation, zip_code. Untuk mencetak nama-nama kolom yang ada, Anda dapat menjalankan code *df.columns*.

Dataset df memiliki 943 objek/poin/instance. Untuk mengecek dimensi dataset, Anda dapat menjalankan code *df.shape*. Nilai pertama adalah jumlah baris/row dan nilai kedua adalah jumlah kolom/column/atribut.

In [4]:
df.columns

Index(['user_id', 'age', 'gender', 'occupation', 'zip_code'], dtype='object')

In [5]:
df.shape

(943, 5)

### <div class="alert alert-block alert-success"> Manipulasi dataset </div>

**Merubah nama kolom**

In [6]:
df.rename(columns={'occupation':'job'}, inplace=True)

In [7]:
df

Unnamed: 0,user_id,age,gender,job,zip_code
0,1001,24,M,technician,85711
1,1002,53,F,other,94043
2,1003,23,M,writer,32067
3,1004,24,M,technician,43537
4,1005,33,F,other,15213
...,...,...,...,...,...
938,1939,26,F,student,33319
939,1940,32,M,administrator,02215
940,1941,20,M,student,97229
941,1942,48,F,librarian,78209


**Slice dataset pada 1 kolom tertentu**

In [8]:
# akses hanya kolom age saja
df['age']

0      24
1      53
2      23
3      24
4      33
       ..
938    26
939    32
940    20
941    48
942    22
Name: age, Length: 943, dtype: int64

**Slice dataset lebih dari 1 kolom tertentu**

In [9]:
df[['age','gender']]

Unnamed: 0,age,gender
0,24,M
1,53,F
2,23,M
3,24,M
4,33,F
...,...,...
938,26,F
939,32,M
940,20,M
941,48,F


**Akses hanya nilai dalam kolom**

In [10]:
df['age'].values

array([24, 53, 23, 24, 33, 42, 57, 36, 29, 53, 39, 28, 47, 45, 49, 21, 30,
       35, 40, 42, 26, 25, 30, 21, 39, 49, 40, 32, 41,  7, 24, 28, 23, 38,
       20, 19, 23, 28, 41, 38, 33, 30, 29, 26, 29, 27, 53, 45, 23, 21, 28,
       18, 26, 22, 37, 25, 16, 27, 49, 50, 36, 27, 31, 32, 51, 23, 17, 19,
       24, 27, 39, 48, 24, 39, 24, 20, 30, 26, 39, 34, 21, 50, 40, 32, 51,
       26, 47, 49, 43, 60, 55, 32, 48, 26, 31, 25, 43, 49, 20, 36, 15, 38,
       26, 27, 24, 61, 39, 44, 29, 19, 57, 30, 47, 27, 31, 40, 20, 21, 32,
       47, 54, 32, 48, 34, 30, 28, 33, 24, 36, 20, 59, 24, 53, 31, 23, 51,
       50, 46, 20, 30, 49, 13, 42, 53, 31, 45, 40, 33, 35, 20, 38, 33, 25,
       25, 32, 25, 57, 50, 23, 27, 50, 25, 49, 47, 20, 47, 37, 48, 52, 53,
       48, 55, 56, 30, 26, 28, 20, 26, 15, 22, 26, 36, 33, 37, 53, 39, 26,
       42, 32, 30, 33, 42, 29, 38, 42, 49, 55, 21, 30, 40, 27, 41, 25, 52,
       47, 14, 39, 43, 33, 39, 66, 49, 33, 26, 35, 22, 22, 37, 32, 30, 19,
       29, 19, 31, 51, 28

**Slice instance tertentu dengan kondisi dari nilai kolom**

In [11]:
# slice instance dengan gender male (M). 1 condition
df[df['gender']=='M']

Unnamed: 0,user_id,age,gender,job,zip_code
0,1001,24,M,technician,85711
2,1003,23,M,writer,32067
3,1004,24,M,technician,43537
5,1006,42,M,executive,98101
6,1007,57,M,administrator,91344
...,...,...,...,...,...
935,1936,24,M,other,32789
936,1937,48,M,educator,98072
939,1940,32,M,administrator,02215
940,1941,20,M,student,97229


In [12]:
# slice instance dengan gender male (M) DAN berumur lebih dari 30 tahun. 2 condition
df[(df['gender']=='M') & (df['age']>30)]

Unnamed: 0,user_id,age,gender,job,zip_code
5,1006,42,M,executive,98101
6,1007,57,M,administrator,91344
7,1008,36,M,administrator,05201
9,1010,53,M,lawyer,90703
12,1013,47,M,educator,29206
...,...,...,...,...,...
931,1932,58,M,educator,06437
933,1934,61,M,engineer,22902
934,1935,42,M,doctor,66221
936,1937,48,M,educator,98072


In [13]:
# slice instance dengan gender male (M) ATAU berumur lebih dari 30 tahun. 2 condition
df[(df['gender']=='M') | (df['age']>30)]

Unnamed: 0,user_id,age,gender,job,zip_code
0,1001,24,M,technician,85711
1,1002,53,F,other,94043
2,1003,23,M,writer,32067
3,1004,24,M,technician,43537
4,1005,33,F,other,15213
...,...,...,...,...,...
937,1938,38,F,technician,55038
939,1940,32,M,administrator,02215
940,1941,20,M,student,97229
941,1942,48,F,librarian,78209


Menampilkan hanya nilai kolom job dengan kondisi pada 2 kolom, yaitu gender dan age

In [14]:
df[(df['gender']=='M') & (df['age']>60)]['job'].values

array(['retired', 'salesman', 'retired', 'retired', 'educator',
       'engineer', 'other', 'retired', 'healthcare', 'executive',
       'retired', 'retired', 'librarian', 'retired', 'engineer',
       'programmer', 'administrator', 'doctor', 'educator', 'engineer'],
      dtype=object)

### <div class="alert alert-block alert-danger"> Soal Latihan </div>

1. Tampunglah semua list pekerjaan ke dalam variabel 'job'

In [15]:
job = df['job'].values

2. Berapakah pelajar perempuan yang berusia 18 tahun atau lebih pada dataset tersebut?

In [16]:
df[(df['age']>18)&(df['gender']=='F')]

Unnamed: 0,user_id,age,gender,job,zip_code
1,1002,53,F,other,94043
4,1005,33,F,other,15213
10,1011,39,F,other,30329
11,1012,28,F,other,06405
14,1015,49,F,educator,97301
...,...,...,...,...,...
921,1922,29,F,administrator,21114
929,1930,28,F,scientist,07310
937,1938,38,F,technician,55038
938,1939,26,F,student,33319


## <div class="alert alert-block alert-info"> Data Preprocessing </div>

In [5]:
df = pd.read_csv('../dataset/occupation.csv')

### <div class="alert alert-block alert-success"> Tipe atribut </div>

    1. user_id     :  nominal
    2. age         :  ratio
    3. gender      :  nominal
    4. occuppation :  nominal
    5. zip_code    :  ordinal

### <div class="alert alert-block alert-success"> Deskripsi statistik </div>

In [18]:
df.describe()

Unnamed: 0,user_id,age
count,943.0,943.0
mean,1472.0,34.051962
std,272.364951,12.19274
min,1001.0,7.0
25%,1236.5,25.0
50%,1472.0,31.0
75%,1707.5,43.0
max,1943.0,73.0


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 943 entries, 0 to 942
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     943 non-null    int64 
 1   age         943 non-null    int64 
 2   gender      942 non-null    object
 3   occupation  942 non-null    object
 4   zip_code    942 non-null    object
dtypes: int64(2), object(3)
memory usage: 37.0+ KB


### <div class="alert alert-block alert-success"> Pengecekan problem pada dataset </div>

**Missing Value**

In [20]:
# cek missing value
df.isnull().sum()

user_id       0
age           0
gender        1
occupation    1
zip_code      1
dtype: int64

**Pengecekan instance yang memiliki missing value**

In [21]:
df[df.isnull().any(axis=1)]

Unnamed: 0,user_id,age,gender,occupation,zip_code
24,1025,39,M,,55107
73,1074,39,,scientist,T8H1N
79,1080,34,F,administrator,


**Penanganan missing value dengan menghapus missing value**

In [22]:
df = df.dropna()

In [23]:
df.isnull().sum()

user_id       0
age           0
gender        0
occupation    0
zip_code      0
dtype: int64

### <div class="alert alert-block alert-danger"> Soal Latihan </div>

1. Kenapa missing value perlu diidentifikasi dan ditangani?

Sebelum data dapat diolah, kualitas data harus dipastikan agar dapat memberikan informasi yang valid. Salah satu komponen kunci kualitas data adalah kelengkapan (*completeness*) data. Missing value berarti ada data objek yang tidak memiliki salah satu atau lebih atribut. Jika ada missing value dalam data, maka komponen kelengkapan data tidak dapat dipenuhi sehingga dapat mengganggu proses analisis data secara teknis serta dapat memberikan informasi yang tidak valid dan menyeluruh.

2. Selain dengan cara menghapuskan instance yang memiliki missing value, apakah cara penanganan lain yang dapat dilakukan untuk mengatasi permasalahan missing value? Jelaskan dan sebutkan !

Missing value dapat ditangani dengan teknik berikut :
    1. Mengabaikan data objek. Data objek/instance yang memiliki missing value tidak dihapus dari dataset, namun diabaikan dan tidak diikutkan dalam analisis data.
    2. Memperkirakan nilai missing value. Nilai missing value dapat diperkirakan dengan berbagai cara. Diantaranya, mengisi re

## <div class="alert alert-block alert-info"> Ekplorasi Data </div>

Untuk ekplorasi data, terlebih dahulu Anda harus merumuskan pertanyaan yang ingin dicari dalam dataset. Misalnya, *berapa jumlah pekerjaan yang ada?*, *berapa rata-rata umur wanita yang bekerja sebagai dokter?*, *apa saja pekerjaan yang tercatat* dan sebagainya.

Merumuskan pertanyan-pertanyaan tersebut adalah syarat awal dalam membuat visualisasi. Dari pertanyaan tersebut, muncul informasi yang ingin kita sampaikan melalui visualisasi nantinya.

### <div class="alert alert-block alert-success"> Mencari nilai unik dan jumlahnya </div>

In [24]:
df['occupation'].unique()

array(['technician', 'other', 'writer', 'executive', 'administrator',
       'student', 'lawyer', 'educator', 'scientist', 'entertainment',
       'programmer', 'librarian', 'homemaker', 'artist', 'engineer',
       'marketing', 'none', 'healthcare', 'retired', 'salesman', 'doctor'],
      dtype=object)

In [25]:
df['occupation'].value_counts()

student          196
other            105
educator          95
administrator     78
programmer        66
engineer          66
librarian         51
writer            45
executive         32
scientist         30
artist            28
technician        27
marketing         26
entertainment     18
healthcare        16
retired           14
lawyer            12
salesman          12
none               9
homemaker          7
doctor             7
Name: occupation, dtype: int64

### <div class="alert alert-block alert-success"> Summarization </div>

Summarization atau ringkasan dari data bertujuan untuk mencari gambaran besar dari dataset.

Dalam Pandas, terdapat dua method yang dapat digunakan berkaitan dengan summarization. Aggregate berfungsi untuk melihat ringkasan data secara keseluruhan. Sedangkan *groupby()* berfungsi untuk melihat ringkasan dari subset data.

<div class="alert alert-block alert-warning">
    Method Aggregation Pandas
</div>

|Method|Deskripsi|
|:-|:-|
|*count()*|Total item|
|*min()*, *max()*|Nilai paling kecil dan paling besar|
|*first()*, *last()*|Nilai awal dan akhir|
|*mean()*, *median()*|Rerata dan nilai tengah|
|*std()*, *var()*|Standar deviasi dan variance|
|*prod()*|Dot product|
|*sum()*|Jumlah/sum dari item|

<div class="alert alert-block alert-warning">
</div>

In [26]:
df.max()

user_id         1943
age               73
gender             M
occupation    writer
zip_code       Y1A6B
dtype: object

In [27]:
df.min()

user_id                1001
age                       7
gender                    F
occupation    administrator
zip_code              00000
dtype: object

In [28]:
df.count()

user_id       940
age           940
gender        940
occupation    940
zip_code      940
dtype: int64

In [29]:
df.mean()

user_id    1473.315957
age          34.041489
dtype: float64

### <div class="alert alert-block alert-success"> Mencari informasi dalam sub-dataset </div>

Berikut merupakan contoh dari penggunaan method *groupby()*.

In [30]:
df.groupby('occupation').count()

Unnamed: 0_level_0,user_id,age,gender,zip_code
occupation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
administrator,78,78,78,78
artist,28,28,28,28
doctor,7,7,7,7
educator,95,95,95,95
engineer,66,66,66,66
entertainment,18,18,18,18
executive,32,32,32,32
healthcare,16,16,16,16
homemaker,7,7,7,7
lawyer,12,12,12,12


In [31]:
df.groupby('occupation', as_index=False).count()

Unnamed: 0,occupation,user_id,age,gender,zip_code
0,administrator,78,78,78,78
1,artist,28,28,28,28
2,doctor,7,7,7,7
3,educator,95,95,95,95
4,engineer,66,66,66,66
5,entertainment,18,18,18,18
6,executive,32,32,32,32
7,healthcare,16,16,16,16
8,homemaker,7,7,7,7
9,lawyer,12,12,12,12


Untuk melihat ringkasan dari subset data kita dapat menambahkan method aggregate di belakang method *groupby()*

In [32]:
df.groupby('occupation', as_index=False).age.mean()

Unnamed: 0,occupation,age
0,administrator,38.807692
1,artist,31.392857
2,doctor,43.571429
3,educator,42.010526
4,engineer,36.348485
5,entertainment,29.222222
6,executive,38.71875
7,healthcare,41.5625
8,homemaker,32.571429
9,lawyer,36.75


In [33]:
df.groupby(['occupation', 'gender']).age.mean()

occupation     gender
administrator  F         40.828571
               M         37.162791
artist         F         30.307692
               M         32.333333
doctor         M         43.571429
educator       F         39.115385
               M         43.101449
engineer       F         29.500000
               M         36.562500
entertainment  F         31.000000
               M         29.000000
executive      F         44.000000
               M         38.172414
healthcare     F         39.818182
               M         45.400000
homemaker      F         34.166667
               M         23.000000
lawyer         F         39.500000
               M         36.200000
librarian      F         40.000000
               M         40.000000
marketing      F         37.200000
               M         37.875000
none           F         36.500000
               M         18.600000
other          F         35.472222
               M         34.028986
programmer     F         32.16666

In [34]:
df.groupby('occupation', as_index=False).age.agg(['min', 'max'])

Unnamed: 0_level_0,min,max
occupation,Unnamed: 1_level_1,Unnamed: 2_level_1
administrator,21,70
artist,19,48
doctor,28,64
educator,23,63
engineer,22,70
entertainment,15,50
executive,22,69
healthcare,22,62
homemaker,20,50
lawyer,21,53


### <div class="alert alert-block alert-danger"> Soal Latihan </div>

1. Pekerjaan apa yang paling banyak dijalani oleh perempuan?

In [35]:
df[df['gender']=='F'].groupby('occupation', as_index=False).user_id.count().sort_values('user_id')

Unnamed: 0,occupation,user_id
18,technician,1
14,retired,1
3,engineer,2
4,entertainment,2
8,lawyer,2
5,executive,3
16,scientist,3
15,salesman,3
11,none,4
7,homemaker,6


In [36]:
df.groupby(['gender','occupation'], as_index=False).user_id.count()

Unnamed: 0,gender,occupation,user_id
0,F,administrator,35
1,F,artist,13
2,F,educator,26
3,F,engineer,2
4,F,entertainment,2
5,F,executive,3
6,F,healthcare,11
7,F,homemaker,6
8,F,lawyer,2
9,F,librarian,29


2. Pekerjaan apa yang memiliki pekerja perempuan dan pria termuda?

In [37]:
df.groupby(['gender','occupation'], as_index=False).age.min().sort_values(['gender','age'])

Unnamed: 0,gender,occupation,age
17,F,student,13
12,F,other,18
15,F,salesman,18
19,F,writer,18
1,F,artist,19
7,F,homemaker,20
0,F,administrator,22
6,F,healthcare,22
2,F,educator,23
3,F,engineer,23


3. Berapa perbandingan guru wanita dan guru pria?

In [38]:
df.groupby(['gender','occupation']).user_id.count()

gender  occupation   
F       administrator     35
        artist            13
        educator          26
        engineer           2
        entertainment      2
        executive          3
        healthcare        11
        homemaker          6
        lawyer             2
        librarian         29
        marketing         10
        none               4
        other             36
        programmer         6
        retired            1
        salesman           3
        scientist          3
        student           60
        technician         1
        writer            19
M       administrator     43
        artist            15
        doctor             7
        educator          69
        engineer          64
        entertainment     16
        executive         29
        healthcare         5
        homemaker          1
        lawyer            10
        librarian         22
        marketing         16
        none               5
        other        

##  <center><div class="alert alert-block alert-danger"> TUGAS </div>

### <div class="alert alert-block alert-danger"> Read Dataset </div>

Baca dataset titanic, kemudian tampung di variabel dt

In [39]:
dt = pd.read_csv('../dataset/titanic.csv')

Tampilkan 10 instance paling pertama dalam dataset tersebut

In [40]:
dt.head(10)

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3.0,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1.0,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3.0,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1.0,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3.0,Mr. William Henry Allen,male,35.0,0,0,8.05
5,0,3.0,Mr. James Moran,male,27.0,0,0,8.4583
6,0,1.0,Mr. Timothy J McCarthy,male,54.0,0,0,51.8625
7,0,3.0,Master. Gosta Leonard Palsson,male,2.0,3,1,21.075
8,1,3.0,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27.0,0,2,11.1333
9,1,2.0,Mrs. Nicholas (Adele Achem) Nasser,female,14.0,1,0,30.0708


Berapakah jumlah instance dalam dataset tersebut ?

In [41]:
dt.shape

(887, 8)

Pada dataset titanic terdapat data penumpang yang menaiki kapal Titanic pada tahun 1912. Dataset tersebut memiliki delapan atribut, yaitu :

1. Survive = penanda masih hidupnya penumpang setelah kecelakaan. 1 masih hidup, 0 meninggal
2. Pclass = passenger class atau kelas penumpang. 1 kelas bisnis, 2 kelas eksekutif, 3 kelas ekonomi
3. Name = nama dari penumpang
4. Sex = jenis kelamin dari penumpang
5. Siblings/Spouses Aboard = jumlah saudara atau pasangan dari penumpang yang ikut dalam Titanic
6. Parents/Children Aboard = jumlah orangtua atau anak dari penumpang yang ikut dalam Titanic
7. Fare = biaya yang dikeluarkan penumpang dalam nilai USD, (.) titik berarti desimal

Ubah nama kolom menjadi sebagai berikut :

    1. Survive = survive
    2. Pclass = class
    3. Name = name
    4. Sex = sex
    5. Siblings/Spouses Aboard = siblings-spouses
    6. Parents/Children Aboard = parents-childs
    7. Fare = fare
    8. Age = age

In [42]:
dt.rename(columns={'Survived':'survive', 'Pclass':'class', 'Name':'name', 'Sex':'sex', 'Age':'age', 'Siblings/Spouses Aboard':'siblings-spouses',
       'Parents/Children Aboard':'parents_childs', 'Fare':'fare'}, inplace=True)

Tentukan tipe masing-masing atribut

    1. survive = nominal
    2. class = ordinal
    3. name = nominal
    4. sex = nominal
    5. siblings-spouses = ratio
    6. parents-childs = ratio
    7. fare = ratio
    8. age = ratio

### <div class="alert alert-block alert-danger"> Preprocessing </div>

Tentukan apakah ada missing value

In [43]:
dt.isnull().sum()

survive             0
class               1
name                0
sex                 0
age                 0
siblings-spouses    0
parents_childs      0
fare                2
dtype: int64

Tampilkan instance yang memiliki missing value

In [44]:
dt[dt.isnull().any(axis=1)]

Unnamed: 0,survive,class,name,sex,age,siblings-spouses,parents_childs,fare
22,1,3.0,Miss. Anna McGowan,female,15.0,0,0,
39,1,3.0,Miss. Jamila Nicola-Yarred,female,14.0,1,0,
60,1,,Miss. Amelie Icard,female,38.0,0,0,80.0


Tangani missing value tersebut dengan menghapus instance yang memiliki missing value

In [45]:
dt = dt.dropna()

Buktikan bahwa tidak ada lagi missing value pada dataset

In [46]:
dt.isnull().sum()

survive             0
class               0
name                0
sex                 0
age                 0
siblings-spouses    0
parents_childs      0
fare                0
dtype: int64

Tampilkan hanya atribut nama dan umur penumpang

In [47]:
dt[['name','age']]

Unnamed: 0,name,age
0,Mr. Owen Harris Braund,22.0
1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,38.0
2,Miss. Laina Heikkinen,26.0
3,Mrs. Jacques Heath (Lily May Peel) Futrelle,35.0
4,Mr. William Henry Allen,35.0
...,...,...
882,Rev. Juozas Montvila,27.0
883,Miss. Margaret Edith Graham,19.0
884,Miss. Catherine Helen Johnston,7.0
885,Mr. Karl Howell Behr,26.0


Tampung semua nama penumpang pada kelas Bisnis yang memiliki umur lebih dari 50 tahun ke dalam variabel name_B_50plus

In [48]:
name_B_50plus = dt[(dt['class']==3)&(dt['age']>50)]['name'].values

### <div class="alert alert-block alert-danger"> Data Eksplorasi </div>

1. Berapakah jumlah penumpang Bisnis?

In [49]:
dt[dt['class']==1].name.count()

215

Terdapat **215** penumpang kelas Bisnis

2. Berapakah jumlah penumpang wanita kelas Ekonomi?

In [50]:
dt[(dt['class']==3) & (dt['sex']=='female')].name.count()

142

Terdapat **142** penumpang wanita kelas Ekonomi

3. Berapakah harga tiket paling mahal yang harus dikeluarkan penumpang kelas Ekonomi?

In [51]:
dt[dt['class']==3].fare.max()

69.55

Tiket kelas Ekonomi paling mahal adalah sebesar **69.55 USD**

4. Berapakah jumlah penumpang pria pada kelas Ekonomi?

In [52]:
dt[(dt['class']==3) & (dt['sex']=='male')].name.count()

343

Terdapat **343** penumpang kelas Ekonomi

5. Kelas manakah yang memiliki paling banyak penumpang yang single (tidak mengajak pasangan)?

In [60]:
dt.groupby(['class','siblings-spouses'], as_index=False).name.count()

Unnamed: 0,class,siblings-spouses,name
0,1.0,0,136
1,1.0,1,71
2,1.0,2,5
3,1.0,3,3
4,2.0,0,120
5,2.0,1,55
6,2.0,2,8
7,2.0,3,1
8,3.0,0,346
9,3.0,1,82


Dari tabel di atas dapat dilihat bahwa **Kelas Ekonomi (3) memiliki paling banyak penumpang single, yaitu sejumlah 346 orang.**

6. Pada kelas Bisnis, gender manakah yang paling banyak single (tidak mengajak pasangan)?

In [54]:
dt.groupby(['class','siblings-spouses','sex'], as_index=False).name.count()

Unnamed: 0,class,siblings-spouses,sex,name
0,1.0,0,female,48
1,1.0,0,male,88
2,1.0,1,female,40
3,1.0,1,male,31
4,1.0,2,female,3
5,1.0,2,male,2
6,1.0,3,female,2
7,1.0,3,male,1
8,2.0,0,female,44
9,2.0,0,male,76


Dari tabel di atas, jumlah penumpang pada kelas Bisnis (1) didominasi oleh penumpang **Pria, yaitu sebanyak 88 orang.**