In [22]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy as sc

# NumPy (numerical python)
1. Array adalah struktur data dasar pada NumPy. Array adalah kumpulan elemen yang memiliki tipe data yang sama dan diorganisir dalam dimensi tertentu. Array dapat berupa satu dimensi (vektor), dua dimensi (matriks), atau bahkan lebih tinggi dimensi.
a). Array vektor adalah array satu dimensi yang berisi elemen-elemen dalam satu baris atau satu kolom.
b). Array matriks adalah array dua dimensi yang berisi elemen-elemen dalam baris dan kolom.
c). Array berdimensi lebih tinggi adalah array dengan lebih dari dua dimensi, seperti tensor.
2. NumPy menyediakan berbagai fungsi untuk membuat, mengubah, dan memanipulasi array. Beberapa fungsi penting dalam NumPy meliputi:
a). np.array(): Membuat array dari daftar atau tuple.
b). np.zeros(): Membuat array yang diisi dengan nol.
c). np.ones(): Membuat array yang diisi dengan satu.
d). np.arange(): Membuat array dengan rentang nilai tertentu.
e). np.reshape(): Mengubah bentuk array.
f). np.concatenate(): Menggabungkan dua atau lebih array.
g). np.mean(), np.median(), np.std(): Menghitung statistik dasar seperti rata-rata, median, dan standar deviasi.
3. NumPy juga menyediakan berbagai fungsi matematika dan statistik yang dapat digunakan untuk melakukan operasi pada array, seperti penjumlahan, pengurangan, perkalian, pembagian, dan lain-lain.
4. NumPy sangat efisien dalam hal performa karena menggunakan implementasi yang dioptimalkan dalam bahasa C. Hal ini membuat NumPy menjadi pilihan yang populer untuk komputasi numerik dalam Python.
5. NumPy juga memiliki integrasi yang baik dengan pustaka lain seperti Pandas, Matplotlib, dan SciPy, sehingga memudahkan analisis data dan visualisasi.

In [23]:
# Array -- Casting dari list/Tuple ke array

data1=[1,2,3,4,5]
data2=(6,7,8,9,10)

display(np.array(data1))
display(np.array(data2))

array([1, 2, 3, 4, 5])

array([ 6,  7,  8,  9, 10])

In [24]:
# Arange - fungsi yang sama seperti range, tapi hasilnya array

data3 = np.arange(1,101)
display(data3)

data4 = np.arange(1,101,3)
display(data4)

data5 = np.arange(100,1,-1) # Data awal harus lebih besar dari data akhir
display(data5)

array([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
        14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,
        27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,
        53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,
        66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,
        79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,
        92,  93,  94,  95,  96,  97,  98,  99, 100])

array([  1,   4,   7,  10,  13,  16,  19,  22,  25,  28,  31,  34,  37,
        40,  43,  46,  49,  52,  55,  58,  61,  64,  67,  70,  73,  76,
        79,  82,  85,  88,  91,  94,  97, 100])

array([100,  99,  98,  97,  96,  95,  94,  93,  92,  91,  90,  89,  88,
        87,  86,  85,  84,  83,  82,  81,  80,  79,  78,  77,  76,  75,
        74,  73,  72,  71,  70,  69,  68,  67,  66,  65,  64,  63,  62,
        61,  60,  59,  58,  57,  56,  55,  54,  53,  52,  51,  50,  49,
        48,  47,  46,  45,  44,  43,  42,  41,  40,  39,  38,  37,  36,
        35,  34,  33,  32,  31,  30,  29,  28,  27,  26,  25,  24,  23,
        22,  21,  20,  19,  18,  17,  16,  15,  14,  13,  12,  11,  10,
         9,   8,   7,   6,   5,   4,   3,   2])

In [25]:
data = pd.DataFrame(np.random.randint(1,100,size=(100, 4)), columns=list('ABCD'))
display(data)

Unnamed: 0,A,B,C,D
0,31,28,16,75
1,7,2,58,44
2,41,38,17,86
3,13,53,78,50
4,32,58,72,99
...,...,...,...,...
95,52,58,69,58
96,13,71,96,96
97,1,70,14,82
98,31,99,54,18


In [26]:
# membuat numpy array zeros, ones, eye
np.eye(4)
display(np.eye(4))

np.zeros((3,4))
display(np.zeros((3,4)))

np.ones(3)
display(np.ones(3))

np.ones((3,4))
display(np.ones((3,4)))

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

array([1., 1., 1.])

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [27]:
# NumPy linespace
np.linspace(0,10,5) # 0-10 dibagi 5 bagian
display(np.linspace(0,10,5))

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [28]:
# Random Functions
np.random.rand(5) # 5 angka random antara 0-1
display(np.random.rand(5))
np.random.rand(3,4) # 3x4 angka random antara 0-1
display(np.random.rand(3,4))

np.random.randn(5) # 5 angka random dari distribusi normal
display(np.random.randn(5))
np.random.randn(3,4) # 3x4 angka random dari distribusi normal
display(np.random.randn(3,4))

np.random.randint(1,100,5) # 5 angka random antara 1-100
display(np.random.randint(1,100,5))
np.random.randint(1,100,(3,4)) # 3x4 angka random antara 1-100
display(np.random.randint(1,100,(3,4)))

array([0.51319303, 0.83156582, 0.64484591, 0.91025684, 0.67899915])

array([[0.73536898, 0.32679198, 0.08926032, 0.49015728],
       [0.83310696, 0.5736166 , 0.13186872, 0.54723905],
       [0.86258201, 0.60924855, 0.345264  , 0.34982712]])

array([ 0.04405095, -0.91392473,  0.49751436,  0.68500196, -0.37774055])

array([[-0.25532397, -0.32113337,  0.61534579, -0.09526973],
       [-2.21164916,  1.09530295,  0.81907559, -0.9819742 ],
       [ 0.59202724, -0.99659476,  2.11637274,  1.21045697]])

array([80, 66, 52,  8, 17], dtype=int32)

array([[ 7, 29,  1, 49],
       [ 1, 64, 27, 96],
       [53,  5, 18, 97]], dtype=int32)

In [29]:
# Shape dan Reshape
data = np.random.randint(1,100,(3,4))
display(data)
data.shape
data.reshape(4,3) # harus sesuai dengan jumlah data
display(data.reshape(4,3))  

array([[36, 67, 18, 10],
       [96, 46, 77, 66],
       [95, 69, 76, 57]], dtype=int32)

array([[36, 67, 18],
       [10, 96, 46],
       [77, 66, 95],
       [69, 76, 57]], dtype=int32)

### Latihan soal

In [30]:
# 1. Membuat array 1 dimensi dengan 36 elemen random antara 1-100
myArray = np.random.randint(1, 101, 36)
print("myArray:")
print(myArray)
print(f"Shape myArray: {myArray.shape}")

myArray:
[ 50  45  43   2  11  77  68  17  99  60  69  93  53  50  63  56   6   8
  73  27  91  48  78  63  73  12  79  85  43  43   5  97  86  73  13 100]
Shape myArray: (36,)


In [31]:
# 2. Membentuk 3 array dengan bentuk berbeda
print("\n=== Reshape myArray menjadi berbagai bentuk ===")

# Matriks 2x18
matrix_2x18 = myArray.reshape(2, 18)
print("\nMatriks 2x18:")
print(matrix_2x18)

# Matriks 9x4
matrix_9x4 = myArray.reshape(9, 4)
print("\nMatriks 9x4:")
print(matrix_9x4)

# Array 3 Dimensi 2x6x3
array_3d = myArray.reshape(2, 6, 3)
print("\nArray 3 Dimensi 2x6x3:")
print(array_3d)


=== Reshape myArray menjadi berbagai bentuk ===

Matriks 2x18:
[[ 50  45  43   2  11  77  68  17  99  60  69  93  53  50  63  56   6   8]
 [ 73  27  91  48  78  63  73  12  79  85  43  43   5  97  86  73  13 100]]

Matriks 9x4:
[[ 50  45  43   2]
 [ 11  77  68  17]
 [ 99  60  69  93]
 [ 53  50  63  56]
 [  6   8  73  27]
 [ 91  48  78  63]
 [ 73  12  79  85]
 [ 43  43   5  97]
 [ 86  73  13 100]]

Array 3 Dimensi 2x6x3:
[[[ 50  45  43]
  [  2  11  77]
  [ 68  17  99]
  [ 60  69  93]
  [ 53  50  63]
  [ 56   6   8]]

 [[ 73  27  91]
  [ 48  78  63]
  [ 73  12  79]
  [ 85  43  43]
  [  5  97  86]
  [ 73  13 100]]]


In [32]:
# 3. Mencari nilai minimum dan maksimum beserta indeksnya
print("\n=== Nilai Minimum dan Maksimum ===")

nilai_min = np.min(myArray)
nilai_max = np.max(myArray)
indeks_min = np.argmin(myArray)
indeks_max = np.argmax(myArray)

print(f"Nilai minimum: {nilai_min}")
print(f"Indeks nilai minimum: {indeks_min}")
print(f"Nilai maksimum: {nilai_max}")
print(f"Indeks nilai maksimum: {indeks_max}")


print(f"\nVerifikasi:")
print(f"myArray[{indeks_min}] = {myArray[indeks_min]}")
print(f"myArray[{indeks_max}] = {myArray[indeks_max]}")


=== Nilai Minimum dan Maksimum ===
Nilai minimum: 2
Indeks nilai minimum: 3
Nilai maksimum: 100
Indeks nilai maksimum: 35

Verifikasi:
myArray[3] = 2
myArray[35] = 100


In [33]:
# 4. Membuat array baru dari indeks tertentu dan reshape ke 3x3
print("\n=== Array baru dari indeks tertentu ===")

indeks_pilihan = [3, 5, 30, 12, 15, 8, 24, 14, 22]
array_baru = myArray[indeks_pilihan]

print(f"Array dari indeks {indeks_pilihan}:")
print(array_baru)

# Reshape
matrix_3x3 = array_baru.reshape(3, 3)
print("\nMatrix 3x3:")
print(matrix_3x3)


=== Array baru dari indeks tertentu ===
Array dari indeks [3, 5, 30, 12, 15, 8, 24, 14, 22]:
[ 2 77  5 53 56 99 73 63 78]

Matrix 3x3:
[[ 2 77  5]
 [53 56 99]
 [73 63 78]]


In [34]:
# 5. Menampilkan data dari matrix 3x3 yang nilainya lebih besar dari 50
print("\n=== Data dari matrix 3x3 yang > 50 ===")

# cari nilai yang lebih besar dari 50
nilai_lebih_50 = matrix_3x3[matrix_3x3 > 50]
print(f"Nilai yang lebih besar dari 50: {nilai_lebih_50}")

# posisi (indeks) dari nilai yang lebih besar dari 50
posisi_lebih_50 = np.where(matrix_3x3 > 50)
print(f"Posisi (baris, kolom) nilai > 50: {list(zip(posisi_lebih_50[0], posisi_lebih_50[1]))}")

# matrix dengan highlight nilai > 50
print("\nMatrix 3x3 dengan tanda untuk nilai > 50:")
for i in range(3):
    for j in range(3):
        nilai = matrix_3x3[i, j]
        if nilai > 50:
            print(f"[{nilai}*]", end=" ")  # Tanda * nilai > 50
        else:
            print(f"[{nilai}]", end="  ")
    print()


=== Data dari matrix 3x3 yang > 50 ===
Nilai yang lebih besar dari 50: [77 53 56 99 73 63 78]
Posisi (baris, kolom) nilai > 50: [(np.int64(0), np.int64(1)), (np.int64(1), np.int64(0)), (np.int64(1), np.int64(1)), (np.int64(1), np.int64(2)), (np.int64(2), np.int64(0)), (np.int64(2), np.int64(1)), (np.int64(2), np.int64(2))]

Matrix 3x3 dengan tanda untuk nilai > 50:
[2]  [77*] [5]  
[53*] [56*] [99*] 
[73*] [63*] [78*] 


In [35]:
# 6. buat array dengan metode numpy
arr6 = np.linspace(0, 100, 5, dtype=int)
print(arr6)

[  0  25  50  75 100]


In [36]:
# 7. Buat array 2D N x N isinya semua angka 8.
N = 3
arr7 = np.full((N, N), 8)
arr7

array([[8, 8, 8],
       [8, 8, 8],
       [8, 8, 8]])

In [37]:
# 8. Buat arrayA dan arrayB, lalu gabungkan jadi arrayC.

arrayA = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12]])

arrayB = np.array([[100],
                   [200],
                   [300],
                   [400]])

arrayC = np.vstack([arrayA, arrayB.T])
print(arrayC)

[[  1   2   3   4]
 [  5   6   7   8]
 [  9  10  11  12]
 [100 200 300 400]]


In [38]:
# 9. Ambil sub-array dari arrayC biar hasilnya [[7, 8], [11, 12]]
arr9 = arrayC[1:3, 2:4]
print(arr9)

[[ 7  8]
 [11 12]]


In [39]:
# 10. Ambil angka 200 dari arrayC.
val200 = arrayC[3, 1]
print(val200) 

200


# Pandas 1 (Membuat, Load/Import, Indexing DataFrame)
1. Struktur dataframe pada Pandas adalah struktur data dua dimensi yang terdiri dari baris dan kolom, mirip dengan tabel dalam basis data atau spreadsheet. DataFrame dapat menyimpan berbagai jenis data, termasuk angka, teks, dan tanggal, dan memungkinkan manipulasi data yang efisien. series adalah struktur data satu dimensi yang dapat menyimpan berbagai jenis data, mirip dengan array atau daftar dalam Python. Seri memiliki indeks yang unik untuk setiap elemen, memungkinkan akses dan manipulasi data yang mudah.
2. Beberapa cara untuk membuat DataFrame pada Pandas meliputi:
a). Dari kamus (dictionary) menggunakan pd.DataFrame(): Anda dapat membuat DataFrame dengan memberikan kamus di mana kunci adalah nama kolom dan nilai adalah daftar atau array yang berisi data.
b). Dari daftar (list) menggunakan pd.DataFrame(): Anda dapat membuat DataFrame dengan memberikan daftar yang berisi daftar atau array sebagai baris data.
c). Dari file CSV menggunakan pd.read_csv(): Anda dapat memuat data dari file CSV ke dalam DataFrame.
d). Dari file Excel menggunakan pd.read_excel(): Anda dapat memuat data dari file Excel ke dalam DataFrame.
e). Dari file JSON menggunakan pd.read_json(): Anda dapat memuat data dari file JSON ke dalam DataFrame.
3. Beberapa cara untuk mengimpor data ke dalam DataFrame pada Pandas meliputi:
a). Menggunakan pd.read_csv(): Mengimpor data dari file CSV.
b). Menggunakan pd.read_excel(): Mengimpor data dari file Excel.
c). Menggunakan pd.read_json(): Mengimpor data dari file JSON.
d). Menggunakan pd.read_sql(): Mengimpor data dari database SQL.
e). Menggunakan pd.read_html(): Mengimpor data dari tabel HTML.
4. Beberapa metode indexing pada DataFrame di Pandas meliputi:
a). .loc[]: Mengakses data berdasarkan label indeks atau nama kolom.
b). .iloc[]: Mengakses data berdasarkan posisi indeks (integer).
c). .at[]: Mengakses elemen tunggal berdasarkan label indeks dan nama kolom.
d). .iat[]: Mengakses elemen tunggal berdasarkan posisi indeks (integer).
e). Slicing: Mengakses subset data menggunakan slicing pada baris dan kolom.

In [40]:
import pandas as pd
import numpy as np
import seaborn as sns

In [41]:
# Buat dataframe
# 1. Menggunakan array/list

arr = np.random.randint(1,1000,(5,5))
df = pd.DataFrame(arr, columns=['kolom 1','kolom 2','kolom 3','kolom 4','kolom 5'])
df

Unnamed: 0,kolom 1,kolom 2,kolom 3,kolom 4,kolom 5
0,69,657,175,613,272
1,49,514,769,712,908
2,384,13,579,238,160
3,303,503,205,334,845
4,139,768,137,552,439


In [42]:
# 2. Dengan data manual
nctMember = [['Jaemin', 26, 'Rapper', 'Seoul'],
             ['Jeno', 25, 'Rapper', 'Seoul'],
             ['Haechan', 24, 'Vocalist', 'Seoul'],
             ['Mark', 27, 'Rapper', 'Seoul'],
             ['Chenle', 21, 'Vocalist', 'Seoul'],
             ['Renjun', 23, 'Vocalist', 'Seoul'],
             ['Jisung', 22, 'Rapper']]

df2 = pd.DataFrame(nctMember, columns=['Nama', 'Umur', 'Posisi', 'Alamat'])
df2

Unnamed: 0,Nama,Umur,Posisi,Alamat
0,Jaemin,26,Rapper,Seoul
1,Jeno,25,Rapper,Seoul
2,Haechan,24,Vocalist,Seoul
3,Mark,27,Rapper,Seoul
4,Chenle,21,Vocalist,Seoul
5,Renjun,23,Vocalist,Seoul
6,Jisung,22,Rapper,


In [43]:
# 3. Dengan dictionary
data = {'Nama': ['Jaemin', 'Jeno', 'Haechan', 'Mark', 'Chenle', 'Renjun', 'Jisung'],
        'Umur': [26, 25, 24, 27, 21, 23, 22],
        'Posisi': ['Rapper', 'Rapper', 'Vocalist', 'Rapper', 'Vocalist', 'Vocalist', 'Rapper'],
        'Alamat': ['Seoul', 'Seoul', 'Seoul', 'Seoul', 'Seoul', 'Seoul', 'Seoul']}
df3 = pd.DataFrame(data)
df3

df3.to_excel('nctMember.xlsx', index=False) # Save dataframe ke file eksternal

In [44]:
# Load df dari file eksternal
import pandas as pd
churn = pd.read_csv('customer_churn.csv')
churn.head()

Unnamed: 0,customer_id,age,balance,job_type,marital_status,education_level,contact_type,num_transactions,avg_transaction_value,churn
0,1,56,2020,blue_collar,single,secondary,phone,15,46.22,1
1,2,69,7917,entrepreneur,single,secondary,email,35,209.5,0
2,3,46,11783,white_collar,single,tertiary,email,7,175.29,1
3,4,32,11436,blue_collar,divorced,tertiary,email,29,394.74,0
4,5,60,15696,blue_collar,divorced,secondary,sms,44,211.04,0


In [45]:
# Load dataframe dari library seaborn
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [46]:
# Indexing dataframe
titanic['age'] # Mengambil 1 kolom dikenal sebagai data series



0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [47]:
# Multicolumn indexing
titanic[['age','class','alive','sex']] # Mengambil 2 kolom atau lebih dikenal sebagai dataframe

Unnamed: 0,age,class,alive,sex
0,22.0,Third,no,male
1,38.0,First,yes,female
2,26.0,Third,yes,female
3,35.0,First,yes,female
4,35.0,Third,no,male
...,...,...,...,...
886,27.0,Second,no,male
887,19.0,First,yes,female
888,,Third,no,female
889,26.0,First,yes,male


In [48]:
# Untuk mengambil baris, gunakan loc dan iloc [baris, kolom]
# .loc[] 
titanic.loc[14 ,'age'] # baris ke 14, kolom age

np.float64(14.0)

In [49]:
# .loc multiple
titanic.loc[[14,20,13,10,15], ['age','sex','alive','pclass']] # Mengambil beberapa baris dan beberapa kolom

Unnamed: 0,age,sex,alive,pclass
14,14.0,female,no,3
20,35.0,male,no,2
13,39.0,male,no,3
10,4.0,female,yes,3
15,55.0,female,yes,2


In [50]:
# .iloc[]
titanic.iloc[[14, 20, 13, 10, 15], [1,4,6,2]] # Mengambil beberapa baris dan beberapa kolom (menggunakan index angka) berdasarkan posisi indeks

Unnamed: 0,pclass,sibsp,fare,sex
14,3,0,7.8542,female
20,2,0,26.0,male
13,3,1,31.275,male
10,3,1,16.7,female
15,2,0,16.0,female


In [None]:
# Conditional selection - 1 kondisi
titanic[titanic['alive'] == 'yes'] # menampilkan semua penumpang selamat
titanic[titanic['fare'] <= 10] # menampilkan semua penumpang dengan fare <= 10

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
12,0,3,male,20.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True
881,0,3,male,33.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
884,0,3,male,25.0,0,0,7.0500,S,Third,man,True,,Southampton,no,True


In [53]:
# Conditional selection dua kondisi & (dan) | (atau)
titanic[(titanic['fare'] <= 10) & (titanic['sex'] == 'female')] # menampilkan semua penumpang wanita dengan fare <= 10
titanic[(titanic['fare'] <= 10) | (titanic['sex'] == 'female')] # menampilkan semua penumpang wanita dengan fare <= 10

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
884,0,3,male,25.0,0,0,7.0500,S,Third,man,True,,Southampton,no,True
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
19,1,3,female,,0,0,7.225,C,Third,woman,False,,Cherbourg,yes,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
28,1,3,female,,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True
32,1,3,female,,0,0,7.75,Q,Third,woman,False,,Queenstown,yes,True
44,1,3,female,19.0,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True
47,1,3,female,,0,0,7.75,Q,Third,woman,False,,Queenstown,yes,True
68,1,3,female,17.0,4,2,7.925,S,Third,woman,False,,Southampton,yes,False
82,1,3,female,,0,0,7.7875,Q,Third,woman,False,,Queenstown,yes,True
106,1,3,female,21.0,0,0,7.65,S,Third,woman,False,,Southampton,yes,True
