# **#09 Membagi Data Frame menjadi dua secara acak**

**Import modules**

In [1]:
import pandas as pd 
import numpy as np 

print(pd.__version__)
print(np.__version__)

2.2.2
1.26.4


**Persiapan Data Frame**

In [3]:
#Memiliki 10 baris 
n_rows = 10
#Memiliki 5 kolom
n_cols = 5

#Setiap kolom akan diberi label 'A', 'B', 'C', 'D', dan 'E'
cols = tuple('ABCDE')

#Nilai untuk isi Data Frame adalah nilai acak berbasis bilangan integer (1-20)
df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)),
                  columns=cols)

df

Unnamed: 0,A,B,C,D,E
0,12,15,15,19,1
1,1,9,2,6,13
2,8,17,3,5,15
3,6,18,3,16,10
4,9,14,4,8,18
5,17,8,14,6,10
6,10,8,6,19,18
7,17,2,1,3,6
8,14,15,15,9,11
9,15,13,12,15,12


**Membagi Data Frame menjadi dua secara acak berdasarkan proporsi tertentu**

In [5]:
#Menggunakan atribut shape untuk menampilkan dimensi dari data frame
df.shape

(10, 5)

- df.shape berguna untuk memastikan bentuk atau shape dari data frame
- Data frame pada kasus kali ini memiliki bentuk 10x5
- Kasus kali ini kita ingin memasukkan 70% data frame 'df' ke dalam 'df_1'
- Caranya dengan menggunakan sample() yang parameter fracnya kita isi dengan nilai proporsi
- Hasil 'df_1' akan berupa 70% data frame df yang acak
- Fungsi drop() berguna untuk membuang bagian tertentu yang diinginkan
- Pada kasus kali ini kita menghilangkan bagian yang sudah ada di 'df_1'

In [13]:
#Menentukkan proporsi sebagai 0,7, yang akan digunakan untuk membagi data frame menjadi dua subset
proporsi = 0.7

#Menggunakan metode sample untuk mengambil sebagian data frame sesuai dengan proporsi 
df_1 = df.sample(frac=proporsi)

#Menggunakan metode drop untuk menghapus baris baris yang telah di pilih dalam df_1 dari df
df_2 = df.drop(df_1.index)

#Menampilkan dimensi dari kedua subset data frame
print(f'df_1 shape: (df_1 shape)')
print(f'df_2 shape: (df_2shape)')

df_1 shape: (df_1 shape)
df_2 shape: (df_2shape)


In [15]:
#Menampilkan subset pertama dari data frame, yang dihasilkan dengan metode sample
df_1

Unnamed: 0,A,B,C,D,E
6,10,8,6,19,18
5,17,8,14,6,10
7,17,2,1,3,6
8,14,15,15,9,11
3,6,18,3,16,10
1,1,9,2,6,13
0,12,15,15,19,1


In [31]:
#Menampilkan subset kedua dari data frame, yang dihasilkan dengan metode drop
df_2

Unnamed: 0,A,B,C,D,E
2,8,17,3,5,15
4,9,14,4,8,18
9,15,13,12,15,12


# **#10 Mengganti nama (label) kolom pada Data Frame berdasarkan pola**

**Import modules**

In [33]:
import pandas as pd

print(pd.__version__)

2.2.2


**Persiapan Data Frame**

In [None]:
# Menggunakan metode read_csv dari pandas untuk membaca file CSV (Comma-Separated Values) 
# dan menyimpannya dalam data frame df. Kemudian, melakukan salinan mendalam (deep copy) dari df dan menyimpannya dalam df_backup.
# Kolom-kolom dalam data frame diubah menjadi versi yang lebih bersih dan mudah dibaca.
df = pd.read_csv(r'./data/titanicfull.csv')
df.columns = ['Pclass', 'Survival status', 'full Name', 'Sex  ', '  Age', 
              'Sib SP', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
df_backup = df.copy(deep=True)

#Menampilkan 5 data awal dari data frame
df.head()

**Menggunakan lowercase untuk nama kolom dan mengganti spasi dengan _**

- Fungsi str.replcae() berguna untuk menggantikan suatu string menjadi string lainnya
- Fungsi str.lower() berguna untuk mengubah semua string menjadi lower case
- Pada kasus ini kita mendapat sebuah masalah pada kolom sex dan age 

In [None]:
#Metode str.replace untuk mengganti spasi dengan garis bawah (_)
#Metode str.lower untuk mengubah semua huruf dalam label kolom menjadi huruf kecil 
#Operasi ini dilakukan untuk memastikan label kolom menjadi lebih bersih dan seragam 
df.columns = df.columns.str.replace(' ', '_').str.lower()

#Menampilkan 5 data awal dari data frame setelah penggantian dan penyesuaian label kolom 
df.head()

**Memangkas kelebihan spasi pada nama kolom**

In [None]:
#Membuat salinan mendalam dari data frame df_backup dan menyimpannya dalam variable df
df = df_backup.copy(deep=True)

#Metode str.strip untuk menghapus spasi di awal dan akhir label kolom
#Operasi ini dilakukan untuk memastikan label kolom menjadi lebih bersih dan seragam
df.columns = df.columns.str.lower().str.strip().str.replace(' ', '_')

#Menampilkan 5 data awal dari data frame setelah penggantian dan penyesuaian label kolom 
df.head()

# **#11 Melakukan seleksi kolom dan baris pada Data Frame menggunakan loc**

**Import modules**

In [3]:
import pandas as pd 
import numpy as np 

print(pd.__version__)
print(np.__version__)

2.2.2
1.26.4


**Persiapan Data Frame**

In [5]:
n_rows = 10 
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), 
                  columns=cols)

df

Unnamed: 0,A,B,C,D,E
0,15,5,9,16,2
1,17,15,8,6,2
2,16,19,19,2,12
3,2,7,7,1,7
4,14,17,5,13,16
5,6,5,2,9,14
6,4,13,11,6,10
7,9,12,8,13,15
8,10,4,14,11,5
9,11,13,9,18,8


**Seleksi kolom dan baris menggunakan loc**

In [9]:
#loc dibagi kedalam dua bagian besar yang dipisahkan dengan tanda koma 
#Bagian pertama dari loc untuk mengatur baris 
#Sedangkan bagian kedua dari loc untuk mengatur kolom
df.loc[[0, 3, 4], ['B', 'E']]

Unnamed: 0,B,E
0,5,2
3,7,7
4,17,16


**Seleksi baris dengan kondisi**

In [11]:
#Kasus kali ini kita ingin menampilkan baris yang kolom 'B' lebih besar dari 10 
df.loc[df['B']>10, ['B', 'D', 'E']]

Unnamed: 0,B,D,E
1,15,6,2
2,19,2,12
4,17,13,16
6,13,6,10
7,12,13,15
9,13,18,8


**Slicing Data Frame dengan loc**

In [13]:
#Kasus kali ini kita mau menampilkan baris mulai dari baris 0 sampai 4 
#Slicing pada loc sedikit berbeda, dimana end indeks pada loc memiliki sifat inclusive (Diikutsertakan)
df.loc[0:4, 'B':'D']

Unnamed: 0,B,C,D
0,5,9,16
1,15,8,6
2,19,19,2
3,7,7,1
4,17,5,13


# **#12 Membentuk kolom bertipe datetime dari sejumlah kolom lain pada Data Frame**

**Import Modules**

In [15]:
import pandas as pd 

print(pd.__version__)

2.2.2


**Persiapan Data Frame**

In [17]:
data = {'day':[1, 2, 10, 25, 12], 
        'month':[1, 2, 4, 5, 6],
        'year':[2000, 2001, 2010, 2015, 2020]}

df = pd.DataFrame(data)

df

Unnamed: 0,day,month,year
0,1,1,2000
1,2,2,2001
2,10,4,2010
3,25,5,2015
4,12,6,2020


**Membentuk kolom bertipe datetime**

In [19]:
#Fungsi to_datetime() berguna untuk membtnuk data datetime
#format penanggalan harus day, month, dan year
df['penanggalan'] = pd.to_datetime(df[['day', 'month', 'year']])
df

Unnamed: 0,day,month,year,penanggalan
0,1,1,2000,2000-01-01
1,2,2,2001,2001-02-02
2,10,4,2010,2010-04-10
3,25,5,2015,2015-05-25
4,12,6,2020,2020-06-12


In [21]:
#Tipe data penanggalan sudah menjadi datetime
df.dtypes

day                     int64
month                   int64
year                    int64
penanggalan    datetime64[ns]
dtype: object