# **Pandas 03**

# **#09 Membagi Data Frame Menjadi Dua Secara Acak** 
Source : [Indonesia Belajar](https://youtu.be/rFI8JMUfsoE)

# Import Modules

In [1]:
import pandas as pd
import numpy as np

# Cek Versi
print(pd.__version__)
print(np.__version__)

2.1.1
1.24.2


# Persiapan Data Frame

- Membangun objek data frame dengan data nilai random antara 1 - 10
- Size mengacu pada jumlah baris dan kolom
- Column mengacu pada label untuk kolom

In [2]:
n_rows = 10
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), 
                  columns=cols)
df

Unnamed: 0,A,B,C,D,E
0,14,7,6,1,18
1,8,19,5,16,4
2,2,3,4,3,9
3,7,8,10,15,14
4,17,4,6,4,17
5,8,16,17,18,2
6,15,5,9,17,14
7,3,8,7,14,1
8,1,6,14,19,2
9,19,3,9,13,3


# Membagi Data Frame Menjadi Dua Secara Acak Berdasarkan Proporsi Tertentu

- df.shape berguna untuk memastikan bentuk/ shape dari data frame
- Data frame pada kasus kali ini memiliki bentuk 10 x 5

In [3]:
# Menggunakan atribut shape untuk menampilkan dimensi (jumlah baris dan kolom) dari data frame
df.shape

(10, 5)

- Kasus kali ini kita ingin memasukkan 70% data frame 'df' ke dalam 'df_1'.
- Caranya dengan menggunakan sample() yang parameter frac-nya kita isi dengan nilai proporsi.
- Hasil 'df_1' akan berupa 70% data frame df yang acak.
- Fungsi drop() berguna untuk membuang bagian tertentu yang kita inginkan.
- Pada kasus kali ini kita menghilangkan bagian yang sudah ada di 'df_1'.

In [4]:
# Menetapkan proporsi sebagai 0.7, yang akan digunakan untuk membagi data frame menjadi dua subset
proporsi = 0.7

# Menggunakan metode sample untuk mengambil sebagian data frame sesuai dengan proporsi yang ditentukan
df_1 = df.sample(frac=proporsi)

# Menggunakan metode drop untuk menghapus baris-baris yang telah dipilih dalam df_1 dari data frame utama df
df_2 = df.drop(df_1.index)

# Menampilkan dimensi (jumlah baris dan kolom) dari kedua subset data frame
print(f'df_1 shape: {df_1.shape}')
print(f'df_2 shape: {df_2.shape}')

df_1 shape: (7, 5)
df_2 shape: (3, 5)


In [5]:
# Menampilkan subset pertama (df_1) dari data frame, yang dihasilkan dengan metode sample
df_1

Unnamed: 0,A,B,C,D,E
0,14,7,6,1,18
2,2,3,4,3,9
3,7,8,10,15,14
4,17,4,6,4,17
9,19,3,9,13,3
6,15,5,9,17,14
7,3,8,7,14,1


In [6]:
# Menampilkan subset kedua (df_2) dari data frame, yang dihasilkan dengan metode drop
df_2

Unnamed: 0,A,B,C,D,E
1,8,19,5,16,4
5,8,16,17,18,2
8,1,6,14,19,2


# **#10 Mengganti Nama Kolom pada Data Frame Berdasarkan Pola**
Source : [Indonesia Belajar]( https://youtu.be/uzkcqvzULZU)

# Import Modules

In [7]:
import pandas as pd

print(pd.__version__)

2.1.1


# Persiapan Data Frame

- Kali ini kita memuat csv titanicfull kedalam data frame 'df'.
- Nama kolom ini disesuaikan agar cocok dengan materi yang ingin disampaikan pada trik ini.
- Fungsi head() berguna untuk menampilkan 5 baris awal saja.

In [8]:
# Menggunakan metode read_csv dari pandas untuk membaca file CSV (Comma-Separated Values) 
# dan menyimpannya dalam data frame df. Kemudian, melakukan salinan mendalam (deep copy) dari df dan menyimpannya dalam df_backup.
# Kolom-kolom dalam data frame diubah menjadi versi yang lebih bersih dan mudah dibaca.
df = pd.read_csv('./data/titanicfull.csv')
df.columns = ['Pclass', 'Survival status', 'Full Name', 'Sex', 'Age', 
              'Siblings/Spouses Aboard', 'Parents/Children Aboard', 'Ticket', 'Fare', 'Cabin', 'Embarked']
df_backup = df.copy(deep=True)

# Menampilkan lima data awal dari data frame
df.head()

Unnamed: 0,Pclass,Survival status,Full Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Ticket,Fare,Cabin,Embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S



# Menggunakan Lowercase untuk Nama Kolom dan Mengganti Spasi dengan _

- Fungsi str.replace() berguna untuk menggantikan suatu string menjadi string lainnya.
- Fungsi str.lower() berguna untuk mengubah semua string menjadi lower case.
- Pada kasus kali ini kita mendapat sebuah masalah pada kolom sex dan age.

In [9]:
# Metode str.replace untuk mengganti spasi dengan garis bawah (_) dalam label kolom
# Metode str.lower untuk mengubah semua huruf dalam label kolom menjadi huruf kecil
# Operasi ini dilakukan untuk memastikan label kolom menjadi lebih bersih dan seragam
df.columns = df.columns.str.replace(' ', '_').str.lower()

# Menampilkan lima data awal dari data frame setelah penggantian dan penyesuaian label kolom
df.head()

Unnamed: 0,pclass,survival_status,full_name,sex,age,siblings/spouses_aboard,parents/children_aboard,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S


# Memangkas Kelebihan Spasi pada Nama Kolom

- Fungsi str.strip() berguna untuk memotong/ menghilangkan kelebihan spasi di sisi kiri maupun kanan.

In [10]:
# Membuat salinan mendalam (deep copy) dari data frame df_backup dan menyimpannya dalam variabel df
df = df_backup.copy(deep=True)

# Metode str.lower untuk mengubah semua huruf dalam label kolom menjadi huruf kecil
# Metode str.strip untuk menghapus spasi di awal dan akhir label kolom
# Metode str.replace untuk mengganti spasi dengan garis bawah (_) dalam label kolom
# Operasi ini dilakukan untuk memastikan label kolom menjadi lebih bersih dan seragam
df.columns = df.columns.str.lower().str.strip().str.replace(' ', '_')

# Menampilkan lima data awal dari data frame setelah penggantian dan penyesuaian label kolom
df.head()

Unnamed: 0,pclass,survival_status,full_name,sex,age,siblings/spouses_aboard,parents/children_aboard,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S


# **#11 Seleksi Kolom dan Baris pada Data Frame Menggunakan loc**
Source : [Indonesia Belajar](https://youtu.be/Z-6Nc7Kb4vw)

# Import Modules

In [11]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

2.1.1
1.24.2


# Persiapan Data Frame

In [12]:
n_rows = 10
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)), 
                  columns=cols)
df

Unnamed: 0,A,B,C,D,E
0,11,14,13,12,2
1,13,9,13,13,2
2,17,6,10,8,15
3,12,7,6,4,12
4,17,13,8,7,17
5,6,6,2,10,5
6,8,10,6,15,13
7,6,19,4,16,17
8,5,9,7,9,5
9,19,3,16,1,3


# Seleksi kolom dan baris menggunakan loc

- loc dibagi kedalam dua bagian besar yang dipisahkan dengan tanda koma ( , ).
- Bagian pertama loc digunakan untuk mengatur baris.
- Bagian kedua loc digunakan untuk mengatur kolom.
- Kasus kali ini kita ingin menampilkan baris 0, 3, 4 dan kolom B, E.

In [13]:
df.loc[[0,3,4], ['B','E']]

Unnamed: 0,B,E
0,14,2
3,7,12
4,13,17


# Seleksi baris dengan kondisi

- Kasus kali ini kita ingin menampilkan baris yang kolom 'B' lebih besar dari 10.
- Dalam bahasa SQl: Select B, D, E From DF Where B > 10;
- Dalam relasi aljabar π B,D,E (σ B>10 (df)).

In [14]:
df.loc[df['B']>10, ['B','D','E']]

Unnamed: 0,B,D,E
0,14,12,2
4,13,7,17
7,19,16,17


# Slicing Data Frame dengan loc

- Kasus kali ini kita mau menampilkan baris mulai dari baris 0 sampai 4
- Slicing pada loc sedikit berbeda, dimana end indeks pada loc memiliki sifat inclusive (Diikut sertakan).

In [15]:
df.loc[0:4, 'B':'D']

Unnamed: 0,B,C,D
0,14,13,12
1,9,13,13
2,6,10,8
3,7,6,4
4,13,8,7


# **#12 Membentuk Kolom Bertipe datetime dari Beberapa Kolom Lain pada Pandas Data Frame**
Source : [Indonesia Belajar](https://youtu.be/FINFSvlKjmM)

# Import Modules

In [16]:
import pandas as pd

print(pd.__version__)

2.1.1


# Persiapan Data Frame

- Buat dataframe menggunakan dictionary.
- Buat jumlah baris yang sama untuk setiap kolom.

In [17]:
data = {'day':[1, 2, 10 ,25, 12], 
        'month':[1, 2, 4, 5, 6], 
        'year':[2000, 2001, 2010, 2015, 2020]}

df = pd.DataFrame(data)
df

Unnamed: 0,day,month,year
0,1,1,2000
1,2,2,2001
2,10,4,2010
3,25,5,2015
4,12,6,2020


# Membentuk Kolom Bertipe datetime


- Fungsi to_datetime() berguna untuk membentuk data datetime
- Perlu diperhatikan nama kolom harus 'day', 'month', dan 'year'.

In [18]:
df['penanggalan'] = pd.to_datetime(df[['day', 'month', 'year']])
df

Unnamed: 0,day,month,year,penanggalan
0,1,1,2000,2000-01-01
1,2,2,2001,2001-02-02
2,10,4,2010,2010-04-10
3,25,5,2015,2015-05-25
4,12,6,2020,2020-06-12


In [19]:
df.dtypes # tipe data penanggalan sudah menjadi datetime.

day                     int64
month                   int64
year                    int64
penanggalan    datetime64[ns]
dtype: object