In [2]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

print(pd.__version__)
print(np.__version__)

1.5.2
1.23.5


**01. Prefix dan Suffix pada seluruh Kolom Pandas Data Frame**

- prefix menambahkan string di depan string
- suffix menambahkan string di belakang string

In [3]:
x_rows = 5
x_cols = 5
cols = tuple('ABCDE') #untuk penamaan label kolom

#membuat table dengan isi angka random
df = pd.DataFrame(np.random.randint(1, 10, size =(x_rows, x_cols)), columns = cols)
df

Unnamed: 0,A,B,C,D,E
0,4,9,7,8,5
1,9,2,9,2,1
2,4,5,2,5,8
3,4,7,3,7,3
4,7,4,8,4,5


**prefix**

In [14]:
df.add_prefix('kolom_')

Unnamed: 0,kolom_A,kolom_B,kolom_C,kolom_D,kolom_E
0,4,6,9,9,2
1,7,6,2,4,6
2,2,1,4,4,6
3,8,9,8,1,8
4,3,4,8,7,1


**suffix**

In [15]:
df.add_suffix('_field')

Unnamed: 0,A_field,B_field,C_field,D_field,E_field
0,4,6,9,9,2
1,7,6,2,4,6
2,2,1,4,4,6
3,8,9,8,1,8
4,3,4,8,7,1


**02. Pemilihan baris (rows selection) pada Data Frame**

In [4]:
a_rows = 11
a_cols = 6
cols = tuple('ABCDEF')

#membuat table dengan isi angka random
df = pd.DataFrame(np.random.randint(10, 20, size =(a_rows, a_cols)), columns = cols)
df

Unnamed: 0,A,B,C,D,E,F
0,13,19,17,13,19,19
1,16,18,15,10,16,10
2,12,13,17,10,16,16
3,11,19,10,16,18,17
4,15,15,16,16,18,17
5,14,19,12,18,12,18
6,16,14,18,12,11,16
7,19,18,19,14,18,18
8,17,17,13,17,10,18
9,18,19,12,17,12,11


Selection dengan fungsi **isin()**

ini sama dengan penggunaan operator logika or (|)

In [5]:
#mencari angka 12 dan 17 pada kolom A
df[df['A'].isin([12, 17])]

Unnamed: 0,A,B,C,D,E,F
2,12,13,17,10,16,16
8,17,17,13,17,10,18


Operator negasi (~) berguna untuk mencari nilai yang tidak sama

In [21]:
#mencari angka selain 12 dan 17 pada kolom A
df[~df['A'].isin([12, 17])]

Unnamed: 0,A,B,C,D,E,F
0,15,13,11,13,18,11
3,11,17,14,16,16,18
4,14,19,12,10,12,19
5,13,18,13,14,12,16
8,13,12,11,18,13,15
9,11,10,15,15,11,19
10,10,16,12,11,12,18


**03. Konversi tipe data String ke Numerik pada kolom Data Frame**

In [4]:
data = {
    'col_a' : ['1', '2', '3', 'teks'],
    'col_b' : ['1', '2', '3', '4']
}

ds = pd.DataFrame(data)
ds

Unnamed: 0,col_a,col_b
0,1,1
1,2,2
2,3,3
3,teks,4


In [5]:
ds.info() #menggunakan ini, informasi mengenai datanya lebih lengkap

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col_a   4 non-null      object
 1   col_b   4 non-null      object
dtypes: object(2)
memory usage: 192.0+ bytes


In [6]:
ds.dtypes #jika menggunakan ini hanya menampilkan type data dari setiap kolomnya

col_a    object
col_b    object
dtype: object

Konversi tipe data dengan fungsi **astype()** pada satu kolom saja

In [18]:
# ds_1 = ds.astype({'col_b':'float'}) #int (integer), float, object
# ds_1

# ds_1.dtypes

ds['col_b'] = ds['col_b'].astype('int64') #pakai cara ini saja, tidak membuat variabel baru seperti contoh diatas.
ds

Unnamed: 0,col_a,col_b
0,1,1
1,2,2
2,3,3
3,teks,4


In [19]:
ds.dtypes

col_a    object
col_b     int64
dtype: object

Konversi tipe data numerik dengan fungsi **to_numeric()**

penggunaan fungsi ini jika kita ingin konversi data ke data numeric kekeseluruhan data frame.

In [20]:
ds.apply(pd.to_numeric, errors = 'coerce')
#kegunaan parameter coerce jika kita menemukan atau terdapat data yang tidak bisa diubah ke data numeric, data tersebut akan dianggap/diubah menjadi NaN atau dianggap sebagai missing value.

Unnamed: 0,col_a,col_b
0,1.0,1
1,2.0,2
2,3.0,3
3,,4


**04. Pemilihan kolom (columns selection) berdasarkan tipe data**

In [23]:
rows_x = 5
cols_y = 2
cols1 = ['bil_pecahan', 'bil_bulat']

dst = pd.DataFrame(np.random.randint(10, 20, size = (rows_x, cols_y)), columns = cols1)

dst['bil_pecahan'] = dst['bil_pecahan'].astype('float')

dst.index = pd.util.testing.makeDateIndex(rows_x, freq = 'H')
dst = dst.reset_index() #berguna untuk generate index baru berupa generate int 

dst['teks'] = list('ABCDE')

dst

Unnamed: 0,index,bil_pecahan,bil_bulat,teks
0,2000-01-01 00:00:00,19.0,10,A
1,2000-01-01 01:00:00,13.0,14,B
2,2000-01-01 02:00:00,18.0,19,C
3,2000-01-01 03:00:00,14.0,14,D
4,2000-01-01 04:00:00,16.0,19,E


In [24]:
dst.dtypes

index          datetime64[ns]
bil_pecahan           float64
bil_bulat               int32
teks                   object
dtype: object

Memilih kolom berdasarkan tipe data, numeric.

In [None]:
dst.select_dtypes(include = 'int64')
dst.select_dtypes(include = 'float')
dst.select_dtypes(include = 'number')

Memilih kolom berdasarkan tipe data, object.

In [None]:
dst.select_dtypes(include = 'object')

Memilih kolom berdasarkan tipe data, datetime.

In [None]:
dst.select_dtypes(include = 'datetime')

Memilih kolom dengan kombinasi tipe data

In [None]:
dst.select_dtypes(include = ['int', 'object'])

**05. Membalik urutan baris dan kolom pada Data Frame**

In [43]:
b_rows = 6
b_cols = 6
cols = tuple('ABCDEF')

df = pd.DataFrame(np.random.randint(1, 10, size = (b_rows, b_cols)), columns = cols)
df

Unnamed: 0,A,B,C,D,E,F
0,4,4,2,3,1,2
1,3,6,4,7,2,5
2,5,1,2,7,8,4
3,4,3,9,7,3,4
4,9,3,9,5,3,1
5,2,6,1,8,8,3


Membalik urutan kolom

In [27]:
df. loc[:, ::-1]
# df.loc[untuk mengatur baris, untuk mengatur kolom]
# untuk menyertakan keseluruhan baris dan tidak melakukan perubahan gunakan tanda blank (:)
# -1 artinya reversing(pembalikan)

Unnamed: 0,F,E,D,C,B,A
0,4,6,1,4,5,1
1,2,9,3,9,1,7
2,6,2,2,7,3,1
3,2,2,3,3,7,3
4,8,7,2,9,1,9
5,6,2,1,3,3,5


Membalik urutan baris

In [28]:
df.loc[::-1] 
#tidak perlu menuliskan elemen ke 2 atau pada bagian kolom cukup tulis bagian baris saja

Unnamed: 0,A,B,C,D,E,F
5,5,3,3,1,2,6
4,9,1,9,2,7,8
3,3,7,3,3,2,2
2,1,3,7,2,2,6
1,7,1,9,3,9,2
0,1,5,4,1,6,4


Membalik urutan baris tanpa merubah indexnya / nomor index

In [29]:
df.loc[::-1].reset_index(drop = True)

Unnamed: 0,A,B,C,D,E,F
0,5,3,3,1,2,6
1,9,1,9,2,7,8
2,3,7,3,3,2,2
3,1,3,7,2,2,6
4,7,1,9,3,9,2
5,1,5,4,1,6,4


**06 Mengganti nama kolom pada Data Frame**

In [30]:
x_rows = 5
x_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 10, size = (x_rows, x_cols)), columns = cols)
df

Unnamed: 0,A,B,C,D,E
0,7,7,6,6,6
1,4,3,7,8,4
2,1,8,6,5,1
3,9,6,9,1,1
4,2,2,6,1,2


mengganti nama label kolom data frame

In [33]:
df.rename(columns = {'C':'City'})

Unnamed: 0,A,B,City,D,E
0,7,7,6,6,6
1,4,3,7,8,4
2,1,8,6,5,1
3,9,6,9,1,1
4,2,2,6,1,2


In [45]:
#contoh untuk perubahan label pada banyak kolom
df.rename(columns = {'A':'Id', 'B':'Number', 'E':'Total'})

Unnamed: 0,Id,Number,C,D,Total,F
0,4,4,2,3,1,2
1,3,6,4,7,2,5
2,5,1,2,7,8,4
3,4,3,9,7,3,4
4,9,3,9,5,3,1
5,2,6,1,8,8,3


**07. Menghapus (Drop) missing values (NaN) pada Data Frame**

In [55]:
df = pd.util.testing.makeMissingDataframe().reset_index()
df.head()

Unnamed: 0,index,A,B,C,D
0,5bqXUidAph,1.202569,-0.659721,-0.307293,0.914691
1,zAGyLLu0AV,0.544397,-1.341075,-0.736865,1.382881
2,UFxo9QsXH0,-1.872508,,-2.026592,0.861102
3,c1SybnUTiA,0.060464,-1.244139,-0.6669,0.721122
4,yNdQsf961W,-0.280099,0.387535,0.51468,


In [56]:
df = df.rename(columns = {'index':'X'})
df.head()

Unnamed: 0,X,A,B,C,D
0,5bqXUidAph,1.202569,-0.659721,-0.307293,0.914691
1,zAGyLLu0AV,0.544397,-1.341075,-0.736865,1.382881
2,UFxo9QsXH0,-1.872508,,-2.026592,0.861102
3,c1SybnUTiA,0.060464,-1.244139,-0.6669,0.721122
4,yNdQsf961W,-0.280099,0.387535,0.51468,


In [57]:
df_backup = df.copy(deep = True)

Menghapus setiap kolom yang mengandung missing value

In [58]:
df = df.dropna(axis = 'columns')
df.head()

Unnamed: 0,X
0,5bqXUidAph
1,zAGyLLu0AV
2,UFxo9QsXH0
3,c1SybnUTiA
4,yNdQsf961W


Menghapus baris yang mengandung missing value

In [60]:
df = df_backup.copy(deep = True)
df = df.dropna(axis = 'rows')
df.head()

Unnamed: 0,X,A,B,C,D
0,5bqXUidAph,1.202569,-0.659721,-0.307293,0.914691
1,zAGyLLu0AV,0.544397,-1.341075,-0.736865,1.382881
3,c1SybnUTiA,0.060464,-1.244139,-0.6669,0.721122
5,zcUmoTGwdo,0.07236,-0.115522,-0.896742,1.184887
8,2AuSoU4h7N,2.244799,1.64313,-0.763703,0.262414


Mengecek presentase missing value tiap kolom

In [61]:
df = df_backup.copy(deep = True)
df.isna().mean()

X    0.000000
A    0.066667
B    0.100000
C    0.100000
D    0.133333
dtype: float64

Menghapus kolom yang mengandung missing value berdasarkan threshold, sama dengan menghapus kolom berdasarkan presentase missing valuenya

In [62]:
treshold = len(df) * 0.9 #menghapus missing value pada kolom yang melebihi berdasarkan persentase
df = df.dropna(thresh = treshold, axis = 'columns')
df.head()

Unnamed: 0,X,A,B,C
0,5bqXUidAph,1.202569,-0.659721,-0.307293
1,zAGyLLu0AV,0.544397,-1.341075,-0.736865
2,UFxo9QsXH0,-1.872508,,-2.026592
3,c1SybnUTiA,0.060464,-1.244139,-0.6669
4,yNdQsf961W,-0.280099,0.387535,0.51468
