![title](https://miro.medium.com/max/481/1*cxfqR8NAj8HGal8CVOZ7hg.png)

#  Python Pandas: Tips & Tricks

# #01: Menyertakan Prefix dan Suffic pada seluruh Kolom Data Frame

#### Import Modules

In [2]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)
# code ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

1.1.3
1.19.2


## Persiapan Data Frame

In [2]:
n_rows = 5 # jumlah baris
n_cols = 5 # jumlah kolom
cols = tuple('ABCDE') #label kolom #fungsi tuple digunakan untuk string

df = pd.DataFrame(np.random.randint(1, 10, size=(n_rows, n_cols)),
                  columns=cols)
# Data Frame diatas akan diisi oleh bilangan-bilangan integer 
# yang dipilih secara acak
df


Unnamed: 0,A,B,C,D,E
0,5,9,9,8,1
1,7,4,7,8,6
2,5,7,1,3,3
3,2,7,3,5,1
4,4,1,6,8,1


In [3]:
tuple('ABCDE')
# ketika suatu string dikonversikan menjadi sebuah tuple
# maka akan dihasilkan suatu tuple yang elemennya terdiri dari 
# karakter-karakter yang membentuk string tersebut

('A', 'B', 'C', 'D', 'E')

### Menyertakan Prefix kolom

In [4]:
df.add_prefix('kolom_') # mengubah semua nama kolomnya

Unnamed: 0,kolom_A,kolom_B,kolom_C,kolom_D,kolom_E
0,5,9,9,8,1
1,7,4,7,8,6
2,5,7,1,3,3
3,2,7,3,5,1
4,4,1,6,8,1


### Menyertakan Suffix Kolom

In [9]:
df.add_suffix('_field') 

Unnamed: 0,A_field,B_field,C_field,D_field,E_field
0,2,4,1,4,1
1,3,1,4,1,2
2,2,3,4,2,3
3,1,3,3,4,3
4,3,4,3,1,2
5,4,1,3,4,2
6,4,1,4,2,2
7,2,3,4,4,3
8,4,2,4,2,1
9,2,4,1,4,3


# #02: Pemilihan baris (rows selection) pada Data Frame

#### Import Modules

In [19]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)
# code ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

1.1.3
1.19.2


## Persiapan Data Frame

In [20]:
n_rows = 10 
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 5, size=(n_rows, n_cols)),
                  columns=cols)
# Data Frame diatas akan diisi oleh bilangan-bilangan integer 
# yang dipilih secara acak
df

Unnamed: 0,A,B,C,D,E
0,4,3,3,3,3
1,1,4,3,3,3
2,3,4,1,3,4
3,4,4,4,4,1
4,4,1,3,3,1
5,2,1,4,4,4
6,1,3,3,3,2
7,4,2,4,3,2
8,1,4,1,2,1
9,3,1,2,2,3


### Selection dengan operator logika |

In [21]:
df[(df['A'] == 1) | (df['A'] == 3)]
# untuk menyeleksi hanya baris-baris yang nilai kolom A nya bernilai satu
# atau bernilai 3

Unnamed: 0,A,B,C,D,E
1,1,4,3,3,3
2,3,4,1,3,4
6,1,3,3,3,2
8,1,4,1,2,1
9,3,1,2,2,3


### Selection dengan fungsi isin()
 • Logika isin sama dengan logika or

In [22]:
df[df['A'].isin([1, 3])]

Unnamed: 0,A,B,C,D,E
1,1,4,3,3,3
2,3,4,1,3,4
6,1,3,3,3,2
8,1,4,1,2,1
9,3,1,2,2,3


### Mengenal operator negasi ~

In [23]:
df[~df['A'].isin([1, 3])]
# baris-baris yang diseleksi adalah baris-baris yang nilai dari 
# kolom A nya itu tidak sama dengan satu atau 3

Unnamed: 0,A,B,C,D,E
0,4,3,3,3,3
3,4,4,4,4,1
4,4,1,3,3,1
5,2,1,4,4,4
7,4,2,4,3,2


# #03: Konversi tipe data String ke Numerik pada kolom Data Frame

#### Import Modules

In [25]:
import pandas as pd

print(pd.__version__)
# code ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

1.1.3


## Persiapan Data Frame

In [26]:
# Data frame dibuat dengan memanfaatkan dictionary dan list
data = {'col1':['1', '2', '3', 'teks'],
       'col2':['1', '2', '3', '4']}

df = pd.DataFrame(data) # membuat sebuah object data frame
df

Unnamed: 0,col1,col2
0,1,1
1,2,2
2,3,3
3,teks,4


In [27]:
df.dtypes 
# code ini berfungsi untuk melihat tipe data apa yang terbentuk di atas

col1    object
col2    object
dtype: object

### Konversi tipe data dengan fungsi astype()

In [28]:
df_x = df.astype({'col2':'int'}) #bisa juga menggunakan tipe data flat
df_x
# akan terlihat sama seperti code di atas, tetapi akan berbeda
# bila di cek tipe data yang terbentuk

Unnamed: 0,col1,col2
0,1,1
1,2,2
2,3,3
3,teks,4


In [29]:
df_x.dtypes

col1    object
col2     int32
dtype: object

### Konversi tipe data numerik dengan fungsi to_numeric()

In [30]:
df.apply(pd.to_numeric, errors='coerce') 
# fungsi coerce untuk mengganti data yang yang tidak bisa dikonversikan 
# ke numerik menjadi NaN atau missing value

Unnamed: 0,col1,col2
0,1.0,1
1,2.0,2
2,3.0,3
3,,4


# #04: Pemilihan kolom (columns selection) pada Data Frame berdasarkan tipe data

#### Import Modules

In [31]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)
# code ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

1.1.3
1.19.2


## Persiapan Data Frame

In [33]:
# membangun data frame dasar
n_rows = 5
n_cols = 2
cols = ['bil_pecahan', 'bil_bulat'] # nama pada kolom
# membuat object data frame
df = pd.DataFrame(np.random.randint(1, 20, size=(n_rows, n_cols)),
                 columns=cols) # semua memiliki tipe data integer
df['bil_pecahan'] = df['bil_pecahan'].astype('float') 
# bil_pecahan di konversi menjadi tipe data float

#membuat index bertipe data datetime
df.index = pd.util.testing.makeDateIndex(n_rows, freq='H')
df = df.reset_index()

df['teks'] = list('ABCDE') # membuat kolom baru

df

Unnamed: 0,index,bil_pecahan,bil_bulat,teks
0,2000-01-01 00:00:00,3.0,8,A
1,2000-01-01 01:00:00,1.0,10,B
2,2000-01-01 02:00:00,11.0,1,C
3,2000-01-01 03:00:00,14.0,14,D
4,2000-01-01 04:00:00,18.0,15,E


In [34]:
df.dtypes # untuk memverifikasi tipe data di atas

index          datetime64[ns]
bil_pecahan           float64
bil_bulat               int32
teks                   object
dtype: object

### Memilih kolom bertipe data numerik
 • Fungsi code di bawah ini adalah untuk memilih hanya kolom-kolom yang bertipe    data numerik saja

In [35]:
df.select_dtypes(include='float')
# akan memilih kolom yang bertipe float saja

Unnamed: 0,bil_pecahan
0,3.0
1,1.0
2,11.0
3,14.0
4,18.0


In [36]:
df.select_dtypes(include='int')
# akan memilih kolom yang bertipe int saja

Unnamed: 0,bil_bulat
0,8
1,10
2,1
3,14
4,15


### Memilih kolom bertipe data string atau object
 • Fungsi code di bawah ini hanya untuk memilih tipe data string

In [37]:
df.select_dtypes(include='object')

Unnamed: 0,teks
0,A
1,B
2,C
3,D
4,E


### Memilih kolom bertipe data datetime

In [38]:
df.select_dtypes(include='datetime')
# hanya kolom bertipe datetime saja yang dimunculkan

Unnamed: 0,index
0,2000-01-01 00:00:00
1,2000-01-01 01:00:00
2,2000-01-01 02:00:00
3,2000-01-01 03:00:00
4,2000-01-01 04:00:00


### Memilih kolom dengan kombinasi tipe data
 • jika ingin menampilkan kolom numerik dan string

In [39]:
df.select_dtypes(include=['number', 'object'])
# jika ingin menggabungkan tipe data 
# maka pada parameter includenya di beri nilai tipe data list

Unnamed: 0,bil_pecahan,bil_bulat,teks
0,3.0,8,A
1,1.0,10,B
2,11.0,1,C
3,14.0,14,D
4,18.0,15,E


# TERIMA KASIH