![title](https://miro.medium.com/max/481/1*cxfqR8NAj8HGal8CVOZ7hg.png)

#  Python Pandas: Tips & Tricks

## #05: Membalik urutan baris dan kolom pada Data Frame

### Import Modules

In [1]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)
# kode ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

1.1.3
1.19.2


## Persiapan Data Frame

In [2]:
# pada data frame ini memiliki dimensi 5 kali 5
n_rows = 5 
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 10, size=(n_rows, n_cols)),
                 columns=cols)
df
# Data Frame diatas akan diisi oleh bilangan-bilangan integer 
# yang dipilih secara acak

Unnamed: 0,A,B,C,D,E
0,8,6,9,5,1
1,6,8,5,8,8
2,5,3,9,6,2
3,8,2,1,6,6
4,4,1,8,6,2


### Membalik urutan kolom

In [3]:
df.loc[:, ::-1]
# fungsi kodenya untuk membalikkan urutan kolom pada data di atas
# di dalam kurung sikunya terbagi menjadi dua bagian besar
# pada bagian pertama bertugas mengatur baris
# pada bagian kedua bertugas mengatur kolom

Unnamed: 0,E,D,C,B,A
0,1,5,9,6,8
1,8,8,5,8,6
2,2,6,9,3,5
3,6,6,1,2,8
4,2,6,8,1,4


### Membalik urutan baris 

In [4]:
df.loc[::-1]
# fungsi kodenya untuk membalikkan urutan baris pada data di atas

Unnamed: 0,A,B,C,D,E
4,4,1,8,6,2
3,8,2,1,6,6
2,5,3,9,6,2
1,6,8,5,8,8
0,8,6,9,5,1


### Membalik urutan baris dan melakukan penyesuaian ulang index

In [5]:
df.loc[::-1].reset_index(drop=True)
# urutan baris tetap terbalik tetapi indexnya di buat ulang

Unnamed: 0,A,B,C,D,E
0,4,1,8,6,2
1,8,2,1,6,6
2,5,3,9,6,2
3,6,8,5,8,8
4,8,6,9,5,1


## #06: Mengganti nama kolom pada Data Frame

#### Import Modules

In [6]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)
# kode ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

1.1.3
1.19.2


## Persiapan Data Frame

In [7]:
n_rows = 5
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 10, size=(n_rows, n_cols)),
                 columns=cols)
df
# Data Frame diatas akan diisi oleh bilangan-bilangan integer 
# yang dipilih secara acak

Unnamed: 0,A,B,C,D,E
0,3,5,2,1,3
1,3,6,1,8,3
2,7,9,3,7,1
3,4,2,8,3,9
4,3,9,3,5,7


### Mengganti nama(label) untuk sebuah kolom pada Data Frame

In [8]:
df.rename(columns={'C':'Hobi'})
# kode di atas fungsinya untuk megubah nama atau label dari 
# sebuah kolom pada Pandas Data Frame
# 'C' adalah nama kolom yang akan diubah

Unnamed: 0,A,B,Hobi,D,E
0,3,5,2,1,3
1,3,6,1,8,3
2,7,9,3,7,1
3,4,2,8,3,9
4,3,9,3,5,7


### Mengganti nama (label) untuk banyak kolom pada Data Frame

In [9]:
df.rename(columns={'A':'Nama', 'B':'Alamat', 'D':'Kota'})
# fungsi kode di atas adalah mengubah label untuk banyak kolom sekaligus

Unnamed: 0,Nama,Alamat,C,Kota,E
0,3,5,2,1,3
1,3,6,1,8,3
2,7,9,3,7,1
3,4,2,8,3,9
4,3,9,3,5,7


## #07: Menghapus (drop) missing values (NaN)

#### Import Modules

In [10]:
import pandas as pd

print(pd.__version__)
# kode ini untuk memberi tahu berapa versi pandas kalian

1.1.3


## Persiapan Data Frame

In [11]:
# membuat sebuah Data Frame yang mengandung missing value
df = pd.util.testing.makeMissingDataframe().reset_index()
df.head() # menampilkan lima data pertama
# fungsi reset_index() untuk membentuk indexs baru dan indexs lamanya 
# akan diadopsi sebagai kolom biasa

Unnamed: 0,index,A,B,C,D
0,mhN70oWE3V,-1.012413,-0.565213,-0.895721,-0.020327
1,MfU5pz8ndr,-1.517327,-0.805461,-0.34693,0.132489
2,HcSbA6zaC6,0.727847,-0.873644,-0.119102,-0.699799
3,nUrm5ZsWRp,-1.002377,0.512281,0.516439,
4,NwGJc5bcbH,1.051765,0.480436,-1.075656,


In [12]:
# mengubah nama kolom 'index' menjadi kolom 'Z'
df = df.rename(columns={'index':'Z'})
df.head()

Unnamed: 0,Z,A,B,C,D
0,mhN70oWE3V,-1.012413,-0.565213,-0.895721,-0.020327
1,MfU5pz8ndr,-1.517327,-0.805461,-0.34693,0.132489
2,HcSbA6zaC6,0.727847,-0.873644,-0.119102,-0.699799
3,nUrm5ZsWRp,-1.002377,0.512281,0.516439,
4,NwGJc5bcbH,1.051765,0.480436,-1.075656,


In [14]:
# membuat copy dari Data Frame di atas dan copy nya akan 
# disimpan ke dalam variabel df_backup
df_backup = df.copy(deep=True)

### Menghapus (drop) setiap kolom yang mengandung missing values

In [15]:
# kalau diidentifikasi adanya missing values di kolom manapun,
# maka kolom tersebut akan dibuang/didrop
df = df.dropna(axis='columns')
df.head()
# dari hasil di bawah pada kolom 'C' tidak didapati missing values
# artinya kolom 'C' tidak didrop, sedangkan untuk kolom 'A', 'B','D' didrop
# karena mengandung missing values

Unnamed: 0,Z,C
0,mhN70oWE3V,-0.895721
1,MfU5pz8ndr,-0.34693
2,HcSbA6zaC6,-0.119102
3,nUrm5ZsWRp,0.516439
4,NwGJc5bcbH,-1.075656


### Menghapus (drop) setiap baris yang mengandung missing values

In [16]:
# disini kita memanfaatkan data frame backup
df = df_backup.copy(deep=True)
df = df.dropna(axis='rows') # menghapus baris yang mengandung missing values
df.head()

Unnamed: 0,Z,A,B,C,D
0,mhN70oWE3V,-1.012413,-0.565213,-0.895721,-0.020327
1,MfU5pz8ndr,-1.517327,-0.805461,-0.34693,0.132489
2,HcSbA6zaC6,0.727847,-0.873644,-0.119102,-0.699799
5,uUxYE4j3kS,2.271988,-1.937048,0.065067,0.012041
7,4XjpFMbX0j,0.389532,-2.336201,-2.702432,-0.368144


### Presentase missing values untuk tiap kolom

In [17]:
# mengambil copy dari data frame backup sebelumnya
df = df_backup.copy(deep=True)
df.isna().mean()
# fungsi kode di atas adalah mengumpulkan missing values untuk setiap kolom
# dari data frame
# .mean artinya adalah kita mau mengkalkulasi rata-rata atau presentase 
# dari missing values yang dimiliki setiap kolom dari data frame

Z    0.000000
A    0.133333
B    0.133333
C    0.000000
D    0.133333
dtype: float64

### Menghapus (drop) setiap kolom yang mengandung missing values berdasarkan treshold

In [19]:
# jika missing values nya masih bisa ditoleransi jumlahnya maka tidak akan 
# dibuang tetapi ketika presentase missing values sudah sangat tinggi 
# maka kolom tersebut akan dibuang
treshold = len(df) * 0.9 # menentukan ambang batasnya
df = df.dropna(thresh=treshold, axis='columns')
df.head()

Unnamed: 0,Z,C
0,mhN70oWE3V,-0.895721
1,MfU5pz8ndr,-0.34693
2,HcSbA6zaC6,-0.119102
3,nUrm5ZsWRp,0.516439
4,NwGJc5bcbH,-1.075656


## #08: Memeriksa kesamaan antar dua buah kolom (Series) pada Data Frame

#### Import Modules

In [None]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)
# kode ini untuk memberi tahu berapa versi pandas dan versi numpy kalian

### Persiapan Data Frame

In [20]:
# data frame di bawah akan terdiri dari 2 buah kolom. kolom 'A' dan kolom 'B'
data = {'A':[15, 15, 18, np.nan, 12],
        'B':[15, 15, 18, np.nan, 12]}
# tujuan data kolom 'A' dan kolom "B" yang isinya sama adalah untuk
# menguji atau memeriksa kesamaan nilai yang ditampung oleh kolom 'A' dan 'B'
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,15.0,15.0
1,15.0,15.0
2,18.0,18.0
3,,
4,12.0,12.0


### Mengenal Pandas Series

   ● Pandas series merupakan struktur data lain yang dimiliki oleh pandas
   ● Series pada dasarnya adalah kolom. Setiap kolom dari pandas memiliki tipe      data series

In [21]:
df['A']

0    15.0
1    15.0
2    18.0
3     NaN
4    12.0
Name: A, dtype: float64

In [22]:
# untuk mengetahui tipe data
type(df['A'])

pandas.core.series.Series

In [23]:
type(df)

pandas.core.frame.DataFrame

### Memeriksa kesamaan dengan operator ==

In [24]:
df['A'] == df['B'] # setiap barisnya akan dibandingkan
# membandingkan nilai yang ditampung oleh kedua buah series sama atau tidak
# baris yang memiliki missing values tidak bisa dibandingkan dengan sempurna
# oleh operator ==

0     True
1     True
2     True
3    False
4     True
dtype: bool

### Memeriksa kesamaan dengan method equals( )

In [27]:
# alternatif lain untuk membandingkan nilai yang ditampung
# oleh kedua buah series sama atau tidak
df['A'].equals(df['B'])
# hasilnya True karena memang kedua kolom di atas menampung nilai yang sama

True

### Memeriksa kesamaan antar dua Data Frame

In [28]:
# membuat copy dari data frame di atas yang ditampung di df1
df1 = df.copy(deep=True)
# membandingkan df dan df1
df.equals(df1)
# cara terbaik untuk membandingkan antara dua buah data frame

True

In [29]:
df == df1
# lebih baik tidak menggunakkan kode ini untu membandingkan 
# karena hasilnya akan berbeda

Unnamed: 0,A,B
0,True,True
1,True,True
2,True,True
3,False,False
4,True,True
