# **Import Modules**

---



In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt

print(pd.__version__)
print(np.__version__)
print(plt.__version__)

1.3.5
1.21.6
3.2.2




---


# Pandas 05 | Membalik urutan baris dan kolom pada Data Frame

---





## **Persiapan Data Frame**

In [None]:
n_rows = 5
n_cols = 5
cols = tuple('VXYWZ')
cols

('V', 'X', 'Y', 'W', 'Z')

In [None]:
df = pd.DataFrame(np.random.randint(1, 10 , size=(n_rows, n_cols)), columns=cols)
df

Unnamed: 0,V,X,Y,W,Z
0,2,9,1,3,4
1,1,1,6,6,5
2,3,6,5,7,5
3,5,7,5,2,6
4,7,8,4,4,9


## Membalik Urutan Baris & Kolom

*   Jika hanya menggunakan ":" dan tidak ada awalan atau akan berakhir pada indeks berapanya

*   Sedangkan, kalau pakai "-1"  itu artinya akan me-reverse kolom/baris yg mau kita reverse





In [None]:
# Balik urutan Kolom
df.loc[:, ::-1] 

Unnamed: 0,Z,W,Y,X,V
0,4,3,1,9,2
1,5,6,6,1,1
2,5,7,5,6,3
3,6,2,5,7,5
4,9,4,4,8,7


In [None]:
# Balik urutan Baris
df.loc[::-1, :] 

Unnamed: 0,V,X,Y,W,Z
4,7,8,4,4,9
3,5,7,5,2,6
2,3,6,5,7,5
1,1,1,6,6,5
0,2,9,1,3,4


## Membalik Urutan Baris dan Melakukan Penyesuaian Ulang **Index**
Tujuannya agar me-reverse baris namun indexnya dimulai dari angka terkecil dan hasilnya tetap sesuai dengan hasil reverse sebelumnya

In [None]:
df.loc[::-1].reset_index(drop=True)

Unnamed: 0,V,X,Y,W,Z
0,7,8,4,4,9
1,5,7,5,2,6
2,3,6,5,7,5
3,1,1,6,6,5
4,2,9,1,3,4




---


# Pandas 06 | Mengganti nama kolom pada Data Frame 

---





## **Persiapan Data Frame**

In [None]:
n_rows = 5
n_cols = 5
cols = tuple('VXYWZ')
cols

('V', 'X', 'Y', 'W', 'Z')

In [None]:
df = pd.DataFrame(np.random.randint(1, 10 , size=(n_rows, n_cols)), columns=cols)
df

Unnamed: 0,V,X,Y,W,Z
0,2,9,1,3,4
1,1,1,6,6,5
2,3,6,5,7,5
3,5,7,5,2,6
4,7,8,4,4,9


## Mengganti Nama (label) Kolom pada Data Frame




In [None]:
# Mengganti nama Kolom Y menjadi "Hobby"
df.rename(columns={'Y':'Hobby'}) 

Unnamed: 0,V,X,Hobby,W,Z
0,2,9,1,3,4
1,1,1,6,6,5
2,3,6,5,7,5
3,5,7,5,2,6
4,7,8,4,4,9


In [None]:
# Mengganti banyak nama kolom 
df.rename(columns={'Y':'Hobby', 'W':'Alamat', 'Z':'Kota'}) 

Unnamed: 0,V,X,Hobby,Alamat,Kota
0,2,9,1,3,4
1,1,1,6,6,5
2,3,6,5,7,5
3,5,7,5,2,6
4,7,8,4,4,9


## Membalik Urutan Baris dan Melakukan Penyesuaian Ulang **Index**
Tujuannya agar me-reverse baris namun indexnya dimulai dari angka terkecil dan hasilnya tetap sesuai dengan hasil reverse sebelumnya

In [None]:
df.loc[::-1].reset_index(drop=True)

Unnamed: 0,V,X,Y,W,Z
0,7,8,4,4,9
1,5,7,5,2,6
2,3,6,5,7,5
3,1,1,6,6,5
4,2,9,1,3,4




---


# Pandas 07 | Menghapus missing values pada Data Frame 

---





## **Persiapan Data Frame**

In [None]:
# Import Dataframe yg memiliki missing value pada data tsb.
df = pd.util.testing.makeMissingDataframe().reset_index()
df.head()

Unnamed: 0,index,A,B,C,D
0,fuJOuOR9OE,-1.383787,0.678297,0.190697,0.313457
1,JP5MyvdaEG,0.737099,,0.22326,0.117374
2,yDb7FHifOp,-0.817805,,-1.615337,-1.070061
3,XGVYZqb4Hz,-1.170152,1.260835,-0.729629,1.057549
4,HizquCjQPb,-0.199244,0.831809,0.493936,-0.058559


In [None]:
df = df.rename(columns={'index':'Z'})
df.head()

Unnamed: 0,Z,A,B,C,D
0,fuJOuOR9OE,-1.383787,0.678297,0.190697,0.313457
1,JP5MyvdaEG,0.737099,,0.22326,0.117374
2,yDb7FHifOp,-0.817805,,-1.615337,-1.070061
3,XGVYZqb4Hz,-1.170152,1.260835,-0.729629,1.057549
4,HizquCjQPb,-0.199244,0.831809,0.493936,-0.058559


In [None]:
df_backup = df.copy(deep=True)

## Menghapus (drop) setiap kolom atau baris yang mengandung missing value



In [None]:
# Menghapus setiap kolom yang mengandung missing value
df = df.dropna(axis='columns')
df.head()

Unnamed: 0,Z,A
0,fuJOuOR9OE,-1.383787
1,JP5MyvdaEG,0.737099
2,yDb7FHifOp,-0.817805
3,XGVYZqb4Hz,-1.170152
4,HizquCjQPb,-0.199244


In [None]:
# Menghapus setiap baris yang mengandung missing value
df = df_backup.copy(deep=True)
df = df.dropna(axis='rows')
df.head()

Unnamed: 0,Z,A,B,C,D
0,fuJOuOR9OE,-1.383787,0.678297,0.190697,0.313457
3,XGVYZqb4Hz,-1.170152,1.260835,-0.729629,1.057549
4,HizquCjQPb,-0.199244,0.831809,0.493936,-0.058559
5,geY9mbEF8j,-0.939733,-0.662244,-1.103296,0.482011
7,bML5EbqH0W,-0.018288,0.210102,0.23678,-1.479271


## Persentase Missing Value untuk Tiap Kolom

In [None]:
df = df_backup.copy(deep=True)
df.isna().mean()

Z    0.000000
A    0.000000
B    0.233333
C    0.133333
D    0.033333
dtype: float64

## Menghapus setiap kolom yang mengandung missing value berdasarkan threshold

In [None]:
threshold = len(df) * 0.9
df = df.dropna(thresh=threshold, axis='columns')
df.head()

Unnamed: 0,Z,A,D
0,fuJOuOR9OE,-1.383787,0.313457
1,JP5MyvdaEG,0.737099,0.117374
2,yDb7FHifOp,-0.817805,-1.070061
3,XGVYZqb4Hz,-1.170152,1.057549
4,HizquCjQPb,-0.199244,-0.058559




---


# Pandas 08 | Memeriksa kesamaan antar kolom (Series) pada Data Frame

---





## **Persiapan Data Frame**

In [None]:
data = {'A' : [15, 15, 10, np.nan, 12],
        'B' : [15, 15, 10, np.nan, 12]}

df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,15.0,15.0
1,15.0,15.0
2,10.0,10.0
3,,
4,12.0,12.0


In [None]:
df = df.rename(columns={'index':'Z'})
df.head()

Unnamed: 0,Z,A,B,C,D
0,fuJOuOR9OE,-1.383787,0.678297,0.190697,0.313457
1,JP5MyvdaEG,0.737099,,0.22326,0.117374
2,yDb7FHifOp,-0.817805,,-1.615337,-1.070061
3,XGVYZqb4Hz,-1.170152,1.260835,-0.729629,1.057549
4,HizquCjQPb,-0.199244,0.831809,0.493936,-0.058559


In [None]:
df_backup = df.copy(deep=True)

## **Mengenal Pandas Series**
Simplenya, Data Frame itu kumpulan dari Data Series



In [None]:
df['A']

0    15.0
1    15.0
2    10.0
3     NaN
4    12.0
Name: A, dtype: float64

In [None]:
type(df['A'])

pandas.core.series.Series

In [None]:
type(df)

pandas.core.frame.DataFrame

## Memeriksa Kesamaan antar Data Frame

### Memeriksa Kesamaan dengan Operator **(==)**
Penggunaan operator ini kurang cocok untuk membandingkan jika data nya ada yg bernilai NaN

In [None]:
df['A'] == df['B']

0     True
1     True
2     True
3    False
4     True
dtype: bool

### Memeriksa Kesamaan dengan Method **equals()**
Jadi lebih baik menggunakan operator equals untuk membandingkan antara data series yang satu dengan yang lainnya

In [None]:
df['A'].equals(df['B'])

True

#### Memeriksa Kesamaan Antar dua Data Frame
Untuk membandingkan antara dua data frame, lebih baik menggunakan **equals** dibanding **operator ==**

In [None]:
df1 = df.copy(deep=True)
df.equals(df1)

True

In [None]:
df == df1

Unnamed: 0,A,B
0,True,True
1,True,True
2,True,True
3,False,False
4,True,True
