# Pengenalan Pandas - Latihan Analisis Data Menggunakan Library Pandas

Mengimport library pandas

In [2]:
# Imports
import pandas as pd

Untuk latihan, kita menggunakan dataset <i>dummy</i> menggunakan <i>dictionary python</i> dan <i>DataFrame</i> pandas

In [104]:
# Membuat data dummy menggunakan dictionary dan disimpan ke dalam variabel dict1
dict1 = {'Nama':['Riyan','Aaditya','Krisandus','Vexana','Pandi',
                'Mikaela','Arsene'],
                'Skor':[98,89,99,87,90,83,99],
                'Jenis_kelamin':['Laki-laki','Perempuan','Perempuan','Laki-laki','Laki-laki',
                         'Perempuan','Perempuan']
               }

# Data tabular tersebut (dict1) kemudian dikonversi menjadi data tabular menggunakan DataFrame pandas
df1 = pd.DataFrame(dict1)

df1

Unnamed: 0,Nama,Skor,Jenis_kelamin
0,Riyan,98,Laki-laki
1,Aaditya,89,Perempuan
2,Krisandus,99,Perempuan
3,Vexana,87,Laki-laki
4,Pandi,90,Laki-laki
5,Mikaela,83,Perempuan
6,Arsene,99,Perempuan


## 1. Menampilkan tiga (3) baris data pertama

In [105]:
df1.head(3)

Unnamed: 0,Nama,Skor,Jenis_kelamin
0,Riyan,98,Laki-laki
1,Aaditya,89,Perempuan
2,Krisandus,99,Perempuan


## 2. Menampilkan tiga (3) baris data terakhir

In [106]:
df1.tail(3)

Unnamed: 0,Nama,Skor,Jenis_kelamin
4,Pandi,90,Laki-laki
5,Mikaela,83,Perempuan
6,Arsene,99,Perempuan


## 3. Mencari bentuk/dimensi dataset yang digunakan

In [107]:
df1.shape

(7, 3)

(7, 3) berarti dataset tersebut berjumlah 7 baris dan 3 kolom

In [108]:
print('Jumlah baris:', df1.shape[0])
print('Jumlah kolom:', df1.shape[1])

Jumlah baris: 7
Jumlah kolom: 3


## 4. Menampilkan informasi dataset secara lengkap (jumlah baris, kolom, tipe-tipe data tiap kolom, alokasi memori, dsb)

In [109]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Nama           7 non-null      object
 1   Skor           7 non-null      int64 
 2   Jenis_kelamin  7 non-null      object
dtypes: int64(1), object(2)
memory usage: 296.0+ bytes


## 5. Mencari nilai null (tanpa data) dalam dataset

In [110]:
# Menampilkan nilai null dalam bentuk boolean (True = null, False = non-null)
df1.isnull()

# Menampilkan jumlah nilai null dalam tiap kolom/atribut
# df1.isnull().sum()

# Menampilkan jumlah nilai null dalam tiap kolom/atribut
# df1.isnull().sum(axis=0)

# Menampilkan jumlah nilai null dalam tiap baris
# df1.isnull().sum(axis=1)



Unnamed: 0,Nama,Skor,Jenis_kelamin
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False


## 6. Menampilkan statistik deskriptif umum dataset

In [111]:
# Manampilkan statistik deskriptif seluruh kolom/atribut
# df1.describe(include="all")

# Menampilkan statistik deskriptif hanya untuk kolom/atribut yang memiliki tipe data numerik (non-null)
# Sama dengan fungsi .describe() standar/default
df1.describe(exclude="O")

Unnamed: 0,Skor
count,7.0
mean,92.142857
std,6.491753
min,83.0
25%,88.0
50%,90.0
75%,98.5
max,99.0


## 7. Menampilkan nilai-nilai spesifik dari kolom Jenis_kelamin

In [112]:
df1["Jenis_kelamin"].unique()

array(['Laki-laki', 'Perempuan'], dtype=object)

## 8. Menampilkan jumlah nilai spesifik dari kolom Jenis_kelamin

In [113]:
df1["Jenis_kelamin"].nunique()

2

## 9. Menampilkan jumlah dari setiap nilai spesifik dari kolom Jenis_kelamin

In [114]:
df1["Jenis_kelamin"].value_counts()

Jenis_kelamin
Perempuan    4
Laki-laki    3
Name: count, dtype: int64

## 10. Menampilkan jumlah total siswa (kolom Nama) yang memiliki nilai dengan rentang atau antara tertentu

In [115]:
# Menampilkan boolean
df1["Skor"] >= 90

0     True
1    False
2     True
3    False
4     True
5    False
6     True
Name: Skor, dtype: bool

In [116]:
# Menampilkan data berdasarkan kondisi/rentang nilai yang ditentukan
df1[df1["Skor"] >= 90]

Unnamed: 0,Nama,Skor,Jenis_kelamin
0,Riyan,98,Laki-laki
2,Krisandus,99,Perempuan
4,Pandi,90,Laki-laki
6,Arsene,99,Perempuan


In [117]:
# Rentang nilai banyak
(df1["Skor"] >= 90) & (df1["Skor"] <= 100)

0     True
1    False
2     True
3    False
4     True
5    False
6     True
Name: Skor, dtype: bool

In [118]:
# Subsetting
df1[(df1["Skor"] >= 90) & (df1["Skor"] <= 100)]

Unnamed: 0,Nama,Skor,Jenis_kelamin
0,Riyan,98,Laki-laki
2,Krisandus,99,Perempuan
4,Pandi,90,Laki-laki
6,Arsene,99,Perempuan


In [119]:
# Menampilkan jumlah data dari dataset yang telah di subset
print("Jumlah siswa dengan skor antara 90 dan 100:", len(df1[(df1["Skor"] >= 90) & (df1["Skor"] <= 100)]))

# Sama dengan

print("Jumlah siswa dengan skor antara 90 dan 100:", sum(df1["Skor"].between(90, 100)))

Jumlah siswa dengan skor antara 90 dan 100: 4
Jumlah siswa dengan skor antara 90 dan 100: 4


In [120]:
# Kondisi / rentang nilai menggunakan fungsi .between(,)
df1["Skor"].between(90, 100)

0     True
1    False
2     True
3    False
4     True
5    False
6     True
Name: Skor, dtype: bool

In [121]:
# Subsetting dataset berdasarkan kondisi / rentang nilai menggunakan fungsi .between(,)
df1[df1["Skor"].between(90, 100)]

# Dapat dilihat bahwa metode ini sama dengan:
# df1[(df1["Skor"] >= 90) & (df1["Skor"] <= 100)]

Unnamed: 0,Nama,Skor,Jenis_kelamin
0,Riyan,98,Laki-laki
2,Krisandus,99,Perempuan
4,Pandi,90,Laki-laki
6,Arsene,99,Perempuan


## 11. Menampilkan nilai maksimum, minimum, dan rata-rata (kolom Nilai)

In [122]:
df1["Skor"].min()
df1["Skor"].max()
df1["Skor"].mean()

92.14285714285714

## 12. Fungsi apply

### 12.1. Membuat fungsi

In [123]:
# Using custom full function
def skor(x):
    return x/2

In [126]:
# Menerapkan fungsi tersebut untuk menghitung nilai-nilai dari sebuah kolom/atribut
# Dan menyimpan nilai-nilai tersebut ke dalam sebuah kolom baru (kolom Skor_per_dua)
df1["Skor_per_dua"] = df1["Skor"].apply(skor)

# Mengonversi nilai-nilai tersebut ke dalam tipe integer (int)
# Dan menyimpan nilai-nilai tersebut ke dalam sebuah kolom baru (kolom Skor_per_dua_ints)
df1["Skor_per_dua_ints"] = [int(i) for i in df1["Skor"].apply(skor)]

In [128]:
df1

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints
0,Riyan,98,Laki-laki,49.0,49
1,Aaditya,89,Perempuan,44.5,44
2,Krisandus,99,Perempuan,49.5,49
3,Vexana,87,Laki-laki,43.5,43
4,Pandi,90,Laki-laki,45.0,45
5,Mikaela,83,Perempuan,41.5,41
6,Arsene,99,Perempuan,49.5,49


### 12.2. Menggunakan fungsi lambda

In [134]:
# Menghitung nilai-nilai baru dari suatu kolom menggunakan fungsi lambda
df1["Skor"].apply(lambda x: x / 2)

# Dan menyimpan nilai-nilai tersebut ke dalam sebuah kolom baru (kolom Skor_lambda)
df1["Skor_lambda"] = df1["Skor"].apply(lambda x: x // 2)

In [135]:
df1

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints,Skor_lambda
0,Riyan,98,Laki-laki,49.0,49,49
1,Aaditya,89,Perempuan,44.5,44,44
2,Krisandus,99,Perempuan,49.5,49,49
3,Vexana,87,Laki-laki,43.5,43,43
4,Pandi,90,Laki-laki,45.0,45,45
5,Mikaela,83,Perempuan,41.5,41,41
6,Arsene,99,Perempuan,49.5,49,49


### 12.3. Menampilkan panjang karakter-karakter dalam sebuah kolom menggunakan fungsi len

In [132]:
df1["Nama"].apply(len)

0    5
1    7
2    9
3    6
4    5
5    7
6    6
Name: Nama, dtype: int64

## 13. Fungsi map

Sebagai contoh kita memiliki dataframe sebagai berikut. Kemudian misalnya kita ingin mengubah nilai kategorikal dengan tipe data string (kolom Gender) ke dalam bentuk biner (0 atau 1). 0 untuk Perempuan, dan 1 untuk Laki-laki

In [133]:
df1

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints,Skor_lambda
0,Riyan,98,Laki-laki,49.0,49,49
1,Aaditya,89,Perempuan,44.5,44,44
2,Krisandus,99,Perempuan,49.5,49,49
3,Vexana,87,Laki-laki,43.5,43,43
4,Pandi,90,Laki-laki,45.0,45,45
5,Mikaela,83,Perempuan,41.5,41,41
6,Arsene,99,Perempuan,49.5,49,49


Sekarang ubah rekor gender tersebut ke dalam bentuk biner menggunakan fungsi map dan simpan hasil konversi tersebut ke dalam suatu kolom baru

In [136]:
# Konversi ke dalam bentuk biner
# Dan simpan rekor hasil konversi tersebut ke dalam suatu kolom baru (kolom Gender_biner)
df1["Gender_biner"] = df1["Jenis_kelamin"].map({"Laki-laki": 1, "Perempuan": 0})

In [137]:
df1

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints,Skor_lambda,Gender_biner
0,Riyan,98,Laki-laki,49.0,49,49,1
1,Aaditya,89,Perempuan,44.5,44,44,0
2,Krisandus,99,Perempuan,49.5,49,49,0
3,Vexana,87,Laki-laki,43.5,43,43,1
4,Pandi,90,Laki-laki,45.0,45,45,1
5,Mikaela,83,Perempuan,41.5,41,41,0
6,Arsene,99,Perempuan,49.5,49,49,0


Teknik ini biasa juga disebut dengan teknik <b>encoding</b>

## 14. Menghapus kolom

### 14.1. Menghapus satu kolom

In [138]:
# Tampilkan dataset
df1

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints,Skor_lambda,Gender_biner
0,Riyan,98,Laki-laki,49.0,49,49,1
1,Aaditya,89,Perempuan,44.5,44,44,0
2,Krisandus,99,Perempuan,49.5,49,49,0
3,Vexana,87,Laki-laki,43.5,43,43,1
4,Pandi,90,Laki-laki,45.0,45,45,1
5,Mikaela,83,Perempuan,41.5,41,41,0
6,Arsene,99,Perempuan,49.5,49,49,0


Menghapus sebuah kolom menggunakan argumen axis. Gunakan axis=1 untuk menghapus kolom dan axis=0 untuk menghapus baris

In [139]:
# Menghapus kolom menggunakan argumen axis
# axis 1 = kolom
# axis 0 = baris
df1.drop("Gender_biner", axis=1)

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints,Skor_lambda
0,Riyan,98,Laki-laki,49.0,49,49
1,Aaditya,89,Perempuan,44.5,44,44
2,Krisandus,99,Perempuan,49.5,49,49
3,Vexana,87,Laki-laki,43.5,43,43
4,Pandi,90,Laki-laki,45.0,45,45
5,Mikaela,83,Perempuan,41.5,41,41
6,Arsene,99,Perempuan,49.5,49,49


### 14.2. Menghapus beberapa kolom

In [140]:
df1.drop(['Skor_lambda', 'Gender_biner'], axis=1)

# Untuk menyimpan dataset yang telah diproses ke dataframe baru, gunakan argumen inplace=True
# df1.drop(['Marks_lambda', 'Gender_binary'], axis=1, inplace=True)

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints
0,Riyan,98,Laki-laki,49.0,49
1,Aaditya,89,Perempuan,44.5,44
2,Krisandus,99,Perempuan,49.5,49
3,Vexana,87,Laki-laki,43.5,43
4,Pandi,90,Laki-laki,45.0,45
5,Mikaela,83,Perempuan,41.5,41
6,Arsene,99,Perempuan,49.5,49


## 15. Menampilkan nama kolom

In [141]:
df1.columns

Index(['Nama', 'Skor', 'Jenis_kelamin', 'Skor_per_dua', 'Skor_per_dua_ints',
       'Skor_lambda', 'Gender_biner'],
      dtype='object')

In [142]:
df1.index

RangeIndex(start=0, stop=7, step=1)

## 16. Mengurutkan dataset berdasarkan nilai (kolom Skor)

In [143]:
df1

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints,Skor_lambda,Gender_biner
0,Riyan,98,Laki-laki,49.0,49,49,1
1,Aaditya,89,Perempuan,44.5,44,44,0
2,Krisandus,99,Perempuan,49.5,49,49,0
3,Vexana,87,Laki-laki,43.5,43,43,1
4,Pandi,90,Laki-laki,45.0,45,45,1
5,Mikaela,83,Perempuan,41.5,41,41,0
6,Arsene,99,Perempuan,49.5,49,49,0


In [145]:
# Nilai tinggi ke rendah
df1.sort_values(by="Skor", ascending=False)

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints,Skor_lambda,Gender_biner
2,Krisandus,99,Perempuan,49.5,49,49,0
6,Arsene,99,Perempuan,49.5,49,49,0
0,Riyan,98,Laki-laki,49.0,49,49,1
4,Pandi,90,Laki-laki,45.0,45,45,1
1,Aaditya,89,Perempuan,44.5,44,44,0
3,Vexana,87,Laki-laki,43.5,43,43,1
5,Mikaela,83,Perempuan,41.5,41,41,0


In [152]:
# Mengurutkan berdasarkan beberapa kolom
df1.sort_values(by=['Skor', 'Jenis_kelamin'], ascending=False)

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints,Skor_lambda,Gender_biner
2,Krisandus,99,Perempuan,49.5,49,49,0
6,Arsene,99,Perempuan,49.5,49,49,0
0,Riyan,98,Laki-laki,49.0,49,49,1
4,Pandi,90,Laki-laki,45.0,45,45,1
1,Aaditya,89,Perempuan,44.5,44,44,0
3,Vexana,87,Laki-laki,43.5,43,43,1
5,Mikaela,83,Perempuan,41.5,41,41,0


## 17.  Nama dan Nilai dari siswa perempuan

In [149]:
# Tampilkan dataframe
df1

Unnamed: 0,Nama,Skor,Jenis_kelamin,Skor_per_dua,Skor_per_dua_ints,Skor_lambda,Gender_biner
0,Riyan,98,Laki-laki,49.0,49,49,1
1,Aaditya,89,Perempuan,44.5,44,44,0
2,Krisandus,99,Perempuan,49.5,49,49,0
3,Vexana,87,Laki-laki,43.5,43,43,1
4,Pandi,90,Laki-laki,45.0,45,45,1
5,Mikaela,83,Perempuan,41.5,41,41,0
6,Arsene,99,Perempuan,49.5,49,49,0


In [150]:
df1[df1['Jenis_kelamin'] == 'Perempuan'][['Nama', 'Skor']]

Unnamed: 0,Nama,Skor
1,Aaditya,89
2,Krisandus,99
5,Mikaela,83
6,Arsene,99


In [151]:
# Menggunakan fungsi .isin()
df1[df1['Jenis_kelamin'].isin(['Perempuan'])][['Nama', 'Skor']]

Unnamed: 0,Nama,Skor
1,Aaditya,89
2,Krisandus,99
5,Mikaela,83
6,Arsene,99
