# Indexing & Transformasi Data
by Arif Laksito<br />
arif.laksito@amikom.ac.id

In [59]:
# Persiapan membuat data
import pandas as pd
import random

pelajaran = ['Matematika', 'Fisika', 'Biologi', 'Kimia', 'Geologi', 'Ekonomi']
kelas = ['12A', '12B', '12C', '12D']

hasil_nilai = {
    'siswa_id' : range(1, 21),
    'pelajaran' : [random.choice(pelajaran) for i in range(20)],
    'nilai' : [random.choice(range(0, 100)) for i in range(20)],
    'jenis-kelamin' : [random.choice(['laki-laki', 'perempuan']) for i in range(20)],
    'kelas' : [random.choice(kelas) for i in range(20)]
}

df = pd.DataFrame(hasil_nilai)
df

Unnamed: 0,siswa_id,pelajaran,nilai,jenis-kelamin,kelas
0,1,Geologi,78,perempuan,12B
1,2,Biologi,38,perempuan,12A
2,3,Biologi,83,perempuan,12D
3,4,Geologi,24,perempuan,12B
4,5,Geologi,49,laki-laki,12C
5,6,Geologi,34,perempuan,12B
6,7,Kimia,21,perempuan,12C
7,8,Geologi,97,perempuan,12A
8,9,Ekonomi,62,perempuan,12A
9,10,Biologi,55,laki-laki,12A


<h2>Soal 1: Indexing</h2>

1. Lakukan indexing terhadap dataframe untuk mengakses column nilai dan kelas saja
2. Lakukan indexing terhadap dataframe untuk mengakses row 5 sampai 10 beserta column pelajaran dan nilai

In [60]:
# code here
# 1.1 indexing terhadap dataframe untuk mengakses column nilai dan kelas saja
df_nilai_kelas = df[{'nilai','kelas'}]
df_nilai_kelas.head()

Unnamed: 0,kelas,nilai
0,12B,78
1,12A,38
2,12D,83
3,12B,24
4,12C,49


In [61]:
# 1.2 indexing terhadap dataframe untuk mengakses row 5 sampai 10 beserta column pelajaran dan nilai
df_pelj_nilai = df[{'pelajaran','nilai'}]
df_pelj_nilai.iloc[5:11]

Unnamed: 0,pelajaran,nilai
5,Geologi,34
6,Kimia,21
7,Geologi,97
8,Ekonomi,62
9,Biologi,55
10,Kimia,91


<h2>Soal 2: Filter DataFrame Dengan Boolean</h2>

1. Tampilkan semua data siswa pada mata pelajaran Ekonomi dan Fisika
2. Tampilkan semua data siswa yang mempunyai nilai lebih dari 50 di mata pelajaran Kimia 
3. Tampilkan semua data yang mempunyai nilai lebih dari 70, berjnis kelamin perempuan dan di kelas 12C

In [62]:
# code here
# 2.1 data siswa pada mata pelajaran Ekonomi dan Fisika
fisika = df['pelajaran'] == 'Fisika'
ekonomi = df['pelajaran'] == 'Ekonomi'
df[fisika | ekonomi]

Unnamed: 0,siswa_id,pelajaran,nilai,jenis-kelamin,kelas
8,9,Ekonomi,62,perempuan,12A
11,12,Ekonomi,65,laki-laki,12B
17,18,Ekonomi,61,perempuan,12C


In [63]:
# 2.2 data siswa yang mempunyai nilai lebih dari 50 di mata pelajaran Kimia
kimia = df['pelajaran'] == 'Kimia'
nilai50 = df['nilai'] > 50
df[kimia & nilai50]

Unnamed: 0,siswa_id,pelajaran,nilai,jenis-kelamin,kelas
10,11,Kimia,91,perempuan,12B


In [64]:
# 2.3 data yang mempunyai nilai lebih dari 70, berjenis kelamin perempuan dan di kelas 12C
perempuan = df['jenis-kelamin'] == 'perempuan'
nilai70 = df['nilai'] > 70
kelas12C = df['kelas'] == '12C'
df[perempuan & nilai70 & kelas12C]

Unnamed: 0,siswa_id,pelajaran,nilai,jenis-kelamin,kelas
19,20,Biologi,92,perempuan,12C


<h2>Soal 3: Data Transformation</h2>

lakukan data transformasi terhadap column 'nilai' dengan fungsi transformasi, berikut rumus dari normalisasi

![alt text](https://drive.google.com/uc?id=1wed-EbRSTA0JP1ceDp6lcKBqH2yJ4aa3)

In [65]:
# code here
def normalize(x):
    a = x - x.min()
    b = x.max() - x.min()
    return a/b

In [67]:
print(df[['nilai']].apply(normalize))

       nilai
0   0.791209
1   0.351648
2   0.846154
3   0.197802
4   0.472527
5   0.307692
6   0.164835
7   1.000000
8   0.615385
9   0.538462
10  0.934066
11  0.648352
12  0.296703
13  0.000000
14  0.406593
15  0.780220
16  0.395604
17  0.604396
18  0.461538
19  0.945055
