# Pendahuluan

Bayangkan `pandas` seperti Microsoft Excel tetapi lebih powerful dengan banyaknya fitur yang bisa dimanfaatkan. Ada 2 tipe data untuk `pandas`, yaitu data series atau kita singkat dengan Series dan data frame.

# Series

Tipe data utama yang pertama kali akan kita pelajari adalah Series. Series mirip dengan Numpy array karena pada faktanya `pandas` dibangun berdasarkan Numpy array object. Yang membedakan Numpy array dengan Series adalah bahwa Series dapat memiliki label sumbu (*axis*), yang artinya suatu sampel data dapat diakses dengan label indeksnya, bukan hanya berdasarkan angka indeksnya. 

Kita mulai dengan memanggil pustaka `numpy` dan `pandas`:

In [1]:
import numpy as np
import pandas as pd

## Membuat Suatu Series

Kita dapat mengubah suatu `list`, `numpy array`, atau `dictionary` menjadi `Series`. Jalankan code di bawah ini:

In [2]:
labels = ['a','b','c']
my_list = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

### Menggunakan List

In [3]:
# cukup dengan menuliskan parameter input 'data' yang di assign dengan list yang sudah disiapkan
pd.Series(data=my_list)

0    10
1    20
2    30
dtype: int64

In [4]:
# bisa ditambahkan dengan parameter input 'index' untuk melabelkan setiap record datanya
pd.Series(data=my_list,index=labels)

a    10
b    20
c    30
dtype: int64

In [5]:
# secara default, 'data' dan 'index' adalah 2 parameter input pertama yang berurutan
# sehingga dua nama ini bisa saja tidak ditulis
pd.Series(my_list,labels)

a    10
b    20
c    30
dtype: int64

### Using NumPy Arrays

In [6]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int32

In [7]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int32

### Using Dictionaries

In [8]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

# Percobaan 1: 
buatlah Series dengan label nama prodi di Universitas Pertamina dengan (kira-kira) jumlah mahasiswa rata-rata dalam satu angkatan, dengan menggunakan `list`, `numpy array`, dan `dictionary`

In [78]:
# Jawab:
prodi = ["ilkom", "kimia","Elektro","Ekonomi"]
n_mhs = [40,30,20,50]
arr_n_mhs = np.array(n_mhs)
dic_n_mhs = {'ilkom':40,'kimia':30, 'Elektro':20, 'Ekonomi':50,}

# Dengan menggunakan 'list'
n_mhs_per_prodi = pd.Series(data=n_mhs,index =prodi)
print(n_mhs_per_prodi)

# Dengan menggunakan 'numpy array'
n_mhs_per_prodi = pd.Series(arr_n_mhs, prodi)
print(n_mhs_per_prodi)

# Dengan menggunakan 'dictionary'
n_mhs_per_prodi = pd.Series(dic_n_mhs)
print(n_mhs_per_prodi)

ilkom      40
kimia      30
Elektro    20
Ekonomi    50
dtype: int64
ilkom      40
kimia      30
Elektro    20
Ekonomi    50
dtype: int32
ilkom      40
kimia      30
Elektro    20
Ekonomi    50
dtype: int64


### Data Dalam Suatu Series

Suatu Series bisa menyimpan berbagai tipe objek:

In [9]:
# Perhatikan nilai 'dtype' sebagai tipe data di bawah ini
pd.Series(data=labels)

0    a
1    b
2    c
dtype: object

In [10]:
# Bahkan Series juga bisa menyimpan 'function' dan menjadikannya bertipe objek
pd.Series([sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

# Percobaan 2:
buat satu contoh Series dengan list data yang berisikan data dengan tipe `string`, `int`, `bool`, lalu perhatikan nilai dari `dtype`-nya setelah menjadi Series

In [49]:
a = [True, False, False, True]

In [50]:
b = [1,2,3,4]

In [51]:
# Jawab:
my_series = pd.Series(b)

In [52]:
type(my_series)

pandas.core.series.Series

In [53]:
my_series.dtype

dtype('int64')

## Menggunakan Index

Kunci untuk menggunakan Series adalah memahami indeksnya. `Pandas` menggunakan nama atau angka indeks ini agar memudahkan pencarian informasi dengan cepat (berfungsi seperti *hash table* atau *dictionary*).

Contoh, data nilai penjualan di beberapa negara:

In [11]:
# dataset penjualan pertama
sales_Q1 = pd.Series(data=[250,450,200,150],index = ['USA', 'China','India', 'Brazil'])
# lihat nilainya
print(sales_Q1)

USA       250
China     450
India     200
Brazil    150
dtype: int64


In [12]:
# dataset penjualan kedua
sales_Q2 = pd.Series([260,500,210,100],index = ['USA', 'China','India', 'Japan'])  
# lihat nilainya
print(sales_Q2)

USA      260
China    500
India    210
Japan    100
dtype: int64


In [13]:
# untuk mendapatkan nilai penjualan dari negara 'USA', 
# maka gunakan labelnya sebagai indeks
sales_Q1['USA']

250

In [14]:
# Perhatikan jika kita memberikan indeks dengan label yang salah,
# jenis error yang akan kita dapatkan adalah KEY ERROR! Contoh:
sales_Q1['Russia'] # nama yang salah

KeyError: 'Russia'

In [17]:
sales_Q1['USA '] # kesalahan karena ada spasi

250

In [16]:
# Beberapa operasi matematika juga berdasarkan indeks labelnya
sales_Q1 + sales_Q2

Brazil      NaN
China     950.0
India     410.0
Japan       NaN
USA       510.0
dtype: float64

# Percobaan 3:
dari Percobaan 1, berapakah jumlah rata-rata jumlah mahasiswa prodi ilmu komputer, elektro, dan ekonomi per angkaatan ?

In [80]:
# Jumlah Rata-rata Mahasiswa Prodi Ilmu Komputer per angkatan:

n_mhs_ilkom = n_mhs_per_prodi [0]

print(n_mhs_ilkom)

40


In [81]:
# Jumlah Rata-rata Mahasiswa Prodi Teknik Elektro per angkatan:
n_mhs_elektro = n_mhs_per_prodi[2]

print(n_mhs_elektro)

20


In [82]:
# Jumlah Rata-rata Mahasiswa Prodi Ekonomi per angkatan:
n_mhs_ekonomi = n_mhs_per_prodi[3]

print(n_mhs_ekonomi)

50


# Percobaan 4: 
buatlah dataset baru dalam bentuk Series yang berisikan (kira-kira) rata-rata jumlah lulusan per tahun dari setiap prodi di universitas pertamina, kemudian hitung sisa mahasiswa yang belum lulus per angkatan

In [88]:
# Jawab:
prodi = ["ilkom", "kimia","Elektro","Ekonomi","Sipil","GeoFisika","Geologi","Teknik Kimia","Lingkungan","Komunikasi","Hubungan Internasional","Minyak","Mesin","Management","Logistik"]
n_mhs = [40,30,20,50,40,60,30,20,40,35,63,56,70,32,65]
arr_n_mhs = np.array(n_mhs)
dic_n_mhs = pd.Series( {'ilkom':40,'kimia':30, 'Elektro':20, 'Ekonomi':50,'Sipil':40,'GeoFisika':60,'Geologi':30,'Tekinik Kimia':20,'Lingkungan':40,'Komunikasi':35,'Hubungan Internasional':63,'Minyak':56,'Mesin':70,'Management':32,'Logistik':65})


In [89]:
dic_lulus_mhs = pd.Series ({'ilkom':20,'kimia':10, 'Elektro':5, 'Ekonomi':30,'Sipil':20,'GeoFisika':30,'Geologi':15,'Tekinik Kimia':10,'Lingkungan':20,'Komunikasi':15,'Hubungan Internasional':33,'Minyak':26,'Mesin':35,'Management':22,'Logistik':25})


In [90]:
df_blm_lulus = dic_n_mhs - dic_lulus_mhs

print(df_blm_lulus)

ilkom                     20
kimia                     20
Elektro                   15
Ekonomi                   20
Sipil                     20
GeoFisika                 30
Geologi                   15
Tekinik Kimia             10
Lingkungan                20
Komunikasi                20
Hubungan Internasional    30
Minyak                    30
Mesin                     35
Management                10
Logistik                  40
dtype: int64


# DataFrames

`DataFrame` adalah tipe data yang paling sering digunakan yang terinspirasi dari bahasa pemrograman R. Kita dapat menganggap DataFrame seperti gabungan dari beberapa Series yang berbagi indeks yang sama 

In [18]:
# Kita akan memerlukan beberapa nilai integer yang dibuat secara acak
from numpy.random import randint

In [19]:
# Siapkan label baris dan kolom untuk dataset
columns = ['W', 'X', 'Y', 'Z'] # untuk 4 kolom
index = ['A', 'B', 'C', 'D', 'E'] # untuk 5 baris

In [20]:
# Membuat data acak dari seed tertentu agar data acaknya sama setiap kali dibuat
np.random.seed(99)
# matrix berukuran 5x4, dengan data random dari range -100 sampai 100
data = randint(-100,100,(5,4)) 
print(data)

[[ 29 -65  85  68]
 [-32  97  80  29]
 [ 51 -65 -45  93]
 [ 76 -41   7  30]
 [ 92  40  68 -80]]


In [21]:
# Membuat dataframe dari data di atas dan label yang sudah disiapkan
df = pd.DataFrame(data,index,columns)
print(df)

    W   X   Y   Z
A  29 -65  85  68
B -32  97  80  29
C  51 -65 -45  93
D  76 -41   7  30
E  92  40  68 -80


# Percobaan 5:
buatlah dataset berukuran 15 baris dan 5 kolom, berisikan data bertipe integer dengan nilai acak dari 20 hingga 100, dengan
label tiap baris adalah nama prodi di universitas pertamina, dan label tiap kolom adalah tahun 2016 hingga 2020

In [96]:
# Jawab:
index = ["ilkom", "kimia","Elektro","Ekonomi","Sipil","GeoFisika","Geologi","Teknik Kimia","Lingkungan","Komunikasi","Hubungan Internasional","Minyak","Mesin","Management","Logistik"] # untuk 4 kolom
columns = ['2016', '2017', '2018', '2019', '2020']

In [98]:
np.random.seed(22)
# matrix berukuran 5x4, dengan data random dari range -100 sampai 100
data = randint(20,100,(15,5)) 
data = pd.DataFrame(data,index,columns)
print(data)

                        2016  2017  2018  2019  2020
ilkom                     24    64    84    28    38
kimia                     34    65    59    54    61
Elektro                   28    60    25    47    54
Ekonomi                   49    58    39    39    86
Sipil                     27    47    43    43    31
GeoFisika                 33    72    95    67    21
Geologi                   67    78    80    68    79
Teknik Kimia              85    41    73    29    37
Lingkungan                72    23    31    49    87
Komunikasi                26    99    80    48    52
Hubungan Internasional    73    98    37    81    28
Minyak                    44    39    82    25    90
Mesin                     25    90    77    82    89
Management                20    82    69    38    83
Logistik                  71    91    53    96    60


# Selection dan Indexing
di sesi ini kita akan belajar beberapa metode untuk mengambil data dari DataFrame

## Kolom

In [22]:
# Contoh mengambil nilai dari satu kolom
df["X"]

A   -65
B    97
C   -65
D   -41
E    40
Name: X, dtype: int32

In [23]:
# Contoh mengambil nilai dari beberapa kolom
df[['W','Z']]

Unnamed: 0,W,Z
A,29,68
B,-32,29
C,51,93
D,76,30
E,92,-80


### Pertanyaan:
apa perbedaan tipe data dari hasil pengambilan satu kolom dan beberapa kolom di atas ? Hint: gunakan fungsi `type()`

In [29]:
# Jawab:


pandas.core.frame.DataFrame

In [25]:
# Contoh membuat kolom baru di DataFrame yang sudah ada
df['new'] = df['W'] + df['Y']
print(df)

    W   X   Y   Z  new
A  29 -65  85  68  114
B -32  97  80  29   48
C  51 -65 -45  93    6
D  76 -41   7  30   83
E  92  40  68 -80  160


In [26]:
# Contoh menghilangkan kolom
df.drop('new', axis=1) 
# Catatan: axis=1 karena untuk kolom. Coba hilangkan parameter axis dan lihat error apa yang dihasilkan

Unnamed: 0,W,X,Y,Z
A,29,-65,85,68
B,-32,97,80,29
C,51,-65,-45,93
D,76,-41,7,30
E,92,40,68,-80


In [27]:
# namun dataset aslinya tidak berubah
print(df)

    W   X   Y   Z  new
A  29 -65  85  68  114
B -32  97  80  29   48
C  51 -65 -45  93    6
D  76 -41   7  30   83
E  92  40  68 -80  160


In [28]:
# lakukan assignment untuk mengubah dataset secara permanen
df = df.drop('new',axis=1)
print(df)

    W   X   Y   Z
A  29 -65  85  68
B -32  97  80  29
C  51 -65 -45  93
D  76 -41   7  30
E  92  40  68 -80


# Percobaan 6:
dari percobaan 5, asumsikan datasetnya adalah dataset jumlah mahasiswa per tahun di setiap prodi di universitas pertamina. 
1. Tunjukkan jumlah mahasiswa tahun 2017
2. Tunjukkan jumlah mahasiswa tahun 2017 dan 2018
3. Buatlah satu kolom baru yang berisikan total mahasiswa dari tahun 2016 hingga 2020
4. Hilangkan kolom baru di atas

In [115]:
# Jawaban 1 :
df_3 = data["2017"]
print (df_3)
df = data["2017"].sum()
print("Total : ",df)



ilkom                     64
kimia                     65
Elektro                   60
Ekonomi                   58
Sipil                     47
GeoFisika                 72
Geologi                   78
Teknik Kimia              41
Lingkungan                23
Komunikasi                99
Hubungan Internasional    98
Minyak                    39
Mesin                     90
Management                82
Logistik                  91
Name: 2017, dtype: int32
Total :  1007


In [121]:
# Jawaban 2 :
df_3 = data["2017"]
print (df_3)
df_4 = data["2018"]
print (df_4)
df = data["2017"].sum()
print("Total : ",df)
df2 = data["2018"].sum()
print("Total : ",df2)


ilkom                     64
kimia                     65
Elektro                   60
Ekonomi                   58
Sipil                     47
GeoFisika                 72
Geologi                   78
Teknik Kimia              41
Lingkungan                23
Komunikasi                99
Hubungan Internasional    98
Minyak                    39
Mesin                     90
Management                82
Logistik                  91
Name: 2017, dtype: int32
ilkom                     84
kimia                     59
Elektro                   25
Ekonomi                   39
Sipil                     43
GeoFisika                 95
Geologi                   80
Teknik Kimia              73
Lingkungan                31
Komunikasi                80
Hubungan Internasional    37
Minyak                    82
Mesin                     77
Management                69
Logistik                  53
Name: 2018, dtype: int32
Total :  1007
Total :  927


In [130]:
# Jawaban 3 :
data['total'] = data["2016"] + data["2017"] + data["2018"] + data["2019"] + data["2020"]

print(data)

                        2016  2017  2018  2019  2020  total
ilkom                     24    64    84    28    38    238
kimia                     34    65    59    54    61    273
Elektro                   28    60    25    47    54    214
Ekonomi                   49    58    39    39    86    271
Sipil                     27    47    43    43    31    191
GeoFisika                 33    72    95    67    21    288
Geologi                   67    78    80    68    79    372
Teknik Kimia              85    41    73    29    37    265
Lingkungan                72    23    31    49    87    262
Komunikasi                26    99    80    48    52    305
Hubungan Internasional    73    98    37    81    28    317
Minyak                    44    39    82    25    90    280
Mesin                     25    90    77    82    89    363
Management                20    82    69    38    83    292
Logistik                  71    91    53    96    60    371


In [131]:
# Jawaban 4 :
data = data.drop('total',axis=1)
print(data)

                        2016  2017  2018  2019  2020
ilkom                     24    64    84    28    38
kimia                     34    65    59    54    61
Elektro                   28    60    25    47    54
Ekonomi                   49    58    39    39    86
Sipil                     27    47    43    43    31
GeoFisika                 33    72    95    67    21
Geologi                   67    78    80    68    79
Teknik Kimia              85    41    73    29    37
Lingkungan                72    23    31    49    87
Komunikasi                26    99    80    48    52
Hubungan Internasional    73    98    37    81    28
Minyak                    44    39    82    25    90
Mesin                     25    90    77    82    89
Management                20    82    69    38    83
Logistik                  71    91    53    96    60


# Baris

In [30]:
# Contoh memilih satu baris dengan nama labelnya, menggunakan `loc[]`
df.loc['A']

W    29
X   -65
Y    85
Z    68
Name: A, dtype: int32

In [31]:
# Contoh memilih beberapa baris
df.loc[['A','C']]

Unnamed: 0,W,X,Y,Z
A,29,-65,85,68
C,51,-65,-45,93


In [32]:
# Contoh memilih satu baris dengan angka indeksnya, menggunakan `iloc[]`
df.iloc[0]

W    29
X   -65
Y    85
Z    68
Name: A, dtype: int32

In [33]:
# Contoh memilih beberapa baris dengan angka indeksnya
df.iloc[0:2]

Unnamed: 0,W,X,Y,Z
A,29,-65,85,68
B,-32,97,80,29


In [34]:
# Contoh menghapus baris berdasarkan namanya
df.drop('C',axis=0) # catatan: axis=0 karena baris, tanpa menggunakan nilai ini juga bisa karena nilai defaultnya axis=0

Unnamed: 0,W,X,Y,Z
A,29,-65,85,68
B,-32,97,80,29
D,76,-41,7,30
E,92,40,68,-80


In [35]:
# namun dataset aslinya tidak berubah tanpa assignment
print(df)

    W   X   Y   Z
A  29 -65  85  68
B -32  97  80  29
C  51 -65 -45  93
D  76 -41   7  30
E  92  40  68 -80


In [36]:
# Contoh memilih himpunan bagian (subset) dari baris dan kolom secara bersamaan
df.loc[['A','C'],['W','Y']]

Unnamed: 0,W,Y
A,29,85
C,51,-45


# Percobaan 7:
dari percobaan 5, asumsikan datasetnya adalah dataset jumlah mahasiswa per tahun di setiap prodi di universitas pertamina. 
1. Tunjukkan jumlah mahasiswa prodi ilmu komputer tiap tahunnya
2. Tunjukkan jumlah mahasiswa prodi ilmu komputer dan teknik elektro tiap tahunnya
3. Tunjukkan jumlah mahasiswa prodi ilmu komputer dan teknik elektro tahun 2017 dan 2018

In [132]:
# jawaban 1:
data.iloc[0:1]

Unnamed: 0,2016,2017,2018,2019,2020
ilkom,24,64,84,28,38


In [133]:
# jawaban 2: 
data.loc[['ilkom','Elektro']]

Unnamed: 0,2016,2017,2018,2019,2020
ilkom,24,64,84,28,38
Elektro,28,60,25,47,54


In [134]:
# jawaban 3:
data.loc[['ilkom','Elektro'],["2017","2018"]]

Unnamed: 0,2017,2018
ilkom,64,84
Elektro,60,25


# Conditional Selection
seperti `numpy`, kita bisa memilih data dengan kondisi tertentu dengan menggunakan operator komparasi

In [37]:
# lihat dataset
df

Unnamed: 0,W,X,Y,Z
A,29,-65,85,68
B,-32,97,80,29
C,51,-65,-45,93
D,76,-41,7,30
E,92,40,68,-80


In [38]:
# apakah nilainya positif ?
df > 0

Unnamed: 0,W,X,Y,Z
A,True,False,True,True
B,False,True,True,True
C,True,False,False,True
D,True,False,True,True
E,True,True,True,False


In [39]:
# tunjukkan data yang bernilai positif
df[df>0]

Unnamed: 0,W,X,Y,Z
A,29.0,,85.0,68.0
B,,97.0,80.0,29.0
C,51.0,,,93.0
D,76.0,,7.0,30.0
E,92.0,40.0,68.0,


In [40]:
# apakah data pada kolom X yang bernilai positif
df['X']>0

A    False
B     True
C    False
D    False
E     True
Name: X, dtype: bool

In [41]:
# tunjukkan data pada kolom X yang bernilai positif
df[df['X']>0]

Unnamed: 0,W,X,Y,Z
B,-32,97,80,29
E,92,40,68,-80


In [42]:
# tunjukkan kolom Y saat data pada kolom X bernilai positif
df[df['X']>0]['Y']

B    80
E    68
Name: Y, dtype: int32

In [43]:
# tunjukkan kolom Y dan Z saat data pada kolom X bernilai positif
df[df['X']>0][['Y','Z']]

Unnamed: 0,Y,Z
B,80,29
E,68,-80


In [44]:
# untuk dua kondisi, kita bisa gunakan operator & sebagai logika AND 
# dan operator | sebagai logika OR 
# semua dengan tanda kurung. Contoh:
df[(df['W']>0) & (df['Y'] > 1)]

Unnamed: 0,W,X,Y,Z
A,29,-65,85,68
D,76,-41,7,30
E,92,40,68,-80


# Percobaan 8:
dari percobaan 5, asumsikan datasetnya adalah dataset jumlah mahasiswa per tahun di setiap prodi di universitas pertamina. 
1. Tunjukkan prodi yang jumlah mahasiswanya lebih dari 40 pada tahun 2017 (jika tidak ada, ganti 40 dengan 30)
2. Tunjukkan jumlah mahasiswa tahun 2018 dan 2019 saat jumlah mahasiswa pada tahun 2017 lebih dari 40 (jika tidak ada, ganti 40 dengan 30)
3. Tunjukkan prodi apa saja yang pada tahun 2016 berjumlah lebih dari 30 dan pada tahun 2018 kurang dari 60

In [135]:
# Jawaban 1:
data[data>40]["2017"]

ilkom                     64.0
kimia                     65.0
Elektro                   60.0
Ekonomi                   58.0
Sipil                     47.0
GeoFisika                 72.0
Geologi                   78.0
Teknik Kimia              41.0
Lingkungan                 NaN
Komunikasi                99.0
Hubungan Internasional    98.0
Minyak                     NaN
Mesin                     90.0
Management                82.0
Logistik                  91.0
Name: 2017, dtype: float64

In [136]:
# Jawaban 2:
data[data["2017"]<40][["2018","2019"]]

Unnamed: 0,2018,2019
Lingkungan,31,49
Minyak,82,25


In [137]:
# Jawaban 3:
data[(data["2016"]>30) & (data["2018"]<60)]

Unnamed: 0,2016,2017,2018,2019,2020
kimia,34,65,59,54,61
Ekonomi,49,58,39,39,86
Lingkungan,72,23,31,49,87
Hubungan Internasional,73,98,37,81,28
Logistik,71,91,53,96,60
