# Pendahuluan

Bayangkan `pandas` seperti Microsoft Excel tetapi lebih powerful dengan banyaknya fitur yang bisa dimanfaatkan. Ada 2 tipe data untuk `pandas`, yaitu data series atau kita singkat dengan Series dan data frame.

# Series

Tipe data utama yang pertama kali akan kita pelajari adalah Series. Series mirip dengan Numpy array karena pada faktanya `pandas` dibangun berdasarkan Numpy array object. Yang membedakan Numpy array dengan Series adalah bahwa Series dapat memiliki label sumbu (*axis*), yang artinya suatu sampel data dapat diakses dengan label indeksnya, bukan hanya berdasarkan angka indeksnya. 

Kita mulai dengan memanggil pustaka `numpy` dan `pandas`:

In [1]:
import numpy as np
import pandas as pd

## Membuat Suatu Series

Kita dapat mengubah suatu `list`, `numpy array`, atau `dictionary` menjadi `Series`. Jalankan code di bawah ini:

In [2]:
labels = ['a','b','c']
my_list = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

### Menggunakan List

In [3]:
# cukup dengan menuliskan parameter input 'data' yang di assign dengan list yang sudah disiapkan
pd.Series(data=my_list)

0    10
1    20
2    30
dtype: int64

In [4]:
# bisa ditambahkan dengan parameter input 'index' untuk melabelkan setiap record datanya
pd.Series(data=my_list,index=labels)

a    10
b    20
c    30
dtype: int64

In [5]:
# secara default, 'data' dan 'index' adalah 2 parameter input pertama yang berurutan
# sehingga dua nama ini bisa saja tidak ditulis
pd.Series(my_list,labels)

a    10
b    20
c    30
dtype: int64

### Using NumPy Arrays

In [6]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int64

In [7]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int64

### Using Dictionaries

In [8]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

# Percobaan 1: 
buatlah Series dengan label nama prodi di Universitas Pertamina dengan (kira-kira) jumlah mahasiswa rata-rata dalam satu angkatan, dengan menggunakan `list`, `numpy array`, dan `dictionary`

In [None]:
# Jawab:
prodi = ["ilkom", "kimia"]
n_mhs = [40,30]
arr_n_mhs = np.array(n_mhs)
dic_n_mhs = {___}

# Dengan menggunakan 'list'
n_mhs_per_prodi = ____
print(n_mhs_per_prodi)

# Dengan menggunakan 'numpy array'
n_mhs_per_prodi = ____
print(n_mhs_per_prodi)

# Dengan menggunakan 'dictionary'
n_mhs_per_prodi = ____
print(n_mhs_per_prodi)

### Data Dalam Suatu Series

Suatu Series bisa menyimpan berbagai tipe objek:

In [None]:
# Perhatikan nilai 'dtype' sebagai tipe data di bawah ini
pd.Series(data=labels)

In [None]:
# Bahkan Series juga bisa menyimpan 'function' dan menjadikannya bertipe objek
pd.Series([sum,print,len])

# Percobaan 2:
buat satu contoh Series dengan list data yang berisikan data dengan tipe `string`, `int`, `bool`, lalu perhatikan nilai dari `dtype`-nya setelah menjadi Series

In [13]:
a = [True, False, False, True]

In [20]:
b = [1,2,3,4]

In [21]:
# Jawab:
my_series = pd.Series(b)

In [22]:
type(my_series)

pandas.core.series.Series

In [23]:
my_series.dtype

dtype('int64')

## Menggunakan Index

Kunci untuk menggunakan Series adalah memahami indeksnya. `Pandas` menggunakan nama atau angka indeks ini agar memudahkan pencarian informasi dengan cepat (berfungsi seperti *hash table* atau *dictionary*).

Contoh, data nilai penjualan di beberapa negara:

In [None]:
# dataset penjualan pertama
sales_Q1 = pd.Series(data=[250,450,200,150],index = ['USA', 'China','India', 'Brazil'])
# lihat nilainya
print(sales_Q1)

In [None]:
# dataset penjualan kedua
sales_Q2 = pd.Series([260,500,210,100],index = ['USA', 'China','India', 'Japan'])  
# lihat nilainya
print(sales_Q2)

In [None]:
# untuk mendapatkan nilai penjualan dari negara 'USA', 
# maka gunakan labelnya sebagai indeks
sales_Q1['USA']

In [None]:
# Perhatikan jika kita memberikan indeks dengan label yang salah,
# jenis error yang akan kita dapatkan adalah KEY ERROR! Contoh:
sales_Q1['Russia'] # nama yang salah

In [None]:
sales_Q1['USA '] # kesalahan karena ada spasi

In [None]:
# Beberapa operasi matematika juga berdasarkan indeks labelnya
sales_Q1 + sales_Q2

# Percobaan 3:
dari Percobaan 1, berapakah jumlah rata-rata jumlah mahasiswa prodi ilmu komputer, elektro, dan ekonomi per angkaatan ?

In [None]:
# Jumlah Rata-rata Mahasiswa Prodi Ilmu Komputer per angkatan:
n_mhs_ilkom = n_mhs_per_prodi[___]

In [None]:
# Jumlah Rata-rata Mahasiswa Prodi Teknik Elektro per angkatan:
n_mhs_elektro = ___[___]

In [None]:
# Jumlah Rata-rata Mahasiswa Prodi Ekonomi per angkatan:
___ = ___[___]

# Percobaan 4: 
buatlah dataset baru dalam bentuk Series yang berisikan (kira-kira) rata-rata jumlah lulusan per tahun dari setiap prodi di universitas pertamina, kemudian hitung sisa mahasiswa yang belum lulus per angkatan

In [None]:
# Jawab:
___

# DataFrames

`DataFrame` adalah tipe data yang paling sering digunakan yang terinspirasi dari bahasa pemrograman R. Kita dapat menganggap DataFrame seperti gabungan dari beberapa Series yang berbagi indeks yang sama 

In [None]:
# Kita akan memerlukan beberapa nilai integer yang dibuat secara acak
from numpy.random import randint

In [None]:
# Siapkan label baris dan kolom untuk dataset
columns = ['W', 'X', 'Y', 'Z'] # untuk 4 kolom
index = ['A', 'B', 'C', 'D', 'E'] # untuk 5 baris

In [None]:
# Membuat data acak dari seed tertentu agar data acaknya sama setiap kali dibuat
np.random.seed(99)
# matrix berukuran 5x4, dengan data random dari range -100 sampai 100
data = randint(-100,100,(5,4)) 
print(data)

In [None]:
# Membuat dataframe dari data di atas dan label yang sudah disiapkan
df = pd.DataFrame(data,index,columns)
print(df)

# Percobaan 5:
buatlah dataset berukuran 15 baris dan 5 kolom, berisikan data bertipe integer dengan nilai acak dari 20 hingga 100, dengan
label tiap baris adalah nama prodi di universitas pertamina, dan label tiap kolom adalah tahun 2016 hingga 2020

In [None]:
# Jawab:
___

# Selection dan Indexing
di sesi ini kita akan belajar beberapa metode untuk mengambil data dari DataFrame

## Kolom

In [None]:
# Contoh mengambil nilai dari satu kolom
df["X"]

In [None]:
# Contoh mengambil nilai dari beberapa kolom
df[['W','Z']]

### Pertanyaan:
apa perbedaan tipe data dari hasil pengambilan satu kolom dan beberapa kolom di atas ? Hint: gunakan fungsi `type()`

In [None]:
# Jawab:
___

In [None]:
# Contoh membuat kolom baru di DataFrame yang sudah ada
df['new'] = df['W'] + df['Y']
print(df)

In [None]:
# Contoh menghilangkan kolom
df.drop('new', axis=1) 
# Catatan: axis=1 karena untuk kolom. Coba hilangkan parameter axis dan lihat error apa yang dihasilkan

In [None]:
# namun dataset aslinya tidak berubah
print(df)

In [None]:
# lakukan assignment untuk mengubah dataset secara permanen
df = df.drop('new',axis=1)
print(df)

# Percobaan 6:
dari percobaan 5, asumsikan datasetnya adalah dataset jumlah mahasiswa per tahun di setiap prodi di universitas pertamina. 
1. Tunjukkan jumlah mahasiswa tahun 2017
2. Tunjukkan jumlah mahasiswa tahun 2017 dan 2018
3. Buatlah satu kolom baru yang berisikan total mahasiswa dari tahun 2016 hingga 2020
4. Hilangkan kolom baru di atas

In [None]:
# Jawaban 1 :
___

In [None]:
# Jawaban 2 :
___

In [None]:
# Jawaban 3 :
___

In [None]:
# Jawaban 4 :
___

# Baris

In [None]:
# Contoh memilih satu baris dengan nama labelnya, menggunakan `loc[]`
df.loc['A']

In [None]:
# Contoh memilih beberapa baris
df.loc[['A','C']]

In [None]:
# Contoh memilih satu baris dengan angka indeksnya, menggunakan `iloc[]`
df.iloc[0]

In [None]:
# Contoh memilih beberapa baris dengan angka indeksnya
df.iloc[0:2]

In [None]:
# Contoh menghapus baris berdasarkan namanya
df.drop('C',axis=0) # catatan: axis=0 karena baris, tanpa menggunakan nilai ini juga bisa karena nilai defaultnya axis=0

In [None]:
# namun dataset aslinya tidak berubah tanpa assignment
print(df)

In [None]:
# Contoh memilih himpunan bagian (subset) dari baris dan kolom secara bersamaan
df.loc[['A','C'],['W','Y']]

# Percobaan 7:
dari percobaan 5, asumsikan datasetnya adalah dataset jumlah mahasiswa per tahun di setiap prodi di universitas pertamina. 
1. Tunjukkan jumlah mahasiswa prodi ilmu komputer tiap tahunnya
2. Tunjukkan jumlah mahasiswa prodi ilmu komputer dan teknik elektro tiap tahunnya
3. Tunjukkan jumlah mahasiswa prodi ilmu komputer dan teknik elektro tahun 2017 dan 2018

In [None]:
# jawaban 1:
___

In [None]:
# jawaban 2: 
___

In [None]:
# jawaban 3:
___

# Conditional Selection
seperti `numpy`, kita bisa memilih data dengan kondisi tertentu dengan menggunakan operator komparasi

In [None]:
# lihat dataset
df

In [None]:
# apakah nilainya positif ?
df > 0

In [None]:
# tunjukkan data yang bernilai positif
df[df>0]

In [None]:
# apakah data pada kolom X yang bernilai positif
df['X']>0

In [None]:
# tunjukkan data pada kolom X yang bernilai positif
df[df['X']>0]

In [None]:
# tunjukkan kolom Y saat data pada kolom X bernilai positif
df[df['X']>0]['Y']

In [None]:
# tunjukkan kolom Y dan Z saat data pada kolom X bernilai positif
df[df['X']>0][['Y','Z']]

In [None]:
# untuk dua kondisi, kita bisa gunakan operator & sebagai logika AND 
# dan operator | sebagai logika OR 
# semua dengan tanda kurung. Contoh:
df[(df['W']>0) & (df['Y'] > 1)]

# Percobaan 8:
dari percobaan 5, asumsikan datasetnya adalah dataset jumlah mahasiswa per tahun di setiap prodi di universitas pertamina. 
1. Tunjukkan prodi yang jumlah mahasiswanya lebih dari 40 pada tahun 2017 (jika tidak ada, ganti 40 dengan 30)
2. Tunjukkan jumlah mahasiswa tahun 2018 dan 2019 saat jumlah mahasiswa pada tahun 2017 lebih dari 40 (jika tidak ada, ganti 40 dengan 30)
3. Tunjukkan prodi apa saja yang pada tahun 2016 berjumlah lebih dari 30 dan pada tahun 2018 kurang dari 60

In [None]:
# Jawaban 1:
___

In [None]:
# Jawaban 2:
___

In [None]:
# Jawaban 3:
___