
# Praktikum 1 - Pengenalan Dasar Data Processing dengan Numpy dan Pandas #  

Pada praktikum kali ini, kita akan mengenal beberapa tool yang sangat berguna untuk data processing. Ada dua tool yang akan dijelaskan yaitu: Numpy dan Pandas.  

**Overview:**  
1. **Deskripsi Numpy dan Pandas**
1. **Contoh Penggunaan Numpy**
  1. Operasi matematik
  1. Operasi Vektor/Matriks
  1. Slicing Array/Matrix
  1. Array Manipulation  
1. **Contoh Penggunaan Pandas**
  1. Membaca dan Menulis file csv
  1. Indexing, Selecting, dan Assigning
  1. Data type
  1. Renaming
1. **Post Test Praktikum**


## 1. Deskripsi Numpy dan Pandas ## 

### Numpy ###

Numpy merupakan suatu library dalam bahasa Python yang berfungsi untuk mengolah data numerik. Kepanjangan dari Numpy adalah Numerical Python. Dengan Numpy, banyak sekali yang bisa kita lakukan, misalnya: operasi matematik, operasi pada vektor/matriks, slicing data, manipulasi array, dan sebagainya.  

### Pandas ###  

Sederhananya, pandas dipakai untuk pengolahan **data terstuktur**. Apa saja yang bisa kita lakukan dengan pandas? Jawabnya ya banyak sekali. Diantaranya adalah eksplorasi data (data exploration), membersihkan data (data cleansing), dan data processing. Pandas memiliki struktur data table yang dinamakan sebagai **Data Frame**.  

## 2. Contoh Penggunaan Numpy ##  

### A. Operasi Matematik ###  

In [None]:
import numpy as np

# penjumlahan
a, b = 3, 4
c = np.add(a,b)
print("Jumlah dari a + b adalah",c)

# pengurangan
c = np.subtract(a,b)
print("Pengurangan dari a - b adalah",c)

# perkalian
c = np.multiply(a,b)
print("Perkalian dari a * b adalah",c)

# pembagian
c = np.divide(3,4)
print("Pembagian dari a / b adalah",c)

# eksponensial
c = np.exp(a) # exp adalah bilangan natural Euler. Nilai dari e adalah 2.718...
print("Hasil e^a adalah",c)

# logaritmik alami atau ln
c = np.log(b)
print("Ln b adalah",c)

# logaritmik basis 10
c = np.log10(100)
print("Log 100 adalah",c)

### B. Operasi Vektor/Matriks ###  

In [None]:
# membuat vektor
A = np.array([1,2,3]) # vektor baris 1x3
print("Vektor A",A)

# membuat matriks 2 dimensi dengan ukuran 3x3
B = np.array([
    [1,2,1],
    [2,1,3],
    [3,2,2]
])

print("Matriks B",B)

# penjumlahan vektor/matriks
C = np.add(A,B)
print(C)

# inisiasi array
A = np.zeros((3,4)) # membuat matriks dengan ukuran 3x4 di mana setiap elemen bernilai nol
print(A)
A = np.ones((3,4)) # membuat matriks dengan ukuran 3x4 di mana setiap elemen bernilai 1
print(A)

# Matriks Tranpose
BT = np.transpose(B)
print(BT)
# atau
BT = B.T
print(BT)


### C. Slicing Array/Matrix ###  

In [None]:
# mengakses elemen dari vektor/matriks
A = np.array([1,2,3])
a = A[2] # angka 2 adalah indeks. Indeks dimulai dari 0
# print("Elemen ke-2 dari vektor A adalah",a)
 
B = np.array([
    [1,2,1],
    [2,1,3],
    [3,2,2]
])

# karena B adalah matriks 2 dimensi, maka untuk mengakses suatu elemen 
# membutuhakan 2 parameter yaitu baris dan kolom
x = B[0,2] # baris ke-0 berisi [1,2,1], kolom ke-2 dari baris ke-0 adalah 1
# print(x)

# Slicing array 
x = A[0:2]
# print(x)

# memilih semua elemen sebanyak pada baris ke 0
x = B[:1] 
print(x)

### D. Array Manipulation ###

In [None]:
# mengubah matriks 2 dimensi ke vektor
vB = B.ravel()
print(vB)

D = np.array([
    [1,2,1],
    [2,1,3],
    [3,2,2],
    [4,5,6]
])

# mengubah bentuk array
vC = D.reshape(6, 2) # mengubah bentuk array dari 3x4 menjadi 6x2
print(vC)

# mengubah bentuk array ke vektor 1D
vC = D.reshape(1, -1) # sama dengan ravel()
print(vC)

## 3. Contoh Penggunaan Pandas ##

### A. Membaca dan menulis file csv ###

In [None]:
import pandas as pd

# membaca file
data = pd.read_csv('../input/harga-rumah-2/harga_rumah.csv') # membaca file csv
data.head() # .head() berfungsi untuk menampilkan top 5 data


In [None]:
# menulis file
df = pd.DataFrame({
    'nama': ['Budi', 'Siti'],
    'jenis': ['Laki-laki', 'Perempuan'],
    'usia': [22, 21]
})

# sebaiknya dikerjakan di komputer/PC local
# df.to_csv('../input/harga-rumah/fileku.csv',index=False)

### B. Indexing, Selecting, dan Assigning ###

In [None]:
# membaca salah satu kolom berdasarkan nama kolom
df = pd.DataFrame(data)
print(df.jml_lantai) 
print(df['jml_lantai']) 

# membaca baris pertama saja
print(df.iloc[0])

# membaca semua baris pada kolom tertentu berdasarkan index
print(df.iloc[:,1]) # iloc[:,1] -> tanda : artinya semua baris, 1 artinya index kolom ke-1

# membuat kolom tertentu untuk mengambil sisa kolom yang lain
# axis = 1 artinya hanya mengambil kolom
# bentuk dari X adalah matriks 2D
X = df.drop(['harga'],axis=1) 
print(X.head())

### C. Data type ###  

Di sini, kita akan belajar beberapa hal, yaitu:  
1. Melihat tipe data
1. Konversi tipe data
1. Mencari data NaN. NaN singkatan dari Not a Number. NaN akan menyebabkan error saat data preprocessing jika dalam suatu kolom tipe datanya tidak seragam
1. Mehandle NaN

In [None]:
# melihat tipe data dari suatu kolom
print(df.jml_lantai.dtype)
print(df.harga.dtype)

# melihat tipe data semua kolom/atribut
print(df.dtypes)

# konvert tipe data pada kolom tertentu
# tipe data jml_lantai sebelumnya adalah int64
# di sini akan diconvert ke float64
print(df.jml_lantai.astype('float64'))


In [None]:
# mencari data yang NaN
# NaN kepanjangan dari Not a Number
tmp = pd.DataFrame({
    'nama': ['Budi', 'Siti','Agus'],
    'jenis': ['Laki-laki', 'Perempuan','Laki-laki'],
    'usia': [22, 21,np.nan]
})

# cek yang mengandung NaN pada kolom usia
print(tmp[pd.isnull(tmp.usia)])


### D. Renaming Column ###  

Seringkali, kita akan mendapati dataset yang memiliki header label. Akan tetapi, kadang juga kita mendapati dataset yang tidak memiliki header label. Untuk kasus data tanpa label, di sini kita bisa **memberi label/header** pada dataset yang kita miliki.  

In [None]:
# mengubah nama kolom

df = df.rename(columns={'jml_lantai':'lantai'})
df.head()

## 4. Post-test Praktikum ##
Petunjuk: Jawab soal-soal berikut ini dengan membuat program Python:  
Diketahui:  
$ A=
         \left[
         \begin{matrix}
           1 & 2 & 3 \\
           4 & 5 & 6 \\
           7 & 8 & 9
          \end{matrix}
          \right]
        $ dan $ B = 
         \left[
         \begin{matrix}
           1 & 2 & 3 \\
           4 & 5 & 6 \\
           7 & 8 & 9
          \end{matrix}
          \right]$
1. Berapakah A + B? Munculkan hasilnya (poin 25)
1. Berapakah A x B? Munculkan hasilnya (poin 25)
1. Baca file harga_rumah.csv dan dapatkan kolom harga saja. Munculkan hasilnya (poin 25)
1. Baca file harga_rumah.csv dan buang kolom harga. Munculkan hasilnya (poin 25)