# **Preprocessing** with NumPy

In [2]:
import numpy as np

**FUNFACT!**  
Untuk mengetahui dimensi array bisa dilakukan dengan melihat jumlah kurung siku di awal atau di akhir array

## **Checking** for Missing Values

### Cara **Pertama** menggunakan **loadtxt**  
fungsi ini akan *crash* jika file yang di load memiliki data yang NaN atau tidak punya value

In [2]:
lending_co_data_numeric = np.loadtxt("Lending-company-Numeric.csv", delimiter = ',')

## If np.loadtxt() compiles first time, the dataset consists of only numeric values and has no missing data. 

### Cara **Kedua** menggunakan **sum** setelah *genfromtxt*  
genfromtxt tetap membaca semua data walaupun file tersebut memiliki data yang NaN atau tidak punya value

In [6]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-company-Numeric-NAN.csv", delimiter = ';')

Setelah datanya berhasil di generate, kita menggunakan *np.isnan* dan *sum* untuk menghitung jumlah NaN

In [8]:
np.isnan(lending_co_data_numeric_NAN).sum()

260

## **Substituting** Missing Value

Untuk mengganti NaN dalam sebuah file yang berisi angka semua, ada berbagai konvensi yang bisa diikuti  
1. Dengan angka **0**  
2. Dengan **angka yang lebih besar dari nilai paling tinggi** suatu file  
3. Dengan **mean** suatu file
4. Bertanya ke analis lain, konvensi perusahaan seperti apa (paling disarankan)

### Dengan **0**

Kita tidak tahu apakah data yang diganti 0 sangat bernilai dan berdampak pada perhitungan atau tidak  
Karena itu konvensi ini kurang disarankan  
Dengan fungsi **filling_values** = 0

In [9]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-company-Numeric-NAN.csv", 
                                            delimiter = ';',
                                            filling_values = 0)

## Filling_values substitutes every nan with the value we're passing (0 in this case)

Maka total NaN di file tersebut menjadi 0

In [10]:
np.isnan(lending_co_data_numeric_NAN).sum()

## All the previously missing values are now 0s.

0

> **Reimport Dataset** untuk contoh berikutnya

In [12]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-company-Numeric-NAN.csv", 
                                            delimiter = ';') 

# We need to reimport the dataset since all the missing values are filled up. 

### Dengan **angka yang lebih besar dari nilai paling tinggi** suatu file  

Konvensi ini memudahkan kita untuk melihat ***outliers*** nantinya saat proses visualisasi. Karena setelah dilakukan, NaN akan termasuk outliers.  
Namun kita tetap tidak mengetahui apakah hal ini berdampak pada proses penghitungan. Maka cara ini juga kurang disarankan

In [13]:
temporary_fill = np.nanmax(lending_co_data_numeric_NAN).round(2) + 1

# We use nanmax(), since max() returns nan. 
# Jika angkanya desimal, round(2) adalah konvensi untuk membulatkannya menjadi 2 desimal saja.
# + 1 agar angka yang dihasilkan memang lebih besar dari nilai maksimum file tersebut

In [14]:
temporary_fill

64002.0

Setelah itu, **filling_values** kita isi dengan hasil nanmax tersebut

In [15]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-company-Numeric-NAN.csv", 
                                            delimiter = ';',
                                            filling_values = temporary_fill) 

# Filling up all the missing values with the temporary filler. 

In [16]:
np.isnan(lending_co_data_numeric_NAN)  # Cek apakah masih ada yang NaN?

array([[False, False, False, False, False, False],
       [False, False, False, False, False, False],
       [False, False, False, False, False, False],
       ...,
       [False, False, False, False, False, False],
       [False, False, False, False, False, False],
       [False, False, False, False, False, False]])

In [17]:
np.isnan(lending_co_data_numeric_NAN).sum()

0

> **Reimport Dataset** untuk contoh berikutnya

In [15]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';')
lending_co_data_numeric_NAN

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [   nan,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

### Dengan **mean** suatu file

Konvensi ini **paling disarankan**. Karena NaN tidak akan mempengaruhi hasil perhitungan dan visualisasi

In [10]:
temporary_mean = np.nanmean(lending_co_data_numeric_NAN, axis = 0).round(2)

## axis = 0 berarti mean untuk masing-masing kolom.  

In [11]:
temporary_mean[0]

# Kita cek mean kolom pertama berapa, untuk sanity check aja. 
# Lihat kolom pertama secara sekilas di preview. Masih masuk akal ga meannya segitu untuk kolom pertama? 

2250.25

Karena mean setiap kolom berbeda, **semua NaN harus diganti menjadi *unique value* terlebih dahulu**  
Paling aman adalah menggantinya dengan *angka yang lebih besar dari nilai maksimal suatu file*

In [22]:
temporary_fill = np.nanmax(lending_co_data_numeric_NAN).round(2) + 1

lending_co_data_numeric_NAN = np.genfromtxt("Lending-company-Numeric-NAN.csv",
                                            delimiter = ';',
                                            filling_values = temporary_fill)

## Creating a unique filler and using it to take care of all the missing values.

Baru bisa menggunakan **np.where** ( ) dan pengulangan **for**

In [28]:
for i in range(lending_co_data_numeric_NAN.shape[1]):        
    lending_co_data_numeric_NAN[:,i] = np.where(lending_co_data_numeric_NAN[:,i] == temporary_fill, 
                                                temporary_mean[i], 
                                                lending_co_data_numeric_NAN[:,i])

# Cara baca codenya dari baris paling atas:
# Untuk setiap data dalam "range".... 
# .shape[1] bisa diartikan "ulang kondisi ini untuk setiap kolom yang ada"
# Perhatikan fungsi .shape() di numpy 
# Kenapa [1]? Karena 1 adalah index untuk kolom. Dan meannya berbeda untuk setiap kolom
# Lebih lanjutnya lihat di np.where() yang dijelaskan di bawah

### np.**where** ( )

Sekilas kita sebelumnya sudah melihat np.where() bekerja. Sama seperti SQL atau IF Statement.  
Penjelasan code dibawah akan diumpamakan dengan IF

In [29]:
for i in range(lending_co_data_numeric_NAN.shape[1]):        
    lending_co_data_numeric_NAN[:,i] = np.where(lending_co_data_numeric_NAN[:, i] < 0,  # IF data di bawah 0,
                                                0, # maka replace dengan 0
                                                lending_co_data_numeric_NAN[:,i]) # Else, biarkan saja
    
# Pada contoh ini, kita mengganti semua nilai negatif dengan 0

## Reshaping

In [30]:
lending_co_data_numeric = np.loadtxt("Lending-company-Numeric.csv", delimiter = ',')

In [31]:
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [32]:
lending_co_data_numeric.shape

(1043, 6)

Reshape **berbeda** dengan Transpose  
Reshape tidak bisa dilakukan pada data yang masing-masing kolomnya memiliki makna tersendiri, karena reshape sama saja dengan menghancurkan array yang kita punya dan membentuknya sesuai dengan bentuk yang kita inginkan (*opini pribadi*) 

### np.**reshape** ( )

In [33]:
np.reshape(lending_co_data_numeric, (6,1043))

# Reshaping (1043,6) to (6,1043) is not the same as transposing.

array([[ 2000.,    40.,   365., ...,   365.,  1581.,  3041.],
       [12277.,  2000.,    40., ...,    50.,   365.,  5350.],
       [ 6850., 15150.,  1000., ...,  2000.,    40.,   365.],
       [ 3101.,  4351., 16600., ..., 16600.,  2000.,    40.],
       [  365.,  3441.,  4661., ...,  8450., 22250.,  2000.],
       [   40.,   365.,  3701., ...,  4601.,  4601., 16600.]])

In [34]:
np.transpose(lending_co_data_numeric)

array([[ 2000.,  2000.,  1000., ...,  2000.,  1000.,  2000.],
       [   40.,    40.,    40., ...,    40.,    40.,    40.],
       [  365.,   365.,   365., ...,   365.,   365.,   365.],
       [ 3121.,  3061.,  2160., ...,  4201.,  2080.,  4601.],
       [ 4241.,  4171.,  3280., ...,  5001.,  3320.,  4601.],
       [13621., 15041., 15340., ..., 16600., 15600., 16600.]])

In [38]:
np.reshape(lending_co_data_numeric, (1,1,2,3,1043))

# We can choose whatever shape we wish as long as the product of the dimensions matches the total number of elements in the array.

array([[[[[ 2000.,    40.,   365., ...,   365.,  1581.,  3041.],
          [12277.,  2000.,    40., ...,    50.,   365.,  5350.],
          [ 6850., 15150.,  1000., ...,  2000.,    40.,   365.]],

         [[ 3101.,  4351., 16600., ..., 16600.,  2000.,    40.],
          [  365.,  3441.,  4661., ...,  8450., 22250.,  2000.],
          [   40.,   365.,  3701., ...,  4601.,  4601., 16600.]]]]])

In [39]:
lending_co_data_numeric

# Reshaping doesn't alter the original array. 

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [40]:
lending_co_data_numeric_2 = np.reshape(lending_co_data_numeric, (6,1043))
lending_co_data_numeric_2

array([[ 2000.,    40.,   365., ...,   365.,  1581.,  3041.],
       [12277.,  2000.,    40., ...,    50.,   365.,  5350.],
       [ 6850., 15150.,  1000., ...,  2000.,    40.,   365.],
       [ 3101.,  4351., 16600., ..., 16600.,  2000.,    40.],
       [  365.,  3441.,  4661., ...,  8450., 22250.,  2000.],
       [   40.,   365.,  3701., ...,  4601.,  4601., 16600.]])

In [41]:
lending_co_data_numeric.reshape(6,1043)

# Equivalent method. 

array([[ 2000.,    40.,   365., ...,   365.,  1581.,  3041.],
       [12277.,  2000.,    40., ...,    50.,   365.,  5350.],
       [ 6850., 15150.,  1000., ...,  2000.,    40.,   365.],
       [ 3101.,  4351., 16600., ..., 16600.,  2000.,    40.],
       [  365.,  3441.,  4661., ...,  8450., 22250.,  2000.],
       [   40.,   365.,  3701., ...,  4601.,  4601., 16600.]])

In [42]:
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

## **Removing** Values

In [43]:
lending_co_data_numeric = np.loadtxt("Lending-company-Numeric.csv", delimiter = ',') 

In [44]:
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

### np.**delete** ( )

In [46]:
np.delete(lending_co_data_numeric, 0).shape

# Removes the first value of the flattened array. 

(6257,)

In [47]:
lending_co_data_numeric.size

6258

In [48]:
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

Menghapus Kolom ATAU Baris dilakukan dengan **kombinasi np.delete** dan **axis**  

In [54]:
np.delete(lending_co_data_numeric, [0,2,4] , axis = 1)

# By setting an axis, we can simultaneously delete entire rows or columns. 

array([[   40.,  3121., 13621.],
       [   40.,  3061., 15041.],
       [   40.,  2160., 15340.],
       ...,
       [   40.,  4201., 16600.],
       [   40.,  2080., 15600.],
       [   40.,  4601., 16600.]])

Menghapus Kolom DAN Baris dilakukan dengan **np.delete bersarang**

In [55]:
np.delete(np.delete(lending_co_data_numeric, [0,2,4] , axis = 1), [0,2,-1] , axis = 0)

# np.delete di dalam untuk menghapus kolom
# np.delete di luar untuk menghapus baris
# We can simultaneously delete rows AND columns. 

array([[   40.,  3061., 15041.],
       [   40.,  3041., 15321.],
       [   50.,  3470., 13720.],
       ...,
       [   40.,  4240., 16600.],
       [   40.,  4201., 16600.],
       [   40.,  2080., 15600.]])

## **Sorting** Data

In [2]:
lending_co_data_numeric = np.loadtxt("Lending-Company-Numeric-Data.csv", delimiter = ',') 
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

### np.**sort** ( )

secara default akan sorting data secara **ascending** dan axis = 1  
**Axis = 1 Kolom**  
**Axis = 0 Baris**

In [8]:
np.sort(lending_co_data_numeric)

# Valuenya diurutkan masing-masing baris (paling kecil di kiri, paling besar di kanan)
# Katanya axis 1 = kolom, kok diurutkan masing-masing baris?
# Jangan terkecoh!
# Kata kuncinya adalah "value paling kecil di KOLOM paling kiri, dan paling besar di KOLOM paling kanan"

array([[   40.,   365.,  2000.,  3121.,  4241., 13621.],
       [   40.,   365.,  2000.,  3061.,  4171., 15041.],
       [   40.,   365.,  1000.,  2160.,  3280., 15340.],
       ...,
       [   40.,   365.,  2000.,  4201.,  5001., 16600.],
       [   40.,   365.,  1000.,  2080.,  3320., 15600.],
       [   40.,   365.,  2000.,  4601.,  4601., 16600.]])

Untuk **sort descending** kita mengakalinya dengan **minus** ( **-** )

In [4]:
-np.sort(-lending_co_data_numeric)

# min di dalam kurung = mengalikan semua data dengan -1 (data yang negatif menjadi positif)
# lalu akan disort secara ascending (np.sort memang tidak bisa sort descending)
## min di np.sort = data yang sudah disort tsb. dikalikan kembali dengan -1
## jadi semua data kembali seperti semula tapi sudah dalam urutan descending

array([[13621.,  4241.,  3121.,  2000.,   365.,    40.],
       [15041.,  4171.,  3061.,  2000.,   365.,    40.],
       [15340.,  3280.,  2160.,  1000.,   365.,    40.],
       ...,
       [16600.,  5001.,  4201.,  2000.,   365.,    40.],
       [15600.,  3320.,  2080.,  1000.,   365.,    40.],
       [16600.,  4601.,  4601.,  2000.,   365.,    40.]])

### np.sort ( ) dengan **axis**

In [5]:
np.sort(lending_co_data_numeric, axis = None)

# Akan membuatnya jadi "1D Array"

array([-2870., -2870., -2550., ..., 54625., 54625., 64001.])

In [18]:
np.sort(lending_co_data_numeric, axis = 0)

# Valuenya diurutkan masing-masing kolom (paling kecil di baris paling atas, paling besar di baris paling bawah)

array([[ 1000.,    35.,   365., -2870., -2870.,  -350.],
       [ 1000.,    35.,   365., -2550., -2100.,   150.],
       [ 1000.,    35.,   365., -2450., -2000.,  1100.],
       ...,
       [ 9000.,   125.,   365., 16751., 18751., 54625.],
       [ 9000.,   165.,   365., 17650., 20001., 54625.],
       [ 9000.,   165.,   365., 19001., 22001., 64001.]])

**Code di bawah ini tidak perlu dihiraukan**.  
Fungsinya hanya untuk menghilangkan *scientific notation* yang membuat bingung membaca perpangkatan

In [17]:
np.set_printoptions(suppress=True)

## **Argument** Functions

Mengurutkan array namun **hanya menampilkan index bilangan tersebut sebelum disort**

### np.**argsort** ( )

In [20]:
lending_co_data_numeric = np.loadtxt("Lending-Company-Numeric-Data.csv", delimiter = ',') 
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [21]:
np.argsort(lending_co_data_numeric)

# Lihat baris pertama array tersebut
# Angka paling kecil adalah 40 indexnya 1
# Di urutan ketiga adalah 2000 indexnya 0 

array([[1, 2, 0, 3, 4, 5],
       [1, 2, 0, 3, 4, 5],
       [1, 2, 0, 3, 4, 5],
       ...,
       [1, 2, 0, 3, 4, 5],
       [1, 2, 0, 3, 4, 5],
       [1, 2, 0, 3, 4, 5]], dtype=int64)

In [24]:
np.argsort(lending_co_data_numeric[:,0])

# argsort kolom pertama saja

array([   0,  155,  156, ..., 1022, 1031, 1042], dtype=int64)

### **Fungsi** np.argsort ( )

np.sort mengurutkan data berdasarkan kolomnya masing-masing atau barisnya masing-masing  
Sedangkan argsort bisa digunakan untuk sort data berdasarkan suatu kolom atau baris tertentu  
Jadi baris atau kolom lainnya terkunci dengan value yang disort tersebut  
**(seperti Sort pada Excel yang berpengaruh ke cell lain)**

In [22]:
lending_co_data_numeric = lending_co_data_numeric[np.argsort(lending_co_data_numeric[:,0])]
lending_co_data_numeric

# np.argsort digunakan sebagai "kondisi sort" dan kondisinya adalah sort berdasarkan kolom pertama
# Output dari code di atas bukan argumen melainkan value data aslinya

array([[ 1000.,    40.,   365.,  2200.,  3400., 15600.],
       [ 1000.,    40.,   365.,  2200.,  3800., 15600.],
       [ 1000.,    40.,   365.,  2000.,  3950., 15600.],
       ...,
       [ 9000.,   165.,   365., 14501., 16846., 64001.],
       [ 9000.,   125.,   365., 12001., 15751., 38626.],
       [ 9000.,   125.,   365., 12251., 14251., 25626.]])

### np.**argwhere** ( )

In [26]:
lending_co_data_numeric = np.loadtxt("Lending-Company-Numeric-Data.csv", delimiter = ',') 
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

Defaultnya adalah mengembalikan args yang valuenya bukan 0

In [27]:
np.argwhere(lending_co_data_numeric == False)

# Return values yang == 0 

array([[116,   4],
       [430,   3]], dtype=int64)

Kita buktikan bahwa di posisi [430,3] ada angka 0

In [28]:
lending_co_data_numeric[430]

array([1000.,   50.,  365.,    0.,  550., 5650.])

### **Fungsi** np.argwhere ( )

In [99]:
np.argwhere(lending_co_data_numeric %2 == 0)

# Mencari koordinat dengan kondisi matematika

array([[   0,    0],
       [   0,    1],
       [   1,    0],
       ...,
       [1042,    0],
       [1042,    1],
       [1042,    5]], dtype=int64)

In [104]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-company-Numeric-NAN.csv", delimiter = ';') 
lending_co_data_numeric_NAN

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [   nan,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [107]:
np.argwhere(np.isnan(lending_co_data_numeric_NAN))

# Mencari koordinat yang valuenya NaN

array([[  11,    3],
       [  15,    3],
       [  27,    3],
       [  58,    3],
       [  60,    4],
       [  85,    4],
       [ 117,    5],
       [ 152,    1],
       [ 152,    2],
       [ 152,    4],
       [ 172,    1],
       [ 175,    1],
       [ 175,    2],
       [ 176,    3],
       [ 177,    4],
       [ 178,    5],
       [ 211,    3],
       [ 229,    0],
       [ 230,    1],
       [ 237,    1],
       [ 247,    3],
       [ 251,    5],
       [ 252,    4],
       [ 258,    1],
       [ 260,    3],
       [ 262,    4],
       [ 271,    5],
       [ 272,    4],
       [ 284,    2],
       [ 284,    3],
       [ 297,    1],
       [ 297,    2],
       [ 300,    3],
       [ 315,    3],
       [ 315,    5],
       [ 327,    4],
       [ 336,    4],
       [ 343,    0],
       [ 344,    2],
       [ 346,    2],
       [ 363,    3],
       [ 375,    3],
       [ 377,    2],
       [ 398,    5],
       [ 416,    4],
       [ 428,    0],
       [ 432,    1],
       [ 433,

In [110]:
lending_co_data_numeric_NAN[175]

array([ 2000.,    nan,    nan,  1851.,  3051., 13561.])

#### **Replace NaN** dengan kombinasi argwhere dan for loop

In [112]:
for array_index in np.argwhere(np.isnan(lending_co_data_numeric_NAN)):
    lending_co_data_numeric_NAN[array_index[0], array_index[1]] = 0

## By going through the coordinates of all the mising values of the array, we can fill them up. 

In [113]:
lending_co_data_numeric_NAN[175]

array([ 2000.,     0.,     0.,  1851.,  3051., 13561.])

In [114]:
np.isnan(lending_co_data_numeric_NAN).sum()

0

## **Shuffling** Data

In [115]:
lending_co_data_numeric = np.loadtxt("Lending-company-Numeric.csv", delimiter = ',')[:8]
lending_co_data_numeric

# Pada contoh ini, kita hanya menggunakan 8 baris dari dataset.

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       [ 2000.,    40.,   365.,  3041.,  4241., 15321.],
       [ 2000.,    50.,   365.,  3470.,  4820., 13720.],
       [ 2000.,    40.,   365.,  3201.,  4141., 14141.],
       [ 2000.,    50.,   365.,  1851.,  3251., 17701.],
       [ 2000.,    40.,   365.,  3971.,  4131., 15351.]])

### np.random.**shuffle** ( )

In [116]:
np.random.shuffle(lending_co_data_numeric)

# Shuffles the array (and automatically overwrites it).

In [None]:
lending_co_data_numeric

In [123]:
lending_co_data_numeric = np.loadtxt("Lending-company-Numeric.csv", delimiter = ',')
lending_co_data_numeric

# We can now use the entire dataset. 

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [124]:
from numpy.random import shuffle

# Agar penulisan code tidak panjang, kita gunakan shorthand seperti ini.

In [129]:
shuffle(lending_co_data_numeric)
lending_co_data_numeric

# We write shuffle() instead of numpy.random.shuffle() since we imported the function earlier. 

array([[ 1000.,    40.,   365.,  4600.,  7310., 15600.],
       [ 1000.,    40.,   365.,  3000.,  3950., 14900.],
       [ 4000.,    50.,   365.,  5400.,  6350., 20770.],
       ...,
       [ 1000.,    40.,   365.,  2680.,  3680., 15600.],
       [ 2000.,    50.,   365.,  8751.,  8751., 20250.],
       [ 4000.,    50.,   365.,  6200.,  6750., 22250.]])

In [130]:
from numpy.random import Generator as gen
from numpy.random import PCG64 as pcg

# Random generators can be used for shuffling. 

In [137]:
array_RG = gen(pcg(seed = 365))
array_RG.shuffle(lending_co_data_numeric)
lending_co_data_numeric

# Walaupun kita telah menentukan seedsnya, setiap data yang di shuffle tetap akan berubah.

array([[ 2000.,    50.,   365.,  3150.,  4450., 16995.],
       [ 2000.,    40.,   365.,  3701.,  5201., 16151.],
       [ 4000.,    50.,   365.,  5500.,  7150., 22250.],
       ...,
       [ 2000.,    40.,   365.,  4900.,  4900., 16600.],
       [ 2000.,    40.,   365.,  3940.,  4940., 16600.],
       [ 2000.,    40.,   365.,  3401.,  3401., 12921.]])

## Casting

Untuk merubah tipe data dengan .**astype** ( *dtype* = ... )

In [138]:
lending_co_data_numeric = np.loadtxt("Lending-company-Numeric.csv", delimiter = ',') 
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [139]:
lending_co_data_numeric.astype(dtype = np.int32)

# Creates an integer version of the array. 

array([[ 2000,    40,   365,  3121,  4241, 13621],
       [ 2000,    40,   365,  3061,  4171, 15041],
       [ 1000,    40,   365,  2160,  3280, 15340],
       ...,
       [ 2000,    40,   365,  4201,  5001, 16600],
       [ 1000,    40,   365,  2080,  3320, 15600],
       [ 2000,    40,   365,  4601,  4601, 16600]])

In [141]:
lending_co_data_numeric = lending_co_data_numeric.astype(dtype = np.str)

# We need to overwrite the variable in order to work with strings. 

In [142]:
lending_co_data_numeric

array([['2000.0', '40.0', '365.0', '3121.0', '4241.0', '13621.0'],
       ['2000.0', '40.0', '365.0', '3061.0', '4171.0', '15041.0'],
       ['1000.0', '40.0', '365.0', '2160.0', '3280.0', '15340.0'],
       ...,
       ['2000.0', '40.0', '365.0', '4201.0', '5001.0', '16600.0'],
       ['1000.0', '40.0', '365.0', '2080.0', '3320.0', '15600.0'],
       ['2000.0', '40.0', '365.0', '4601.0', '4601.0', '16600.0']],
      dtype='<U32')

### Casting **string ke integer tidak bisa langsung**  
Harus dicasting ke float dulu, kemudian dicasting ke integer

In [146]:
lending_co_data_numeric = lending_co_data_numeric.astype(dtype = np.float32)
lending_co_data_numeric.astype(dtype = np.int32)

## We can't directly cast strings to integers. We can go through floats (string -> float -> integer).

array([[ 2000,    40,   365,  3121,  4241, 13621],
       [ 2000,    40,   365,  3061,  4171, 15041],
       [ 1000,    40,   365,  2160,  3280, 15340],
       ...,
       [ 2000,    40,   365,  4201,  5001, 16600],
       [ 1000,    40,   365,  2080,  3320, 15600],
       [ 2000,    40,   365,  4601,  4601, 16600]])

In [149]:
lending_co_data_numeric.astype(dtype = np.float32).astype(dtype = np.int32)
lending_co_data_numeric

## Atau dengan NumPy chain methods

array([['2000.0', '40.0', '365.0', '3121.0', '4241.0', '13621.0'],
       ['2000.0', '40.0', '365.0', '3061.0', '4171.0', '15041.0'],
       ['1000.0', '40.0', '365.0', '2160.0', '3280.0', '15340.0'],
       ...,
       ['2000.0', '40.0', '365.0', '4201.0', '5001.0', '16600.0'],
       ['1000.0', '40.0', '365.0', '2080.0', '3320.0', '15600.0'],
       ['2000.0', '40.0', '365.0', '4601.0', '4601.0', '16600.0']],
      dtype='<U32')

## **Stripping** Data

**Menghapus sebagian teks dari data** yang ada di dataset dengan **.strip**

In [150]:
lending_co_total_price = np.genfromtxt("Lending-Company-Total-Price.csv",
                                       delimiter = ',',
                                       dtype = np.str,
                                       skip_header = 1, 
                                       usecols = [1,2,4])
lending_co_total_price

# We don't neeed the entire array. We only want a few columns to showcase how stripping data works.

array([['id_1', 'Product B', 'Location 2'],
       ['id_2', 'Product B', 'Location 3'],
       ['id_3', 'Product C', 'Location 5'],
       ...,
       ['id_413', 'Product B', 'Location 135'],
       ['id_414', 'Product C', 'Location 200'],
       ['id_415', 'Product A', 'Location 8']], dtype='<U12')

Pada contoh di bawah, kita ingin menghapus "id_" dari kolom pertama  
"Product " dari kolom kedua  
"Location " dari kolom ketiga

In [157]:
lending_co_total_price[:,0] = np.chararray.strip(lending_co_total_price[:,0], "id_")
lending_co_total_price[:,1] = np.chararray.strip(lending_co_total_price[:,1], "Product ")
lending_co_total_price[:,2] = np.chararray.strip(lending_co_total_price[:,2], "Location ")
lending_co_total_price

array([['1', 'B', '2'],
       ['2', 'B', '3'],
       ['3', 'C', '5'],
       ...,
       ['413', 'B', '135'],
       ['414', 'C', '200'],
       ['415', 'A', '8']], dtype='<U12')

Kemudian kita kombinasikan dengan np.where untuk **mengubah kategori alphabet menjadi numerik**

In [158]:
lending_co_total_price[:,1] = np.where(lending_co_total_price[:,1] == 'A', 1, lending_co_total_price[:,1]) 
lending_co_total_price[:,1] = np.where(lending_co_total_price[:,1] == 'B', 2, lending_co_total_price[:,1]) 
lending_co_total_price[:,1] = np.where(lending_co_total_price[:,1] == 'C', 3, lending_co_total_price[:,1]) 
lending_co_total_price[:,1] = np.where(lending_co_total_price[:,1] == 'D', 4, lending_co_total_price[:,1]) 
lending_co_total_price[:,1] = np.where(lending_co_total_price[:,1] == 'E', 5, lending_co_total_price[:,1]) 
lending_co_total_price[:,1] = np.where(lending_co_total_price[:,1] == 'F', 6, lending_co_total_price[:,1]) 

lending_co_total_price

# We can combine stripping with substituting to transform all the letters in numbers. 

array([['1', '2', '2'],
       ['2', '2', '3'],
       ['3', '3', '5'],
       ...,
       ['413', '2', '135'],
       ['414', '3', '200'],
       ['415', '1', '8']], dtype='<U12')

Lalu semua data dicasting menjadi integer  
Memang tidak diperlukan, namun **N-D-Array dan NumPy memang ditujukan untuk mengolah data numerik** 

In [159]:
lending_co_total_price = lending_co_total_price.astype(dtype = np.int32)
lending_co_total_price

# Even though the values look like numbers, they're actually just text, so we need to cast them once again. 

array([[  1,   2,   2],
       [  2,   2,   3],
       [  3,   3,   5],
       ...,
       [413,   2, 135],
       [414,   3, 200],
       [415,   1,   8]])

## Stacking

Seperti namanya, stacking berarti **menumpuk dua atau lebih array menjadi satu** 

In [3]:
lending_co_data_numeric = np.loadtxt("Lending-Company-Numeric-Data.csv", delimiter = ',') 
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

In [8]:
# Recall Materi
# Kita menggunakan data NaN yang sudah dibersihkan dengan temp.mean (iseng aja)

lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';')

temporary_fill = np.nanmax(lending_co_data_numeric_NAN).round(2) + 1
temporary_mean = np.nanmean(lending_co_data_numeric_NAN, axis = 0).round(2)

lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", 
                                            delimiter = ';', 
                                            filling_values = temporary_fill)

for i in range(lending_co_data_numeric_NAN.shape[1]):
    lending_co_data_numeric_NAN[:,i] = np.where(lending_co_data_numeric_NAN[:,i] == temporary_fill,
                                                temporary_mean[i],
                                                lending_co_data_numeric_NAN[:,i])
lending_co_data_numeric_NAN


## We create a filler, reimport and fill all the nan-s, then subsitute all the temporary fillers with more appropriate values

array([[ 2000.  ,    40.  ,   365.  ,  3121.  ,  4241.  , 13621.  ],
       [ 2000.  ,    40.  ,   365.  ,  3061.  ,  4171.  , 15041.  ],
       [ 1000.  ,    40.  ,   365.  ,  2160.  ,  3280.  , 15340.  ],
       ...,
       [ 2250.25,    40.  ,   365.  ,  4201.  ,  5001.  , 16600.  ],
       [ 1000.  ,    40.  ,   365.  ,  2080.  ,  3320.  , 15600.  ],
       [ 2000.  ,    40.  ,   365.  ,  4601.  ,  4601.  , 16600.  ]])

### np.**stack** ( )

Kita menumpuk kolom kedua dan kolom pertama dari array NaN diatas  
Urutannya berdasarkan penulisan kode kita di np.stack  
**Defaultnya axis = 0 jadi akan ditumpuk menjadi baris** 

In [18]:
np.stack((lending_co_data_numeric[:,1],lending_co_data_numeric[:,0]))

array([[  40.,   40.,   40., ...,   40.,   40.,   40.],
       [2000., 2000., 1000., ..., 2000., 1000., 2000.]])

Mirip seperti np.transpose namun **urutan transpose sudah ditentukan berdasarkan urutan array aslinya**

In [165]:
np.transpose(lending_co_data_numeric[:,:2])

array([[2000., 2000., 1000., ..., 2000., 1000., 2000.],
       [  40.,   40.,   40., ...,   40.,   40.,   40.]])

Jika ingin ditumpuk **menjadi kolom**, bisa menggunakan **axis = 1**  

In [170]:
np.stack((lending_co_data_numeric[:,0],lending_co_data_numeric[:,1], lending_co_data_numeric[:,2]), axis = 1)

# We can stack more than 2 arrays. 

array([[2000.,   40.,  365.],
       [2000.,   40.,  365.],
       [1000.,   40.,  365.],
       ...,
       [2000.,   40.,  365.],
       [1000.,   40.,  365.],
       [2000.,   40.,  365.]])

**array yang mau distack harus memiliki shape yang sama satu sama lain**

### np.**vstack** ( )  
sama saja dengan stack yang axis = 0, karena menumpuk berdasarkan baris

### np.**hstack** ( )  
sama saja dengan stack yang axis = 1, karena menumpuk berdasarkan kolom

### np.**dstack** ( ) 

**depth**stack maksudnya menumpuk array menjadi satu dimensi lebih dari aslinya  
misal kita input dua array yang dimensinya dua (ada baris dan kolom) maka outputnya menjadi satu array tiga dimensi  

In [13]:
np.dstack((lending_co_data_numeric, lending_co_data_numeric_NAN)).shape

# Kita stack dua array dengan shape yang sama, yaitu 1043 baris dan 6 kolom 
# Outputnya adalah 1043 baris, 6 kolom, dan 2 depth

(1043, 6, 2)

Tapi **dstack maksimal untuk dua dimensi**  
Jika inputnya 3 dimensi atau lebih, maka outputnya akan tetap 3 dimensi 

In [10]:
array_example_1 = np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]],[[21,22,23,24],[25,26,27,28],[29,30,31,32]]])
array_example_2 = array_example_1 * 2

# Kita membuat 2 array tiga dimensi yang akan distack sebagai contoh

In [14]:
np.dstack((array_example_1, array_example_2)).shape

# Yang akan bertambah adalah depthnya saja (elemen ketiga di shape)

(2, 3, 8)

### nd.stack ( **axis = -1** )

Hadir sebagai solusi dari np.dstack,  
Jika **inputnya** *tiga dimensi atau lebih* maka **outputnya** *satu dimensi lebih besar dari array aslinya*  
Dan **tidak ada maksimalnya** kita bisa input dimensi berapa pun ke dalam np.stack

In [184]:
np.stack((lending_co_data_numeric, lending_co_data_numeric_NAN), axis = -1)

# We can stack along a given axis (with np.stack())

array([[[ 2000.  ,  2000.  ],
        [   40.  ,    40.  ],
        [  365.  ,   365.  ],
        [ 3121.  ,  3121.  ],
        [ 4241.  ,  4241.  ],
        [13621.  , 13621.  ]],

       [[ 2000.  ,  2000.  ],
        [   40.  ,    40.  ],
        [  365.  ,   365.  ],
        [ 3061.  ,  3061.  ],
        [ 4171.  ,  4171.  ],
        [15041.  , 15041.  ]],

       [[ 1000.  ,  1000.  ],
        [   40.  ,    40.  ],
        [  365.  ,   365.  ],
        [ 2160.  ,  2160.  ],
        [ 3280.  ,  3280.  ],
        [15340.  , 15340.  ]],

       ...,

       [[ 2000.  ,  2250.25],
        [   40.  ,    40.  ],
        [  365.  ,   365.  ],
        [ 4201.  ,  4201.  ],
        [ 5001.  ,  5001.  ],
        [16600.  , 16600.  ]],

       [[ 1000.  ,  1000.  ],
        [   40.  ,    40.  ],
        [  365.  ,   365.  ],
        [ 2080.  ,  2080.  ],
        [ 3320.  ,  3320.  ],
        [15600.  , 15600.  ]],

       [[ 2000.  ,  2000.  ],
        [   40.  ,    40.  ],
        [  365.  

In [15]:
np.stack((array_example_1, array_example_2), axis = -1).shape

# We can no longer replicate the output of dstack by simply specifying an axis. 

(2, 3, 4, 2)

## Concatenate

Sama seperti stack, namun **concat hanya menambahkan isinya. Tidak mengubah dimensinya**

In [190]:
lending_co_data_numeric = np.loadtxt("Lending-company-Numeric.csv", delimiter = ',') 
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

### np.**concatenate** ( )

In [191]:
np.concatenate((lending_co_data_numeric[0,:], lending_co_data_numeric[1,:]))

# Input dan output dimensinya sama

array([ 2000.,    40.,   365.,  3121.,  4241., 13621.,  2000.,    40.,
         365.,  3061.,  4171., 15041.])

In [192]:
# Recall Materi
# Kita menggunakan data NaN yang sudah dibersihkan dengan temp.mean (iseng aja)

lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';')

temporary_fill = np.nanmax(lending_co_data_numeric_NAN).round(2) + 1
temporary_mean = np.nanmean(lending_co_data_numeric_NAN, axis = 0).round(2)

lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", 
                                            delimiter = ';', 
                                            filling_values = temporary_fill)

for i in range(lending_co_data_numeric_NAN.shape[1]):
    lending_co_data_numeric_NAN[:,i] = np.where(lending_co_data_numeric_NAN[:,i] == temporary_fill,
                                                temporary_mean[i],
                                                lending_co_data_numeric_NAN[:,i])
lending_co_data_numeric_NAN


## We create a filler, reimport and fill all the nan-s, then subsitute all the temporary fillers with more appropriate values

array([[ 2000.  ,    40.  ,   365.  ,  3121.  ,  4241.  , 13621.  ],
       [ 2000.  ,    40.  ,   365.  ,  3061.  ,  4171.  , 15041.  ],
       [ 1000.  ,    40.  ,   365.  ,  2160.  ,  3280.  , 15340.  ],
       ...,
       [ 2250.25,    40.  ,   365.  ,  4201.  ,  5001.  , 16600.  ],
       [ 1000.  ,    40.  ,   365.  ,  2080.  ,  3320.  , 15600.  ],
       [ 2000.  ,    40.  ,   365.  ,  4601.  ,  4601.  , 16600.  ]])

Default axis = 0 , namun kita bisa ubah menjadi **axis = 1** agar melebar berdasarkan kolom

In [16]:
np.concatenate((lending_co_data_numeric, lending_co_data_numeric_NAN), axis = 1).shape

(1043, 12)

### Perbandingan **concatenate** dan **stacking**

In [197]:
array_example_1 = np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]],[[21,22,23,24],[25,26,27,28],[29,30,31,32]]])
array_example_2 = array_example_1 * 2

# We create 3-D arrays to showcase concatenate vs stacking

In [18]:
np.concatenate((array_example_1, array_example_2), axis = 2)

# Axis = 2 adalah tinggi (maksudnya diubah menjadi 3dimensi)

array([[[ 1,  2,  3,  4,  2,  4,  6,  8],
        [ 5,  6,  7,  8, 10, 12, 14, 16],
        [ 9, 10, 11, 12, 18, 20, 22, 24]],

       [[21, 22, 23, 24, 42, 44, 46, 48],
        [25, 26, 27, 28, 50, 52, 54, 56],
        [29, 30, 31, 32, 58, 60, 62, 64]]])

In [17]:
np.dstack((array_example_1, array_example_2))

array([[[ 1,  2,  3,  4,  2,  4,  6,  8],
        [ 5,  6,  7,  8, 10, 12, 14, 16],
        [ 9, 10, 11, 12, 18, 20, 22, 24]],

       [[21, 22, 23, 24, 42, 44, 46, 48],
        [25, 26, 27, 28, 50, 52, 54, 56],
        [29, 30, 31, 32, 58, 60, 62, 64]]])

In [208]:
np.concatenate((lending_co_data_numeric, lending_co_data_numeric[:,:1]), axis = 1)

array([[ 2000.,    40.,   365., ...,  4241., 13621.,  2000.],
       [ 2000.,    40.,   365., ...,  4171., 15041.,  2000.],
       [ 1000.,    40.,   365., ...,  3280., 15340.,  1000.],
       ...,
       [ 2000.,    40.,   365., ...,  5001., 16600.,  2000.],
       [ 1000.,    40.,   365., ...,  3320., 15600.,  1000.],
       [ 2000.,    40.,   365., ...,  4601., 16600.,  2000.]])

## **Unique**

Seperti namanya, outputnya adalah value yang unik dari dataset

In [209]:
lending_co_data_numeric = np.loadtxt("Lending-company-Numeric.csv", delimiter = ',') 
lending_co_data_numeric

array([[ 2000.,    40.,   365.,  3121.,  4241., 13621.],
       [ 2000.,    40.,   365.,  3061.,  4171., 15041.],
       [ 1000.,    40.,   365.,  2160.,  3280., 15340.],
       ...,
       [ 2000.,    40.,   365.,  4201.,  5001., 16600.],
       [ 1000.,    40.,   365.,  2080.,  3320., 15600.],
       [ 2000.,    40.,   365.,  4601.,  4601., 16600.]])

Biasanya untuk analisis dikombinasikan dengan **return_counts** dan **return_index**

In [216]:
np.unique(lending_co_data_numeric[:,1], return_counts = True, return_index = True)

# Unique -> returns the unique values within the array in increasing order
# return_counts -> returns how many times each unique value appears in the array
# return_index -> returns the index of the FIRST encounter with each unique value
# Urutan outputnya adalah Unique, index, lalu counts (walaupun urutan dicodenya dibalik)

(array([ 35.,  40.,  50., 125., 165.]),
 array([327,   0,   4,  19,  27], dtype=int64),
 array([  4, 567, 451,  19,   2], dtype=int64))

In [214]:
array_example = np.array(["a1", "a3","A1","A3","A3","AA1","B1","A2","B1","A2","B2","B2", "B3","a2","a3","B3","B3","a3" ])
np.unique(array_example)

# If the values of the array are text, the unique function sorts them in "alphabetical" order by their ASCII codes. 

array(['A1', 'A2', 'A3', 'AA1', 'B1', 'B2', 'B3', 'a1', 'a2', 'a3'],
      dtype='<U3')