# Importing Data with NumPy

In [None]:
import numpy as np

Untuk membaca file dengan NumPy bisa menggunakan dua fungsi, yaitu np.**loadtxt** dan np.**genfromtxt**

### **np.loadtxt** ( )

**+ Pros** Loadnya paling cepat dari fungsi lainnya  
**- Cons** Error jika data yang dibaca terdapat *missing-values* (Null atau NaN)

In [None]:
lending_co_data_numeric_1 = np.loadtxt("Lending-Company-Numeric-Data.csv", delimiter = ',')
lending_co_data_numeric_1

# We can use Notepad++ to determine delimiters

### **np.genfromtxt** ( )

**+ Pros** Bisa membaca *missing-values* dan lebih fleksibel dibanding loadtxt  
**- Cons** Waktu loadnya lebih lambat

In [None]:
lending_co_data_numeric_2 = np.genfromtxt("Lending-Company-Numeric-Data.csv", delimiter = ',')
lending_co_data_numeric_2

## **np.loadtxt**  VS  **np.genfromtxt** 

Sekarang mari kita uji apakah data yang dibaca kedua fungsi tersebut hasilnya sama?

In [None]:
np.array_equal(lending_co_data_numeric_1, lending_co_data_numeric_2)

## np.array_equal() compares two (or more) arrays and tells us if whether they're identical
## Hasilnya sama

Mari kita buktikkan dengan membaca file yang terdapat *missing-values*

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';')
lending_co_data_numeric_NAN

# np.genfromtxt() tidak mengalami masalah

Sedangkan **np.loadtxt** harus mengubah tipe data file yang dibaca menjadi **string**

In [None]:
lending_co_data_numeric_NAN = np.loadtxt("Lending-Company-Numeric-Data-NAN.csv", 
                                         delimiter = ';',
                                         dtype = np.str)
lending_co_data_numeric_NAN

# np.loadtxt() mengalami error, cara untuk mengakalinya adalah mengubah semua tipe data di file .CSV menjadi String
# Karena missing-value akan terdeteksi sebagai string yang berisi spasi kosong, sehingga tidak menimbulkan error
# If we import all the values as text, then we don't get a type inconcsistency, so we can use np.loadtxt()

Ketentuan harus mengubah ke **string** membuat kita tidak bisa melakukan operasi matematika jika menggunakan **np.loadtxt**

In [None]:
lending_co_data_numeric_NAN[0,0] + lending_co_data_numeric_NAN[0,1]

# Adding '2000' and '40' results in a concatenated '200040' rather than 2040.

# **Partial Cleaning** While Importing

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';') 
lending_co_data_numeric_NAN

## **skip_header**

Biasanya baris paling atas terdiri dari nama kolom dan atribut lainnya, jadi tidak perlu diload

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", 
                                            delimiter = ';',
                                            skip_header = 2)  # dua baris paling atas
lending_co_data_numeric_NAN

# skip_header omits lines from the top of the text file

## **skip_footer**

Mungkin terkadang baris paling bawah juga tidak perlu diload

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", 
                                            delimiter = ';',
                                            skip_footer = 2)  # dua baris paling bawah
lending_co_data_numeric_NAN

# skip_footer omits lines from the bottom of the text file

## **usecols**

Jika kita hanya ingin menggunakan kolom tertentu saja pada file .CSV  
Ingat! **Python memulai indexing dari 0**. Jadi kolom pertama itu 0

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", 
                                            delimiter = ';',
                                            usecols = (5,0,1)) 
lending_co_data_numeric_NAN

# usecols juga bisa mengubah urutan tampilan kolom, seperti code diatas.
# kolom index ke-5 ditampilkan pertama, lalu diikuti index ke-0 dan ke-1
# usecols tells the function to only take the following columns based on their indices.

Tentu semua argumen tersebut bisa digunakan dalam satu blok code

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", 
                                            delimiter = ';',
                                            usecols = (5,0,1), 
                                            skip_header = 2, 
                                            skip_footer = 2) 
lending_co_data_numeric_NAN

# We can define all these arguments (and many more) together to only import what we want. 

## **unpack**

Jika ingin split array berdasarkan kolomnya ke dalam suatu variabel, kita harus membuka *"kurungan"* nya lebih dulu.  
Adapun jumlah variabel yang menampung **harus sama** dengan *usecols* yang didefinisikan

In [None]:
lending_co_data_5, lending_co_data_0, lending_co_data_1 = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", 
                                                                        delimiter = ';',
                                                                        usecols = (5,0,1), 
                                                                        skip_header = 2, 
                                                                        skip_footer = 2, 
                                                                        unpack = True)
print(lending_co_data_5)  # Menampung kolom index ke-5
print(lending_co_data_0)  # Menampung kolom index ke-0
print(lending_co_data_1)  # Menampung kolom index ke-1

# Unpacking allows us to split the output array into smaller 1-D arrays.

# String vs Object vs Numbers

In [None]:
lending_co_lt = np.genfromtxt("lending-Co-LT.csv", 
                              delimiter = ',',
                              dtype = np.int32
                              #dtype = np.float16
                              #dtype = np.str
                              #dtype = np.object
                              #dtype = (np.int32, np.str, np.str, np.str, np.str, np.str, np.int32) # baris code ini tidak bisa dilakukan
                             )
print(lending_co_lt)

# The same dataset is imported differently based on the datatype we define. 

NumPy membaca suatu file dengan format Array  
Jadi kita tidak bisa mendefinisikan masing-masing kolom dengan berbagai macam tipe yang berbeda

In [None]:
lending_co_lt[0,0] + lending_co_lt[0,1]