* Pada notebook sebelumnya dicontohkan cara membuat `Series` dan `DataFrame` dari struktur data dasar pada Python.
* Pandas juga menyediakan fungsi untuk meng-import dataset.

# Membaca File

**Import Library**
* Sebagaimana pada umumnya, sebelum dapat digunakan, sebuah library harus diimport terlebih dahulu

In [2]:
import pandas as pd

## CSV
* CSV (Comma-Separated Value) adalah file data berupa teks yang (secara default) dipisahkan oleh koma

<img src="https://static.goanywhere.com/images/tutorials/csv-to-database/input-file.png" alt="Drawing" width= 300px;/>

<small>[Source](https://static.goanywhere.com/images/tutorials/csv-to-database/input-file.png)</small>

* Tipe file ini adalah salah satu tipe file yang sering digunakan untuk menyimpan data karena simpel dan mudah dibaca.
* Python menyediakan fungsi khusus untuk mengimport dan membaca file ini.

### Import Sederhana
* Untuk membaca file csv digunakan perintah `.read_csv(<file location>)`

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [11]:
nama = pd.read_csv('foo1.csv')
nama

Unnamed: 0,NAMA,UMUR,KOTA
0,Bagas,25,Bandung
1,Budi,24,Malang
2,Jatmiko,25,Solo


### Import dengan arguments
* Pada contoh sebelumnya, diberikan kasus jika file csv yang diimport formatnya sudah sesuai.
* Namun kita juga dapat meng-kustomisasi perintah yang ingin dijalankan.
* Cara kustomisasi perintah input ini dapat dilakukan dengan menggunakan arguments.
* Berikut adalah list arguments lengkap dari `read_csv()`: [klik disini](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv)
* Misal, dari file contoh diatas hanya ingin memasukkan kolom NAMA dan UMUR.
* Maka digunakan argumen `usecols`

In [5]:
nama = pd.read_csv('foo1.csv', usecols=['NAMA','KOTA'])
nama

Unnamed: 0,NAMA,KOTA
0,Bagas,Bandung
1,Budi,Malang
2,Jatmiko,Solo


---
**Exercise**\
Import data pada contoh diatas dengan kolom NAMA dan KOTA saja

---
**Contoh Lain**
* Walaupun CSV adalah comma separated value, namun pada prakteknya dapat digunakan tanda lain untuk memisahkan data.
* Contoh: `;:|/`
* Sehingga hal ini terkadang dapat membuat hasil dari import data tidak baik.

In [12]:
hr_data = pd.read_csv('hr_data.csv')
hr_data

Unnamed: 0,satisfaction_level;last_evaluation;number_project;average_montly_hours;time_spend_company;Work_accident;left;promotion_last_5years;sales;salary
0,;0.53;2;157;3;0;1;0;sales;
1,0.8;0.86;5;262;6;0;1;0;sales;medium
2,0.11;;7;272;4;0;1;0;;medium
3,0.72;0.87;5;223;5;0;1;0;sales;low
4,0.37;0.52;2;159;3;0;1;0;sales;low
...,...
14994,0.4;;2;151;3;0;1;0;support;low
14995,0.37;;2;160;3;0;1;0;support;low
14996,0.37;;2;143;3;0;1;0;support;low
14997,0.11;;6;280;4;0;1;0;support;low


* Pada data tersebut, kolom yang harusnya terpisah pisah menjadi hanya satu kolom.
* Jika diperhatikan, pemisah yang digunakan adalah `;`
* Untuk mengatasi hal ini digunakan argumen `sep` pada fungsi read csv.

In [15]:
hr_data = pd.read_csv('hr_data.csv', sep=';')
hr_data

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,left,promotion_last_5years,sales,salary
0,,0.53,2,157,3,0,1,0,sales,
1,0.80,0.86,5,262,6,0,1,0,sales,medium
2,0.11,,7,272,4,0,1,0,,medium
3,0.72,0.87,5,223,5,0,1,0,sales,low
4,0.37,0.52,2,159,3,0,1,0,sales,low
...,...,...,...,...,...,...,...,...,...,...
14994,0.40,,2,151,3,0,1,0,support,low
14995,0.37,,2,160,3,0,1,0,support,low
14996,0.37,,2,143,3,0,1,0,support,low
14997,0.11,,6,280,4,0,1,0,support,low


* Dapat dilihat bahwa `DataFrame` terlihat lebih teratur dan rapih

### Data Tanggal
* Dalam python standar tidak diberikan format data khusus untuk menangani format tanggal.
* Hal yang bisa dilakukan dalam Python standar adalah dengan menggunakan `string` biasa atau dengan library `datetime`.
* Namun, dalam Pandas kita dapat langsung mengolah data yang berupa tanggal.
* Dalam `read_csv()` kita tinggal menambahkan argument `parse_dates` yang diikuti oleh list dari kolom yang ingin dijadikan objek `datetime`

In [16]:
nama = pd.read_csv('foo2.csv', parse_dates=[3])
nama

Unnamed: 0,NAMA,UMUR,KOTA,LAHIR
0,Bagas,25,Bandung,1995-08-10
1,Budi,24,Malang,1996-12-09
2,Jatmiko,25,Solo,1995-10-11


* Kita cek tipe dari kolom `LAHIR`

In [19]:
nama.LAHIR

0   1995-08-10
1   1996-12-09
2   1995-10-11
Name: LAHIR, dtype: datetime64[ns]

####  Format Tanggal
* Secara default, dari format tanggal yang kita berikan, pandas akan merubahnya menjadi YYYY/MM/DD.
* Jika kita bekerja dengan tanggal, maka kita harus tahu format tanggal yang dimaksud.
* Misal, format banyak negara adalah DD/MM/YYYY.
* Namun, di negara tertentu format tanggal adalah MM/DD/YYYY
* Sehingga agar jelas, biasanya format DD/MM/YYYY digunakan parameter tambahan berupa `dayfirst = True`

---
* Misal diberikan data 12-09-1996
* Maka nilai seharusnya adalah 1996-09-12
* Namun pada dataframe `nama` diatas diberikan hasil 1996-12-09
* Coba kita beri argumen `dayfirst=True`

In [26]:
nama = pd.read_csv('foo2.csv', parse_dates=[3], dayfirst=True)
nama

Unnamed: 0,NAMA,UMUR,KOTA,LAHIR
0,Bagas,25,Bandung,1995-10-08
1,Budi,24,Malang,1996-09-12
2,Jatmiko,25,Solo,1995-11-10


## Excel
* Selain format `.csv`, kita juga seringkali menemukan data dengan format berupa `.xls` atau `.xlsx`
* Untuk data seperti ini, sebenarnya dengan menggunakan MS Excel kita dapat merubahnya menjadi `csv` terlebih dahulu.
* Namun, untuk mempersingkat waktu, kita dapat menggunakan fungsi bawaan dari pandas, yaitu `read_excel`

In [10]:
hr_excel = pd.read_excel('hr_data.xlsx')
hr_excel.head()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,left,promotion_last_5years,sales,salary
0,,0.53,2,157,3,0,1,0,sales,
1,0.8,0.86,5,262,6,0,1,0,sales,medium
2,0.11,,7,272,4,0,1,0,,medium
3,0.72,0.87,5,223,5,0,1,0,sales,low
4,0.37,0.52,2,159,3,0,1,0,sales,low


* Dengan menggunakan fungsi `read_excel()` kita sudah bisa meng-import data excel kedalam pandas.
* Untuk penanganan kasus-kasus khusus, arguments yang digunakan tidak berbeda jauh dengan `read_csv()`
* Untuk lebih detail dapat dilihat [disini](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html#pandas.read_excel)