## Membaca data

Bagaimana jika data yang ingin kita olah berjumlah ribuan dan tersimpan dalam suatu file? Butuh waktu yang lama jika ingin menginput satu per satu data dalam bentuk python list atau dictionary. Jadi, pandas punya fungsi yang bisa di gunakan untuk membaca data dari file menjadi dataframe.

Kita sudah belajar tentang DataFrame, yaitu tipe data yang berbentuk tabel. Tapi, pada pembahasan sebelumnya, kita harus menginput manual data yang akan olah menggunakan dataframe. Bagaimana jika kita sudah memiliki data dalam file format tertentu? Seperti file format ".csv" atau ".xlxs" atau bahkan file format yang lain?

Pandas memiliki fungsi yang dapat membaca langsung data dari file format tertentu. Sebagai contoh, kita akan menggunakan fungsi `pd.read_csv()` untuk membaca data dari file format ".csv".

Data yang telah dibaca akan menjadi format dataframe.

Contoh, terdapat data seperti ini:


|kode_barang|nama_barang|jenis_barang|harga_satuan|jumlah|
|:--|--|--|--|--:|
|IDMF|Indomie|Food|2500|5|
|TROF|Taro|Food|6000|2|
|GODF|Good Day|Food|9000|1|
|DETN|Detergen|Non-food|4500|1|
|PGIN|Pasta Gigi|Non-food|12000|1|
|SGIN|Sikat Gigi|Non-food|2000|2|

dan data tersebut tersimpan dalam sebuah file dengan nama file "expdata1.csv"


In [1]:
import pandas as pd

In [None]:
# membaca data dari file csv
data = pd.read_csv("expdata1.csv")

# tampilkan data
data

Pada fungsi `pd.read_csv()`, index baris otomatis akan dibuat dari 0 hingga n (banyaknya baris data). Tapi, jika ingin menjadikan salah satu kolom sebagai index, bisa menggunakan parameter `index_col`. Nilai parameternya bergantung dari kolom yang akan dijadikan sebagai index. Dalam contoh ini, kita akan menjadikan kolom pertama sebagai index, maka `index_col=0`.

In [None]:
# membaca data dari file csv dan kolom 0 sebagai index
data = pd.read_csv("expdata1.csv", index_col=0)

# tampilkan data
data

Pada fungsi `pd.read_csv()`, header (judul kolom) otomatis akan diambil dari baris pertama pada file csv yang dibaca. Tapi, jika kita tidak ingin menjadikan baris pertama pada file kita sebagai judul kolom, bisa menggunakan parameter `header=None` pada fungsi `pd.read_csv()`. Parameter ini digunakan pada saat di dalam file csv tidak terdapat judul kolom.

Contoh, terdapat data seperti ini:

|||||
|:--|--|--|--:|
|Indomie|Food|2500|5|
|Taro|Food|6000|2|
|Good Day|Food|9000|1|
|Detergen|Non-food|4500|1|
|Pasta Gigi|Non-food|12000|1|
|Sikat Gigi|Non-food|2000|2|

dan data tersebut tersimpan dalam sebuah file dengan nama file "expdata2.csv". (Perbedaan dari data sebelumnya terdapat pada baris pertama dan kolom pertama, data ini tidak memiliki header dan index)

In [None]:
# membaca data dari file csv tanpa header
data2 = pd.read_csv("expdata2.csv", header=None)

# tampilkan data
data2

Jika menggunakan parameter header=None, otomatis nama header akan menjadi 0 hingga n (banyaknya kolom). Tapi, kita bisa mengganti nama kolomnya sesuai dengan keiginan.

In [None]:
# buat list nama kolom menggunakan python list
col_names = ["nama","jenis","harga","jumlah"]

# membaca data dari file csv menggunakan nama kolom dari list
data2 = pd.read_csv("expdata2.csv", names=col_names)

# tampilkan data
data2

Selain data file format ".csv", kita juga bisa membaca file format yang lain menjadi dataframe seperti file format .xls, .xlxs, .json, .stata
* `read_table` --> membaca file format .tsv (tab separate value)
* `read_excel` --> membaca file format .xls atau .xlsx (file excel)
* `read_json` --> membaca file format .json (JavaScript Object Notation)
* `read_stata` --> membaca file format .dta (Stata file format)
* `read_sql` --> membaca file format .db (SQL query)

