**START**

**Module : Dataset I/O**

*Pada bagian ini kamu akan mempelajari bagaimana membaca dan menyimpan dataset dari dan ke beberapa tipe file dengan menggunakan pandas.* 

**Pendahuluan**

*Memangnya file apa saja sih yang bisa dibaca oleh Pandas?*

*Pandas menyediakan berbagai method untuk membaca file tersebut hanya dengan dipanggil method itu, code yang lebih simple dan loading yang lebih, tentu saja output nya dapat berupa Series atau Dataframe.*

*Terdapat sangat banyak file yang dapat dibaca/dapat disimpan oleh Pandas, tapi ada beberapa file yang paling umum dan sering digunakan oleh praktisi data seperti berikut ini:*

1. *CSV (Comma Separated Values), antar data dalam satu baris dipisahkan oleh comma, ",".*
2. *TSV (Tab Separated Values), antar data dalam satu baris dipisahkan oleh "Tab".*
3. *Excel*
4. *Google BigQuery*
5. *SQL Query*
6. *JSON (Java Script Object Notation)*

**Read Dataset - CSV dan TSV**

*CSV dan TSV pada hakikatnya adalah tipe data text dengan perbedaan terletak pada pemisah antar data dalam satu baris.*

1. **Pada file CSV**, antar data dalam satu baris dipisahkan oleh comma, ",".
2. **Pada file TSV** antar data dalam satu baris dipisahkan oleh "Tab".

***Fungsi .read_csv()** digunakan untuk membaca file yang value-nya dipisahkan oleh comma (default), terkadang pemisah value-nya bisa di set ‘\t’ untuk file tsv (tab separated values).*

**Membaca file CSV**

In [1]:
import pandas as pd
# File CSV
df_csv = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_csv.csv')
print(df_csv.head(3)) # Menampilkan 3 data teratas

   order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  


**Membaca file TSV**

In [2]:
# File TSV
df_tsv = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv', sep='\t')
print(df_tsv.head(3)) # Menampilkan 3 data teratas

   order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  


**Read Dataset - Excel**

*File Excel dengan ekstensi *.xls atau *.xlsx cukup banyak digunakan dalam menyimpan data. Pandas juga memiliki fitur untuk membaca file excel.*

***Fungsi .read_excel()** digunakan untuk membaca file excel menjadi dataframe pandas.*

In [3]:
import pandas as pd
# File xlsx dengan data di sheet "test"
df_excel = pd.read_excel('https://storage.googleapis.com/dqlab-dataset/sample_excel.xlsx', sheet_name='test')
print(df_excel.head(4)) # Menampilkan 4 data teratas

   order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   
3   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0520   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  
3  BRAND_B        12      450000  


**Read Dataset - JSON**

***Method .read_json()** digunakan untuk membaca URL API yang formatnya JSON dan mengubahnya menjadi dataframe pandas. Method ini dapat digunakan seperti yang dicontohkan berikut ini:*

In [4]:
import pandas as pd
# File JSON
url = 'https://storage.googleapis.com/dqlab-dataset/covid2019-api-herokuapp-v2.json'
df_json = pd.read_json(url)
print(df_json.head(10)) # Menampilkan 10 data teratas

                                                data          dt          ts
0  {'location': 'US', 'confirmed': 3363056, 'deat...  07-14-2020  1594684800
1  {'location': 'Brazil', 'confirmed': 1884967, '...  07-14-2020  1594684800
2  {'location': 'India', 'confirmed': 906752, 'de...  07-14-2020  1594684800
3  {'location': 'Russia', 'confirmed': 732547, 'd...  07-14-2020  1594684800
4  {'location': 'Peru', 'confirmed': 330123, 'dea...  07-14-2020  1594684800
5  {'location': 'Chile', 'confirmed': 317657, 'de...  07-14-2020  1594684800
6  {'location': 'Mexico', 'confirmed': 304435, 'd...  07-14-2020  1594684800
7  {'location': 'United Kingdom', 'confirmed': 29...  07-14-2020  1594684800
8  {'location': 'South Africa', 'confirmed': 2877...  07-14-2020  1594684800
9  {'location': 'Iran', 'confirmed': 259652, 'dea...  07-14-2020  1594684800


**Read Dataset - SQL**

*Fungsi **.read_sql()** atau **.read_sql_query()** digunakan untuk membaca query dari database dan translate menjadi pandas dataframe, contoh case ini database **sqlite**.*

*hasil tidak akan keluar karena tidak memiliki akses*

1. *Membuat koneksi ke database financial di https:/relational.fit.cvut.cz/dataset/Financial*
2. *Melakukan query sql untuk membaca tabel loan*
3. *Membaca tabel menggunakan .read_sql_query()*
4. *Membaca tabel menggunakan .read_sql()*

In [None]:
import mysql.connector
import pandas as pd

# Membuat koneksi ke database financial di https:/relational.fit.cvut.cz/dataset/Financial
my_conn = mysql.connector.connect(host="relational.fit.cvut.cz",
                                  port=3306,
                                  user='guest',
                                  passwd="relational",
                                  database="financial",
                                  use_pure=True)
# Buatlah query sql untuk membaca tabel loan
my_query = """
SELECT *
FROM loan;
"""

In [None]:
# Menggunakan .read_sql_query untuk membaca tabel loan tersebut
df_loan = pd.read_sql_query(my_query, my_conn)
# Tampilkan 5 data teratas
df_loan.head()

In [None]:
# Menggunakan .read_sql
df_loan = pd.read_sql(my_query,my_conn)
# Tampilkan 5 data teratas
df_loan.head()

**Read Dataset - Google BigQuery**

*Untuk data yang besar (big data), umumnya digunakan Google BigQuery. Layanan ini dapat digunakan jika telah memiliki Google BigQuery account.*

*Fungsi **.read_gbq()** digunakan untuk membaca Google BigQuery table menjadi dataframe pandas.*

In [None]:
import pandas as pd

# Buat query
query = """
SELECT *
FROM 'bigquery-public-data.covid19_jhu_csse_eu.summary'
LIMIT 1000;
"""
# Baca data dari Google Big Query
df_covid19_eu_summary = pd.read_gbd(query, project_id='XXXXXX')
# Tampilkan 5 data teratas
df_covid19_eu_summary

# project_id="XXXXXXXX" adalah ID dari Google BigQuery account.

**Write Dataset**

*Dalam bekerja sebagai data scientist/analis setelah dilakukan data cleaning dataset yang sudah rapi tentunya disimpan terlebih dahulu ke dalam media penyimpanan.*  

*Pandas menyediakan fitur demikian secara ringkas melalui penerapan method pada dataframe/series yang ditabelkan berikut ini:*

**Method**

**.to_csv()**

*→ digunakan untuk export dataframe kembali ke csv atau tsv*

In [None]:
# CSV
df.to_csv("csv1.csv", index=False)

# TSV
df.to_csv("tsv1.tsv", index=False, sep='\t')

**.to_clipboard()**

*→ export dataframe menjadi bahan copy jadi nanti bisa tinggal klik paste di excel atau google sheets*

In [None]:
df.to_clipboard()

**.to_excel()**

*→ export dataframe menjadi file excel*

In [None]:
df_excel.to_excel("xlsx1.xlsx", index=False)

**.to_gbq()**

*→ export dataframe menjadi table di Google BigQuery*

In [None]:
df.to_gbq("temp.test", project_id="XXXXXX", if_exists="fail")

**temp**: nama dataset,

**test**: nama table

**if_exists**: ketika tabel dengan dataset.table_name yang sama sudah ada, apa action yang ingin dilakukan

(**"fail"**: tidak melakukan apa-apa,

 **"replace'**: membuang tabel yang sudah ada dan mengganti yang baru,

 **"append"**: menambah baris di tabel tersebut dengan data yang baru
)

**Head & Tail**

*Seperti yang telah dipelajari sebelumnya bahwa ada method .head yang diterapkan pada suatu variabel bertipe pandas dataframe/series.*

1. *Method **.head** ditujukan untuk membatasi tampilan jumlah baris teratas dari dataset.* 
2. *Method **.tail** ditujukan untuk membatasi jumlah baris terbawah dari dataset.*

*Secara umum kedua method ini memiliki bentuk*

a. [nama_dataframe].head(n)

b. [nama_dataframe].tail(n)

*dengan n merupakan jumlah baris yang akan ditampilkan, jika tidak disebutkan n = 5 (sebagai nilai default dari n).* 

In [5]:
import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_csv.csv')
# Tampilkan 3 data teratas
print("Tiga data teratas:\n", df.head(3))
# Tampilkan 3 data terbawah
print("Tiga data terbawah:\n", df.tail(3))

Tiga data teratas:
    order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  
Tiga data terbawah:
      order_id  order_date  customer_id      city          province product_id  \
98    1612390  2019-01-01        12681  Makassar  Sulawesi Selatan      P3354   
99    1612390  2019-01-01        12681  Makassar  Sulawesi Selatan      P3357   
100   1612390  2019-01-01        12681  Makassar  Sulawesi Selatan      P0422   

       brand  quantity  item_price  
98   BRAND_S        24      450000  
99   BRAND_S        24      450000  
100  BRAND_B         4     1325000  


*Lakukan analisis dengan menggunakan BigQuery karena ada beberapa data BigQuery public datasets yang informasinya akurat dan sudah banyak data point-nya sehingga sudah bisa digunakan.*

*Tapi masalahnya, ada beberapa data adhoc yang bergantung tim lain yang belum terlalu melek data dan datanya masih disimpan dalam bentuk CSV.*

*Bagaimana langkah efektif yang dapat diambil untuk melakukan analisis gabungan data dari BigQuery dan CSV?*

***Hint**: coba explore BigQuery public datasets dulu, kamu akan dapati data size yang besar (>1juta baris), akan susah kalau harus di export dan dilakukan analisis di excel.*

1. *(b) Upload data CSV ke BigQuery, lakukan analisis di dalam BigQuery/export to pandas menggunakan pd.read_gbq*

2. *(c) Export data BigQuery menggunakan pd.read_gbq as dataframe, kemudian baca file csv menggunakan pd.read_csv dan akhirnya melakukan analisis gabungan di python*

**End of Module**