## Teknik Membaca Dataset

Pandas menyediakan berbagai method untuk membaca file tersebut hanya dengan dipanggil method itu, code yang lebih simple dan loading yang lebih, tentu saja output nya dapat berupa Series atau Dataframe.

Terdapat sangat banyak file yang dapat dibaca/dapat disimpan oleh Pandas, tapi ada beberapa file yang paling umum dan sering digunakan oleh praktisi data seperti berikut ini:

1. **CSV (Comma Separated Values)**, antar data dalam satu baris dipisahkan oleh comma, ",".
2. **TSV (Tab Separated Values)**, antar data dalam satu baris dipisahkan oleh "Tab".

CSV dan TSV pada hakikatnya adalah tipe data text dengan perbedaan terletak pada pemisah antar data dalam satu baris. Pada file CSV, antar data dalam satu baris dipisahkan oleh comma, ",". Namun, pada file TSV antar data dalam satu baris dipisahkan oleh "Tab".

Function yang digunakan:

**.read_csv()** digunakan untuk membaca file yang value-nya dipisahkan oleh comma (default), terkadang pemisah value-nya bisa di set ‘\t’ untuk file tsv (tab separated values).

```python
import pandas as pd
# File CSV
df_csv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
print(df_csv.head(3)) # Menampilkan 3 data teratas
# File TSV
df_tsv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv", sep='\t')
print(df_tsv.head(3)) # Menampilkan 3 data teratas
```



In [None]:
# Silahkan dicoba disini



   order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  
   order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  


3. **Excel** dengan ekstensi *.xls atau *.xlsx cukup banyak digunakan dalam menyimpan data. Pandas juga memiliki fitur untuk membaca file excel. 

Function yang digunakan:
**.read_excel()** digunakan untuk membaca file excel menjadi dataframe pandas.

```python
import pandas as pd
# File xlsx dengan data di sheet "test"
df_excel = pd.read_excel("https://storage.googleapis.com/dqlab-dataset/sample_excel.xlsx", sheet_name="test")
print(df_excel.head(4)) # Menampilkan 4 data teratas
```



In [None]:
# Silahkan dicoba disini



4. **JSON (Java Script Object Notation)** digunakan untuk membaca URL API yang formatnya JSON dan mengubahnya menjadi dataframe pandas.

```python
import pandas as pd
# File JSON
url = "https://storage.googleapis.com/dqlab-dataset/covid2019-api-herokuapp-v2.json"
df_json = pd.read_json(url)
print(df_json.head(10)) # Menampilkan 10 data teratas
```



In [None]:
# Silahkan dicoba disini



5. **SQL Query** digunakan untuk membaca query dari database dan translate menjadi. Function yang digunakan: .read_sql() atau .read_sql_query().

```python
# persiapkan library yang digunakan
import psycopg2 as pg
import pandas.io.sql as psql
import pandas as pd
# Bangun konektivitas
host = "ec2-54-164-22-242.compute-1.amazonaws.com"
dbname = "d92sarup3qlji0"
user = "fttxsdmckdfikz"
password = "c5561e667cd292f382a0e437807e05c89fba1b894dddff1e77e07befe8a866ac"
connection = pg.connect(f"host={host} dbname={dbname} user={user} password={password}")
my_query = """
SELECT *
FROM orders;"""
# Bentuk pertama
df_loan = pd.read_sql_query(my_query, connection)
df_loan.head()
# Bentuk kedua
df_loan = pd.read_sql(my_query, connection)
df_loan.head()
```



In [None]:
# Silahkan dicoba disini



6. **Google BigQuery** digunakan apabila terdapat data yang besar, salah satu fungsi yang digunakan adalah **.read_gbq()** untuk membaca Google BigQuery table menjadi dataframe pandas.


```python
import pandas as pd
query = """
SELECT *
FROM `bigquery-public-data.covid19_jhu_csse_eu.summary`
LIMIT 1000;"""
df_covid19_eu_summary = pd.read_gbq(query, project_id="XXXXXXXX")
df_covid19_eu_summary

##### CONTOH LAINNYA #####
def test_pandas_gbq_query_bqstorage():
    # [START bigquery_migration_pandas_gbq_query_bqstorage]
    import pandas

    sql = "SELECT * FROM `bigquery-public-data.irs_990.irs_990_2012`"

    # Use the BigQuery Storage API to download results more quickly.
    df = pandas.read_gbq(sql, dialect='standard', use_bqstorage_api=True)
```



Proses penyimpanan dataset yang sudah jadi dengan:
1. **.to_csv()** digunakan untuk export dataframe kembali ke csv atau tsv

```python
# Mengubah ke penyimpanan
df_csv.to_csv("datatocsv.csv", index=False)
df_tsv.to_csv("datatotsv.csv", index=False, sep='\t')
```



In [None]:
# Silahkan dicoba disini



2. **.to_clipboard()** export dataframe menjadi bahan copy jadi nanti bisa tinggal klik paste di excel atau google sheets.

```python
df_csv.to_clipboard(excel = False)
df_csv.to_clipboard(excel = True)
```



3. **.to_excel()** export dataframe menjadi file excel

```python
df_excel.to_excel("datatoexcel.xlsx", index=False)
```



In [None]:
# Silahkan dicoba disini



4. **.to_gbq()** export dataframe menjadi table di Google BigQuery

```python
df.to_gbq("temp.test", project_id="XXXXXX", if_exists="fail")
## temp: nama dataset,
## test: nama table
## if_exists: ketika tabel dengan dataset.table_name yang sama sudah ada, apa action yang ingin dilakukan
## ("fail": tidak melakukan apa-apa,
##  "replace': membuang tabel yang sudah ada dan mengganti yang baru,
##  "append": menambah baris di tabel tersebut dengan data yang baru)
```



Proses membaca data dapat dilakukan dengan:
1. **.head()** ditujukan untuk membatasi tampilan jumlah baris teratas dari dataset.
2. **.tail()** ditujukan untuk membatasi jumlah baris terbawah dari dataset

Dimana keduanya default n=5 untuk menampilkan data.

```python
import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Tampilkan 3 data teratas
print("Tiga data teratas:\n", df.head(3))
# Tampilkan 3 data terbawah
print("Tiga data terbawah:\n", df.tail(3))
```



In [None]:
# Silahkan dicoba disini



Lakukan analisis dengan menggunakan BigQuery karena ada beberapa data BigQuery public datasets yang informasinya akurat dan sudah banyak data point-nya sehingga sudah bisa digunakan.

Tapi masalahnya, ada beberapa data adhoc yang bergantung tim lain yang belum terlalu melek data dan datanya masih disimpan dalam bentuk CSV.

Bagaimana langkah efektif yang dapat diambil untuk melakukan analisis gabungan data dari BigQuery dan CSV?

1. Upload data CSV ke BigQuery, lakukan analisis di dalam BigQuery/export to pandas menggunakan pd.read_gbq
2. Export data BigQuery menggunakan pd.read_gbq as dataframe, kemudian baca file csv menggunakan pd.read_csv dan akhirnya melakukan analisis gabungan di python