# Mengambil data BigQuery sebagai Pandas DataFrame

Sebetulnya secara default library Google BigQuery untuk Python semua hasilnya sudah menggunakan DataFrame. Namun library ini lebih mengatur secara eksplisit atau lebih detail untuk mengatur penggunaan DataFrame. Pada versi 0.29.0, Anda dapat menggunakan fungsi to_dataframe() untuk mengambil hasil kueri atau baris tabel sebagai pandas.DataFrame.

**Install** :

```bash
pip install --upgrade google-cloud-bigquery[pandas]
```

In [1]:
from google.cloud import bigquery

# Jika kita tidak menfinisikan kredensial ke dalam variabel client
# maka library client akan mencari kredensial dari project yang terhubung sekarang
## client = bigquery.Client()

client = bigquery.Client.from_service_account_json('key.json')

## Kueri Data BigQuery 

### Mengambil hasil kueri sebagai pandas.DataFrame:

In [2]:
# from google.cloud import bigquery
# client = bigquery.Client()

sql = """
    SELECT name, SUM(number) as count
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    GROUP BY name
    ORDER BY count DESC
    LIMIT 10
"""

df = client.query(sql).to_dataframe()
df.head()

Unnamed: 0,name,count
0,James,5001762
1,John,4875934
2,Robert,4743843
3,Michael,4354622
4,William,3886371


### Mengambil baris tabel sebagai panda.DataFrame:

In [22]:
# from google.cloud import bigquery
# client = bigquery.Client()

dataset_ref = client.dataset("samples", project="bigquery-public-data")
table_ref = dataset_ref.table("shakespeare")
table = client.get_table(table_ref)

df = client.list_rows(table).to_dataframe()
df.head()

Unnamed: 0,word,word_count,corpus,corpus_date
0,LVII,1,sonnets,0
1,augurs,1,sonnets,0
2,dimm'd,1,sonnets,0
3,plagues,1,sonnets,0
4,treason,1,sonnets,0


### Memuat DataFrame Pandas ke Tabel BigQuery

In [4]:
import pandas

dataset_id = 'my_dataset'

dataset_ref = client.dataset(dataset_id)
table_ref = dataset_ref.table("monty_python")
records = [
    {"title": "The Meaning of Life", "release_year": 1983},
    {"title": "Monty Python and the Holy Grail", "release_year": 1975},
    {"title": "Life of Brian", "release_year": 1979},
    {"title": "And Now for Something Completely Different", "release_year": 1971},
]
# Opsional mengatur indeks secara eksplisit.
# Jika indeks tidak ditentukan, kolom akan dibuat untuk default
# indeks dibuat oleh pandas.
index = ["Q24980", "Q25043", "Q24953", "Q16403"]
dataframe = pandas.DataFrame(records, index=pandas.Index(index, name="wikidata_id"))

job = client.load_table_from_dataframe(dataframe, table_ref, location="US")

job.result()  # Tunggu tabel load sampai selesai.

assert job.state == "DONE"
table = client.get_table(table_ref)
assert table.num_rows == 4

> **Note**: Jika terjadi error pada module pyarrow silahkan untuk menginstall conda
  ```bash
  conda install -c conda-forge pyarrow
  ``` 

### Muat data menggunakan Pandas lalu simpan ke tabel BigQuery

In [19]:
import pandas as pd

df = pd.read_csv('_datasets/languages.csv')
df.head()

Unnamed: 0,lang_id,code,name,percent,official
0,1,AFG,Dari,50.0,True
1,2,AFG,Pashto,35.0,True
2,3,AFG,Turkic,11.0,False
3,4,AFG,Other,4.0,False
4,5,ALB,Albanian,98.8,True


In [16]:
dataset_id = 'my_dataset'

dataset_ref = client.dataset(dataset_id)
table_ref = dataset_ref.table("languages")

df = pd.read_csv('_datasets/languages.csv')

job = client.load_table_from_dataframe(df, table_ref, location="US")

job.result()  # Tunggu loading tabel sampai selesai

assert job.state == "DONE"

## Menggunakan Modul pandas-gbq

Modul ini versi community dan sebenarnya tidak ada bedanya dengan library yang versi official. Namun dalam tutorial ini kita hanya akan mencoba perbedaan nya saja. Tetapi saya sarankan untuk menggunakan versi official `` google-cloud-bigquery `` yang di atas sebelumnya. 
https://cloud.google.com/bigquery/docs/pandas-gbq-migration

Install terlebih dahulu library pandas-gbq menggunakan pip :

```bash
pip install pandas-gbq -U
```

Muat data dari Google BigQuery menggunakan google-cloud-python.

```python
pandas_gbq.read_gbq(query, project_id=None, index_col=None, col_order=None, reauth=False, auth_local_webserver=False, dialect=None, location=None, configuration=None, credentials=None, verbose=None, private_key=None)
```

Tulis DataFrame ke tabel Google BigQuery.

```python
pandas_gbq.to_gbq(dataframe, destination_table, project_id=None, chunksize=None, reauth=False, if_exists='fail', auth_local_webserver=False, table_schema=None, location=None, progress_bar=True, credentials=None, verbose=None, private_key=None)
```

In [10]:
import pandas_gbq
from google.oauth2 import service_account

credentials = service_account.Credentials.from_service_account_file('key.json')
pandas_gbq.context.credentials = credentials
pandas_gbq.context.project = 'bigquery-sandbox-235419'
# Gunakan SQL standar BigQuery, yang sesuai dengan standar SQL 2011
pandas_gbq.context.dialect = 'standard'

In [15]:
sql = """
    SELECT name, SUM(number) as count
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    GROUP BY name
    ORDER BY count DESC
"""

data_frame = pandas_gbq.read_gbq(sql)
data_frame.head()

Unnamed: 0,name,count
0,James,5001762
1,John,4875934
2,Robert,4743843
3,Michael,4354622
4,William,3886371


In [17]:
# Menghitung jumlah baris
print(len(data_frame))

31314


### Kueri menggunakan Cached

In [22]:
# konfigurasi kueri sebagai parameter 
# Referensi: https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs#configuration.query
configuration = {
   'query': {
     "useQueryCache": True
   }
}

sql = """
    SELECT name, SUM(number) as count
    FROM `bigquery-public-data.usa_names.usa_1910_current`
    GROUP BY name
    ORDER BY count DESC
"""

data_frame = pandas_gbq.read_gbq(sql, configuration=configuration)
data_frame.head(10)

Unnamed: 0,name,count
0,James,5001762
1,John,4875934
2,Robert,4743843
3,Michael,4354622
4,William,3886371
5,Mary,3748377
6,David,3595923
7,Richard,2542659
8,Joseph,2518578
9,Charles,2273860


### Menulis DataFrames

Asumsikan kita ingin menulis DataFrame bernama `` df `` ke tabel BigQuery menggunakan metode `` to_gbq() `` . Buat terlebih dahulu dataset nya menggunakan perintah berikut ini:

In [26]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'my_string': list('abc'),
                   'my_int64': list(range(1, 4)),
                   'my_float64': np.arange(4.0, 7.0),
                   'my_bool1': [True, False, True],
                   'my_bool2': [False, True, False],
                   'my_dates': pd.date_range('now', periods=3)})

print(df)
print(df.dtypes)

  my_string  my_int64  my_float64  my_bool1  my_bool2  \
0         a         1         4.0      True     False   
1         b         2         5.0     False      True   
2         c         3         6.0      True     False   

                    my_dates  
0 2019-03-25 11:02:52.943525  
1 2019-03-26 11:02:52.943525  
2 2019-03-27 11:02:52.943525  
my_string             object
my_int64               int64
my_float64           float64
my_bool1                bool
my_bool2                bool
my_dates      datetime64[ns]
dtype: object


#### Menulis ke Tabel baru

Simpan DataFrame **df** ke tabel baru di BigQuery

In [29]:
# Nama projectid anda
projectid = "bigquery-sandbox-235419"

pandas_gbq.to_gbq(df, 'my_dataset.tabel_1', project_id=projectid, progress_bar=True)

#### Menulis ke Tabel yang sudah ada

Gunakan argumen `` if_exists `` untuk menentukan apakah akan `` 'fail' ``, `` 'replace' `` atau `` 'append' `` jika tabel tujuan sudah ada. Nilai default adalah `` 'fail' `` .

In [36]:
# Nama projectid anda
projectid = "bigquery-sandbox-235419"

pandas_gbq.to_gbq(df, 'my_dataset.tabel_1', project_id=projectid, if_exists='replace')

**Sources**
* https://googleapis.github.io/google-cloud-python/latest/bigquery/usage/pandas.html
* https://pandas-gbq.readthedocs.io/en/latest/index.html