# de04 資料庫連接操作: 作業

這個作業主要是要讓學員學習如何連接到關聯型資料庫並進行一些讀取與寫入的操作。同時為讓學員去思考, 將數據寫入到資料庫與寫入到BlobStorage服務的差別, 以及將數據從資料庫讀取與從BlobStorage服務來讀取在日常的數據ETL的設計上該如何去構思。

## 計算某一個Task所花費的時間

在許多的運算過程,為了了解可能的性能的瓶頸或優化的方向, 有時會在程式裡埋蔵一些幫助profiling的程式碼。如果要了解某一段區塊所執行的時間, 以下是一小段範例:

In [None]:
import time # 載入 time 模組

start_time = time.time()
print(f'Task execution [START]: {start_time}')



# your script --> start
t = 4

time.sleep(t) # 我們用sleep()來模擬程式運算的執行, 參數t是秒數

# your script --> end


end_time = time.time()
print(f'Task execution [END]: {end_time}')

# calcuate Task execution duriation
elapsed_time = end_time - start_time
elapsed = time.strftime("%H:%M:%S", time.gmtime(elapsed_time))
print(f"Total eclapsed duration: {elapsed}")


以下的作業會使用到以下的範例資料。

**範例資料庫**: DVD rental database
    
說明: DVD出租數據庫代表DVD出租商店的業務流程。 DVD出租數據庫具有許多資料表，包括：
* 15 tables
* 1 trigger
* 7 views
* 8 functions
* 1 domain
* 13 sequences

**DVD Rental ER Model**

![](images/dvd-rental-sample-database-diagram.png)

使用SQLAlchemy連接的範例:
```python
from sqlalchemy import create_engine

# create engine to connect Postgresql
pg_engine_source = create_engine("postgresql+psycopg2://dxlab:wistron888@10.34.124.114/dvdrental")
```

## 作業#01

請使用DBAPI來連結到這個範例資料庫, 並請計算出15個資料表每一個資料表的Record Count的筆數。

In [None]:
#task01
import psycopg2

# all tables
tables = ['category', 'film_category', 'film', 'language', 'film_actor', 'inventory', 
          'rental', 'payment', 'staff', 'actor', 'customer', 'address', 'city', 'country', 'store']

results = {
    'category':0, 'film_category':0, 'film':0, 'language':0, 'film_actor':0, 'inventory':0, 
          'rental':0, 'payment':0, 'staff':0, 'actor':0, 'customer':0, 'address':0, 'city':0, 'country':0, 'store':0
}

db_conn = psycopg2.connect(host='10.34.124.114', dbname='dvdrental', user='dxlab', password='wistron888')
print('Connect [postgres] database successfully!')

# write your code below

# Open a cursor to perform database operations
cur = db_conn.cursor()

for table in tables:
    # 執行你的SQL
    
    
    
db_conn.close()
# print out the final result
print(results)

## 作業#02

請使用DBAPI來連結到這個範例資料庫, 並且執行一個Left-join結果的Query然後把結果存成一個CSV檔(`task2.csv`)。
CSV的檔案必需要包含欄位名稱(column in 1st row), 欄位之間以","來分隔。並且把這個檔案上傳到學員個人的bucket(工號轉成lower-case)。

**S3 連接參數**

請使用以下的帳號來登入Minio, 每個學員都是不同的登入帳號與密碼:

* `endpoint_url` (s3服務的網路位址): **http://10.34.124.114:9000**
* `aws_access_key_id` (使用者帳號): **你/妳的工號**
* `aws_secret_access_key` (使用者密碼): **學院指派的密碼**
* `region_name` (區域編碼): **us-east-1**

* `object_key`: **de04/task2.csv**


**CSV導出參考**: https://gist.github.com/madan712/f27ac3b703a541abbcd63871a4a56636

```sql
SELECT
    film.film_id,
    title,
    inventory_id
FROM
    film
LEFT JOIN inventory 
    ON inventory.film_id = film.film_id
ORDER BY title;
```


![](images/film-and-inventory-tables.png)

**SQL語法參考**: https://www.postgresqltutorial.com/postgresql-left-join/

In [None]:
#task02
import psycopg2

stmt = """
SELECT
    film.film_id,
    title,
    inventory_id
FROM
    film
LEFT JOIN inventory 
    ON inventory.film_id = film.film_id
ORDER BY title;
"""

db_conn = psycopg2.connect(host='10.34.124.114', dbname='dvdrental', user='dxlab', password='wistron888')
print('Connect [postgres] database successfully!')

# write your code below




    
db_conn.close()

## 作業#03

請從s3 (minio)上透過`pd.read_parquet()`方法讀取這個`nyc_taxi_trip_duration.parquet.gz`檔案, 並且透過`df.to_sql()`方法將資料寫出到學院幫每個學員準備好的Postgres資料庫。

同時並計算呼叫`df.to_sql()`從開始到結速的時間(參考`計算某一個Task所花費的時間`的範例)。

> 這個作業在寫資料到資料表的時候會花點時間, 請大家耐心等候一下。

**範例數據**: `nyc_taxi_trip_duration.parquet.gz`檔案是`紐約市計程車和禮車協會`所發佈的一個公開資料集。

* Minio: http://10.34.124.114:9000
* Bucket: public
* 檔案路徑: `de04/data/nyc_taxi_trip_duration.parquet.gz`
* 資料筆數: 729,322 （73萬筆）
* 資料格式: Parquet (Gzip壓縮)

資料欄位:
* id - 車程編號
* vendor_id - 計程車行編號
* pickup_datetime - 上車日期時間
* dropoff_datetime - 下車日期時間
* passenger_count - 乘客人數
* pickup_longitude - 上車經度
* pickup_latitude - 上車緯度
* dropoff_longitude - 下車經度
* dropoff_latitude - 下車緯度
* store_and_fwd_flag - 是否直接連線上傳b Y/N
* trip_duration - 車程持續時間(以秒為單位)

> 為了讓每個學員可以練習資料庫的寫入, 學員幫每個學員創建了一個Postgres的資料庫。
> 舉例:工號 8008888　-> 資料庫: db_8008888 , 帳號: user_8008888 , 密碼: xxxxxxx

```python
# 請學員連線到學員專屬的資料庫
from sqlalchemy import create_engine

# 舉例:工號 8008888　-> 資料庫: db_8008888 , 帳號: user_8008888 , 密碼: xxxxxxx
# pg_engine = create_engine('postgresql+psycopg2://user_8008888:xxxxxxx@10.34.124.114/db_8008888', echo=True)

pg_engine_destination = create_engine('postgresql+psycopg2://demo:demo8888@10.34.124.114/demo', echo=True) # echo標誌是設置SQLAlchemy日誌記錄的快捷方式
print(type(pg_engine_destination))
print('Connect [PostgreSQL] database successfully!') 
```

**Data Source:**
* S3: http://10.34.124.114:9000
* Bucket: public
* ObjectKey: **de04/data/nyc_taxi_trip_duration.parquet.gz**

**Data Destination:**
* Postgres: 10.34.124.114 (port: 5432)
* Table: **staging_nyctaxi**

In [None]:
## task3
import boto3
import pandas as pd

import io
import os
import tempfile
import time
from sqlalchemy import create_engine

# create engine to connect Postgresql(請修user/password/db_name)
pg_engine_destination = create_engine("postgresql+psycopg2://EMPID:PASSWORD@10.34.124.114/db_EMPID")

# create s3 connection(請修access_key/secret_key)
s3_resource = boto3.resource('s3',
                    endpoint_url='http://10.34.124.114:9000',
                    aws_access_key_id='EMPID',
                    aws_secret_access_key='PASSWORD',
                    region_name='us-east-1')

bucket_name='public'
object_key='de04/data/nyc_taxi_trip_duration.parquet.gz'

# write your code below

with tempfile.NamedTemporaryFile('w+') as fp:
    temp_filename = fp.name # 暫存檔案名    
    # download s3 object to local folder
    try:
        s3_resource.Object(bucket_name, object_key).download_file(temp_filename)
        print('Download s3 object to local success!')
    except ClientError as e:
        printt('Download s3 object to local fail:{e}')
    
    df_nyc_taxi = pd.read_parquet(temp_filename)

    print(df_nyc_taxi.info())
    print(df_nyc_taxi.head())
    
    # export dataframe to postgres （拋資料進Table時記得設定 chunksize=5000)
    start_time = time.time()    
    print('Export dataframe to postgres [START]')
    
    ### YOUR CODE HERE ###
    
    print('Export dataframe to postgres [END]')
    
    end_time = time.time()
    elapsed_time = end_time - start_time
    elapsed = time.strftime("%H:%M:%S", time.gmtime(elapsed_time))    
    print(f'Export nyc_taxi_trip_duration to postgres taks:{elapsed}')


## 作業#04

請從s3 (minio)上透過`pd.read_parquet()`方法讀取這個`nyc_taxi_trip_duration.parquet.gz`檔案, 並且透過`df.to_parquet()`方法再將資料寫出(並且以gzip來進行壓縮), 然後上傳到學員個人的bucket(工號轉成lower-case)。

同時並計算呼叫`df.to_parquet()`從開始到結束的時間(參考`計算某一個Task所花費的時間`的範例)。

* **bucket_name**: {工號}
* **object_key**: 'de04/data/nyc_taxi_trip_duration.parquet.gz

In [None]:
## task4



## 作業#05

比較作業#03與作業#04, 觀察兩個作法的執行時間然後說明一下你認為為什麼兩個的時間差相當大可能原因? (本題為思考題/申論題)


我認為可能的原因為:

1. xxx
2. yyy
3. zzz
4. ...