# HDFS のデータ操作
BDC は、ストレージプールのレイヤーに HDFS のデータストアを標準で持っている。  
この HDFS 上のデータについては、T-SQL を使用して参照することができる。

## 1. Big Data Cluster の HDFS のデータにアクセス

In [6]:
USE [StoragePool];

-- オブジェクトの初期化
IF EXISTS (SELECT * FROM sys.external_tables WHERE name = 'StoragePoolTBL')
BEGIN
	DROP EXTERNAL TABLE StoragePoolTBL
END;
IF EXISTS (SELECT * FROM sys.external_file_formats WHERE name = 'csv_file')
BEGIN
	DROP EXTERNAL FILE FORMAT csv_file
END
GO

**1. HDFS 上のファイルのデータフォーマットを指定**  
外部データがどのようなフォーマットなのかを判断するための、ファイルフォーマットを作成

In [7]:
USE [StoragePool];

-- CSV の外部データフォーマットを作成
CREATE EXTERNAL FILE FORMAT csv_file
WITH (
    FORMAT_TYPE = DELIMITEDTEXT,
    FORMAT_OPTIONS(
        FIELD_TERMINATOR = ',',
        STRING_DELIMITER = '"',
        FIRST_ROW = 2,
        USE_TYPE_DEFAULT = TRUE)
);

**2. 外部テーブルの作成**  
HDFS のデータを参照するための外部テーブルの作成  
Big Data Cluster 上の HDFS の指定したディレクトリ （今回は [/clickstream_Data]) をテーブルとして参照

In [8]:
USE [StoragePool];

-- Storage Pool の HDFS の内容を外部テーブルとして作成
CREATE EXTERNAL TABLE [StoragePoolTBL]
(
	wcs_click_date_sk BIGINT , 
	wcs_click_time_sk BIGINT , 
	wcs_sales_sk BIGINT , 
	wcs_item_sk BIGINT , 
	wcs_web_page_sk BIGINT , 
	wcs_user_sk BIGINT
)
WITH
(
    DATA_SOURCE = SqlStoragePool,
	LOCATION = '/clickstream_data',
    FILE_FORMAT = csv_file
);

![BDC HDFS Data](https://github.com/MasayukiOzawa/decode-2019-demo/raw/master/Images/03.Data%20Store/01.Storage%20Pool/BDC%20HDFS%20Data.png)

**3. HDFS 上のデータを参照**  
HDFS のデータをテーブルとして参照  
以降の操作はデータ仮想化と同様になる

In [9]:
USE [StoragePool];

-- Storage Pool の HDFS の内容を検索
SELECT COUNT(*) FROM [StoragePoolTBL]
SELECT TOP 20 * FROM [StoragePoolTBL] WHERE wcs_click_time_sk > 5000

(No column name)
1497


wcs_click_date_sk,wcs_click_time_sk,wcs_sales_sk,wcs_item_sk,wcs_web_page_sk,wcs_user_sk
38569,85106,,11130,18,
38569,52655,,3716,18,
38569,70934,,13243,18,
38569,40166,,5389,18,
38570,73271,,3331,18,
38570,24651,,10049,18,
38570,23805,,921,18,
38570,66458,,4407,18,
38570,65912,,11494,18,
38570,80073,,1833,18,


![HDFS Data Query](https://github.com/MasayukiOzawa/decode-2019-demo/raw/master/Images/03.Data%20Store/01.Storage%20Pool/Storage%20Pool%20Data%20Query.png)