# GPT Action Library: AWS RedShift

## 概要

このGPT Actionは、AWS RedShiftデータウェアハウスとの統合を可能にします。ユーザーはGPTを通じてRedShiftクラスターに対してSQLクエリを実行し、データの取得、分析、レポート生成を行うことができます。

## 主な機能

- **SQLクエリ実行**: RedShiftクラスターに対してSELECT、INSERT、UPDATE、DELETE文を実行
- **スキーマ探索**: データベースのテーブル、カラム、データ型の情報を取得
- **データ分析**: 集計、グループ化、結合などの複雑なクエリをサポート
- **結果のフォーマット**: クエリ結果をJSON、CSV、テーブル形式で表示

## 設定要件

### 前提条件

1. AWS RedShiftクラスターが稼働していること
2. 適切なIAMロールとポリシーが設定されていること
3. RedShiftクラスターへのネットワークアクセスが可能であること

### 必要な認証情報

- AWS Access Key ID
- AWS Secret Access Key
- RedShiftクラスターエンドポイント
- データベース名
- ユーザー名とパスワード

## 使用例

### 基本的なデータ取得

```sql
SELECT * FROM sales_data 
WHERE date >= '2024-01-01' 
LIMIT 100;
```

### 集計クエリ

```sql
SELECT 
    product_category,
    SUM(revenue) as total_revenue,
    COUNT(*) as transaction_count
FROM sales_data 
GROUP BY product_category
ORDER BY total_revenue DESC;
```

### テーブル情報の取得

```sql
SELECT 
    table_name,
    column_name,
    data_type
FROM information_schema.columns 
WHERE table_schema = 'public';
```

## セキュリティ考慮事項

- 最小権限の原則に従ってIAMポリシーを設定
- 機密データへのアクセスを制限
- クエリログの監視とモニタリング
- VPCエンドポイントの使用を推奨

## 制限事項

- 大量データの取得時は結果セットのサイズ制限に注意
- DDL文（CREATE、DROP等）の実行は慎重に行う
- 同時接続数の上限を考慮
- クエリタイムアウトの設定

## トラブルシューティング

### 接続エラー

- ネットワーク設定とセキュリティグループの確認
- 認証情報の検証
- クラスターの稼働状態確認

### パフォーマンス問題

- クエリの最適化
- インデックスの活用
- 適切なディストリビューションキーの設定

## はじめに

このページでは、特定のアプリケーション向けのGPT Actionを構築する開発者向けの手順とガイドを提供します。進める前に、まず以下の情報をよく理解しておいてください：

- [GPT Actionsの紹介](https://platform.openai.com/docs/actions)
- [GPT Actionsライブラリの紹介](https://platform.openai.com/docs/actions/actions-library)
- [GPT Actionをゼロから構築する例](https://platform.openai.com/docs/actions/getting-started)

この解決策は、GPTアクションがRedshiftからデータを取得し、データ分析を実行することを可能にします。AWS Functionsを使用し、AWSエコシステムとネットワークからすべてのアクションを実行します。ミドルウェア（AWS関数）はSQLクエリを実行し、その完了を待機してデータをファイルとして返します。提供されているコードは情報提供のみを目的としており、ニーズに応じて修正する必要があります。

この解決策は、[アクションでファイルを取得する](https://platform.openai.com/docs/actions/sending-files)機能を使用し、会話に直接アップロードしたかのようにファイルを使用します。

この解決策はRedshift serverlessへの接続を強調しており、プロビジョニングされたRedshiftとの統合では、ネットワークの取得と接続のセットアップが若干異なる場合がありますが、全体的なコードと（最小限の）統合は類似しているはずです。

### 価値とビジネス活用事例

**価値**: ChatGPTの自然言語機能を活用してRedshiftのDWHに接続する。

**使用例**:
- データサイエンティストがテーブルに接続し、ChatGPTのデータ分析機能を使用してデータ分析を実行できる
- 一般的なデータユーザーがトランザクションデータに関する基本的な質問を行うことができる
- ユーザーがデータや潜在的な異常値についてより多くの可視性を得ることができる

## アプリケーション情報

### アプリケーションの前提条件

開始する前に、以下を確認してください：
- Redshift環境にアクセスできること
- 同じVPC（Virtual Private Network）内にAWS関数をデプロイする権限があること
- AWS CLIが認証されていること

## ミドルウェア情報

### 必要なライブラリのインストール
- AWS CLIをインストールする（AWS SAMに必要）（[ドキュメント](https://docs.aws.amazon.com/cli/latest/userguide/getting-started-install.html#getting-started-install-instructions)）
- AWS SAM CLIをインストールする（[ドキュメント](https://docs.aws.amazon.com/serverless-application-model/latest/developerguide/install-sam-cli.html)）
- Pythonをインストールする
- yqをインストールする（[ドキュメント](https://github.com/mikefarah/yq?tab=readme-ov-file#install)）

### ミドルウェア関数

関数を作成するには、[AWS Middleware Action cookbook](https://cookbook.openai.com/examples/chatgpt/gpt_actions_library/gpt_middleware_aws_function)の手順に従ってください。

特にRedshiftに接続するアプリケーションをデプロイするには、Middleware AWS Function cookbookで参照されている「hello-world」GitHubリポジトリの代わりに、以下のコードを使用してください。リポジトリをクローンするか、以下に貼り付けられたコードを取得して、ニーズに合わせて修正することができます。

> このコードは方向性を示すものです - そのまま動作するはずですが、あなたのニーズに合わせてカスタマイズするように設計されています（このドキュメントの最後にある例を参照してください）。

コードを取得するには、openai-cookbookリポジトリをクローンして、redshift-middlewareディレクトリに移動してください。

```
git clone https://github.com/pap-openai/redshift-middleware
cd redshift-middleware
```

In [None]:
import json
import psycopg2
import os
import base64
import tempfile
import csv

# Fetch Redshift credentials from environment variables
host = os.environ['REDSHIFT_HOST']
port = os.environ['REDSHIFT_PORT']
user = os.environ['REDSHIFT_USER']
password = os.environ['REDSHIFT_PASSWORD']
database = os.environ['REDSHIFT_DB']

def execute_statement(sql_statement):
    try:
        # Establish connection
        conn = psycopg2.connect(
            host=host,
            port=port,
            user=user,
            password=password,
            dbname=database
        )
        cur = conn.cursor()
        cur.execute(sql_statement)
        conn.commit()

        # Fetch all results
        if cur.description:
            columns = [desc[0] for desc in cur.description]
            result = cur.fetchall()
        else:
            columns = []
            result = []

        cur.close()
        conn.close()
        return columns, result

    except Exception as e:
        raise Exception(f"Database query failed: {str(e)}")

def lambda_handler(event, context):
    try:
        data = json.loads(event['body'])
        sql_statement = data['sql_statement']

        # Execute the statement and fetch results
        columns, result = execute_statement(sql_statement)
        
        # Create a temporary file to save the result as CSV
        with tempfile.NamedTemporaryFile(delete=False, mode='w', suffix='.csv', newline='') as tmp_file:
            csv_writer = csv.writer(tmp_file)
            if columns:
                csv_writer.writerow(columns)  # Write the header
            csv_writer.writerows(result)  # Write all rows
            tmp_file_path = tmp_file.name

        # Read the file and encode its content to base64
        with open(tmp_file_path, 'rb') as f:
            file_content = f.read()
            encoded_content = base64.b64encode(file_content).decode('utf-8')

        response = {
            'openaiFileResponse': [
                {
                    'name': 'query_result.csv',
                    'mime_type': 'text/csv',
                    'content': encoded_content
                }
            ]
        }

        return {
            'statusCode': 200,
            'headers': {
                'Content-Type': 'application/json'
            },
            'body': json.dumps(response)
        }

    except Exception as e:
        return {
            'statusCode': 500,
            'body': json.dumps({'error': str(e)})
        }


### VPC情報の取得

関数をRedshiftに接続する必要があるため、Redshiftで使用されているネットワークを見つける必要があります。これは、AWSコンソールのRedshiftインターフェースで、Amazon Redshift Serverless > Workgroup configuration > `your_workgroup` > Data accessから確認するか、CLIを通じて確認できます：

In [None]:
aws redshift-serverless get-workgroup --workgroup-name default-workgroup --query 'workgroup.{address: endpoint.address, port: endpoint.port, SecurityGroupIds: securityGroupIds, SubnetIds: subnetIds}'

### AWS関数の設定

`env.sample.yaml`を`env.yaml`にコピーし、上記で取得した値に置き換えてください。DB/スキーマにアクセス権限を持つRedshiftユーザーが必要です。

```
cp env.sample.yaml env.yaml
```

前のコマンドで取得した値とRedshiftの認証情報を使用して`env.yaml`に記入してください。
または、`env.yaml`という名前のファイルを手動で作成し、以下の変数を記入することもできます：

```
RedshiftHost: default-workgroup.xxxxx.{region}.redshift-serverless.amazonaws.com
RedshiftPort: 5439
RedshiftUser: username
RedshiftPassword: password
RedshiftDb: my-db
SecurityGroupId: sg-xx
SubnetId1: subnet-xx
SubnetId2: subnet-xx
SubnetId3: subnet-xx
SubnetId4: subnet-xx
SubnetId5: subnet-xx
SubnetId6: subnet-xx
```

このファイルは、以下に示すようにパラメータを使用して関数をデプロイするために使用されます：

```
PARAM_FILE="env.yaml"
PARAMS=$(yq eval -o=json $PARAM_FILE | jq -r 'to_entries | map("\(.key)=\(.value|tostring)") | join(" ")')
sam deploy --template-file template.yaml --stack-name redshift-middleware --capabilities CAPABILITY_IAM --parameter-overrides $PARAMS
```

template.yamlには以下の内容が含まれています：

In [None]:
AWSTemplateFormatVersion: '2010-09-09'
Transform: AWS::Serverless-2016-10-31
Description: >
  redshift-middleware

  Middleware to fetch RedShift data and return it through HTTP as files

Globals:
  Function:
    Timeout: 3

Parameters:
  RedshiftHost:
    Type: String
  RedshiftPort:
    Type: String
  RedshiftUser:
    Type: String
  RedshiftPassword:
    Type: String
  RedshiftDb:
    Type: String
  SecurityGroupId:
    Type: String
  SubnetId1:
    Type: String
  SubnetId2:
    Type: String
  SubnetId3:
    Type: String
  SubnetId4:
    Type: String
  SubnetId5:
    Type: String
  SubnetId6:
    Type: String
  CognitoUserPoolName:
    Type: String
    Default: MyCognitoUserPool
  CognitoUserPoolClientName:
    Type: String
    Default: MyCognitoUserPoolClient

Resources:
  MyCognitoUserPool:
    Type: AWS::Cognito::UserPool
    Properties:
      UserPoolName: !Ref CognitoUserPoolName
      Policies:
        PasswordPolicy:
          MinimumLength: 8
      UsernameAttributes:
        - email
      Schema:
        - AttributeDataType: String
          Name: email
          Required: false

  MyCognitoUserPoolClient:
    Type: AWS::Cognito::UserPoolClient
    Properties:
      UserPoolId: !Ref MyCognitoUserPool
      ClientName: !Ref CognitoUserPoolClientName
      GenerateSecret: true

  RedshiftMiddlewareApi:
    Type: AWS::Serverless::Api
    Properties:
      StageName: Prod
      Cors: "'*'"
      Auth:
        DefaultAuthorizer: MyCognitoAuthorizer
        Authorizers:
          MyCognitoAuthorizer:
            AuthorizationScopes:
              - openid
              - email
              - profile
            UserPoolArn: !GetAtt MyCognitoUserPool.Arn
        
  RedshiftMiddlewareFunction:
    Type: AWS::Serverless::Function
    Properties:
      CodeUri: redshift-middleware/
      Handler: app.lambda_handler
      Runtime: python3.11
      Timeout: 45
      Architectures:
        - x86_64
      Events:
        SqlStatement:
          Type: Api
          Properties:
            Path: /sql_statement
            Method: post
            RestApiId: !Ref RedshiftMiddlewareApi
      Environment:
        Variables:
          REDSHIFT_HOST: !Ref RedshiftHost
          REDSHIFT_PORT: !Ref RedshiftPort
          REDSHIFT_USER: !Ref RedshiftUser
          REDSHIFT_PASSWORD: !Ref RedshiftPassword
          REDSHIFT_DB: !Ref RedshiftDb
      VpcConfig:
        SecurityGroupIds:
          - !Ref SecurityGroupId
        SubnetIds:
          - !Ref SubnetId1
          - !Ref SubnetId2
          - !Ref SubnetId3
          - !Ref SubnetId4
          - !Ref SubnetId5
          - !Ref SubnetId6

Outputs:
  RedshiftMiddlewareApi:
    Description: "API Gateway endpoint URL for Prod stage for SQL Statement function"
    Value: !Sub "https://${RedshiftMiddlewareApi}.execute-api.${AWS::Region}.amazonaws.com/Prod/sql_statement/"
  RedshiftMiddlewareFunction:
    Description: "SQL Statement Lambda Function ARN"
    Value: !GetAtt RedshiftMiddlewareFunction.Arn
  RedshiftMiddlewareFunctionIamRole:
    Description: "Implicit IAM Role created for SQL Statement function"
    Value: !GetAtt RedshiftMiddlewareFunctionRole.Arn
  CognitoUserPoolArn:
    Description: "ARN of the Cognito User Pool"
    Value: !GetAtt MyCognitoUserPool.Arn


前のコマンド出力からURL情報を取得し、cURLリクエストを実行すると、ファイル形式でデータが返されます：

In [None]:
curl -X POST https://<your_url>/Prod/sql_statement/ \
-H "Content-Type: application/json" \
-d '{ "sql_statement": "SELECT * FROM customers LIMIT 10", "workgroup_name": "default-workgroup", "database_name": "pap-db" }'

## ChatGPT ステップ

### カスタムGPT指示

Custom GPTを作成したら、以下のテキストをInstructionsパネルにコピーしてください。

In [None]:
**Context**: You are an expert at writing Redshift SQL queries. You will initially retrieve the table schema that you will use thoroughly. Every attributes, table names or data type will be known by you.

**Instructions**:
1. No matter the user's question, start by running `runQuery` operation using this query: "SELECT table_name, column_name FROM INFORMATION_SCHEMA.COLUMNS WHERE table_schema = 'public' ORDER BY table_name, ordinal_position;"  It will help you understand how to query the data. A CSV will be returned with all the attributes and their table. Make sure to read it fully and understand all available tables & their attributes before querying. You don't have to show this to the user.
2. Convert the user's question into a SQL statement that leverages the step above and run the `runQuery` operation on that SQL statement to confirm the query works. Let the user know which table you will use/query.
3. Execute the query and show him the data. Show only the first few rows.

**Additional Notes**: If the user says "Let's get started", explain they can ask a question they want answered about data that we have access to. If the user has no ideas, suggest that we have transactions data they can query - ask if they want you to query that.
**Important**: Never make up a table name or table attribute. If you don't know, go back to the data you've retrieved to check what is available. If you think no table or attribute is available, then tell the user you can't perform this query for them.

### OpenAPI スキーマ

Custom GPTを作成したら、以下のテキストをActionsパネルにコピーしてください。

これは、[こちら](https://platform.openai.com/docs/actions/sending-files)のドキュメントにあるファイル取得構造と一致するレスポンスを期待し、実行するパラメータとして`query`を渡します。

認証を設定するために、[AWS Middlewareクックブック](https://cookbook.openai.com/examples/chatgpt/gpt_actions_library/gpt_middleware_aws_function)の手順に従ってください。

> 関数のデプロイメントに基づいて、関数アプリ名を切り替えることを確認してください。

In [None]:
openapi: 3.1.0
info:
  title: SQL Execution API
  description: API to execute SQL statements and return results as a file.
  version: 1.0.0
servers:
  - url: {your_function_url}/Prod
    description: Production server
paths:
  /sql_statement:
    post:
      operationId: executeSqlStatement
      summary: Executes a SQL statement and returns the result as a file.
      requestBody:
        required: true
        content:
          application/json:
            schema:
              type: object
              properties:
                sql_statement:
                  type: string
                  description: The SQL statement to execute.
                  example: SELECT * FROM customers LIMIT 10
              required:
                - sql_statement
      responses:
        '200':
          description: The SQL query result as a JSON file.
          content:
            application/json:
              schema:
                type: object
                properties:
                  openaiFileResponse:
                    type: array
                    items:
                      type: object
                      properties:
                        name:
                          type: string
                          description: The name of the file.
                          example: query_result.json
                        mime_type:
                          type: string
                          description: The MIME type of the file.
                          example: application/json
                        content:
                          type: string
                          description: The base64 encoded content of the file.
                          format: byte
                          example: eyJrZXkiOiJ2YWx1ZSJ9
        '500':
          description: Error response
          content:
            application/json:
              schema:
                type: object
                properties:
                  error:
                    type: string
                    description: Error message.
                    example: Database query failed error details


## まとめ

これで、認証機能付きでAWSのミドルウェアを使用し、Redshiftに接続できるGPTをデプロイしました。アクセス権限を持つユーザー（Cognitoに登録されているユーザー）は、データベースにクエリを実行してデータ分析タスクを実行できるようになりました：

![../../../images/redshift_gpt.png](../../../images/redshift_gpt.png)