# [Module 4] Create Dataset Group


* IAM Role 생성 및 권한 할당
    - Personalize 서비스가 사용할 역할을 생성 및 권한을 할당 합니다.
* 데이타 세트 그룹 생성 (DatasetGroup)    
* 데이타 스키마 생성
* 데이타 세트 생성 (Dataset)
* 데이타 Import (S3 --> Personalize 서비스로 다운로드)

---

# 0. 환경 설정

In [1]:
# Imports
import boto3
import json
import numpy as np
import pandas as pd
import time
from datetime import datetime

import matplotlib.pyplot as plt
from matplotlib.dates import DateFormatter
import matplotlib.dates as mdate
from botocore.exceptions import ClientError

다음으로 여러분의 환경이 Amazon Personalize와 성공적으로 통신할 수 있는지 확인해야 합니다.

In [2]:
# Configure the SDK to Personalize:
personalize = boto3.client('personalize')

생성할 오브젝트의 끝에 임의의 숫자를 부여하기 위해 suffix 정의

In [3]:
suffix = str(np.random.uniform())[4:9]

In [4]:
%store -r

## 1. Personalize Service의 S3 접근 권한
Personalize Service 는 해당 S3 버킷에 접근하기 위해서 권한

In [5]:
s3 = boto3.client("s3")

policy = {
    "Version": "2012-10-17",
    "Id": "PersonalizeS3BucketAccessPolicy",
    "Statement": [
        {
            "Sid": "PersonalizeS3BucketAccessPolicy",
            "Effect": "Allow",
            "Principal": {
                "Service": "personalize.amazonaws.com"
            },
            "Action": [
                "s3:*",
            ],
            "Resource": [
                "arn:aws:s3:::{}".format(bucket),
                "arn:aws:s3:::{}/*".format(bucket)
            ]
        }
    ]
}

s3.put_bucket_policy(Bucket=bucket, Policy=json.dumps(policy))

{'ResponseMetadata': {'RequestId': 'YGX9ZG3CJF9P8ZKP',
  'HostId': '0g+edvYmN0eeJV7rgxOsZI47GAMBCFDpagVhwpQAolCObnerTkKb/k43k81oFoirHzOuRFZDHGk=',
  'HTTPStatusCode': 204,
  'HTTPHeaders': {'x-amz-id-2': '0g+edvYmN0eeJV7rgxOsZI47GAMBCFDpagVhwpQAolCObnerTkKb/k43k81oFoirHzOuRFZDHGk=',
   'x-amz-request-id': 'YGX9ZG3CJF9P8ZKP',
   'date': 'Mon, 10 Apr 2023 13:24:39 GMT',
   'server': 'AmazonS3'},
  'RetryAttempts': 0}}

## Personalize IAM Role 생성

또한, Amazon Personalize는 특정 작업들을 실행할 권한을 갖기 위해, AWS에서 역할을 맡을 수 있는 기능이 필요합니다. 
예를 들어 Personalize 는 S3에 접근을 해야 합니다. 그래서 이를 위한 역할이 필요하고, 이 역할은 S3 접근 권한이 필요 합니다.

In [6]:
suffix

'06863'

In [7]:
iam = boto3.client("iam")

# Personalize 서비스가 이용할 role을 만들기 위한 assume_role_policy 생성
role_name = "PersonalizeRoleDemo" + suffix
assume_role_policy_document = {
    "Version": "2012-10-17",
    "Statement": [
        {
          "Effect": "Allow",
          "Principal": {
            "Service": "personalize.amazonaws.com"
          },
          "Action": "sts:AssumeRole"
        }
    ]
}

# Personalize 서비스가 이용할 role 생성
create_role_response = iam.create_role(
    RoleName = role_name,
    AssumeRolePolicyDocument = json.dumps(assume_role_policy_document)
)

# 위에서 생성한 role에 AmazonPersonalizeFullAccess 권한 추가
policy_arn = "arn:aws:iam::aws:policy/service-role/AmazonPersonalizeFullAccess"
iam.attach_role_policy(
    RoleName = role_name,
    PolicyArn = policy_arn
)

# 위에서 생성한 role에 AmazonS3FullAccess 권한 추가
iam.attach_role_policy(
    RoleName=role_name,    
    PolicyArn='arn:aws:iam::aws:policy/AmazonS3FullAccess'
)
time.sleep(20) # wait for 20 seconds to allow IAM role policy attachment to propagate

role_arn = create_role_response["Role"]["Arn"]
print(role_arn)

arn:aws:iam::376278017302:role/PersonalizeRoleDemo06863


## 2. 데이터 세트 그룹 생성 및 대기

Personalize에서 가장 큰 단위는 **데이터 세트 그룹(Dataset Group)** 이며, 이렇게 하면 데이터, 이벤트 추적기(event tracker), 솔루션(solution) 및 캠페인(campaign)이 분리됩니다. 공통의 데이터 수집을 공유하는 것들을 그룹화합니다. 원하는 경우 아래 그룹명을 자유롭게 변경해 주세요.

### 2.1 데이터 세트 그룹 생성

In [8]:
create_base_dataset_group_response = personalize.create_dataset_group(
    name = "RetailDemo-dataset-group"
)

In [9]:
base_dataset_group_arn = create_base_dataset_group_response['datasetGroupArn']
base_dataset_group_arn

'arn:aws:personalize:us-east-1:376278017302:dataset-group/RetailDemo-dataset-group'

#### 데이터 세트 그룹이 활성화 상태가 될 때까지 대기

아래의 모든 항목에서 Dataset Group을 사용하려면 활성화(active)가 되어야 합니다. 아래 셀을 실행하고 DatasetGroup: ACTIVE로 변경될 때까지 기다려 주세요.

In [10]:
max_time = time.time() + 3*60*60 # 3 hours
while time.time() < max_time:
    describe_dataset_group_response = personalize.describe_dataset_group(
        datasetGroupArn = base_dataset_group_arn
    )
    status = describe_dataset_group_response["datasetGroup"]["status"]
    print("DatasetGroup: {}".format(status))
    
    if status == "ACTIVE" or status == "CREATE FAILED":
        break
        
    time.sleep(15)

DatasetGroup: CREATE PENDING
DatasetGroup: ACTIVE


## 3. 스키마 생성

Personalize가 데이터를 이해하는 방법의 핵심 구성 요소는 아래 정의 된 스키마(schema)에서 비롯됩니다. 이 설정은 CSV 파일을 통해 제공된 데이터를 요약하는 방법을 Personalize 서비스에 알려줍니다. 열(column)과 유형(type)은 위에서 만든 파일의 내용과 일치합니다.

### 3.1 인터렉션

In [11]:
interaction_schema_name="RetailDemo-interaction-schema"

schema = {
    "type": "record",
    "name": "Interactions",
    "namespace": "com.amazonaws.personalize.schema",
    "fields": [
        {
            "name": "USER_ID",
            "type": "string"
        },
        {
            "name": "ITEM_ID",
            "type": "string"
        },
        { 
            "name": "EVENT_TYPE",
            "type": "string"
        },        
        {
            "name": "TIMESTAMP",
            "type": "long"
        }
    ],
    "version": "1.0"
}


create_schema_response = personalize.create_schema( 
    name = interaction_schema_name,
    schema = json.dumps(schema)
)

interaction_schema_arn = create_schema_response['schemaArn']
print(json.dumps(create_schema_response, indent=2))

{
  "schemaArn": "arn:aws:personalize:us-east-1:376278017302:schema/RetailDemo-interaction-schema",
  "ResponseMetadata": {
    "RequestId": "28fab30a-02cd-4a3b-a635-0f7e05479653",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Mon, 10 Apr 2023 13:27:40 GMT",
      "content-type": "application/x-amz-json-1.1",
      "content-length": "95",
      "connection": "keep-alive",
      "x-amzn-requestid": "28fab30a-02cd-4a3b-a635-0f7e05479653"
    },
    "RetryAttempts": 0
  }
}


### 3.2 아이템

In [12]:
base_item_schema_name="RetailDemo-base-item-schema"

schema = {
    "type": "record",
    "name": "Items",
    "namespace": "com.amazonaws.personalize.schema",
    "fields": [
    {
        "name": "ITEM_ID",
        "type": "string"
    },
    {
        "name": "NAME",
        "type": "string"
    },
    {
      "name": "CATEGORY_L1",
      "type": [
        "string"
      ],
      "categorical": True
    },
    {
      "name": "STYLE",
      "type": [
        "string"
      ],
      "categorical": True
    },
    {
        "name": "PRODUCT_DESCRIPTION",
        "type": "string"
    },
    {
      "name": "PRICE",
      "type": "float"
    },    
    ],
    "version": "1.0"
}

create_metadata_schema_response = personalize.create_schema(      
    name = base_item_schema_name,
    schema = json.dumps(schema)
)

base_item_schema_arn = create_metadata_schema_response['schemaArn']
print(json.dumps(create_metadata_schema_response, indent=2))

{
  "schemaArn": "arn:aws:personalize:us-east-1:376278017302:schema/RetailDemo-base-item-schema",
  "ResponseMetadata": {
    "RequestId": "050daf8d-4159-4314-8460-1a5f0ee6a095",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Mon, 10 Apr 2023 13:27:42 GMT",
      "content-type": "application/x-amz-json-1.1",
      "content-length": "93",
      "connection": "keep-alive",
      "x-amzn-requestid": "050daf8d-4159-4314-8460-1a5f0ee6a095"
    },
    "RetryAttempts": 0
  }
}


### 3.3 유저

In [13]:
user_schema_name="RetailDemo-user-schema"

schema = {
    "type": "record",
    "name": "Users",
    "namespace": "com.amazonaws.personalize.schema",
    "fields": [
    {
        "name": "USER_ID",
        "type": "string"
    },
    {
      "name": "USER_NAME",
      "type": "string"
    },        
    {
      "name": "GENDER",
      "type": [
        "string"
      ],
      "categorical": True
    }        
    ],
    "version": "1.0"
}

create_metadata_schema_response = personalize.create_schema(      
    name = user_schema_name,
    schema = json.dumps(schema)
)

user_schema_arn = create_metadata_schema_response['schemaArn']
print(json.dumps(create_metadata_schema_response, indent=2))

{
  "schemaArn": "arn:aws:personalize:us-east-1:376278017302:schema/RetailDemo-user-schema",
  "ResponseMetadata": {
    "RequestId": "a9aaca75-c1f5-486f-82e7-b0a2c69c1bd4",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Mon, 10 Apr 2023 13:27:43 GMT",
      "content-type": "application/x-amz-json-1.1",
      "content-length": "88",
      "connection": "keep-alive",
      "x-amzn-requestid": "a9aaca75-c1f5-486f-82e7-b0a2c69c1bd4"
    },
    "RetryAttempts": 0
  }
}


## 4. 데이터 세트 생성

그룹 다음으로 생성할 것은 실제 데이터 세트입니다. 아래의 코드 셀을 실행하여 데이터 세트을 생성해 주세요.

### 4.1 Interactions 데이터 세트 생성 (Base 데이터셋)

In [14]:
dataset_type = "INTERACTIONS"
create_base_dataset_response = personalize.create_dataset(
    name = "RetailDemo-interaction-dataset",
    datasetType = dataset_type,
    datasetGroupArn = base_dataset_group_arn,
    schemaArn = interaction_schema_arn
)

base_interaction_dataset_arn = create_base_dataset_response['datasetArn']
print(json.dumps(create_base_dataset_response, indent=2))

{
  "datasetArn": "arn:aws:personalize:us-east-1:376278017302:dataset/RetailDemo-dataset-group/INTERACTIONS",
  "ResponseMetadata": {
    "RequestId": "4129fb69-c469-403a-ae23-58629ddbaffa",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Mon, 10 Apr 2023 13:29:18 GMT",
      "content-type": "application/x-amz-json-1.1",
      "content-length": "105",
      "connection": "keep-alive",
      "x-amzn-requestid": "4129fb69-c469-403a-ae23-58629ddbaffa"
    },
    "RetryAttempts": 0
  }
}


### 4.2 Items 데이터 세트 생성  (Base 데이터셋)

In [15]:
dataset_type = "ITEMS"
create_base_item_dataset_response = personalize.create_dataset(
    name = "RetailDemo-item-dataset",
    datasetType = dataset_type,
    datasetGroupArn = base_dataset_group_arn,
    schemaArn = base_item_schema_arn,
  
)

base_item_dataset_arn = create_base_item_dataset_response['datasetArn']
print(json.dumps(create_base_item_dataset_response, indent=2))

{
  "datasetArn": "arn:aws:personalize:us-east-1:376278017302:dataset/RetailDemo-dataset-group/ITEMS",
  "ResponseMetadata": {
    "RequestId": "5d164c1b-7a22-4d7f-85a8-6be80d757c02",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Mon, 10 Apr 2023 13:29:19 GMT",
      "content-type": "application/x-amz-json-1.1",
      "content-length": "98",
      "connection": "keep-alive",
      "x-amzn-requestid": "5d164c1b-7a22-4d7f-85a8-6be80d757c02"
    },
    "RetryAttempts": 0
  }
}


### 4.3 Users 데이터 세트 생성 (Base 데이터셋)

In [16]:
dataset_type = "USERS"
create_base_user_dataset_response = personalize.create_dataset(
    name = "RetailDemo-user-dataset",
    datasetType = dataset_type,
    datasetGroupArn = base_dataset_group_arn,
    schemaArn = user_schema_arn,
  
)

base_user_dataset_arn = create_base_user_dataset_response['datasetArn']
print(json.dumps(create_base_user_dataset_response, indent=2))

{
  "datasetArn": "arn:aws:personalize:us-east-1:376278017302:dataset/RetailDemo-dataset-group/USERS",
  "ResponseMetadata": {
    "RequestId": "efc1f7c3-ee55-46de-b74e-e2f448b84bd7",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Mon, 10 Apr 2023 13:29:20 GMT",
      "content-type": "application/x-amz-json-1.1",
      "content-length": "98",
      "connection": "keep-alive",
      "x-amzn-requestid": "efc1f7c3-ee55-46de-b74e-e2f448b84bd7"
    },
    "RetryAttempts": 0
  }
}


#### 데이터 세트 생성을 위해서 1분 기다림

In [17]:
time.sleep(60)

## 5. 데이터 세트 Import

이전에는 정보를 저장하기 위해 데이터 세트 그룹 및 데이터 세트를 생성했으므로, 
이제는 모델 구축을 위해 S3에서 Amazon Personalize로 데이터를 로드하는 import job을 실행합니다.



#### Interaction 데이터 세트 Import Job 생성

In [18]:
create_dataset_import_job_response = personalize.create_dataset_import_job(
    jobName = "RetailDeom-base-interaction-dataset-import",
    datasetArn = base_interaction_dataset_arn,
    dataSource = {
        "dataLocation": "s3://{}/{}".format(bucket, base_warm_train_interaction_filename)
    },
    roleArn = role_arn
)

base_interation_dataset_import_job_arn = create_dataset_import_job_response['datasetImportJobArn']
print(json.dumps(create_dataset_import_job_response, indent=2))

{
  "datasetImportJobArn": "arn:aws:personalize:us-east-1:376278017302:dataset-import-job/RetailDeom-base-interaction-dataset-import",
  "ResponseMetadata": {
    "RequestId": "26bffece-3dc0-4c36-bf05-e7969b7e5318",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Mon, 10 Apr 2023 13:30:45 GMT",
      "content-type": "application/x-amz-json-1.1",
      "content-length": "130",
      "connection": "keep-alive",
      "x-amzn-requestid": "26bffece-3dc0-4c36-bf05-e7969b7e5318"
    },
    "RetryAttempts": 0
  }
}


#### 아이템 데이터 세트 Import Job 생성

In [19]:
create_item_dataset_import_job_response = personalize.create_dataset_import_job(
    jobName = "RetailDemo-base-item-dataset-import",
    datasetArn = base_item_dataset_arn,
    dataSource = {
        "dataLocation": "s3://{}/{}".format(bucket, base_items_filename)
    },
    roleArn = role_arn
)

base_item_dataset_import_job_arn = create_item_dataset_import_job_response['datasetImportJobArn']
print(json.dumps(create_item_dataset_import_job_response, indent=2))

{
  "datasetImportJobArn": "arn:aws:personalize:us-east-1:376278017302:dataset-import-job/RetailDemo-base-item-dataset-import",
  "ResponseMetadata": {
    "RequestId": "b36256df-5e4f-4e1a-a167-3c5eb06593bc",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Mon, 10 Apr 2023 13:30:47 GMT",
      "content-type": "application/x-amz-json-1.1",
      "content-length": "123",
      "connection": "keep-alive",
      "x-amzn-requestid": "b36256df-5e4f-4e1a-a167-3c5eb06593bc"
    },
    "RetryAttempts": 0
  }
}


#### 유저 데이터 세트 Import Job 생성

In [20]:
create_user_dataset_import_job_response = personalize.create_dataset_import_job(
    jobName = "RetailDemo-base-user-dataset-import",
    datasetArn = base_user_dataset_arn,
    dataSource = {
        "dataLocation": "s3://{}/{}".format(bucket, base_users_filename)
    },
    roleArn = role_arn
)

base_user_dataset_import_job_arn = create_user_dataset_import_job_response['datasetImportJobArn']
print(json.dumps(create_user_dataset_import_job_response, indent=2))

{
  "datasetImportJobArn": "arn:aws:personalize:us-east-1:376278017302:dataset-import-job/RetailDemo-base-user-dataset-import",
  "ResponseMetadata": {
    "RequestId": "614d9816-bf37-44ee-9057-9cf5caaeb559",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Mon, 10 Apr 2023 13:30:48 GMT",
      "content-type": "application/x-amz-json-1.1",
      "content-length": "123",
      "connection": "keep-alive",
      "x-amzn-requestid": "614d9816-bf37-44ee-9057-9cf5caaeb559"
    },
    "RetryAttempts": 0
  }
}


### 데이터 세트 Import job이 활성화 상태가 될 때까지 대기

Import job이 완료되기까지 시간이 걸립니다. 아래 코드 셀의 출력 결과가 DatasetImportJob: ACTIVE가 될 때까지 기다려 주세요.

#### 인터렉션

In [21]:
%%time

status = None
max_time = time.time() + 3*60*60 # 3 hours
while time.time() < max_time:
    describe_dataset_import_job_response = personalize.describe_dataset_import_job(
        datasetImportJobArn = base_interation_dataset_import_job_arn
    )
    
    dataset_import_job = describe_dataset_import_job_response["datasetImportJob"]
    if "latestDatasetImportJobRun" not in dataset_import_job:
        status = dataset_import_job["status"]
        print("DatasetImportJob: {}".format(status))
    else:
        status = dataset_import_job["latestDatasetImportJobRun"]["status"]
        print("LatestDatasetImportJobRun: {}".format(status))
    
    if status == "ACTIVE" or status == "CREATE FAILED":
        break
        
    time.sleep(15)

DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: ACTIVE
CPU times: user 27.7 ms, sys: 7.15 ms, total: 34.9 ms
Wall time: 2min


#### 아이템

In [22]:
status = None
max_time = time.time() + 3*60*60 # 3 hours
while time.time() < max_time:
    describe_dataset_import_job_response = personalize.describe_dataset_import_job(
        datasetImportJobArn = base_item_dataset_import_job_arn
    )
    
    dataset_import_job = describe_dataset_import_job_response["datasetImportJob"]
    if "latestDatasetImportJobRun" not in dataset_import_job:
        status = dataset_import_job["status"]
        print("DatasetImportJob: {}".format(status))
    else:
        status = dataset_import_job["latestDatasetImportJobRun"]["status"]
        print("LatestDatasetImportJobRun: {}".format(status))
    
    if status == "ACTIVE" or status == "CREATE FAILED":
        break
        
    time.sleep(15)

DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: CREATE IN_PROGRESS
DatasetImportJob: ACTIVE


#### 유저

In [23]:
status = None
max_time = time.time() + 3*60*60 # 3 hours
while time.time() < max_time:
    describe_dataset_import_job_response = personalize.describe_dataset_import_job(
        datasetImportJobArn = base_user_dataset_import_job_arn
    )
    
    dataset_import_job = describe_dataset_import_job_response["datasetImportJob"]
    if "latestDatasetImportJobRun" not in dataset_import_job:
        status = dataset_import_job["status"]
        print("DatasetImportJob: {}".format(status))
    else:
        status = dataset_import_job["latestDatasetImportJobRun"]["status"]
        print("LatestDatasetImportJobRun: {}".format(status))
    
    if status == "ACTIVE" or status == "CREATE FAILED":
        break
        
    time.sleep(15)

DatasetImportJob: ACTIVE


## Review

위의 코드를 사용하여 데이타 세트 그룹, 데이타 세트, 데이타 세트 Import까지를 수행 하였습니다. 다음 단계는 이를 기반으로 솔류션(모델)을 생성하는 단계를 진행 합니다.


## 다음 노트북에 대한 참고 사항

다음 실습에 필요한 몇 가지 값들이 있습니다. 아래 셀을 실행하여 저장한 후, 다음 주피터 노트북에서 그대로 사용할 수 있습니다.

In [24]:
%store base_dataset_group_arn
%store base_interaction_dataset_arn
%store base_item_dataset_arn
%store base_user_dataset_arn
%store base_item_schema_arn

%store interaction_schema_arn
%store user_schema_arn
%store role_arn

Stored 'base_dataset_group_arn' (str)
Stored 'base_interaction_dataset_arn' (str)
Stored 'base_item_dataset_arn' (str)
Stored 'base_user_dataset_arn' (str)
Stored 'base_item_schema_arn' (str)
Stored 'interaction_schema_arn' (str)
Stored 'user_schema_arn' (str)
Stored 'role_arn' (str)
