# [모듈 1.1] 데이터 준비

이 노트북에서는 아래와 같이 데이터 준비를 합니다.
- 노트북에서 사용할 변수를 설정합니다.
- 전처리 스텝에서 사용할 원본 데이터 세트를 S3에 업로딩 합니다.
- 훈련 스텝에서 개별적으로 사용할 전처리된 데이터 세트를 S3에 업로딩 합니다.

---

## 0.세이지 메이커에 연결된 디폴트 S3 버킷 이름 가져오기

- S3 디폴트 버킷을 가져옵니다. 다른 버킷 이름을 기술하셔도 됩니다.

In [1]:
import sagemaker
import os
import pandas as pd


sagemaker_session = sagemaker.session.Session()
default_bucket = sagemaker_session.default_bucket()
print("default_bucket: ", default_bucket)

default_bucket:  sagemaker-ap-northeast-2-057716757052


## 1. 노트북 변수 설정
---

In [2]:
# 프로젝트 변수
project_prefix = 'sagemaker-pipeline-step-by-step-phase01'

# 원본 데이터 위치 
dataset_prefix = f'{project_prefix}/input'
# 전처리 결과 데이터 위치
preproc_dataset_prefix = f'{project_prefix}/preporc'

# 노트북안에서 데이터 위치
data_dir = '../data'
preproc_data_dir = 'data/preproc'

claim_data_path = f"{data_dir}/claims.csv"
customers_data_path = f"{data_dir}/customers.csv"

train_data_path = f"{preproc_data_dir}/train.csv"
test_data_path = f"{preproc_data_dir}/test.csv"


# S3에 저장되는 데이터의 기본 폴더 위치
input_data_uri = f"s3://{default_bucket}/{dataset_prefix}"
# 전처리 데이터의 기본 폴더 위치
input_preproc_data_uri = f"s3://{default_bucket}/{preproc_dataset_prefix}"


## 2. S3에 원본 데이터 세트 업로딩
---

이제 데이터 세트인 claims.csv, customers.csv을 디폴트 버킷으로 업로드합니다. 
- `input_data_uri` 변수를 통해 데이터셋의 위치를 저장하고, 추후 사용합니다.

In [3]:
claims_data_uri = sagemaker.s3.S3Uploader.upload(
    local_path=claim_data_path, 
    desired_s3_uri=input_data_uri,    
)
print(claims_data_uri)

customers_data_uri = sagemaker.s3.S3Uploader.upload(
    local_path=customers_data_path, 
    desired_s3_uri=input_data_uri,    
)
print(customers_data_uri)



s3://sagemaker-ap-northeast-2-057716757052/sagemaker-pipeline-step-by-step-phase01/input/claims.csv
s3://sagemaker-ap-northeast-2-057716757052/sagemaker-pipeline-step-by-step-phase01/input/customers.csv


In [4]:
print("input_data_uri: ", input_data_uri)

input_data_uri:  s3://sagemaker-ap-northeast-2-057716757052/sagemaker-pipeline-step-by-step-phase01/input


## 3. S3에 전처리 데이터 세트 업로딩
---

In [5]:
train_preproc_data_uri = sagemaker.s3.S3Uploader.upload(
    local_path=train_data_path, 
    desired_s3_uri=input_preproc_data_uri,    
)


test_preproc_data_uri = sagemaker.s3.S3Uploader.upload(
    local_path=test_data_path, 
    desired_s3_uri=input_preproc_data_uri,    
)
print("train_preproc_data_uri: ", train_preproc_data_uri)
print("test_preproc_data_uri: ", test_preproc_data_uri)



train_preproc_data_uri:  s3://sagemaker-ap-northeast-2-057716757052/sagemaker-pipeline-step-by-step-phase01/preporc/train.csv
test_preproc_data_uri:  s3://sagemaker-ap-northeast-2-057716757052/sagemaker-pipeline-step-by-step-phase01/preporc/test.csv


## 4.변수 저장
---
다음 노트북에서 사용할 변수를 저장합니다.

In [6]:
%store project_prefix
%store input_data_uri
%store input_preproc_data_uri

%store claims_data_uri
%store customers_data_uri

%store train_preproc_data_uri
%store test_preproc_data_uri


%store default_bucket



Stored 'project_prefix' (str)
Stored 'input_data_uri' (str)
Stored 'input_preproc_data_uri' (str)
Stored 'claims_data_uri' (str)
Stored 'customers_data_uri' (str)
Stored 'train_preproc_data_uri' (str)
Stored 'test_preproc_data_uri' (str)
Stored 'default_bucket' (str)
