In [1]:
import dlt, requests
import pandas as pd

In [2]:
URL = "https://jaffle-shop.scalevector.ai/api/v1/customers"

req = requests.get(URL)

df = pd.json_normalize(req.json())

df.head()

Unnamed: 0,id,name
0,50a2d1c4-d788-4498-a6f7-dd75d4db588f,Stephanie Love
1,438005c2-dd1d-48aa-8bfd-7fb06851b5f8,Kristi Keller
2,5261268c-aa94-438a-921a-05efc0d414ac,Allison Oliver
3,f8486fce-bc07-4a4f-a6e9-ed6a06ba996c,Nancy Austin
4,341ed9b2-1760-4720-a1b1-42681d273c63,Christy Rios


In [1]:
# 1. dlt를 사용하여 S3의 CSV 파일을 데이터 소스로 읽어오는 코드 예시입니다.

import dlt
import pandas as pd
from dlt.sources.filesystem import filesystem

# dlt의 s3 파일 커넥터를 사용하여 S3의 CSV 파일을 읽어옵니다.
# dlt.sources.filesystem.filesystem_source를 사용합니다.

from dlt.sources.filesystem import filesystem

filesystem_source = filesystem(
  bucket_url="s3://lakeformation-demo-hyunsoo/dlt_dataset/",
  file_glob="*.csv"
)

# 데이터를 DataFrame으로 변환
emp_df = pd.DataFrame(list(filesystem_source))

# 데이터 확인
emp_df.head()


Unnamed: 0,file_name,relative_path,file_url,mime_type,encoding,modification_date,size_in_bytes
0,emp.csv,emp.csv,s3://lakeformation-demo-hyunsoo/dlt_dataset/em...,text/csv,,2025-07-09 06:17:31+00:00,1263


In [2]:
# S3에서 읽은 emp_df(DataFrame)를 PostgreSQL에 저장하는 dlt 파이프라인 생성
emp_pg_pipeline = dlt.pipeline(
    pipeline_name="emp_data_pg_pipeline3",
    destination="postgres",
    dataset_name="emp_data_pg"
)

# emp_df를 "employees" 테이블로 적재
emp_pg_load_info = emp_pg_pipeline.run(
    data=filesystem_source,
    table_name="employees3"
)

print("S3 CSV 데이터를 PostgreSQL에 저장한 결과:", emp_pg_load_info)


  - encoding

Unless type hints are provided, these columns will not be materialized in the destination.
One way to provide type hints is to use the 'columns' argument in the '@dlt.resource' decorator.  For example:

@dlt.resource(columns={'encoding': {'data_type': 'text'}})



S3 CSV 데이터를 PostgreSQL에 저장한 결과: Pipeline emp_data_pg_pipeline3 load step completed in 0.05 seconds
1 load package(s) were loaded to destination postgres and into dataset emp_data_pg
The postgres destination used postgresql://codeit:***@localhost:5432/postgres location to store data
Load package 1752066392.3051882 is LOADED and contains no failed jobs


In [None]:
pipeline = dlt.pipeline(
    pipeline_name="customer_data_pipeline",
    destination="filesystem",
    dataset_name="customer_data"
)

load_info = pipeline.run(
    data=df, 
    table_name="customers"
    )

print("파이프라인 실행 결과:", load_info)

In [None]:
pd.read_parquet('./api_data_dir/customer_data/customers/')

In [None]:
import dlt

# PostgreSQL로 데이터를 저장하는 dlt 파이프라인 생성
# 동일 코드라도 데이터가 다르면 pipeline_name을 다르게 설정해야 함
pg_pipeline = dlt.pipeline(
    pipeline_name="customer_data_pg_pipeline2",
    destination="postgres",
    dataset_name="customer_data_pg"
)

# 데이터 적재 실행
pg_load_info = pg_pipeline.run(
    data=df,
    table_name="stores"
)

print("PostgreSQL 파이프라인 실행 결과:", pg_load_info)



In [3]:
import dlt

# AWS Athena로 데이터를 저장하는 dlt 파이프라인 생성
athena_pipeline = dlt.pipeline(
    pipeline_name="customer_data_athena_pipeline",
    destination="athena",
    dataset_name="customer_data_athena"
)

# 데이터 적재 실행
athena_load_info = athena_pipeline.run(
    data=df,
    table_name="customers"
)

print("Athena 파이프라인 실행 결과:", athena_load_info)



PipelineStepFailed: Pipeline execution failed at `step=load` when processing package with `load_id=1752064658.196621` with exception:

<class 'dlt.destinations.exceptions.DatabaseTerminalException'>
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Insufficient Lake Formation permission(s) on s3://personal-golight-image-bucket/dataset/customer_data_athena/customers (Service: AmazonDataCatalog; Status Code: 400; Error Code: AccessDeniedException; Request ID: 0345ae86-2459-4af3-8778-486b7e60d51e; Proxy: null))

In [None]:


# Athena에서 S3 버킷에 접근 권한이 없어서 발생하는 에러입니다.
# Lake Formation 또는 S3 버킷의 권한 설정을 확인해야 합니다.
# 아래는 문제 해결을 위한 안내 코드와 설명입니다.

print("""
[문제 원인]
- Athena가 S3 버킷(s3://personal-golight-image-bucket/dataset/customer_data_athena/_dlt_pipeline_state)에 접근할 권한이 없습니다.
- Lake Formation 또는 S3 버킷의 권한 정책에서 Athena(및 Glue, Data Catalog) 역할/사용자에게 충분한 권한이 부여되어야 합니다.

[해결 방법]
1. AWS 콘솔에서 S3 버킷(s3://personal-golight-image-bucket)에 대해 다음 권한을 부여하세요.
   - s3:GetObject, s3:PutObject, s3:DeleteObject, s3:ListBucket 등
   - 권한을 부여할 주체: Athena, Glue, Data Catalog에서 사용하는 IAM Role 또는 User

2. Lake Formation을 사용하는 경우:
   - Lake Formation 콘솔에서 해당 S3 경로에 대해 Athena, Glue, Data Catalog에 '데이터 위치 권한'을 부여하세요.
   - '데이터 위치' 등록 및 '데이터 위치 권한' 부여 필요

3. 권한이 정상적으로 부여된 후 파이프라인을 다시 실행하세요.

[예시: S3 버킷 정책]
{
  "Effect": "Allow",
  "Principal": {
    "Service": [
      "athena.amazonaws.com",
      "glue.amazonaws.com"
    ],
    "AWS": "arn:aws:iam::<YOUR_ACCOUNT_ID>:role/<YOUR_ATHENA_GLUE_ROLE>"
  },
  "Action": [
    "s3:GetObject",
    "s3:PutObject",
    "s3:DeleteObject",
    "s3:ListBucket"
  ],
  "Resource": [
    "arn:aws:s3:::personal-golight-image-bucket/dataset/*",
    "arn:aws:s3:::personal-golight-image-bucket/dataset"
  ]
}

[참고]
- 권한 변경 후에도 문제가 지속되면, Lake Formation에서 '데이터 위치 권한'과 '테이블 권한'을 모두 확인하세요.
- 자세한 내용은 AWS 공식 문서(https://docs.aws.amazon.com/ko_kr/athena/latest/ug/lake-formation.html) 참고

""")
