- NOTE: 본 내용은 다음의 기준으로 선별된 것입니다.
- 양질의 콘텐츠를 올리는 기업, 연구 기관, 개인의 블로그를 후보로 하며 중요도와 인기도를 바탕으로 포스팅을 선별합니다.
- 순수 연구보다는 비즈니스 적용 사례를 더 중요하게 여깁니다. 공개된 소스코드, 모델 체크포인트 등이 있을 경우 중요도는 올라갑니다.
- AWS ML 관련 내용이 중점적으로 따로 다뤄집니다.
- 주로 다루는 기술 범위는 CV, NLP, 추천 시스템, 모델 훈련과 추론, MLOps입니다.
- Token Merging: Your ViT but Faster (Feb 2023, Meta)
- Autoencoders and Diffusers: A Brief Comparison (Dec 2022)
- Data2vec 2.0: Highly Efficient Self-Supervised Learning for Vision, Speech and Text (Dec 2022, Meta)
- Text-to-Image: Diffusion, Text Conditioning, Guidance, Latent Space (Nov 2022)
- How Should AI Systems Behave, and Who Should Decide? (Feb 2023, OpenAI)
- Atlas: Few-Shot Learning with Retrieval Augmented LMs (Jan 2023, Meta)
- Overcoming The Limitations Of LLMs (Jan 2023)
- Some Remarks on LLMs (Jan 2023)
- 현재 사람 수준에서 섀넌의 추측 게임을 수행 가능할 정도로 LLM은 지능을 가지고 있음, 그러나 대규모 언어 모델링만으로 얻을 수 있는 것이 아님
- 기존 언어 모델은 텍스트 기호만 학습했을 뿐 기호에 의미가 연결되어 있지 않음 ← ① 프로그래밍 언어 코드 데이터 훈련 ② 명시적인 지시를 통한 튜닝 ③ RLHF 단계의 도입으로 변곡점 발생(= 기호와 의미의 연결이 가능)
- 언어 모델 한계에 대한 진부한 주장들과 그와 별개로 아직 실제로 제대로 하지 못하는 것들
- Accelerating Text Generation with Confident Adaptive Language Modeling (CALM) (Dec 2022, Google)
- Illustrating Reinforcement Learning from Human Feedback (RLHF) (Dec 2022, HuggingFace)
- ① 정책 언어 모델과 ② 프롬프트 별 생성 텍스트에 대해 사람의 선호도 점수로 학습한 보상 모델 이용하여 언어 모델 튜닝(= PPO)
- Better LMs without Massive Compute (Nov 2022, Google)
- ChatGPT: Optimizing LMs for Dialogue (Nov 2022, OpenAI)
- Choosing the Right LM For Your NLP Use Case (Nov 2022)
- MoE with Expert Choice Routing (Nov 2022, Google)
- Robots That Write Their Own Code (Nov 2022, Google)
- The State of Multilingual AI (Nov 2002)
- Aligning LMs to Follow Instructions (Jan 2022, OpenAI)
- Mastering Stratego, the Classic Game of Imperfect Information (Dec 2022, DeepMind)
- Research @ MS 2022: A Look Back at a Year of Accelerating Progress in AI (Dec 2022, Microsoft)
- 이미지 모델 Swin Transformer v2, 챗봇을 위한 언어 모델 GODEL, 멀티모달 BEiT, 언어 모델 디버깅 도구 AdaTest, 유해 콘텐츠 데이터 생성 도구 ToxiGen, NN HPO기법 µTransfer, 모델 압축과 양자화를 위한 DeepSpeed Compression 등
- Evolutionary-Scale Prediction of Atomic Level Protein Structure with a LM (Nov 2022, Meta)
- Teaching AI Advanced Mathematical Reasoning (Nov 2022, Meta)
- Building on Top of Black Magic (Oct 2022)
- 생성 모델 패러다임(GAN, VAE, AR, Flow, Diffusion)은 각자 수리적 근거를 가지며 어느 한 패러다임이 다른 패러다임보다 성능이 왜 우수한지 현재 이유를 알지 못함
- 결과가 잘 나오니까 계속 시도하는 것은 최적화 함정, 원인에 대한 가설 수립과 과학적인 검증 작업이 계속 필요함
- Accelerated Stable Diffusion with PyTorch 2 (Jan 2023)
- Discovering Creative Insights in Promotional Artwork (Jan 2023, Netflix)
- Real-Time Tracking of Wildfire Boundaries Using Satellite Imagery (Jan 2023, Google)
- When a Picture is Worth More Than Words (Dec 2022, Airbnb)
- ① 미적 점수 레이블링과 예측 ② 자가 학습으로 이미지 임베딩 생성 → HNSW로 유사 이미지 검색 지원
- AI 명함 촬영 인식 '리오(RIO)' 적용기 - ML Model Converter와 안드로이드 앱 적용기 (Nov 2022, 드라마앤컴퍼니)
- PyTorch 모델 → ONNX 그래프 → TF 모델 → TF Lite 모델 변환으로 온-디바이스 추론 구현
- 명함 인식 위한 인스턴스 세그멘테이션 → OpenCV 후처리 과정을 다룬 1편도 읽어보세요.
- For Your Eyes Only: Improving Netflix Video Quality with Neural Networks (Nov 2022, Netflix)
- Match Cutting at Netflix: Finding Cuts with Smooth Visual Transitions (Nov 2022, Netflix)
- 매치 커팅 = ① 프레임 매칭: 인스턴스 세그멘테이션 후 IoU 높은 쌍이 후보 ② 액션 매칭: 옵티컬 플로 후 코사인 유사도 높은 쌍이 후보 → 높은 일치가 카메라 움직임 때문에 발생
- 1/ 후보 추출 = 샷 분할(PySceneDetect, TransNet v2) → 샷 중복 제거: 인코더 통한 임베딩의 코사인 유사도 측정 → 표현 생성과 쌍 별 점수 계산 → 상위 K개 쌍 추출, 이후 수작업 레이블링
- 2/ 모델 학습과 평가 = ① 비디오 & 오디오 인코더로 고정 임베딩 추출 → 이진 분류 모델 학습: AP 기준 EfficientNet7과 R(2+1)D 최고 ② 메트릭 학습 → ANN으로 검색 가능한 임베딩 생성
- Build a Robust Text-Based Toxicity Predictor (Dec 2022, Amazon)
- 적대적 훈련 = 훈련 데이터 + 성공한 적대적 사례 → 모델 훈련의 반복
- 파인 튜닝한 DistilBERT 모델에 대해 TextAttack으로 텍스트 일부 변형하되, 의미 보존하는 적대적 사례 생성, 공격 성공률(ASR)로 모델의 강건성 측정
- Luda Gen 1, 더 재미있고 자연스러운 대화로 돌아온 루다 1편 - 생성 기반 챗봇 (Dec 2022, 스캐터랩)
- 검색 대신 생성 모델(= GPT2) 기반 챗봇 도입 ← 관계 지향적, 안정성 위해 파인 튜닝
- 루다, 눈을 뜨다! 포토챗 베타의 멀티모달 기술 소개 (Nov 2022, 스캐터랩)
- CLIP 레트리벌 모델을 적용하여 이미지 코멘팅 하기 (vs. 이미지 인코더 - 텍스트 디코더의 생성 모델, AI Hub 데이터 이용, 정성적 평가는 SSA로)
- Augment Your HuggingFace Model with Human in the Loop (Nov 2022)
- How AI Text Generation Models are Reshaping Customer Support at Airbnb (Nov 2022, Airbnb)
- 1/ 헬프 봇 콘텐츠 순위 지정: 모델은 파인 튜닝한 MT5, 입력은 프롬프트 + 사용자 이슈 설명 + 콘텐츠 후보
- 2/ 상담원 대화에 답변 템플릿 실시간 제안: QA 모델(t5-base, Narrativa) 어노테이션 + 로깅 데이터 섞어서 학습, 입력은 채팅 이력 + 프롬프트
- 3/ 챗봇 패러프레이징: T5 모델 → 단조롭고 보편적으로 응답하는 문제 → 텍스트 클러스터링으로 훈련 데이터 필터링하여 해결
- Prioritizing Home Attributes Based on Guest Interest (Feb 2023, Airbnb)
- Unsupervised and Semi-Supervised Anomaly Detection with Data-Centric ML (Feb 2023, Google)
- Improving the Customer’s Experience via ML-Driven Payment Routing (Jan 2023, LinkedIn)
- 기존에는 규칙 기반(예, 40:60) 라우팅 엔진으로 결제 게이트웨이 할당 → 결제 승인율의 변화 포착 못하고 규칙 관리 어려움 → ML 기반 엔진으로 전환
- 클래스 불균형(= 승인율과 무관한 게이트웨이 할당 수) 해결하기 위해 IPW 기반 부트스트랩 샘플링 적용 → {트랜잭션 피쳐 × 게이트웨이 = 승인 성공/실패} 데이터 구성, 다중 클래스 LR 학습 → 승인율 기준 A/B 테스트 수행
- Learning To Rank Diversely (Jan 2023, Airbnb)
- 랭킹 NN은 숙소 쌍 비교하여 예약 확률 높은 것을 학습 → 알고리즘이 검색 결과 모든 위치마다 대세를 따르는 다수결의 법칙 ≠ 예약 금액을 최대화하는 파레토 법칙 → 유사한 숙소 노출 줄여야 함
- 유사도 추정하는 NN: 훈련 셋 = 예약된 최상위 노출 결과 건은 폐기 & 최상위이지만 예약 실패한 것을 선행 숙소라고 별도로 두고 예약 성공/실패 숙소 쌍을 구성 → 쌍 별로 예약 확률을 학습하되 선행 숙소와의 유사도를 빼줘야 하며 기존 (조건 없는 경우의) 예약 확률 알기에 유사도 거꾸로 학습 가능
- 검색 결과 온라인 서빙 시 랭킹 NN으로 전체 순위 정하고 최상위 숙소에 대해 유사도 NN로 구한 유사도로 예약 확률을 할인하여 순위 재구성 → 다양성 증대
- Powering Millions of Real-Time Decisions with LyftLearn Serving (Jan 2023, Lyft)
- PyTorch Trace Analysis for the Masses (Jan 2023)
- Scalable Annotation Service — Marken (Jan 2023, Netflix)
- 사내 모든 마이크로 서비스가 원하는 모든 개체에 어노테이션, 검색할 수 있게 서비스 개발
- 스키마 = json: 버전 + 공간 객체 위한 WKT 형식 + 시간 객체 위한 프레임 번호와 나노초 → 시간/공간 기본 스키마, ML 알고리즘 기본 스키마(레이블, 신뢰도 등) 다중 상속 가능
- 낮은 레이턴시, 확장성, 높은 RPS를 위한 아키텍처: Cassandra(저장) + ElasticSearch(검색) → 전체 텍스트, 어간, 시간/공간 어노테이션, 시맨틱(= 임베딩, Open Distro), 교차 범위 검색 지원, 레이턴시 저하하는 클러스터 핫스폿 피하도록 롤오버 인덱스 전략 적용, 대량 쿼리 가능하게 Iceberg 테이블 별도 유지
- Unleashing ML Innovation at Spotify with Ray (Jan 2023, Spotify)
- How to Evaluate the Quality of the Synthetic Data – Measuring from the Perspective of Fidelity, Utility, and Privacy (Dec 2022, Amazon)
- 이전 글도 읽어보세요. ydata-synthetic 라이브러리의 WGAN-GP로 태뷸러 데이터 합성 → 충실도(통계량), 유용성(예측 성능), 정보 보호(암기 X) 기준으로 평가
- 그 많던 벡터는 다 어디로 갔을까? Milvus 활용기 (Nov 2022, 라이너)
- Building Airbnb Categories with ML and Human in the Loop (Nov 2022, Airbnb)
- Efficient Multi-Objective Neural Architecture Search with Ax (Nov 2022)
- 다중 목표 NAS를 위한 Ax 사용 → Ax의 원격, 비동기식 실행 = 스케줄러(모델 전달, 지표 입수) + 최적화 알고리즘 (베이즈 최적화 등) + 외부 시행 평가
- 조기 종료와 고차원 파라미터 탐색(SAASBO) 기능 사용 가능
- How Pinterest Leverages Realtime User Actions in Recommendation to Boost Homefeed Engagement Volume (Nov 2022, Pinterest)
- How Prime Video Distills Time Series Anomalies into Actionable Alarms (Nov 2022, Amazon)
- ML for Fraud Detection in Streaming Services (Nov 2022, Netflix)
- 레이블링 ← 보안 전문가와 함께 콘텐츠/서비스/계정 사기에 대한 휴리스틱 함수 설계
- 클래스 불균형 문제 완화 위해 SMOTE 사용, 정상 샘플만 사용한 준지도 학습(DAE 등)과 이진/다중 클래스 지도 학습으로 실험 수행
- Scaling Media ML at Netflix (Feb 2023, Netflix)
- DL Tuning Playbook (Jan 2023, Google)
- Open Source Vizier: Towards Reliable and Flexible Hyperparameter and Blackbox Optimization (Jan 2023, Google)
- The Flan Collection: Advancing Open Source Methods for Instruction Tuning (Jan 2023, Google)
- 새로운 루다를 지탱하는 모델 서빙 아키텍처 — 1편: A/B 테스트를 위한 구조 설계 (Jan 2023, 스캐터랩)
- 지속적 학습 파이프라인 구축 → 모델 서빙 아키텍처 표준화와 배포 자동화 필요 + A/B 테스트 신속, 용이하게 수행
- A/B 테스트: ① 추론 구조 동일하나 설정값만 상이 ② 상이한 추론 구조 (레트리벌: 대화 임베딩 추출 + 답변 후보 검색 = ANN + 재순위 지정 vs. 생성: 답변 생성 + 재순위 지정)
- 시스템 설계 ① 서비스 백엔드 ↔︎ 모델 파이프라인 서버 신설! ↔︎ 각 모델 서버의 엔드포인트 ② 서비스 백엔드 ↔︎ A/B군 할당하는 프락시 서버 신설! ↔︎ 모델 파이프라인 서버 ③ 프락시 서버는 ConfigMap(w/ Argo CD)에 watch 걸고 변경되는 실험 정보 지속 수신
- Self-Serve Feature Platforms: Architectures and APIs (Jan 2023)
- 일괄 예측에서 온라인 예측 형태로 이동하면서 피쳐 플랫폼 필요성 대두, 온라인 예측 시 ① 피쳐 연산 ② 피쳐 레트리벌 ③ 예측 연산에 대한 레이턴시 문제 존재 → 피쳐 플랫폼은 ①과 ② 해결
- 피쳐 스토어 ∈ 피쳐 플랫폼(예: Feathr)
- 모델 플랫폼 구성요소 = 모델 배포 API + 모델 레지스트리 + 예측 서비스 (+ 실험 구성)이라면 피쳐 플랫폼 구성요소 = 피쳐 API + 피쳐 카탈로그 + 연산 엔진 + 피쳐 스토어 ← 그러나 비용, DE와 DS의 협업, 개발 속도 문제로 인해 구축 어려움
- 피쳐 유형으로 일괄(Spark), 준실시간(Flink/Spark 스트리밍 연산), 실시간이 존재 → 온라인 예측으로 전환할 때 기업 전략 ① 일괄 피쳐만 사용하면서 온라인 예측 지원하는 예측 서비스 재설계 ② 스트리밍 피쳐 지원하는 피쳐 플랫폼 재설계
- 피쳐 플랫폼의 핵심 과제 = 스트리밍 피쳐의 느린 개발 속도, 왜?
- DS에게 불편한 API: 초기 Scala I/F 채택 → SQL I/F 도입, 그러나 불충분한 시간 관련 연산 기능과 낮은 코드 재사용성 → 파이썬 I/F로 전환, 피쳐 API에 대한 고려사항 ① 배치 일회성 연산 vs. 스트림 지속 연산 ② 변환(ETL)과 피쳐화 로직의 분리
- 빠른 실험을 위한 기능 부족 ← 피쳐/데이터 원천 검색과 데이터 거버넌스 기능 지원 + 자동화된 백필
- FMS(차량 관제 시스템) 데이터 파이프라인 구축기 2편. 신뢰성 높은 데이터를 위한 테스트 환경 구축기 (Jan 2023, 쏘카)
- 1편도 읽어보세요.
- Automatically Retrain NNs with Renate (Dec 2022, Amazon)
- 신경망 자동 재학습을 위한 라이브러리, Renate ← 재학습 시 과거 데이터에 대한 예측 성능 하락하는 '파국적 망각' 현상 방지
- 지속적 학습에 대한 HPO와 클라우드 백엔드 학습 지원
- CLOVA MD 상품추천 솔루션 (Dec 2022, 네이버)
- 적재(Hive 또는 Kafka) → 학습과 추론(Argo Workflows 또는 Kubeflow) → 결과 저장(MongoDB)의 일 단위 배치 작업
- Introducing Fortuna: A Library for Uncertainty Quantification (Dec 2022, Amazon)
- 딥러닝의 과신 문제 ← Fortuna, 불확실성 정량화 라이브러리 ① Flax 모델 ② 출력이나 불확실성 추정값에서 시작 가능
- ML 모델 서빙 비용 1/4로 줄이기 (Dec 2022, 하이퍼커넥트)
- AWS Inferentia: EC2(inf1)로 출시된 AI 가속기(= ASIC), 4개의 NeuronCore v1 칩으로 구성
- Neuron SDK로 모델 컴파일 → Triton 추론 서버로 Neuron 모델 배포 → Neuron Monitor로 모니터링
- 부하 테스트로 TPS, 레이턴시 측정 → 동일 레이턴시 하에 동일 TPS 될 때까지 Pod 늘리고 비용의 차이 비교
- 그 외: Neruon Batching과 NeuronCore Pipeline
- Ready-to-go Sample Data Pipelines with Dataflow (Dec 2022, Netflix)
- 전사 구성원들이 사용하는 배치 데이터 플랫폼 만들기 - Airflow Advanced (Nov 2022, 쏘카)
- 쿠팡 로켓그로스의 ML 플랫폼: 20개 이상의 모델 서비스 및 트래픽 처리 비용 효율화 (Nov 2022, 쿠팡)
- 카프카 개별 토픽으로 처리되던 ML 태스크들에 오케스트레이션 레이어 도입하기
- Accelerating Large GPT Training with Sparse Pre-Training and Dense Fine-Tuning (Nov 2022)
- Apache Beam으로 ML 데이터 파이프라인 구축하기 (Nov 2022, 스캐터랩)
- CLOps - CLOps가 바꿔 놓은 CLOVA의 모델 상용화 프로세스 (Nov 2022, 네이버)
- Kurly만의 MLOps 구축하기 - KubeFlow 도입기 (Nov 2022, 컬리)
- 세이지메이커 vs. 쿠브플로우, 카펜터를 통한 쿠버네티스 GPU 노드 관리를 다룬 1편도 읽어보세요.
- Measure the Business Impact of Amazon Personalize Recommendations (Feb 2023)
- Amazon SageMaker Built-In LightGBM Now Offers Distributed Training Using Dask (Jan 2023)
- LightGBM 데이터세트를 청크로 나누고 인스턴스에 배포 → 병렬 처리 지원 유형 ① 데이터(로컬 히스토그램) ② 피쳐 ③ 투표 (Dask는 ①과 ③만 지원), 인스턴스는 Dask 클러스터(Dask 스케줄러 1대 + 작업자 여러 대)를 구성
- CSV 또는 Parquet 형식의 복수 개 파일 지원, 범주형은 JSON 파일로 제공, 인스턴스 > 1로 설정 시 병렬 처리 자동 적용
- Amazon SageMaker Automatic Model Tuning Now Supports Three New Completion Criteria for HPO (Feb 2023)
- 자동 모델 튜닝 완료 조건에 기존의 최대 훈련 작업 횟수(
MaxNumberOfTrainingJobs
), 목표 성과 지표(TargetObjectiveMetricValue
) 외에 최대 튜닝 시간(MaxRuntimeInSeconds
), 개선 모니터링(BestObjectiveNotImproving
), 수렴 감지(CompleteOnVonvergence
) 추가 ← 상호 배타적 조건 X
- 자동 모델 튜닝 완료 조건에 기존의 최대 훈련 작업 횟수(
- Optimize Your ML Deployments with Auto Scaling on Amazon SageMaker (Feb 2023)
- ① Create-model → 모델 ② Create-endpoint-config → 배리언트 ③ Create-endpoint → 엔드포인트 (①-③까지 애플리케이션 설정) ④ Register-scalable-target → 스케일링 가능한 타깃(= 지표) ⑤ Put-scalable-policy → 스케일링 정책 (④-⑤까지 스케일링 설정) ← 스케일링 설정 이전에 스케일링 계획 단계가 필요!
- 엔드포인트의 지표 유형: 호출 지표 (호출 횟수, 4xx와 5xx 오류 수), 레이턴시 지표 (모델 레이턴시 = 컨테이너 추론에 걸리는 시간, 오버헤드 레이턴시 = 엔트포인트 레이턴시 - 모델 레이턴시), 사용률 (CPU, 메모리, GPU, GPU 메모리, 디스크 사용률)
- 스케일링 계획 ① 애플리케이션 특성 식별:
Inference Recommender
기본 작업 통한 벤치마킹 (포화 상태까지 요청 증대) → 결과 분석 → 스케일링 한계 탐색 (가용성 vs. 비용으로 결정, 가용성 최적화 시 40%, 비용 최적화 시 70%, 균형점 50%) ② 스케일링 가정 설정 (최대 요청 수, 트래픽 패턴) ③ 적용과 평가:Inference Recommender
고급 작업으로 수행 → 대상 추적 (InvocationsPerInstance
으로, 쿨다운 값 입력)과 평가 → 단계 별 스케일링과 평가 - 튜닝: 예약된 스케일링 정책 조합도 고려, 스케일 아웃 대신 업도 고려, 사용자 지표 정의 가능, 스케일링 알람 조정
- Scaling LLM Training with Amazon EC2 Trn1 UltraClusters (Feb 2023)
- 농심의 Amazon SageMaker를 활용한 원자재 가격예측과 MLOps 여정 (Feb 2023)
- AWS를 이용한 MLOps 구축 사례 살펴보기 (Jan 2023)
- Best Practices for Load Testing Amazon SageMaker Real-Time Inference Endpoints (Jan 2023)
- 모델 엔드포인트에 대해 레이턴시 준수하면서 목표 TPS(예: 1000) 달성해야 함
- 추적할 CW 지표 ① 인스턴스 수준 지표:
CPUUtilization
(+ GPU),MemoryUtilization
(60~70%가 적당) ② 호출 지표:ModelLatency
← 추론 스크립트 프로파일링, 통신 프로토콜(REST vs gRPC), 모델 프레임워크 최적화 +OverheadLatency
(사용자 제어 X) + 인터넷 등 ③ 오토 스케일링:InvocationPerInstance
기반 추적 - 부하 테스트는 충분한 성능의 EC2에 Locust(쉬운 사용성, 분산과 확장 기능, 별도 UI 존재) 설치하여 진행 → 분산 모드는 핵심 작업자가 다른 복수 작업자를 생성하고 제어함, 5xx 오류는
CPUUtilization
함께 봐야함, 낮은데 오류 발생한다면 컨테이너/모델 설정의 문제
- Enriching Real-Time News Streams with the Refinitiv Data Library, AWS Services, and Amazon SageMaker (Jan 2023)
- How Thomson Reuters Built an AI platform Using Amazon SageMaker to Accelerate Delivery of ML Projects (Jan 2023)
- Model Hosting Patterns in Amazon SageMaker, Part 1: Common Design Patterns for Building ML Applications on Amazon SageMaker (Jan 2023)
- 비용, 추론 레이턴시, 처리량(TPS), 확장 구성 복잡도, 트래픽 예상 패턴의 5가지 적합도 함수로 적절한 호스팅 패턴 판단
- ① 실시간: 레이턴시 ms (< 60s), 페이로드 < 6MB, 오토 스케일링, Graviton과 Inf1(+ SageMaker Neo) 인스턴스 지원 ② 비동기식: 레이턴시 1s (< 15m), 페이로드 < 1GB, 오토 스케일링과 SNS 지원 ③ 서버리스: 콜드 스타트, 메모리 크기(~ vCPU 수) 선택 가능 (메모리 크기 > 모델 크기) ④ 일괄 변환
- ① 단일 모델: 오토 스케일링, Inf1(+ Neo) 인스턴스 지원 ② MME: 콜드 스타트, 오토 스케일링, GPU 인스턴스와 Triton 인퍼런스 서버 지원 → 모델 앙상블 배포(Triton DAG) ③ MCE: 컨테이너 최대 15개, 오토 스케일링 지원하나 GPU는 X → 직렬 추론 파이프라인 패턴에 적합
- 비즈니스 기능과 프레임워크에 따라 그룹화하여 동일 컨테이너에 호스팅 또는 컨테이너 분리
- Best Practices for Amazon SageMaker Training Managed Warm Pools (Dec 2022)
- 연속 훈련 작업 시 웜풀 이용 → 작업 시작 시간 단축
- Scaling Distributed Training with AWS Trainium and Amazon EKS (Jan 2023)
- trn1 인스턴스(32xlarge)는 울트라 클러스터에 배포 가능, EFA 네트워크 연결 → EKS가 trn1 사용하는 분산 훈련 지원
- EKS 클러스터: trn1 인스턴스 노드 그룹 + Neuron SDK + Neuron & EFA 용 EKS 플러그인 + ECR & 컨테이너 이미지 + FSx for Lustre 파일 시스템 + TorchX 범용 작업 시작 관리자(Volcano 배치 스케줄러 & etcd 서버: 키-값 저장소) + TorchX DDP 모듈
- CF로 EKS 클러스터 생성 → EKS 노드 그룹 생성: AMI와 EFA 네트워크 구성 → Trainium & EFA 용 EKS 플러그인과 Volcano & etcd 서버 설치 → 공유 스토리지 연결, 학습 컨테이너 빌드와 푸시 → 훈련 데이터 설정 → PyTorch Neuron은 JIT이지만 neuron_parallel_compile 도구로 모델 사전 컴파일 → 분산 훈련 시작(torchxrun), 각 NeuronCore는 XLA 장치로써 접근 가능 → kubectl 또는 TensorBoard로 모니터링
- Define Customized Permissions in Minutes with Amazon SageMaker Role Manager (Dec 2022)
- Deploy Amazon SageMaker Autopilot Models to Serverless Inference Endpoints (Dec 2022)
- Autopilot 모델 훈련 모드: 앙상블(단일 컨테이너 반환), HPO(3개의 컨테이너 반환), 자동(데이터셋 100MB 기준)
- 서버리스 추론: 콜드 스타트 허용하되, 트래픽이 급격히 변하는 패턴에 적합(= 오토 스케일링)
- boto3 통해 엔드포인트에 배포, HPO의 경우 3개의 컨테이너에 대해 각각 엔드포인트 생성하고 요청과 응답을 직접 연결
- Improve Governance of Your ML Models with Amazon SageMaker (Dec 2022)
- Minimize the Production Impact of ML Model Updates with Amazon SageMaker Shadow Testing (Dec 2022)
- New Performance Improvements in Amazon SageMaker Model Parallel Library (Dec 2022)
- SMP의 MiCS 기반 샤드 데이터 병렬 처리에 2가지 성능 개선
- 1/ SMDDP Collectives: NCCL 대신 AWS에 최적화된 AllGather 집합 연산 구현
- 2/ FlashAttention: I/O 인식 방식으로 셀프 어텐션 재구현 → GPT-NeoX 100B의 경우 이전 버전 대비 훈련 속도 30% 향상
- Next Generation Amazon SageMaker Experiments – Organize, Track, and Compare Your ML Trainings at Scale (Dec 2022)
- 세이지메이커 SDK와 통합, Experiment와 Run 중심의 구성, 콘텍스트 자동 공유 → 작업 내부에서 로딩 가능, Clarify 리포트와 통합
- Speed ML Development Using SageMaker Feature Store and Apache Iceberg Offline Store Compaction (Dec 2022)
- 표준 Glue 대신 Iceberg 테이블 포맷으로 피쳐 그룹 생성 가능 (c.f. 스토리지 = S3, 메타스토어 = Glue Data Catalog)
- Glue Job으로 테이블 압축 스케줄링 → 압축, 오래된 스냅숏과 고아 파일 제거 → Athena 쿼리 속도 10 ~ 100배 향상
- Build a Cross-Account MLOps Workflow Using the Amazon SageMaker Model Registry (Nov 2022)
- ByteDance Saves Up to 60% on Inference Costs While Reducing Latency and Increasing Throughput Using AWS Inferentia (Nov 2022)
- Deploy BLOOM-176B and OPT-30B on Amazon SageMaker with Large Model Inference DLCs and DeepSpeed (Nov 2022)
- 딥스피드와 허깅페이스 액셀러레이트가 포함된 대형 모델 추론 컨테이너 패키지 신규 배포
- Enabling Hybrid ML Workflows on Amazon EKS and Amazon SageMaker with One-Click Kubeflow on AWS Deployment (Nov 2022)
- Getting Started with Deploying Real-Time Models on Amazon SageMaker (Nov 2022)
- Launch Amazon SageMaker Autopilot Experiments Directly from within Amazon SageMaker Pipelines to Easily Automate MLOps Workflows (Nov 2022)
- Model Hosting Patterns in SageMaker: Best Practices in Testing and Updating Models on SageMaker (Nov 2022)
- Run ML Inference Workloads on AWS Graviton-Based Instances with Amazon SageMaker (Nov 2022)
- Serve Multiple Models with Amazon SageMaker and Triton Inference Server (Nov 2022)
- Choose the Best Data Source for Your Amazon SageMaker Training Job (Feb 2022)
- Using Streaming Ingestion with Amazon SageMaker Feature Store to Make ML-Backed Decisions in Near-Real Time (Dec 2020)
- Faker로 신용카드 거래 데이터 생성
- Kinesis Data Stream → Kinesis Data Analytics (스트리밍 집합 연산, 예: 지난 10분간) → Lambda → SageMaker Feature Store (온라인) → SageMaker Processing (① 배치 집합 연산, 예: 지난 1주간 ② 모델 훈련 데이터셋 생성) → SageMaker Feature Store → Lambda (피쳐화, 예: 10분 / 1주의 비율) → SageMaker Endpoint (추론)