마지막 업데이트: 2023.06.09
- AWS Neuron SDK
- 공식 Neuron SDK 개발 문서이며, Get Started with PyTorch / TensorFlow 를 진행 해보시기 바랍니다.
- https://awsdocs-neuron.readthedocs-hosted.com/en/latest/index.html
- The AWS Inferentia Chip With DLAMI
- EC2 DLAMI 를 이용하여 실습을 위한 문서
- 참고: Running Jupyter Notebook Tutorials with DLAMI
- Neuron SDK Roadmap
- 공식적인 Neuron SDK 의 현재 지원 내용 및 추후 개발 내용이 있습니다. 현재 가지고 있는 모델의 Neuron 제공 여부를 확인할 수 있습니다.
- new: https://github.com/orgs/aws-neuron/projects/1
- AWS Neuron Forum
- Neuron 에 대한 질의 및 응답
- https://github.com/aws-samples/aws-do-inference
- Optimize model performance using Neo
- SageMaker Neo 의 공식 개발자 가이드, Neo 로 컴파일한 후에 SageMaker Inference 하기
- https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html
- AWS Inferentia Overview (Neuron SDK 1.18.0)
- 김대근님이 Inferentia 오버뷰를 한글로 정리
- https://daekeun.notion.site/AWS-Inferentia-Overview-Neuron-SDK-1-18-0-d07761f3ef02489f8dad4814fcba6da3
- 간단한 컴파일 예시
- 나의 모델이 Neuron SDK 에서 지원 하는지 (컴피일 가능) 확인 하기
- 상세 보기 : Check-Model
- Inferentia2 로 추천 모델 (Neural Collaborative Filtering) 을 컴파일 및 서빙 예시 입니다.
- 아래는 인퍼런시아 워크샵 링크 입니다. 단계별로 Tensorflow 로 ResNet-50 을 Pytorch 로 BERT 를 컴파일, 추론, 서빙, 툴 소개를 하고 있습니다.
- 현재 영어 버전의 링크가 연결이 안됩니다. 일본어 버전을 “크롬” 에서 한글로 번역하면서 보시기를 권장 합니다.
- Amazon EC2 Inf1 Workshop
- Amazon SageMaker Neo Compilation Jobs
- SageMaker 에서 Neuron Compile
- https://github.com/aws/amazon-sagemaker-examples/tree/main/sagemaker_neo_compilation_jobs
- CMP314 Optimizing NLP models with Amazon EC2 Inf1 instances in Amazon Sagemaker
- AWS re:Invent 2021 Inferentia Workshop
- Inference workload deployment sample with optional bin-packing
- [강추, 스캐터랩 작성] AWS Inferentia 를 이용한 모델 서빙 비용 최적화: 모델 서버 비용 2배 줄이기 1탄 (July 2022)
- AWS Supports You | Using AWS Inferentia and Trainium in Practice (Jun 2022)
- How InfoJobs (Adevinta) improves NLP model prediction performance with AWS Inferentia and Amazon SageMaker (Jun 2022)
- Achieve hyperscale performance for model serving using NVIDIA Triton Inference Server on Amazon SageMaker (May 2022)
- How Amazon Search achieves low-latency, high-throughput T5 inference with NVIDIA Triton on AWS (Mar 2022)
- Accelerate BERT inference with Hugging Face Transformers and AWS Inferentia (Mar 2022)
- Serve 3,000 deep learning models on Amazon EKS with AWS Inferentia for under $50 an hour (Sep 2021)
- Achieving 1.85x higher performance for deep learning based object detection with an AWS Neuron compiled YOLOv4 model on AWS Inferentia (Oct 2020)
- Deploying TensorFlow Models on AWS Inferentia Based Inf1 Instances with Amazon SageMaker (July 2020)
- Deploying TensorFlow OpenPose on AWS Inferentia-based Inf1 instances for significant price performance improvements (Jul 2020)
- Deploy fast and scalable AI with NVIDIA Triton Inference Server in Amazon SageMaker