In [None]:
!pip install transformers huggingface_hub hf_transfer

In [None]:
import os
from huggingface_hub import snapshot_download
import boto3
from tqdm import tqdm
from concurrent.futures import ThreadPoolExecutor


os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

# Hugging Face からダウンロードするモデル名

HF_MODEL_ID = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct" # Example model ID
model_tar_dir = HF_MODEL_ID.split("/")[-1]
os.makedirs(model_tar_dir, exist_ok=True)
hf_token = os.environ.get('HF_TOKEN')

# Download the model
snapshot_download(
    HF_MODEL_ID,
    local_dir=str(model_tar_dir),
    revision="main",
    local_dir_use_symlinks=False,
    ignore_patterns=["*.msgpack*", "*.h5*", "*.bin*"],
    token=hf_token
)

In [None]:
# S3 バケットの設定
s3_bucket_name = os.environ.get('AWS_S3_BUCKET')
s3_model_key = os.path.join("models", model_tar_dir)

key_id = os.environ.get('AWS_ACCESS_KEY_ID')
secret_key = os.environ.get('AWS_SECRET_ACCESS_KEY')

# S3 へのアップロードに必要な情報
aws_access_key_id = key_id
aws_secret_access_key = secret_key
region_name = "ap-northeast-1"


# マルチパートアップロードでのアップロードパラメーターの設定
chunk_size = 8 * 1024 * 1024  # チャンクサイズ (8 MB)

# S3 クライアントを初期化
s3_client = boto3.client(
    "s3",
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    region_name=region_name
)

# マルチパートアップロードを開始
def upload_file_multipart(local_path, s3_bucket_name, s3_key):
    with open(local_path, 'rb') as f:
        s3_client.upload_fileobj(f, s3_bucket_name, s3_key,
                                 #ExtraArgs={'ACL': 'public-read'},
                                 Config=boto3.s3.transfer.TransferConfig(multipart_threshold=chunk_size))

# S3 にモデルをアップロードする関数
def upload_to_s3(file):
    local_path = os.path.join(model_tar_dir, file)
    s3_key = os.path.join(s3_model_key, file)
    upload_file_multipart(local_path, s3_bucket_name, s3_key)
    print(f"Uploaded {file} to S3")

# マルチスレッドでファイルをアップロード
with ThreadPoolExecutor(max_workers=8) as executor:  # 最大 8 スレッドで並行実行
    executor.map(upload_to_s3, os.listdir(model_tar_dir))

print("Model uploaded successfully to S3.")