# Access Token 생성
- 학습된 모델을 Huggingface hub에 올리기 위해서는 access token이 필요하다.
  
![huggingface_create_apikey.png](figures/huggingface_accesstoken.png)
![huggingface_create_apikey.png](figures/huggingface_accesstoken2.png)

- 1. 로그인 -> 2. Profile -> 3. Access Tokens 선택
- 생성할 때 `write` 권한을 선택한다.

In [None]:
!pip install python-dotenv

In [None]:
# working directory 아래 '.env' 생성
# .gitignore 파일에 .env를 등록해서 git이 추적하지 않도록 한다.(깃허브에 올라가지 않도록)
# 이름-값 형식으로 환경변수를 설정.
## HUGGINGFACE_API_KEY="키값"

In [None]:
from dotenv import load_dotenv
load_dotenv()
# working directory에서 환경변수 파일(default: .env)을 찾아서 그 파일에 설정된 값을 일시적으로 OS의 환경변수로 등록해준다.

True

In [2]:
# 환경변수 값 읽기
import os
os.getenv("JAVA_HOME")

'C:\\Users\\Playdata\\Downloads\\jdk-24_windows-x64_bin\\jdk-24.0.1'

In [3]:
os.getenv("HUGGINGFACE_API_KEY")

'hf_aqiKrmIOTpKqxXxXPQbGRAMMqmOVwWtzat'

In [4]:
os.environ['HUGGINGFACE_API_KEY']

'hf_aqiKrmIOTpKqxXxXPQbGRAMMqmOVwWtzat'

# Naver 영화댓글 분류

# Huggingface Dataset 패키지
- 허깅페이스 허브에 공유된 데이터셋을  다운로드해서 전처리 및 관리할 수있도록 돕는 라이브러리. 
- 많은 공개데이터셋을 동일한 인터페이스로 사용할 수있다.
- 설치
    - `pip install datasets`
- https://huggingface.co/datasets
- https://github.com/huggingface/datasets
      
## Huggingface Dataset loading
- datasets 로딩
    - `load_data('dataset name')`
        - huggingface datasets에 등록된 Dataset 이름 넣어 Loading한다.
          
![img](figures/huggingface_dataset.png)

In [None]:
# NSMC 데이터셋 로딩
import datasets
from datasets import load_dataset

nsmc = load_dataset("e9t/nsmc", trust_remote_code=True)
type(nsmc) # datasets.dataset_dict.DatasetDict

README.md:   0%|          | 0.00/3.74k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


nsmc.py:   0%|          | 0.00/3.18k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/14.6M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/4.89M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/150000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/50000 [00:00<?, ? examples/s]

datasets.dataset_dict.DatasetDict

In [None]:
# Dataset: 데이터셋
# DatasetDict: Dataset들을 모아놓은 dict 기반의 자료구조. train/valid/test set등을 모아서 제공.

In [2]:
nsmc

DatasetDict({
    train: Dataset({
        features: ['id', 'document', 'label'],
        num_rows: 150000
    })
    test: Dataset({
        features: ['id', 'document', 'label'],
        num_rows: 50000
    })
})

In [4]:
nsmc.keys()

dict_keys(['train', 'test'])

In [6]:
trainset = nsmc['train']
testset = nsmc['test']

In [7]:
# dataset이 표 데이터일 경우 features는 컬럼명
trainset

Dataset({
    features: ['id', 'document', 'label'],
    num_rows: 150000
})

In [11]:
# feature 조회
trainset['document'][:5]
trainset['label'][:5]
trainset['id'][:5]

['9976970', '3819312', '10265843', '9045019', '6483659']

In [None]:
# datasets.Dataset을 다른 형식으로 변환
df = trainset.to_pandas()
df.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [15]:
# 다른 형식으로 저장된 data를 datasets.Dataset으로 변환
# datasets.Dataset.from_xxxx(데이터셋)
d = datasets.Dataset.from_pandas(df.head(100))
d

Dataset({
    features: ['id', 'document', 'label'],
    num_rows: 100
})

In [None]:
# Sampling - train: 10000개, test: 5000개
sample_train = trainset.shuffle().select(range(10000)) # 0~9999번 인덱스 값 가져옴
sample_test = testset.shuffle().select(range(5000))

In [17]:
print(sample_train)
print(sample_test)

Dataset({
    features: ['id', 'document', 'label'],
    num_rows: 10000
})
Dataset({
    features: ['id', 'document', 'label'],
    num_rows: 5000
})


## 모델, 토크나이저 loading

- 모델 별 Model 클래스를 이용하거나 Auto class를 이용해 모델, 전처리기(tokenizer, ImageProcessor 등)을 로딩한다.
    - Huggingface에 저장된 model name을 입력해서 pretrained 모델을 loading 한다.
    - fine tuning 한 경우 모델 저장 디렉토리 경로를 넣어 pretrained 모델을 loading한다.
- AutoModel은 model name을 주면 그 모델이 학습한 base 모델에 맞는 객체를 생성해서 반환한다.
    - Auto Model은 task 별로 다양한 클래스들이 있다.
        - 클래스 이름 형식: AutoModelFor{Task형식}
        - ex) `AutoModelForObjectDetection`, `AutoModelForSequenceClassification`
    - https://huggingface.co/docs/transformers/model_doc/auto
    - 전처리기(tokenzier)는 사용하려는 모델이 사용한 전처리기를 사용해야 한다.

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_id = "beomi/kcbert-base"
# 토크나이저, 분류 모델을 로드 (둘은 같은 ID값 사용)
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(model_id, num_labels=2)
# num_labels: 분류할 클래스의 개수: 긍정, 부정으로 뷴류
# model_id: kcbert_base (pretrained된 Feature Extractor)
# model: Estimator는 학습되지 않은 layer로 구성

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at beomi/kcbert-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
# beomi/kcbert-base 모델은 문장의 '특성을 추출'하는 모델이다.
model

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30000, 768, padding_idx=0)
      (position_embeddings): Embedding(300, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e

## pytorch Dataset 생성
모델 입력으로 다음 4개 항목을 dictionary로 묶어서 제공하도록 구현한다.
1. input_ids: 입력 text 토큰을 id로 변환한 값
2. token_type_ids: 문자쌍 구분시 사용. 단일 문장: 0, 문자쌍-첫문장: 0, 두 번째 문장: 1
3. attention_mask: 실제 토큰값과 패딩구분값
4. labels: 정답 class index

1 ~ 3은 위의 train_encoding, test_encoding으로 만듬. labels은 train_data/test_data의 label 키 값 사용

In [20]:
train_X = sample_train['document']
train_y = sample_train['label']

test_X = sample_test['document']
test_y = sample_test['label']

In [22]:
train_encoding = tokenizer(train_X, return_tensors="pt", padding=True) 
test_encoding = tokenizer(test_X, return_tensors="pt", padding=True)
# max_length를 지정하지 않았으므로 가장 긴 문장 기준으로 padding 처리

In [24]:
train_encoding.keys()

dict_keys(['input_ids', 'token_type_ids', 'attention_mask'])

In [26]:
train_encoding['input_ids'].shape

torch.Size([10000, 133])

In [27]:
import torch
from torch.utils.data import Dataset

class NSMCDataset(Dataset):
    def __init__(self, comments, labels):
        """
        Args:
            comments (dict): tokenizer로 토큰화한 input data
            labels (list): 정답 라벨
        """
        self.comments = comments
        self.labels = labels
    
    def __len__(self):
        return len(self.labels)

    def __getitem__(self, index):
        """
        index번째 데이터 반환
        BERT 모델 입력 형식에 맞춰서 반환. input_ids, token_type_ids, attention_mask + label
        Args:
            index (int)
        Returns:
            {input_idx, token_type_ids, attention_mask, label} (dict): 입력 데이터와 정답 label을 딕셔너리에 묶어서 반환
        """
        data = {key:value[index] for key, value in self.comments.items()}
        data['labels'] = torch.tensor(self.labels[index], dtype=torch.int64)

        return data
        

In [28]:
train_set = NSMCDataset(train_encoding, train_y)
test_set = NSMCDataset(test_encoding, test_y)

In [29]:
len(train_set), len(test_set)

(10000, 5000)

In [31]:
train_set[0]

{'input_ids': tensor([    2,  9376,  9136, 16714,  8454,  4128,  9916,  4027, 15054,  8106,
         11889, 22687,  4128,  8301,  9663, 20962, 10564,  2451,  9376,  4042,
         10827,  4020,    17, 10220, 24750,  4017, 11053, 26235, 15814, 12968,
         11997,  7987, 17079,  4593, 14331, 10722, 24787,  4008, 16716,    17,
             3,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,   

# 학습
- Transformers는 model 학습을 위해 TrainingArguments, Trainer 클래스를 제공한다.
- TrainingArguments Trainer를 위한 설정을 하는 클래스
- TrainingArguments, Trainer를 이용하면 training option, logging, gradient accumulation, mixed precision등을 쉽게 설정해 학습, 평가를 모두 진행할 수 있다.

In [None]:
from transformers import TrainingArguments, Trainer

N_EPOCHS = 1
BATCH_SIZE = 64

# 어떻게 학습할지 설정
train_args = TrainingArguments(
    output_dir="models/nsmc",
    num_train_epochs=N_EPOCHS,
    per_device_train_batch_size=BATCH_SIZE,
    per_device_eval_batch_size=BATCH_SIZE, # 검증 시

    eval_strategy="epoch", # 평가 전략 - "no", "step", "epoch" (하나의 epoch당 평가 하겠다.)
    save_strategy="epoch", # 저장 전략

    save_total_limit=1, # 저장할 모델의 최대 개수
    load_best_model_at_end=True, # 학습 종료 후 검증 결과가 가장 좋은 모델을 저장 + load

    metric_for_best_model="eval_loss", # best model 검증 평가 지표
    greater_is_better=False, # 검증 평가지표값이 높아야 좋은지, 낮아야 좋은지.

    report_to="none"
)
train_args

TrainingArguments(
_n_gpu=0,
accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
average_tokens_across_devices=False,
batch_eval_metrics=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=0,
dataloader_persistent_workers=False,
dataloader_pin_memory=True,
dataloader_prefetch_factor=None,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_tqdm=False,
do_eval=True,
do_predict=False,
do_train=False,
eval_accumulation_steps=None,
eval_delay=0,
eval_do_concat_batches=True,
eval_on_start=False,
eval_steps=None,
eval_strategy=IntervalStrategy.EPOCH,
eval_use_gather_object=False

In [None]:
# 평가 함수 정의 - evaluate 패키지 이용
# huggingface에서 제공하는 라이브러리. 다양한 평가 함수들을 제공
!pip install evaluate scikit-learn

In [32]:
import evaluate

# 정확도 평가 함수
acc_fn = evaluate.load("accuracy") # f1, recall, precision
# acc_fn


Downloading builder script:   0%|          | 0.00/4.20k [00:00<?, ?B/s]

In [33]:
pred = torch.tensor([0, 1, 0, 1])
ref = torch.tensor([0, 1, 0, 0])
acc_fn.compute(predictions=pred, references=ref)

{'accuracy': 0.75}

In [None]:
def compute_metrics(pred):
    """
    모델이 학습하는 도중 예측값을 받아서 평가 점수를 계산하는 함수
    Trainer에 의해 호출될 함수
    Args:
        pred(EvalPrediction) - 모델의 예측값. 정답들을 묶어서 제공
    Returns:
        dictionary - key: 평가지표 이름, value: 평가점수
    """
    labels = pred.label_ids # 정답(라벨)
    preds = pred.predictions.argmax(axis=-1) # 모델 출력값
    metrics1 = evaluate.load("accuracy")
    metrics2 = evaluate.load("f1")

    acc = metrics1.compute(references=labels, predictions=preds)
    f1 = metrics2.compute(references=labels, predictions=preds)
    return {"accuracy":acc, "f1 score":f1}

In [36]:
# Trainer 객체
trainer = Trainer(
    model=model,
    args=train_args,
    train_dataset=train_set,
    eval_dataset=test_set,
    compute_metrics=compute_metrics,
)

In [37]:
# 학습
trainer.train()



Epoch,Training Loss,Validation Loss


TypeError: argmax() got an unexpected keyword argument 'dim'

In [39]:
trainer.evaluate()



KeyboardInterrupt: 

In [40]:
# 모델 저장
## tokenizer와 model을 같은 경로에 저장한다.
save_path = "models/nsmc"
tokenizer.saved_pretrained(save_path)
model.saved_pretrained(save_path)

AttributeError: BertTokenizerFast has no attribute saved_pretrained

## 모델 로드

In [43]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification

load_tokenizer = AutoTokenizer.from_pretrained(save_path)
load_model = AutoModelForSequenceClassification.from_trained(save_path)

ValueError: Unrecognized model in models/nsmc. Should have a `model_type` key in its config.json, or contain one of the following strings in its name: albert, align, altclip, aria, aria_text, audio-spectrogram-transformer, autoformer, aya_vision, bamba, bark, bart, beit, bert, bert-generation, big_bird, bigbird_pegasus, biogpt, bit, bitnet, blenderbot, blenderbot-small, blip, blip-2, blip_2_qformer, bloom, bridgetower, bros, camembert, canine, chameleon, chinese_clip, chinese_clip_vision_model, clap, clip, clip_text_model, clip_vision_model, clipseg, clvp, code_llama, codegen, cohere, cohere2, colpali, conditional_detr, convbert, convnext, convnextv2, cpmant, csm, ctrl, cvt, d_fine, dab-detr, dac, data2vec-audio, data2vec-text, data2vec-vision, dbrx, deberta, deberta-v2, decision_transformer, deepseek_v3, deformable_detr, deit, depth_anything, depth_pro, deta, detr, diffllama, dinat, dinov2, dinov2_with_registers, distilbert, donut-swin, dpr, dpt, efficientformer, efficientnet, electra, emu3, encodec, encoder-decoder, ernie, ernie_m, esm, falcon, falcon_mamba, fastspeech2_conformer, flaubert, flava, fnet, focalnet, fsmt, funnel, fuyu, gemma, gemma2, gemma3, gemma3_text, git, glm, glm4, glpn, got_ocr2, gpt-sw3, gpt2, gpt_bigcode, gpt_neo, gpt_neox, gpt_neox_japanese, gptj, gptsan-japanese, granite, granite_speech, granitemoe, granitemoehybrid, granitemoeshared, granitevision, graphormer, grounding-dino, groupvit, helium, hgnet_v2, hiera, hubert, ibert, idefics, idefics2, idefics3, idefics3_vision, ijepa, imagegpt, informer, instructblip, instructblipvideo, internvl, internvl_vision, jamba, janus, jetmoe, jukebox, kosmos-2, layoutlm, layoutlmv2, layoutlmv3, led, levit, lilt, llama, llama4, llama4_text, llava, llava_next, llava_next_video, llava_onevision, longformer, longt5, luke, lxmert, m2m_100, mamba, mamba2, marian, markuplm, mask2former, maskformer, maskformer-swin, mbart, mctct, mega, megatron-bert, mgp-str, mimi, mistral, mistral3, mixtral, mlcd, mllama, mobilebert, mobilenet_v1, mobilenet_v2, mobilevit, mobilevitv2, modernbert, moonshine, moshi, mpnet, mpt, mra, mt5, musicgen, musicgen_melody, mvp, nat, nemotron, nezha, nllb-moe, nougat, nystromformer, olmo, olmo2, olmoe, omdet-turbo, oneformer, open-llama, openai-gpt, opt, owlv2, owlvit, paligemma, patchtsmixer, patchtst, pegasus, pegasus_x, perceiver, persimmon, phi, phi3, phi4_multimodal, phimoe, pix2struct, pixtral, plbart, poolformer, pop2piano, prompt_depth_anything, prophetnet, pvt, pvt_v2, qdqbert, qwen2, qwen2_5_omni, qwen2_5_vl, qwen2_5_vl_text, qwen2_audio, qwen2_audio_encoder, qwen2_moe, qwen2_vl, qwen2_vl_text, qwen3, qwen3_moe, rag, realm, recurrent_gemma, reformer, regnet, rembert, resnet, retribert, roberta, roberta-prelayernorm, roc_bert, roformer, rt_detr, rt_detr_resnet, rt_detr_v2, rwkv, sam, sam_hq, sam_hq_vision_model, sam_vision_model, seamless_m4t, seamless_m4t_v2, segformer, seggpt, sew, sew-d, shieldgemma2, siglip, siglip2, siglip_vision_model, smolvlm, smolvlm_vision, speech-encoder-decoder, speech_to_text, speech_to_text_2, speecht5, splinter, squeezebert, stablelm, starcoder2, superglue, superpoint, swiftformer, swin, swin2sr, swinv2, switch_transformers, t5, table-transformer, tapas, textnet, time_series_transformer, timesfm, timesformer, timm_backbone, timm_wrapper, trajectory_transformer, transfo-xl, trocr, tvlt, tvp, udop, umt5, unispeech, unispeech-sat, univnet, upernet, van, video_llava, videomae, vilt, vipllava, vision-encoder-decoder, vision-text-dual-encoder, visual_bert, vit, vit_hybrid, vit_mae, vit_msn, vitdet, vitmatte, vitpose, vitpose_backbone, vits, vivit, wav2vec2, wav2vec2-bert, wav2vec2-conformer, wavlm, whisper, xclip, xglm, xlm, xlm-prophetnet, xlm-roberta, xlm-roberta-xl, xlnet, xmod, yolos, yoso, zamba, zamba2, zoedepth

# 추론

In [None]:
sentence = ["이걸 영화라고 만든 거냐?", "아무 기대 없이 봤는데 재미있네.", "내가 감독이어도 이것보다 재미있게 만들겠다.", "시간이 어떻게 가는 줄 모르고 봤다."]

In [None]:
from transformers import pipeline
pipe = pipeline(task="text-classfication", tokenizer=load_tokenizer, model=load_model)
result = pipe(sentence)

In [None]:
result

In [None]:
# 학습한 모델, 토크나이저를 huggingface hub에 업로드
# 1. TrainingArgumnets에 설정해서 학습 도중/끝나면 자동으로 업로드 되도록
# 2. mode;/tokenizer.push_to_hub("계정/모델 id")를 이용해서 수정으로 업로드

from huggingface_hub import login
from dotenv import looadevc

login()


VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [41]:
import os
hf_api_key = os.getenv("HUGGINGFACE_API_KEY")
login(hf_api_key)

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [42]:
model_id = "kcbert_nsmc_10000"
load_tokenizer.push_to_hub(model_id)
load_model.push_to_hub(model_id)

NameError: name 'load_tokenizer' is not defined

In [None]:
# huggingface-hub에 push한 모듈 사용
from transformers import pipeline

# model_id = "저장한 모델 id"
pipe = pipeline(task='text-generation', model=model_id)

In [None]:
pipe(["영화 재미 없어요."])