In [1]:
import torch
print("torch:", torch.__version__, 
      "cuda:", torch.version.cuda, 
      "is_available:", 
      torch.cuda.is_available())

torch: 2.6.0+cu124 cuda: 12.4 is_available: True


In [2]:
import warnings
warnings.filterwarnings(action='ignore')

In [3]:
import os
import requests
from dotenv import load_dotenv

# .env 파일 로드
load_dotenv()

True

# inference api

In [4]:
import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="hf-inference",
    api_key=os.environ["HF_TOKEN"],
)

result = client.translation(
    "Меня зовут Вольфганг и я живу в Берлине",
    model="Helsinki-NLP/opus-mt-ko-en",
)

# pipeline()
task : 텍스트 기반한 감성분석, 분류(제로샷), 텍스트 생성

In [5]:
from transformers import pipeline
classifier = pipeline("text-classification") # task 지정
classifier("Second-run films emerge as box office lifeline amid Korean film industry slump")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cuda:0


[{'label': 'POSITIVE', 'score': 0.9459660053253174}]

In [6]:
from transformers import pipeline
classifier = pipeline("sentiment-analysis", "tabularisai/multilingual-sentiment-analysis") # task 지정
classifier("Second-run films emerge as box office lifeline amid Korean film industry slump")

Device set to use cuda:0


[{'label': 'Neutral', 'score': 0.6539700031280518}]

In [7]:
from transformers import pipeline
classifier = pipeline("sentiment-analysis", "tabularisai/multilingual-sentiment-analysis") # task 지정
classifier("2차 영화, 한국 영화 산업 침체 속에서 흥행 생명선으로 떠오르다")

Device set to use cuda:0


[{'label': 'Neutral', 'score': 0.8508070707321167}]

In [8]:
from transformers import pipeline
classifier = pipeline("fill-mask", "bert-base-multilingual-cased") # task 지정
classifier("2차 영화, [MASK] 산업 침체 속에서 흥행 생명선으로 떠오르다")

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cuda:0


[{'score': 0.20029573142528534,
  'token': 42428,
  'token_str': '영화',
  'sequence': '2차 영화, 영화 산업 침체 속에서 흥행 생명선으로 떠오르다'},
 {'score': 0.06603540480136871,
  'token': 23130,
  'token_str': '일본',
  'sequence': '2차 영화, 일본 산업 침체 속에서 흥행 생명선으로 떠오르다'},
 {'score': 0.042990636080503464,
  'token': 48556,
  'token_str': '한국',
  'sequence': '2차 영화, 한국 산업 침체 속에서 흥행 생명선으로 떠오르다'},
 {'score': 0.04271746799349785,
  'token': 10232,
  'token_str': '...',
  'sequence': '2차 영화,... 산업 침체 속에서 흥행 생명선으로 떠오르다'},
 {'score': 0.0172389205545187,
  'token': 101660,
  'token_str': '도시',
  'sequence': '2차 영화, 도시 산업 침체 속에서 흥행 생명선으로 떠오르다'}]

# "question-answering"

In [9]:
from transformers import pipeline
question_answerer = pipeline("question-answering", "distilbert-base-cased-distilled-squad")  # 질의 응답
question_answerer(
    question="Where do I work?",
    context="My name is Sylvain and I work at Hugging Face in Brooklyn",
)

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Fetching 0 files: 0it [00:00, ?it/s]
Fetching 1 files: 100%|██████████| 1/1 [00:00<00:00, 663.03it/s]
Fetching 0 files: 0it [00:00, ?it/s]
Device set to use cuda:0


{'score': 0.6949767470359802, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}

# "ner" 개체명 인식

In [10]:
from transformers import pipeline
ner = pipeline("ner", "dbmdz/bert-large-cased-finetuned-conll03-english", grouped_entities=True)  # 개체명 인식
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.") 

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cuda:0


[{'entity_group': 'PER',
  'score': np.float32(0.9981694),
  'word': 'Sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': np.float32(0.9796019),
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': np.float32(0.9932106),
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

# "summarization" 문장요약

In [11]:
summ = pipeline("summarization", "eenzeenee/t5-base-korean-summarization")
summ("""KOFIC은 2024년 재개봉 영화 수가 228편으로 전년 대비 80편 증가했다고 보고했다.
     이들 영화의 수익은 1년 전보다 16.1% 증가한 245억원(1,757만 달러)에 달했고, 재개봉 영화 관객수는 2023년보다 29.9% 증가한 250만 명이다.
     이러한 추세는 세계 최대 규모의 북미 시장에서도 뚜렷하게 드러납니다. 
     영화감독 스티븐 스필버그의 '죠스'는 개봉 50주년을 기념해 8월 29일 재개봉한 영화 제작자 스티븐 스필버그의 '죠스'는 노동절 주말 박스오피스 9,800만 달러를 기록해 
     신작에 이어 2위를 차지하며 지난 10년 동안 재개봉 영화 중 최고의 성적을 달성했습니다.할리우드는 박스오피스 수치를 높이기 위해 점점 더 고전 영화를 활용하고 있습니다. 
     대부분의 경우 이 전략은 "Hocus Pocus"(1993) 및 "Coraline"(2009)과 같은 최근 재개봉작이 현대 관객들에게 좋은 성과를 거두면서 성공적인 것으로 입증되고 있습니다. 
     1985년 고전 "백 투 더 퓨처"의 40주년 기념 상영을 포함하여 가까운 장래에 더 많은 고전 재개봉이 계획되어 있습니다.""")

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Device set to use cuda:0
Token indices sequence length is longer than the specified maximum sequence length for this model (425 > 128). Running this sequence through the model will result in indexing errors


[{'summary_text': '할리우드는 박스오피스 수치를 높이기 위해 고전 영화를 활용하고 있는데 대부분의 경우 최근 재개봉작이 현대 관객들에게 좋은 성과를 거두면서 성공적인 것으로 입증되고 있다.'}]

# "translation" 한글 → 영어

In [None]:
from transformers import pipeline
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-ko-en")  # 한국어 -> 영어번역
translator("이 문장을 영어로 번역해주세요.")

# image-to-text

In [None]:
from transformers import pipeline

imagetotext = pipeline("image-to-text", "ydshieh/vit-gpt2-coco-en")
imagetotext("https://huggingface.co/datasets/Narsil/image_dummy/resolve/main/parrots.png", max_new_tokens=30)

In [12]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
name = "Helsinki-NLP/opus-mt-ko-en"
tok = AutoTokenizer.from_pretrained(name, token=None)
model = AutoModelForSeq2SeqLM. from_pretrained(name, token=None)
print(tok is not None, model.config.model_type)



True marian


# fine tuning 을 위한 AutoClass 활용

In [1]:
from datasets import load_dataset
dataset = load_dataset('imdb')
dataset

  from .autonotebook import tqdm as notebook_tqdm


DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label'],
        num_rows: 50000
    })
})

In [2]:
# 토크나이저 - 모델
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('distilbert-base-uncased')

def preprocess_f(examples):
    return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=512)

tokenizer_datasets = dataset.map(preprocess_f, batched=True)
tokenizer_datasets

Map: 100%|██████████| 50000/50000 [00:14<00:00, 3546.16 examples/s]


DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'input_ids', 'attention_mask'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label', 'input_ids', 'attention_mask'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label', 'input_ids', 'attention_mask'],
        num_rows: 50000
    })
})

In [3]:
# 모델 설정
from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained('distilbert-base-uncased',num_labels=2)

Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [4]:
# 학습설정
from transformers import TrainingArguments, Trainer
tr_args = TrainingArguments(
    output_dir = './results',
    learning_rate = 2e-5,
    per_device_train_batch_size = 16,
    per_device_eval_batch_size = 16,
    num_train_epochs = 5,
    weight_decay = 0.01
)

trainer = Trainer(
    model = model,
    args = tr_args,
    train_dataset = tokenizer_datasets['train'],
    eval_dataset = tokenizer_datasets['test']
)

trainer.train()

Step,Training Loss


KeyboardInterrupt: 

In [None]:
# 평가
trainer.evaluate()
# 저장
model_path = './fine_tuned_distilbert_imdb'
model.save_pretrained(model_path)
tokenizer.save_pretrained(model_path)

In [None]:
# 저장모델 로드
# 토크나이저 로드 .from_pretrained
# 모델로드
# 모델.eval()

In [4]:
# 저장 모델로 추론하기
input_text = 'This movie was absolutely fantastic!'

inputs = tokenizer(input_text, return_tensors='pt')
inputs

{'input_ids': tensor([[  101,  2023,  3185,  2001,  7078, 10392,   999,   102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])}

In [5]:
import torch
with torch.no_grad(): #역전파x, 추론 only
    outputs = model(**inputs)

predict_class_id = torch.argmax(outputs.logits, dim =-1).item()
print(f'예측 결과 : {predict_class_id}')

예측 결과 : 0
