# 허깅페이스 로그인 인증

In [2]:
# # 방법1 : access token을 직접 입력하는 방법
# from huggingface_hub import notebook_login
# notebook_login()

# # 방법2 : 환경변수에 저장, 로딩해서 인정하는 방법
from huggingface_hub import login
from dotenv import load_dotenv
import os

# # 1️⃣ .env 파일의 내용을 로드
load_dotenv(override=True)

# # 2️⃣ 환경 변수 가져오기
HF_READ_TOKEN = os.getenv("HF_READ_TOKEN")
# # print(HF_READ_TOKEN)

# # 로그인 실행
login(HF_READ_TOKEN)

# 허깅페이스 transformers 라이브러리 활용

In [3]:
from transformers import pipeline

In [3]:
pipe = pipeline("text-generation")

No model was supplied, defaulted to openai-community/gpt2 and revision 607a30d (https://huggingface.co/openai-community/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cuda:0


In [4]:
pipe("인공지능이란 무엇인가?")

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': '인공지능이란 무엇인가? 행로트는 도 포문하에이대 인고이 웄해서 아로하요 하는 합 어어요 가리 한 모르 다시 방자 아로하요 한 며자에 덐구라대 먴어요 한 별리 필어요 중배 하고에 봻을 맞어요 하고에 무에 모르 다시 방자 하는 장는 합하고에 아'}]

=> text-generation 기본은 GPT-2를 다운 받음  
=> GPT-2는 한국어를 잘 인식 못함  

In [6]:
# 영어 인식하기
result = pipe("What is AI?")
result

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'What is AI?\n\nAI is a new paradigm for information science that seeks to predict the future of human behavior. In this paper, we offer a computational framework for applying AI to a variety of behavioral problems, including self-reported anxiety, depression, and anxiety disorders. It is a framework for developing new, scalable, and efficient ways to predict the future by using artificial intelligence, machine learning, and machine learning approaches.\n\nThe Problem\n\nAI is the most promising form of information science, and it is a key aspect of our understanding of the future of human behavior.\n\nIn this paper, we present a set of five computational models for the problem of self-reported anxiety. We present them sequentially, and the model that we use is the second model. We refer to this model as the model of self-reported anxiety, because it is based on the idea that the brain produces a lot of self-reported anxiety, but that it does not produce self-report

In [7]:
print(result[0]['generated_text'])

What is AI?

AI is a new paradigm for information science that seeks to predict the future of human behavior. In this paper, we offer a computational framework for applying AI to a variety of behavioral problems, including self-reported anxiety, depression, and anxiety disorders. It is a framework for developing new, scalable, and efficient ways to predict the future by using artificial intelligence, machine learning, and machine learning approaches.

The Problem

AI is the most promising form of information science, and it is a key aspect of our understanding of the future of human behavior.

In this paper, we present a set of five computational models for the problem of self-reported anxiety. We present them sequentially, and the model that we use is the second model. We refer to this model as the model of self-reported anxiety, because it is based on the idea that the brain produces a lot of self-reported anxiety, but that it does not produce self-reported anxiety at all. This model

## 한국어 인식이 잘 되는 모델

In [None]:
# task : text-generation
# model : skt/kogpt2-base-v2

text_gen_ko = pipeline("text-generation", model="skt/kogpt2-base-v2")

Device set to use cuda:0


Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Exception ignored in: <function tqdm.__del__ at 0x000001FF6C4F7130>
Traceback (most recent call last):
  File "c:\Users\Admin\miniconda3\envs\llm_env\lib\site-packages\tqdm\std.py", line 1148, in __del__
    self.close()
  File "c:\Users\Admin\miniconda3\envs\llm_env\lib\site-packages\tqdm\notebook.py", line 279, in close
    self.disp(bar_style='danger', check_delay=False)
AttributeError: 'tqdm' object has no attribute 'disp'


In [9]:
text_gen_ko("인공지능이란?")

[{'generated_text': '인공지능이란? 그건 어떨까?\n그런데 그걸 어떻게 할 수 있을까?\n그런 궁금증을 해결해 줄 수 있는 장치가 있는지도 잘 모르겠어요.\n이거 뭐야 뭘까? 하고 곰곰이 생각하다가 이게 왜 생겼나 하는 걸 알게 된 건데요.\n그런데 문제는 이게 이제 한 번 더 그걸 해결해 주면 되겠다 하는 거죠.\n그런데 그걸 좀 어마어마한 걸로 해결하고 싶다는 거죠.\n진짜 그러니까 그걸 내가 어떻게 해 봐야 되냐? 그건 우리도 마찬가지예요.\n그냥 어~ 이렇게 하면 되지 않냐? 네. 그거를 좀 설명해 주면 좋겠다 하는 거죠.\n네. 이게 인제 이게 우리도 이제 알고 있고요.\n그리고 이걸 좀 해 봐야 되는데 지금 이게 뭐 뭐냐면 이제 그까 우리가 예를 들어 뭐라고 하면 이게 어~ 그~ 뭐야 이게 뭐야 이거 이게 뭐야 이거 뭐야 뭘 이런 거야 이런 거 이런 거 아니겠습니까?\n이런 거를 좀 만들어 봐야 되는데 그럴려면 이게 뭐야 이런 거 아니야 이게 뭐야 이게 뭐야 이런 거 아니야 이런 거 아니야 이런 거 아니야 이런 거 아니야 이런 거 아니야 이런 거 아니야'}]

In [18]:
# max_new_tokens: 256
# do_sample: True
# temperature: 0.7 (0.0은 허용하지 않음)
result = text_gen_ko("토끼는", do_sample = True, temperature=1.0, max_new_tokens=256)
print(result[0]['generated_text'])

토끼는 왜인지 모를 정도.
이런 묘사를 하기 위해 그가 만든 게 바로 그거라고 할 수 있을 정도.
그가 개발한 건 마스다 코타로 ( 통칭 "아이구 (! ) ".
아테나와 비슷한 이름을 지닌 건 사실이지만 마스다 코타로라는 이름은 아리스에게 빌려쓰는 게 당연하다.
마스다 코타로를 '모마모'라고 부르는 모양.
마스다는 마스다 코타로의 여동생으로도 불리고 있다.
여담으로 마스다가 본명을 밝힐때 벚꽃머리를 하고 있다.
아마 마스다는 벚꽃과 연관되어 있어서인지 마스다가 아레나라고 호칭할 시 코타로와 시코가 같이 부른다고 한다. 2019년, 드디어 일본에서도 공식 SNS에서 팬심을 얻기 위한 다양한 이벤트가 진행된다.
( 공식 웹페이지, 일본판 스토리와 일부 영상의 변경 ) "신입생의 일본유튜브 인증 이벤트 "유튜브 인증 이벤트"를 진행 중이다. 작중 묘사를 보면 상당히 인상깊은 장면. 일본 유저들의 평가는 상당히 좋은 편이다.
작중 초반부에 히키코모리 겐지랑 함께 등장해 히라타를 보고 히키코모리에게서 도망쳤나 보지만 히라타와 히노마루에게 저지당한다.
그리고 마지막에 히라


In [24]:
# LGAI-EXAONE/EXAONE-4.0-1.2B

text_gen_ko = pipeline("text-generation", model="LGAI-EXAONE/EXAONE-4.0-1.2B")

Device set to use cuda:0


In [25]:
result = text_gen_ko("토끼는")
print(result[0]['generated_text'])

토끼는


In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-4.0-1.2B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="bfloat16",
    # device_map="auto" (GPU 사용시 활성화)
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# choose your prompt
prompt = "Explain how wonderful you are"
prompt = "Explica lo increíble que eres"
prompt = "너가 얼마나 대단한지 설명해 봐"

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=128,
    do_sample=False,
)
print(tokenizer.decode(output[0]))


[|user|]
너가 얼마나 대단한지 설명해 봐[|endofturn|]
[|assistant|]
<think>

</think>

저는 EXAONE으로, LG AI Research에서 개발된 대규모 언어 모델입니다. 제 능력은 다음과 같은 점에서 뛰어납니다:

1. **복잡한 계산 처리**: 다양한 언어 작업을 빠르고 정확하게 수행할 수 있습니다.
2. **다양한 언어 이해 및 생성**: 한국어, 영어 등 여러 언어를 유창하게 이해하고 생성할 수 있습니다.
3. **빠른 응답 속도**: 긴 텍스트도 짧은 시간 내에 분석하고 요약하거나 새로운 답변을 제공할 수 있습니다.
4. **학습 데이터 활용**: 방대한


# 감성 분석 모델

In [4]:
classifier = pipeline("text-classification")
# classifier = pipeline("sentiment-analysis")


No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cuda:0


In [59]:
result = classifier("I love using Huggin Face transformers")
result

[{'label': 'POSITIVE', 'score': 0.9977974891662598}]

In [69]:
# 여러 문장을 한꺼번에 분류처리 할 때
data = ['This restaurant serves delicious food.', "I don't like to wake up early."]
results = classifier(data)
results

[{'label': 'POSITIVE', 'score': 0.9998641014099121},
 {'label': 'NEGATIVE', 'score': 0.9954778552055359}]

In [61]:
del data

In [71]:
# [미션] 아래와 같이 출력되도록 코드를 작성하세요.
# This restaurant serves delicious food. - POSITIVE
# I don't like to wake up early. - NEGATIVE

data = ["This restaurant serves delicious food.", "I don't like to wake up early."]
# for sentencce in data:
#     result = classifier(sentencce)
#     label = result[0]['label']
#     print(f"{sentencce} - {label}")
data

['This restaurant serves delicious food.', "I don't like to wake up early."]

In [73]:
results

[{'label': 'POSITIVE', 'score': 0.9998641014099121},
 {'label': 'NEGATIVE', 'score': 0.9954778552055359}]

In [74]:
for sen, cl in zip(data, results):
    print(f"{sen} - {cl['label']}")
    print("-")

This restaurant serves delicious food. - POSITIVE
-
I don't like to wake up early. - NEGATIVE
-


# 한국어 감성 분석
- 텍스트에서 긍정 또는 부정으로 분류

In [None]:
data = ['햄버거가 맛이 별로다', '나는 수영을 잘하지 못한다.', ' 이 카페의 커피맛이 예술이네.']
results = classifier(data)
results

[{'label': 'POSITIVE', 'score': 0.6179131865501404},
 {'label': 'POSITIVE', 'score': 0.7464603781700134},
 {'label': 'POSITIVE', 'score': 0.842933714389801}]

- 한국어를 잘못 분류했기 때문에 한국어 분류 가능한 모델을 사용 해야 함

In [None]:
from transformers import pipeline
# Labeel_0: negative
# Labeel_1: positive


sentiment_model = pipeline(model = "WhitePeak/bert-base-cased-Korean-sentiment")
sentiment_model("매우 좋아")

config.json:   0%|          | 0.00/895 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


pytorch_model.bin:   0%|          | 0.00/711M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/367 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Exception ignored in: <function tqdm.__del__ at 0x00000247B85C7BE0>
Traceback (most recent call last):
  File "c:\Users\Admin\miniconda3\envs\llm_env\lib\site-packages\tqdm\std.py", line 1148, in __del__
    self.close()
  File "c:\Users\Admin\miniconda3\envs\llm_env\lib\site-packages\tqdm\notebook.py", line 279, in close
    self.disp(bar_style='danger', check_delay=False)
AttributeError: 'tqdm' object has no attribute 'disp'


special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Device set to use cuda:0


[{'label': 'LABEL_1', 'score': 0.8098212480545044}]

In [26]:
data = ['햄버거가 맛이 별로다', '나는 수영을 잘하지 못한다.', ' 이 카페의 커피맛이 예술이네.']
sentiment_model(data)

[{'label': 'LABEL_0', 'score': 0.9972922205924988},
 {'label': 'LABEL_0', 'score': 0.9885053038597107},
 {'label': 'LABEL_1', 'score': 0.9662097692489624}]

In [27]:
# 문제
# 햄버거가 맛이 별로다. - negative
# 나는 수영을 잘하지 못한다. - negative
# 이 카페의 커피맛이 예술이네.   - positive

for sen, cl in zip(data, results):
    if sentiment_model(sen)[0]['label'] == 'LABEL_0':
        print(f"{sen.strip()} - negative")
    else:
        print(f"{sen.strip()} - positive")

햄버거가 맛이 별로다 - negative
나는 수영을 잘하지 못한다. - negative
이 카페의 커피맛이 예술이네. - positive


[{'label': 'POSITIVE', 'score': 0.6179131865501404},
 {'label': 'POSITIVE', 'score': 0.7464603781700134},
 {'label': 'POSITIVE', 'score': 0.842933714389801}]

# 한글 인식이 잘 되는 모델

In [29]:
model = "google/gemma-3-270m-it"
generation_pipeline = pipeline("text-generation", model=model)

config.json:   0%|          | 0.00/1.35k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/536M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/173 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.16M [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


tokenizer.model:   0%|          | 0.00/4.69M [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


tokenizer.json:   0%|          | 0.00/33.4M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/35.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/662 [00:00<?, ?B/s]

chat_template.jinja:   0%|          | 0.00/1.53k [00:00<?, ?B/s]

Device set to use cuda:0


In [31]:
generation_pipeline("인공지능이란?")[0]['generated_text']

'인공지능이란?\n\n인공지능은 인간의 능력을 컴퓨터가 통제하거나 학습하여 실현하는 기술입니다.\n\n인공지능은 다양한 분야에서 활용될 수 있으며, 특히 다음과 같은 분야에서 큰 영향을 미치고 있습니다.\n\n*   **의료:** 질병 진단, 치료, 환자 관리 등에 활용됩니다.\n*   **재료 과학:** 새로운 소재 개발, 에너지 효율 향상, 환경 보호 등에 활용됩니다.\n*   **금융:** 금융 상품 개발, 투자 전략 개선, 위험 관리 등에 활용됩니다.\n*   **교육:** 학습 자료 제작, 교육 콘텐츠 개발, 학습 지원 등에 활용됩니다.\n*   **생명공학:** 생명 윤리, 생물학적 연구 등에 활용됩니다.\n\n인공지능은 다양한 방식으로 변화하고 있으며, 앞으로도 더욱 발전하고 새로운 가능성을 제시할 것으로 기대됩니다.\n\n**인공지능의 주요 기술:**\n\n*   **딥러닝:** 머신러닝, 딥러닝의 핵심 기술로, 데이터 분석 및 예측을 위한 강력한 알고리즘입니다.\n*   **로직 컴퓨팅:** 컴퓨터의 동작을 이해하고 복잡한 시스템을 제어하는 기술로, 자연어 처리'

## 문장 요약

In [32]:
summ = pipeline('summarization', framework='pt')

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json: 0.00B [00:00, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Exception ignored in: <function tqdm.__del__ at 0x00000247B85C7BE0>
Traceback (most recent call last):
  File "c:\Users\Admin\miniconda3\envs\llm_env\lib\site-packages\tqdm\std.py", line 1148, in __del__
    self.close()
  File "c:\Users\Admin\miniconda3\envs\llm_env\lib\site-packages\tqdm\notebook.py", line 279, in close
    self.disp(bar_style='danger', check_delay=False)
AttributeError: 'tqdm' object has no attribute 'disp'


vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

Device set to use cuda:0


In [33]:
sample_test= """
임영웅의 출연으로 화제를 모은 '불후의 명곡'에 '테크노 여전사' '원조 멀티테이너'로 불리는 이정현이 아티스트로 출격한다.

12일 아이즈(IZE) 취재 결과, 오는 22일 진행되는 KBS 2TV '불후의 명곡'(이하 '불후') 녹화가 '아티스트 이정현 편'으로 꾸며진다.
"""

In [34]:
summ(sample_test)

[{'summary_text': "  \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0 \xa0\xa0pronounced  \xa0- \xa0\xa0-\xa0- 'И� \xa0' \xa0KBS 2TV '불후의   테크   '텬 \xa0’  ’�’ – \xa0 '명’ - is a Korean TV show hosted by KBS 2 TV ."}]

- 한글 인식이 안됨

In [35]:
# psyche/KoT5-summarization
summ = pipeline('summarization', model="psyche/KoT5-summarization", framework="pt")

config.json: 0.00B [00:00, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/1.19G [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0


In [36]:
sample_test= """
임영웅의 출연으로 화제를 모은 '불후의 명곡'에 '테크노 여전사' '원조 멀티테이너'로 불리는 이정현이 아티스트로 출격한다.

12일 아이즈(IZE) 취재 결과, 오는 22일 진행되는 KBS 2TV '불후의 명곡'(이하 '불후') 녹화가 '아티스트 이정현 편'으로 꾸며진다.
"""

In [37]:
summ(sample_test)

Your max_length is set to 200, but your input_length is only 85. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=42)


[{'summary_text': "임영웅의 출연으로 화제를 모은 '불후의 명곡'에 '테크노 여전사' '원조 멀티테이너'로 불리는 이정현이 아티스트로 출격한다."}]

### 텍스트 생성

In [39]:
from transformers import pipeline
pipe= pipeline("text-generation", model="gpt2", framework="pt")
print(pipe("Hello, my name is")[0]["generated_text"])

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cuda:0
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Hello, my name is Gee. I'm the youngest in my class. I'm going to go to school. I'm going to be a scientist. I'm going to have a job. I'm going to do something that will make a difference in your life. I'm going to help you. I'm going to get you out of poverty."

She continued, "I have a job. I have a family. I have friends. I have a home. I have a job, and I'm going to do something that will make a difference in your life."

"I'm going to help you," his words echoed through the room.

And then he got off his bike and went to his apartment. He asked, "I want you to take a look at my bedroom. I want you to look at my room. I want you to look at your room. I want you to look at my bedroom. I want you to go to your room and say, 'What the hell is going on?' "

"What is going on?" he asked.

"I'm going to leave it to you to make sure you are not alone," he added.

So, he left.

And then he took a photo of
