**Transformer 모델 개요**
- Transformer는 2017년 논문 "Attention is All You Need"에서 소개된 모델로, 자연어 처리 및 시퀀스 처리에서 획기적인 성능을 보임.
- 기존 RNN/LSTM의 순차 처리 방식 대신, 병렬화가 가능한 Self-Attention 메커니즘을 중심으로 동작.
- 특히 BERT, GPT 등 다양한 파생 모델들이 개발되어, 번역, 요약, 생성 등 다양한 NLP 작업에 폭넓게 사용됨.

**Transformer 구조:**
- 인코더-디코더(Encoder-Decoder) 구조:
 - 인코더: 입력 시퀀스를 처리해 고차원 벡터로 변환.
 - 디코더: 인코더로부터 나온 정보를 바탕으로 출력 시퀀스를 생성.
 - Transformer는 주로 번역과 같은 작업에서 사용되며, 인코더-디코더 방식이 핵심.

- Self-Attention 메커니즘:
 - 입력 시퀀스의 각 단어가 다른 단어와 상호작용하는 방식을 학습.
 - 모든 단어 간의 관계를 한 번에 계산하므로, 긴 문맥에서의 의존성을 더 잘 파악.

- Multi-Head Attention:
 - 여러 개의 Attention 헤드를 병렬로 사용해 서로 다른 부분에서 다양한 관계를 학습.
 - 다양한 패턴을 포착할 수 있도록 여러 공간에서의 상관관계를 학습.

- Positional Encoding:
 - Transformer는 입력 데이터 간의 순서를 학습하지 않으므로, 입력 순서를 고려하기 위해 Positional Encoding이 추가됨.
 - 각 단어의 위치 정보를 벡터에 추가하여 순서 정보를 제공.

**Transformer 로직 설명:**
- 입력 임베딩 (Input Embedding):
 - 텍스트 입력을 고차원 벡터로 변환.
 - 이 벡터는 학습 가능한 임베딩 테이블을 통해 얻어지며, 단어의 의미 정보를 포함.

- Positional Encoding 추가:
 - 각 임베딩 벡터에 위치 정보를 더해 순서 의존성을 반영.
 - 주로 사인 함수와 코사인 함수로 표현.

- Self-Attention 계산:
 - 입력 시퀀스의 각 단어는 시퀀스 내 다른 모든 단어와의 관계를 학습.
 - Query, Key, Value 벡터를 생성하여, Attention 가중치를 계산한 뒤, 이를 가중합하여 다음 레이어에 전달.

**Multi-Head Attention:**
- 여러 개의 Attention Layer를 병렬로 적용하여 서로 다른 관계를 파악.
- 각 Head에서 서로 다른 패턴을 학습하고, 이를 결합해 정보를 더 풍부하게 만듦.

**Feed-Forward Neural Network:**
- 각 Attention 레이어 뒤에는 FFNN이 적용되어 비선형 변환을 수행.
- 각 인코더/디코더 블록에서 동일하게 사용됨.

**Residual Connection 및 Layer Normalization:**
- 모델 학습 안정성을 높이기 위해 Residual Connection을 사용.
- 각 레이어의 출력에 Layer Normalization을 적용하여 학습을 가속화.
- 디코더에서 Masked Self-Attention:

- 디코더에서는 다음 단어를 예측할 때, 미래 단어를 보지 않도록 마스크 적용.
- 시퀀스 내 현재까지의 단어들만 참고하여 예측 수행.

**출력 (Output):**
- 디코더의 마지막 레이어는 Softmax를 통해 각 단어에 대한 확률 분포를 출력.
확률이 가장 높은 단어를 선택하여 최종 시퀀스를 생성.

###0. 트랜스포머 설치

- https://huggingface.co/

In [None]:
!pip install transformers



- pipeline: 허깅페이스 기본 객체

- 사용 가능한 파이프라인
 - feature-extraction : 특징 추출 (텍스트에 대한 벡터 표현 추출)
 - fill-mask : 마스크 채우기
 - ner : 개체명 인식 (named entity recognition)
 - question-answering : 질의 응답
 - sentiment-analysis : 감정 분석
 - summarization : 요약
 - text-generation : 텍스트 생성
 - translation : 번역
 - zero-shot-classification : 제로샷 분류


- 다양한 모형
  - https://huggingface.co/models?sort=trending&search=korean

###1. 감성분석

In [None]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]



[{'label': 'POSITIVE', 'score': 0.9598048329353333}]

In [None]:
classifier(
    ["I've been waiting for a HuggingFace course my whole life.", "I hate this so much!"]
)

[{'label': 'POSITIVE', 'score': 0.9598048329353333},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

###2.Zero-shot 분류

- Zero-shot 학습: 모델이 훈련 과정에서 본 적 없는 새로운 태스크나 데이터에 대해 적절한 출력을 생성 / 모델이 사전 학습한 일반적인 지식을 활용해, 특정한 훈련 없이도 새로운 작업을 처리 / 대규모 데이터로 사전 학습된 모델은 다양한 개념과 패턴을 일반화 / 훈련 중 보지 못한 태스크도 유사한 개념을 적용하여 해결 가능.

 - 자연어 처리의 제로샷: 특정 주제에 대한 질문에 답하는 모델이, 해당 주제에 대해 학습하지 않았음에도 불구하고 답변 생성.

 - 장단점: 모델을 새롭게 훈련하지 않고도 다양한 태스크에 활용 가능 / 비용 및 시간 절약 / 새로운 태스크에 대한 성능이 학습된 데이터와 얼마나 유사한지에 따라 달라질 수 있음 / 정확도가 떨어질 수 있음.

In [None]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
    "This is a course about the Transformers library",
    candidate_labels=["education", "politics", "business"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445993661880493, 0.1119738519191742, 0.04342673718929291]}

In [None]:
from transformers import pipeline

pipe = pipeline("zero-shot-classification", model="skt/kogpt2-base-v2")
pipe("어머니는 짜장면이 싫다고 하셨",
         candidate_labels=["가족", "외식"]
     )

Some weights of GPT2ForSequenceClassification were not initialized from the model checkpoint at skt/kogpt2-base-v2 and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Failed to determine 'entailment' label id from the label2id mapping in the model config. Setting to -1. Define a descriptive label2id mapping in the model config to ensure correct outputs.
Tokenizer was not supporting padding necessary for zero-shot, attempting to use  `pad_token=eos_token`
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


{'sequence': '어머니는 짜장면이 싫다고 하셨',
 'labels': ['외식', '가족'],
 'scores': [0.6122655272483826, 0.38773441314697266]}

In [None]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification", model="hyunwoongko/kobart")
classifier(
    "AI교과서가 보급 중이다.",
    candidate_labels=["교육", "정치", "사업"],
)


You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
Some weights of BartForSequenceClassification were not initialized from the model checkpoint at hyunwoongko/kobart and are newly initialized: ['classification_head.dense.bias', 'classification_head.dense.weight', 'classification_head.out_proj.bias', 'classification_head.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Failed to determine 'entailment' label id from the label2id mapping in the model config. Setting to -1. Define a descriptive label2id mapping in the model config to ensure correct outputs.
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum 

{'sequence': 'AI교과서가 보급 중이다.',
 'labels': ['사업', '정치', '교육'],
 'scores': [0.35070058703422546, 0.3469764292240143, 0.30232295393943787]}

###3. 텍스트 생성

In [None]:
from transformers import pipeline

generator = pipeline("text-generation")
generator("In this course, we will teach you how to")

No model was supplied, defaulted to openai-community/gpt2 and revision 6c0e608 (https://huggingface.co/openai-community/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to apply our basic principles, in order to get an understanding for how to do it by yourself. You will also learn how to:\n\n\nMake a living of it, using your skills and learning techniques'}]

In [None]:
from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=2,
)

config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/353M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to design your own custom and custom-designed custom designs and accessories for your personal use. We will provide'},
 {'generated_text': 'In this course, we will teach you how to do your homework in a short time (depending on if you are a student) but only if you'}]

In [None]:
from transformers import pipeline

pipe = pipeline("text-generation", model="skt/kogpt2-base-v2", max_length=30)
pipe("어머니는 짜장면이 싫다고 하셨")



Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


[{'generated_text': '어머니는 짜장면이 싫다고 하셨지요.\n그렇게 된 데에는 저를 비롯해 많은 부모님들이 계셨지요\n그러나 그 많은 부모들이나 또'}]

###4. 마스크 채우기

In [None]:
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.", top_k=2)

No model was supplied, defaulted to distilbert/distilroberta-base and revision ec58a5b (https://huggingface.co/distilbert/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/331M [00:00<?, ?B/s]

Some weights of the model checkpoint at distilbert/distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'score': 0.19198493659496307,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04209216684103012,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

###5. 개체명 인식

In [None]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]



[{'entity_group': 'PER',
  'score': 0.9981694,
  'word': 'Sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': 0.9796019,
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': 0.9932106,
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

###6. QA

In [None]:
from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    question="Where do I work?",
    context="My name is Sylvain and I work at Hugging Face in Brooklyn",
)

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

{'score': 0.6949766278266907, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}

In [None]:
from transformers import pipeline

question_answerer = pipeline("question-answering", model="klue/roberta-base")
question_answerer(
    question="초전도체 방식으로 앞서가는 기업은?",
    context="""양자컴퓨터 개발분야 중 초전도체 방식은 IBM과 리게티(Rigetti)가 앞서가고 있으며, 이온트랩 방식은 IonQ가 빠른 진전도를 보이고 있다.""")


Some weights of RobertaForQuestionAnswering were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


{'score': 0.0013132734457030892,
 'start': 27,
 'end': 38,
 'answer': '리게티(Rigetti'}

###7. 번역

In [None]:
from transformers import pipeline

pipe = pipeline("translation", model="circulus/kobart-trans-ko-en-v2")
pipe("오늘 비가오니 파전을 먹고 싶습니다.")


config.json:   0%|          | 0.00/1.45k [00:00<?, ?B/s]

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


pytorch_model.bin:   0%|          | 0.00/496M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/304 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.05M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/123 [00:00<?, ?B/s]



[{'translation_text': 'Its raining today so I want to eat'}]

###8. 요약

In [None]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of
    graduates in traditional engineering disciplines such as mechanical, civil,
    electrical, chemical, and aeronautical engineering declined, but in most of
    the premier American universities engineering curricula now concentrate on
    and encourage largely the study of engineering science. As a result, there
    are declining offerings in engineering subjects dealing with infrastructure,
    the environment, and related issues, and greater concentration on high
    technology subjects, largely supporting increasingly complex scientific
    developments. While the latter is important, it should not be at the expense
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other
    industrial countries in Europe and Asia, continue to encourage and advance
    the teaching of engineering. Both China and India, respectively, graduate
    six and eight times as many traditional engineers as does the United States.
    Other industrial countries at minimum maintain their output, while America
    suffers an increasingly serious decline in the number of engineering graduates
    and a lack of well-educated engineers.
"""
)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

[{'summary_text': ' The number of engineering graduates in the United States has declined in recent years . China and India graduate six and eight times as many traditional engineers as the U.S. does . Rapidly developing economies such as China continue to encourage and advance the teaching of engineering . There are declining offerings in engineering subjects dealing with infrastructure, infrastructure, the environment, and related issues .'}]

In [None]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
translator("Ce cours est produit par Hugging Face.")

config.json:   0%|          | 0.00/1.42k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/301M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/778k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.34M [00:00<?, ?B/s]



[{'translation_text': 'This course is produced by Hugging Face.'}]

### 8. 파일 읽어서 트랜스포머 적용하기

In [None]:
import pandas as pd
df = pd.read_csv("news.csv")

In [None]:
df.articles

Unnamed: 0,articles
0,게티이미지뱅크 콩나물(사진)은 대두를 발아시켜 뿌리를 자라게 한 것이다. 동의보감에...
1,"사진 한 장 없이 떠난 일지 스님 불교 현실에 대한 질타 등 생전에 연재했던 글, ..."
2,이재익의 아재음악 열전전태관(왼쪽)과 김종진. <한겨레> 자료사진 2018년을 얼마...
3,서울대병원 제공서울대병원은 올해 1월부터 국내에서 독자적으로 개발한 인공지능 기술을...
4,ㆍ2.1㎓ 속도 ‘엑시노스 오토 V9’ㆍ2021년 생산 차량부터 탑재2021년 생산...
...,...
395,박정호 SK텔레콤 사장이 SK브로드밴드 사장을 겸직한 이후 첫 행보로 ‘옥수수 연합...
396,LG전자가 세계 최초 88인치 8K OLED TV를 내놓는다. 인공지능(AI) 기술...
397,"게임은 사회악 아닌 건전한 놀이문화(지디넷코리아=이도원 기자)""게임산업 전체의 발전..."
398,10여년 만에 매출예상치 하향…주가도 폭락(지디넷코리아=김익현 기자)최근 10년 여...


In [None]:
from transformers import pipeline
pipe = pipeline("zero-shot-classification", model="skt/kogpt2-base-v2")

Some weights of GPT2ForSequenceClassification were not initialized from the model checkpoint at skt/kogpt2-base-v2 and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Failed to determine 'entailment' label id from the label2id mapping in the model config. Setting to -1. Define a descriptive label2id mapping in the model config to ensure correct outputs.
Tokenizer was not supporting padding necessary for zero-shot, attempting to use  `pad_token=eos_token`
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


{'sequence': '어머니는 짜장면이 싫다고 하셨',
 'labels': ['외식', '가족'],
 'scores': [0.6122655272483826, 0.38773441314697266]}

In [None]:
result = []
for i in df.articles[0:2]:
  print(i)
  result.append( pipe(i, candidate_labels=["생활문화", "정보기술"] ) )


게티이미지뱅크 콩나물(사진)은 대두를 발아시켜 뿌리를 자라게 한 것이다. 동의보감에 따르면 콩나물은 온 몸이 무겁고 저리거나 근육과 뼈가 아플 때 도움이 되고 제반 염증을 억제하는 효과가 뛰어나다고 돼 있다.콩나물에 들어있는 식물 단백질인 '아스파라긴산'은 1806년 프랑의 과학자 아스파라거스가 발견해 이름이 붙여졌다. 아스파라긴산은 암모니아 대사를 촉진해 독소를 흡수하고 혈액을 통해 제거하므로 간 건강에 도움이 된다. 이 때문에 숙취해소에 탁월한 효과를 보인다. 또 콩팥의 기능을 돕고 요산배설을 촉진시킴과 동시에 신경통이나 류머티즘에 효과를 보인다.콩나물은 대두 상태일 때는 비타민이 없지만 발아하는 과정에서 합성돼 비타민C가 풍부해진다. 비타민C는 피부를 맑고 투명하게 가꿔주고 면역력을 높여준다. 하지만 콩나물을 조리하는 과정에서 비타민C가 파괴되기 때문에 가볍게 조리해 섭취하는 게 좋다.정명진 의학전문기자 pompom@fnnews.com 정명진 기자 ▶ 세상의 모든 골 때리는 이야기 'fn파스'▶ 속보이는 연예뉴스 fn스타 ※ 저작권자 ⓒ 파이낸셜뉴스. 무단 전재-재배포 금지
사진 한 장 없이 떠난 일지 스님 불교 현실에 대한 질타 등 생전에 연재했던 글, 책으로 묶어사진 한 장 남기지 않았다. 저서는 20여 권 남겼다. 일지(一指·1960~2002) 스님 이야기다.1974년 서옹(1912~2003) 스님(전 백양사 방장)을 은사로 출가한 일지 스님은 해인사 강원을 졸업하고 경학과 선학에 매진하며 현대 인문학과 불교의 접점을 찾으려 애썼다. 1988년 제1회 해인학술상 수상 논문 '현대 중공(中共)의 불교인식'도 그런 노력의 하나였다. 도반·후학들과 활발하게 경전과 선어록(禪語錄)을 읽고 번역하고 책을 쓰던 그는 2002년 서울 수국사 내 10평 정도의 컨테이너 숙소에서 숨진 채 발견됐다.최근 발간된 '불교인문주의자의 경전읽기'(어의운하)〈사진〉는 일지 스님의 마지막 발자취다. 월간 '불광'에 2000년 1월부터 24개월간 연재한 원고를 책으로 엮었다. '

In [None]:
pipe(df.articles[2], candidate_labels=["생활문화", "정보기술"] )
#max_length 가 128


IndexError: index out of range in self

In [None]:
tmp = df.articles[2][0:2381]
pipe(tmp, candidate_labels=["생활문화", "정보기술"] )

KeyboardInterrupt: 

In [None]:
result = []
for i in df.articles[0:3]:
  if( len(i) <= 2350):
    print(i)
    result.append( pipe(i, candidate_labels=["생활문화", "정보기술"] ) )
  else:
    tmp = i[0:2350]
    print( len(tmp))
    result.append( pipe(tmp, candidate_labels=["생활문화", "정보기술"] ) )


게티이미지뱅크 콩나물(사진)은 대두를 발아시켜 뿌리를 자라게 한 것이다. 동의보감에 따르면 콩나물은 온 몸이 무겁고 저리거나 근육과 뼈가 아플 때 도움이 되고 제반 염증을 억제하는 효과가 뛰어나다고 돼 있다.콩나물에 들어있는 식물 단백질인 '아스파라긴산'은 1806년 프랑의 과학자 아스파라거스가 발견해 이름이 붙여졌다. 아스파라긴산은 암모니아 대사를 촉진해 독소를 흡수하고 혈액을 통해 제거하므로 간 건강에 도움이 된다. 이 때문에 숙취해소에 탁월한 효과를 보인다. 또 콩팥의 기능을 돕고 요산배설을 촉진시킴과 동시에 신경통이나 류머티즘에 효과를 보인다.콩나물은 대두 상태일 때는 비타민이 없지만 발아하는 과정에서 합성돼 비타민C가 풍부해진다. 비타민C는 피부를 맑고 투명하게 가꿔주고 면역력을 높여준다. 하지만 콩나물을 조리하는 과정에서 비타민C가 파괴되기 때문에 가볍게 조리해 섭취하는 게 좋다.정명진 의학전문기자 pompom@fnnews.com 정명진 기자 ▶ 세상의 모든 골 때리는 이야기 'fn파스'▶ 속보이는 연예뉴스 fn스타 ※ 저작권자 ⓒ 파이낸셜뉴스. 무단 전재-재배포 금지
사진 한 장 없이 떠난 일지 스님 불교 현실에 대한 질타 등 생전에 연재했던 글, 책으로 묶어사진 한 장 남기지 않았다. 저서는 20여 권 남겼다. 일지(一指·1960~2002) 스님 이야기다.1974년 서옹(1912~2003) 스님(전 백양사 방장)을 은사로 출가한 일지 스님은 해인사 강원을 졸업하고 경학과 선학에 매진하며 현대 인문학과 불교의 접점을 찾으려 애썼다. 1988년 제1회 해인학술상 수상 논문 '현대 중공(中共)의 불교인식'도 그런 노력의 하나였다. 도반·후학들과 활발하게 경전과 선어록(禪語錄)을 읽고 번역하고 책을 쓰던 그는 2002년 서울 수국사 내 10평 정도의 컨테이너 숙소에서 숨진 채 발견됐다.최근 발간된 '불교인문주의자의 경전읽기'(어의운하)〈사진〉는 일지 스님의 마지막 발자취다. 월간 '불광'에 2000년 1월부터 24개월간 연재한 원고를 책으로 엮었다. '

In [None]:
result[2]['labels']
result[2]['scores']


[0.5441907644271851, 0.45580917596817017]

###9. 챗GPT API
- https://platform.openai.com/api-keys 사이트 접속 -> API Keys -> Create new secret key 버튼을 눌러 원하는 이름으로 생성

In [None]:
!pip install openai

Collecting openai
  Downloading openai-1.44.0-py3-none-any.whl.metadata (22 kB)
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.27.2-py3-none-any.whl.metadata (7.1 kB)
Collecting jiter<1,>=0.4.0 (from openai)
  Downloading jiter-0.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.6 kB)
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.5-py3-none-any.whl.metadata (20 kB)
Collecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl.metadata (8.2 kB)
Downloading openai-1.44.0-py3-none-any.whl (367 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m367.8/367.8 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading httpx-0.27.2-py3-none-any.whl (76 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.4/76.4 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading httpcore-1.0.5-py3-none-any.whl (77 kB)
[2K   [90m━━

In [None]:
from openai import OpenAI

client = OpenAI(api_key='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')  # 사용자의 API 키로 대체해야 함

response = client.chat.completions.create(
    model = "gpt-4o-mini",  #"gpt-3.5-turbo"
    messages = [{"role" : "user", "content" : "Hello World!"}]
)

print(response.choices[0].message.content) # API 응답에서 마지막 메시지의 내용을 출력

Hello! How can I assist you today?


In [None]:
import openai

# ChatGPT를 사용한 텍스트 생성 요청
response = client.chat.completions.create(
    model = "gpt-3.5-turbo",
    messages = [{"role" : "user", "content" : "Translate the following English text to French: 'Hello, how are you?'"}]
)

#응답 출력
print(response.choices[0].message.content)

Bonjour, comment ça va?


- max_tokens : 생성될 텍스트의 최대 길이를 설정. 단어나 구두점을 포함
- temperature : 생성된 텍스트의 창의성 조절 / 높은 값: 더 창의적, 낮은 값:  일관되고 예측 가능한 텍스트
- top_p : 생성 텍스트의 다양성 조절/ 가능한 다음 단어의 확률 분포에서 상위 몇 퍼센트를 고려할지 결정
- frequency_penalty : 생성된 텍스트에서 단어의 반복 줄여주는 역할 / 값이 높을 수록 사용된 단어나 구문의 반복 가능성 감소
- presence_penalty : 새로운 정보나 주제 도입 조절 / 높은 값: 새롭고 다양한 정보

In [None]:
for i in range(10):
    response = client.chat.completions.create(
        model = "gpt-3.5-turbo",
        messages = [{"role" : "user", "content" : "Translate the following korean text to English: 안녕하세요 오늘 날씨가 좋네요. 햇살이 맑아요"}],
        max_tokens=10,
        temperature=0.7,
        top_p=0.8,
        frequency_penalty=0.2
    )
    print(response.choices[0].message.content)

Hello, the weather is nice today. The sun
Hello, the weather is nice today. The sunlight
Hello, the weather is nice today. The sun
Hello, the weather is nice today. The sunlight
Hello, the weather is nice today. The sun
Hello, the weather is nice today. The sunlight
Hello, the weather is nice today. The sunshine
Hello, the weather is nice today. The sun
Hello, the weather is nice today. The sunshine
Hello, the weather is nice today. The sunlight
