# pipline 함수

In [None]:
### 필요한 함수 임폴트
from transformers import pipeline

## text classification

In [None]:
### pipeline 함수 호출, 분류 모델 생성(다운로드)
"""
조건 : 분류 모델, 토크나이저 지정(X)
"""
classifier = pipeline("text-classification")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [None]:
test_data = ["Once you choose hope, anything's possible"]

In [None]:
### 감성 분석 실행
result = classifier(test_data)

# 결과 확인하기
print(result)

[{'label': 'POSITIVE', 'score': 0.9989079236984253}]


In [None]:
## 경제 기사의 감성 분석 전문 모델 사용

# pipeline 모델 생성
model_name = 'ProsusAI/finbert'
finbert = pipeline(model=model_name)
# finbert = pipeline("text-classification", model=model_name)

# text 생성
test_data = "Stocks rallied and the British pound gained."

# 감성 분석 실행
result = finbert(test_data)

# 결과 확인하기
print(result)

config.json:   0%|          | 0.00/758 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/252 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

[{'label': 'positive', 'score': 0.8983612656593323}]


In [None]:
test_data = "Stocks rallied and the British pound gained."

In [None]:
result = classifier(test_data)

# 결과 확인하기
print(result)

[{'label': 'LABEL_1', 'score': 0.6954180598258972}]


In [None]:
### 한국어 감성 분석

# pipeline 모델 생성
model_name = 'doya/klue-sentiment-nsmc'
classifier = pipeline(model=model_name)

# test data 생성
test_data = ['음악이 주가 된, 최고의 음악영화', '발연기 도저히 못보겠다 진짜 이렇게 연기를 못할거라곤 상상도 못했네']

# 감성 분석 실행
result = classifier(test_data)

# 결과 확인하기
print(result)

[{'label': 'LABEL_1', 'score': 0.993305504322052}, {'label': 'LABEL_0', 'score': 0.9989787340164185}]


In [None]:
### 한국어 감성 분석 - 파인 튜닝 모델 사용

# 필요한 함수 임폴트
from transformers import BertTokenizer, TFBertForSequenceClassification

# 토크나이저 생성
klue_tokenizer = BertTokenizer.from_pretrained('klue/bert-base')

# 분류 모델 생성
model_name='/content/drive/MyDrive/KDT/딥러닝/자연어처리/tf_klue'
finetuned_model = TFBertForSequenceClassification.from_pretrained(model_name)

# pipeline 모델 생성
classifier = pipeline("text-classification", model = finetuned_model, tokenizer = klue_tokenizer)

# test data 생성
test_data = ['음악이 주가 된, 최고의 음악영화', '발연기 도저히 못보겠다 진짜 이렇게 연기를 못할거라곤 상상도 못했네']

# 감성 분석 실행
result = classifier(test_data)

# 결과 확인하기
print(result)

Some layers from the model checkpoint at /content/drive/MyDrive/KDT/딥러닝/자연어처리/tf_klue were not used when initializing TFBertForSequenceClassification: ['dropout_113']
- This IS expected if you are initializing TFBertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
All the layers of TFBertForSequenceClassification were initialized from the model checkpoint at /content/drive/MyDrive/KDT/딥러닝/자연어처리/tf_klue.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForSequenceClassification for predictions without further training.


[{'label': 'LABEL_1', 'score': 0.9796519875526428}, {'label': 'LABEL_0', 'score': 0.9923090934753418}]


In [None]:
### 파인 튜닝한 모델 적용 --> 적용 예시

# 필요한 라이브러리 임폴트
import pandas as pd

# 파일 경로 설정
file_path = '/content/drive/MyDrive/KDT/딥러닝/자연어처리/ratings_test.txt'

# 데이터프레임 생성
df_test = pd.read_csv(file_path, sep='\t')

# print(df_test)
print('-'*80)

# 실제 데이터 --> 정답 레이블(X)
df_test = df_test.drop(columns=['label'])
print(df_test)

# 샘폴 데이터 생성 --> list 자료형으로 생성
sample = list(df_test.iloc[5:10, 1])
print(sample)
print('-'*80)

# 감성 분석 실행
result = classifier(sample)
print(result)
print('-'*80)

# 결과 확인하기
for data in result:
    label = data['label']
    if label=='LABEL_1':
        print('긍정')
    else:
        print('부정')

--------------------------------------------------------------------------------
            id                                           document
0      6270596                                                굳 ㅋ
1      9274899                               GDNTOPCLASSINTHECLUB
2      8544678             뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아
3      6825595                   지루하지는 않은데 완전 막장임... 돈주고 보기에는....
4      6723715  3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??
...        ...                                                ...
49995  4608761          오랜만에 평점 로긴했네ㅋㅋ 킹왕짱 쌈뽕한 영화를 만났습니다 강렬하게 육쾌함
49996  5308387       의지 박약들이나 하는거다 탈영은 일단 주인공 김대희 닮았고 이등병 찐따 OOOO
49997  9072549                 그림도 좋고 완성도도 높았지만... 보는 내내 불안하게 만든다
49998  5802125     절대 봐서는 안 될 영화.. 재미도 없고 기분만 잡치고.. 한 세트장에서 다 해먹네
49999  6070594                                         마무리는 또 왜이래

[50000 rows x 2 columns]
['음악이 주가 된, 최고의 음악영화', '진정한 쓰레기', '마치 미국애니에서 튀어나온듯한 창의력없는 로봇디자인부터가,고개를 젖게한다', '갈수록 개판되가는 중국영화 유치하고 내용

## summarization

In [None]:
### 기본 모델 생성
summarizer1 = pipeline('summarization')

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

In [None]:
### 문서 요약에 사용할 텍스트 데이터 생성
text_example = '''The tower is 324 meters (1,063 ft) tall, about the same height
as an 81-storey building, and the tallest structure in Paris. Its base is square,
measuring 125 meters (410 ft) on each side. During its construction, the Eiffel
Tower surpassed the Washington Monument to become the tallest man-made structure
in the world, a title it held for 41 years until the Chrysler Building in New York
City was finished in 1930. It was the first structure to reach a height of 300 meters.
Due to the addition of a broadcasting aerial at the top of the tower in 1957, it is
now taller than the Chrysler Building by 5.2 meters (17 ft). Excluding transmitters,
the Eiffel Tower is the second tallest free-standing structure in France
after the Millau Viaduct.'''

In [None]:
### 기본 모델을 이용한 문서 요약 실행
result1 = summarizer1(text_example)
print(f'기본 모델이 생성한 요약문 : \n{result1}')
print('-'*80)

# 결과값 --> 텍스트 추출
result_text1 = result1[0]['summary_text']
print(f'기본 모델이 생성한 요약문 : \n{result_text1}')

기본 모델이 생성한 요약문 : 
[{'summary_text': ' The tower is 324 meters (1,063 ft) tall, about the same height as an 81-storey building, and the tallest structure in Paris . During its construction, the EiffelTower surpassed the Washington Monument to become the tallest man-made structure in the world . It was the first structure to reach a height of 300 meters .'}]
--------------------------------------------------------------------------------
기본 모델이 생성한 요약문 : 
 The tower is 324 meters (1,063 ft) tall, about the same height as an 81-storey building, and the tallest structure in Paris . During its construction, the EiffelTower surpassed the Washington Monument to become the tallest man-made structure in the world . It was the first structure to reach a height of 300 meters .


In [None]:
### 모델 지정 --> 문서 요약 실행

# 모델 생성
model_name = 'facebook/bart-large-cnn'
summarizer2 = pipeline('summarization', model = model_name)

# 문서 요약 실행
result2 = summarizer2(text_example)

# 결과값 --> 텍스트 추출
result_text2 = result2[0]['summary_text']
print(result_text2)

The tower is 324 meters (1,063 ft) tall, about the same height as an 81-storey building. Its base is square, measuring 125 meters (410 ft) on each side. During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest man-made structure in the world.


In [None]:
### 한국어 문서 요약 모델 생성
kor_summarizer = pipeline("summarization", model="eenzeenee/t5-base-korean-summarization")

config.json:   0%|          | 0.00/782 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.10G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/2.41k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.92M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
### 한글 텍스트 생성
text_sample = '''신용점수는 개인의 신용 상태를 평가하여 점수로 나타낸 것입니다. 현재 연체 및 과거 채무 상환 이력, 대출 및 보증채무 부담 정도, 신용 거래 기간, 체크카드 및 신용카드 이용 정보, 비금융정보 등을 종합적으로 판단하여 계산합니다. 예를 들어, 과거에 연체 없이 채무 상환을 잘 한 사람은 앞으로도 채무 상환을 잘해 나갈 것이라는 신뢰 정도를 점수로 표기한 것입니다.
신용점수 제도는 신용등급제의 문제를 보완하여 2021년에 처음 도입되었습니다. 기존에는 1~10등급으로 신용등급을 나눠 평가했는데, 이는 실제 점수가 1점밖에 차이나지 않아도 등급이 갈리며 카드 발급, 대출이 거절되며 지속적인 불만이 제기었습니다. 이에 2021년 신용등급제를 폐지하고 1~1,000점까지 1점 단위로 개인의 신용을 평가하는 점수제가 도입되었습니다.
그렇다면 개인의 신용점수는 어떻게 결정되는 걸까요? 신용점수는 금융기관이 아니라, 개인신용평가사에서 결정합니다. 공식적인 개인신용평가사는 2곳으로 나이스평가정보와 코리아크레딧뷰로가 있습니다. 두 신용평가사에서는 자체적으로 신용점수를 산출하는 항목과 비중을 정해 신용점수를 평가하기 때문에 평가사에 따라 신용점수는 상이할 수 있습니다. 세부적인 평가 기준 및 반영 비율이 궁금하다면 각 개인신용평가회사 홈페이지에서 확인할 수 있습니다.
'''

text_sample1 = """이 타워는 높이가 324미터(1,063피트)로 81층짜리 건물과 거의 같은 높이이며 파리에서 가장 높은 구조물입니다.
두 개의 면이 각각 125미터(410피트)로 정사각형입니다. 건설 기간 동안 에펠탑은 워싱턴 기념물을 넘어 1930년 뉴욕시의 크라이슬러 빌딩이 완공될 때까지 41년 동안 보유했던 세계에서 가장 높은 인공 구조물이 되었습니다.
300미터 높이에 도달한 최초의 구조물이었습니다. 1957년 타워 상단에 방송용 에어리얼이 추가되어 현재 크라이슬러 빌딩보다 5.2미터(17피트) 더 높습니다.
송신기를 제외하고 에펠탑은 프랑스에서 밀라우 고가교 다음으로 두 번째로 높은 자립형 구조물입니다.
 """

In [None]:
### 한글 문서 요약 실행
kor_result = kor_summarizer(text_sample1)
print(kor_result)
print('-'*80)

result_text3 = kor_result[0]['summary_text']
print(result_text3)

[{'summary_text': '에펠탑은 프랑스에서 두 번째로 높은 자립형 구조물로 프랑스에서 밀라우 고가교 다음으로 두 번째로 높은 자립형 구조물이다.'}]
--------------------------------------------------------------------------------
에펠탑은 프랑스에서 두 번째로 높은 자립형 구조물로 프랑스에서 밀라우 고가교 다음으로 두 번째로 높은 자립형 구조물이다.


## QuestionAnswering

In [None]:
### pipeline 함수 호출, 모델 생성
qa = pipeline("question-answering", model="deepset/roberta-base-squad2")

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/79.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

In [None]:
### Qa에 사용할 텍스트 데이터 생성
question = "Which name is also used to describe the Amazon rainforest in English?"

context = """The Amazon rainforest (Portuguese: Floresta Amazônica or Amazônia; Spanish: Selva Amazónica, Amazonía or usually Amazonia; French: Forêt amazonienne; Dutch:
Amazoneregenwoud), also known in English as Amazonia or the Amazon Jungle, is a moist broadleaf forest that covers most of the Amazon basin of South America.
This basin encompasses 7,000,000 square kilometres (2,700,000 sq mi),of which 5,500,000 square kilometres (2,100,000 sq mi) are covered by the rainforest. This region includes territory belonging to nine nations.
The majority of the forest is contained within Brazil, with 60% of the rainforest, followed by Peru with 13%, Colombia with 10%, and with minor amounts in Venezuela, Ecuador, Bolivia, Guyana, Suriname and French Guiana.
States or departments in four nations contain "Amazonas" in their names. The Amazon represents over half of the planet's remaining rainforests, and comprises the largest and most biodiverse tract of tropical rainforest in the world,
 with an estimated 390 billion individual trees divided into 16,000 species."""

In [None]:
### QA 실행
result = qa(question = question, context = context)

# 결과 확인하기
print(result)
print('-'*80)
print(result['answer'])

{'score': 0.6093499660491943, 'start': 201, 'end': 230, 'answer': 'Amazonia or the Amazon Jungle'}
--------------------------------------------------------------------------------
Amazonia or the Amazon Jungle


## text generation

In [None]:
### 문장 생성용 pipeline 함수 생성
generator = pipeline("text-generation", model="openai-community/gpt2")

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

In [None]:
### 문장 생성

# # 필요한 함수 임폴트
# from transformers import set_seed

# # 시드 설정
# set_seed(0)

# 문장 생성
sentences = generator(
    "I was walking on the street alone on a rainy day,",
    max_length=40,
    num_return_sequences=3
)

# 결과 확인하기
print(f'첫번째 생성 문장 : \n{sentences[0]}')
print('-'*80)
print(f'두번째 생성 문장 : \n{sentences[1]}')
print('-'*80)
print(f'세번째 생성 문장 : \n{sentences[2]}')

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


첫번째 생성 문장 : 
{'generated_text': "I was walking on the street alone on a rainy day, and I noticed two very dark-skinned people in a black dress in front of my house. I yelled, 'Momma!' This"}
--------------------------------------------------------------------------------
두번째 생성 문장 : 
{'generated_text': "I was walking on the street alone on a rainy day, I think I looked like crazy. And I'm just amazed at how many people have stopped here, where a lot of people are people that"}
--------------------------------------------------------------------------------
세번째 생성 문장 : 
{'generated_text': 'I was walking on the street alone on a rainy day, and it took a while, and I could not get out. I came home and found a bunch of dead people, some of them dead'}
