### 허깅페이스
- 학습된 인공지능 모델, 학습 데이터셋, 모델 테스팅 환경 등을 제공해주는 서비스
- transformer기반 모델을 쉽게 활용하는 transformers 라이브러리 제공

### transformers 라이브러리 설치

In [None]:
!pip install transformers

### 자연어처리
- 사람이 사용하는 글, 언어, 음성 등을 분석하고 예측하는 분야
- 텍스트마이닝 진행 시 자연어처리 기술을 활용한다

#### 감정분석
- 문장에서 사람의 감정, 기분, 태도 등을 파악하는 기술

In [2]:
from transformers import pipeline  # 원하는 모델을 불러서 관련 작업들을 한 번에 처리할 수 있도록 도와주는 함수

In [None]:
sentiment_model = pipeline(task="sentiment-analysis")

In [4]:
sentiment_model(["i'm happy", "i hate this so much"])

[{'label': 'POSITIVE', 'score': 0.9998793601989746},
 {'label': 'NEGATIVE', 'score': 0.9995144605636597}]

#### 마스크 빈칸 채우기

In [None]:
fill_mask_model = pipeline(task="fill-mask", model="FacebookAI/xlm-roberta-base")

In [6]:
fill_mask_model("i just want to <mask> home")

[{'score': 0.12176968157291412,
  'token': 1380,
  'token_str': 'come',
  'sequence': 'i just want to come home'},
 {'score': 0.11012142151594162,
  'token': 738,
  'token_str': 'go',
  'sequence': 'i just want to go home'},
 {'score': 0.10013635456562042,
  'token': 24765,
  'token_str': 'stay',
  'sequence': 'i just want to stay home'},
 {'score': 0.08029869943857193,
  'token': 2046,
  'token_str': 'get',
  'sequence': 'i just want to get home'},
 {'score': 0.057493820786476135,
  'token': 10002,
  'token_str': 'own',
  'sequence': 'i just want to own home'}]

In [7]:
fill_mask_model("오늘 <mask> 뭐 먹을까?")

[{'score': 0.28460046648979187,
  'token': 126746,
  'token_str': '저녁',
  'sequence': '오늘 저녁 뭐 먹을까?'},
 {'score': 0.17300058901309967,
  'token': 211029,
  'token_str': '점심',
  'sequence': '오늘 점심 뭐 먹을까?'},
 {'score': 0.11052056401968002,
  'token': 21858,
  'token_str': '날',
  'sequence': '오늘 날 뭐 먹을까?'},
 {'score': 0.051719386130571365,
  'token': 1048,
  'token_str': '도',
  'sequence': '오늘도 뭐 먹을까?'},
 {'score': 0.03411043807864189,
  'token': 697,
  'token_str': '은',
  'sequence': '오늘은 뭐 먹을까?'}]

#### 문장 생성

In [None]:
text_generate_model = pipeline(task="text-generation")

In [9]:
text_generate_model("i want to go")

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'i want to go to Syria. I want to stop that," he said to ABC News\' George Stephanopoulos.\n\nThe U.S. has said it would take into consideration the decision not to go over in Turkey to meet with Kurdish President'}]

#### 번역 모델

In [None]:
ko_to_en = pipeline(task="translation", model="Helsinki-NLP/opus-mt-ko-en")

In [11]:
ko_to_en("어제 잠을 못자서 피곤하네. 어제 꿈자리에 귀신이 나와서 무서웠어.")

[{'translation_text': "I'm tired of last night's sleep, and I was scared of a ghost coming out of my dream."}]

#### 문장 요약

In [12]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import nltk
nltk.download('punkt')

model_dir = "lcw99/t5-base-korean-text-summary"
tokenizer = AutoTokenizer.from_pretrained(model_dir)
model = AutoModelForSeq2SeqLM.from_pretrained(model_dir)

max_input_length = 512

text = """
주인공 강인구(하정우)는 ‘수리남에서 홍어가 많이 나는데 다 갖다버린다’는 친구
박응수(현봉식)의 얘기를 듣고 수리남산 홍어를 한국에 수출하기 위해 수리남으로 간다.
국립수산과학원 측은 “실제로 남대서양에 홍어가 많이 살고 아르헨티나를 비롯한 남미 국가에서 홍어가 많이 잡힌다”며
“수리남 연안에도 홍어가 많이 서식할 것”이라고 설명했다.

그러나 관세청에 따르면 한국에 수리남산 홍어가 수입된 적은 없다.
일각에선 “돈을 벌기 위해 수리남산 홍어를 구하러 간 설정은 개연성이 떨어진다”는 지적도 한다.
드라마 배경이 된 2008~2010년에는 이미 국내에 아르헨티나, 칠레, 미국 등 아메리카산 홍어가 수입되고 있었기 때문이다.
실제 조봉행 체포 작전에 협조했던 ‘협력자 K씨’도 홍어 사업이 아니라 수리남에 선박용 특수용접봉을 파는 사업을 하러 수리남에 갔었다.
"""

inputs = ["summarize: " + text]

inputs = tokenizer(inputs, max_length=max_input_length, truncation=True, return_tensors="pt")
output = model.generate(**inputs, num_beams=8, do_sample=True, min_length=10, max_length=100)
decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
predicted_title = nltk.sent_tokenize(decoded_output.strip())[0]

print(predicted_title)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


tokenizer_config.json:   0%|          | 0.00/2.39k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.92M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


config.json:   0%|          | 0.00/817 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.10G [00:00<?, ?B/s]

국립수산과학원 측은 남대서양에 홍어가 많이 살고 아르헨티나를 비롯한 남미 국가에서 홍어가 많이 잡힌다고 설명했으나 관세청에 따르면 한국에 수리남산 홍어가 수입된 적은 없다.


In [13]:
text = """
삼성전자는 지난 10일 루브르 박물관 지하와 연결된 복합 문화공간 ‘루젤 뒤 루브르’에서 하반기 신제품 공개행사 ‘갤럭시 언팩’을 열고 갤럭시 워치7, 갤럭시 워치 울트라, 갤럭시 링 등 건강 관리 기능을 갖춘 웨어러블 신제품 3종을 공개했다. 3종의 웨어러블 기기 모두 하드웨어 측면에서 센서 기술 고도화에 집중했다는 게 박 상무의 설명이다.

갤럭시 워치7과 워치 울트라는 바이오액티브(BioActive) 센서를 업그레이드했다. 박 상무는 “기존에는 적색, 녹색, 자외선 등 3가지 발광다이오드(LED) 센서만 지원했는데 신제품에는 황색과 청색, 자색, 적외선도 추가했다. LED 센서의 배치도 최적화했다”고 설명했다. 이어 “광센서 성능을 대폭 강화하면서 기존 8개에서 4개로 숫자를 줄일 수 있게 됐고, 여유 공간에 새로운 LED를 탑재할 수 있게 됐다”고 부연했다.

센서 업그레이드로 워치7과 워치 울트라에선 최종당화산물(AGEs) 지표를 측정할 수 있게 됐다. 최종당화산물은 당이 결합된 지방이나 단백질로 3~6개월간 피부에 축적되며, 당뇨 합병증, 대사질환, 노화 등과 관련돼 있다. 갤럭시 워치7이나 워치 울트라를 착용하고 하룻밤 자면 다음 날 자동으로 측정된다. 박 상무는 “이를 통해 사용자는 식단과 생활 습관이 몸에 미치는 영향에 대해 더 많은 정보를 얻고, 더 건강한 의사결정을 내리는 데 도움을 받을 수 있을 것”이라고 소개했다.

기대와 달리 이번 갤럭시 워치7에는 혈당 측정 기능이 추가되지 않았다. 차기 갤럭시 워치에 혈당 측정 기능이 추가될 가능성에 대해 박 상무는 “현시점에서 공개하긴 어렵지만 심혈관 건강과 관련된 새로운 기능을 추가하기 위해 노력 중이다”고 말했다.

삼성전자가 처음으로 선보인 갤럭시 링에는 적색, 녹색, 적외선 센서가 탑재됐다. 갤럭시 링의 오목한(Concave) 디자인으로 센서를 손가락에 더 밀착시켜, 빛의 누출과 반사를 최소화하고 측정 정확도를 높였다. 링은 특히 수면의 질 관리에 초점이 맞춰져 있는 제품으로 잠자는 동안 심박수, 혈액 산소 포화도, 피부 온도 등을 측정할 수 있다. 박 상무는 “갤럭시 링은 초소형 폼팩터지만 갤럭시 워치와 동일한 수준의 정확도로 건강을 측정할 수 있다”며 “삼성전자의 센서 기술이 집약된 제품”이라고 치켜세웠다.

삼성전자는 갤럭시 워치와 갤럭시 링을 함께 사용했을 때 더 높은 시너지가 나도록 제품 간 연동성을 높였다. 박 상무는 “갤럭시 워치를 충전하거나 격렬한 움직임으로 일시적으로 한 기기의 연결이 끊어지는 경우에도 중단 없이 건강 모니터링이 가능하다는 점이 가장 큰 장점으로, 모든 데이터는 삼성 헬스 앱에서 통합돼 종합적인 건강관리가 가능하다”고 설명했다. “두 제품을 함께 착용하면 갤럭시 링의 배터리 지속시간이 최대 30%까지 연장된다는 점도 장점”이라고 덧붙였다.

"""

inputs = ["summarize: " + text]

inputs = tokenizer(inputs, max_length=max_input_length, truncation=True, return_tensors="pt")
output = model.generate(**inputs, num_beams=8, do_sample=True, min_length=10, max_length=100)
decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
predicted_title = nltk.sent_tokenize(decoded_output.strip())[0]

print(predicted_title)

삼성전자는 루젤 뒤 루브르에서 갤럭시 언팩을 열고 건강 관리 기능을 갖춘 웨어러블 신제품 3종을 공개했다.


#### TTS
- 글자를 음성으로 변환하는 기술

In [None]:
!git clone https://github.com/myshell-ai/MeloTTS.git

In [16]:
%cd MeloTTS

/content/MeloTTS


In [None]:
!pip install -e .

In [None]:
!python -m unidic download

In [None]:
from melo.api import TTS

# Speed is adjustable
speed = 1.0
device = 'cpu' # or cuda:0

text = "안녕하세요! 오늘 점심은 무엇을 먹는게 좋을까요? 날이 더워서 시원한 메뉴를 먹으면 좋을 것 같아요. 하하하"
model = TTS(language='KR', device=device)
speaker_ids = model.hps.data.spk2id

output_path = 'kr.wav'
model.tts_to_file(text, speaker_ids['KR'], output_path, speed=speed)

#### 컴퓨터 비전
- 객체탐지(Object Detection) : 사진이나 영상에서 물체의 종류와 위치(박스)를 검출하는 기술

In [5]:
from transformers import YolosImageProcessor, YolosForObjectDetection
from PIL import Image
import torch
import requests

url = "https://flexible.img.hani.co.kr/flexible/normal/970/777/imgdb/resize/2019/0926/00501881_20190926.JPG"
image = Image.open(requests.get(url, stream=True).raw)

model = YolosForObjectDetection.from_pretrained('hustvl/yolos-tiny')
image_processor = YolosImageProcessor.from_pretrained("hustvl/yolos-tiny")

inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)

# model predicts bounding boxes and corresponding COCO classes
logits = outputs.logits
bboxes = outputs.pred_boxes


# print results
target_sizes = torch.tensor([image.size[::-1]])
results = image_processor.post_process_object_detection(outputs, threshold=0.9, target_sizes=target_sizes)[0]
for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
    box = [round(i, 2) for i in box.tolist()]
    print(
        f"Detected {model.config.id2label[label.item()]} with confidence "
        f"{round(score.item(), 3)} at location {box}"
    )


Detected cat with confidence 0.998 at location [265.47, 7.9, 697.39, 759.8]
