In [1]:
from ragcar import Ragcar

In [2]:
Ragcar.available_models("text_segmentation")

'Available models for text_segmentation are ([src]: clova, [model]: YOUR_MODEL(https://www.ncloud.com/product/aiService/clovaStudio))'

### HyperCLOVA 모델
`.env` 파일 또는 환경 변수로 `X-NCP-APIGW-API-KEY`, `X-NCP-CLOVASTUDIO-API-KEY`를 설정하거나 다음과 같이 직접 변수를 입력합니다. 
HyperCLOVA API 사용방법은 [여기서](https://guide.ncloud-docs.com/docs/clovastudio-explorer03) 참고해주세요.
* model_n: API URL
* api_key: X-NCP-APIGW-API-KEY
* app_key: X-NCP-CLOVASTUDIO-API-KEY

##### Parameters for Prediction
* alpha: int = -100
> 문단 나누기를 위한 thresholds 값. 클수록 나눠지는 문단 수 증가
> - 범위: -1.5~1.5, -100 (-100 입력 시 모델이 최적값으로 문단 나누기 자동 수행)
* seg_cnt: int = -1,
> 원하는 문단 나누기 수
> - 범위: 1 이상 (-1로 설정 시 모델이 최적 문단 수로 분리)
* post_process: bool = True,
> 문단 나누기 수행 후 원하는 길이로 문단을 합치거나 나누는 후처리 수행 여부
> - true: postProcess 관련 파라미터 작동
> - false: postProcess 관련 파라미터 미작동
* min_size: int = 300,
> post process module 적용 시 문단에 포함되는 문자열의 최소 글자 수
> - 범위: 0 ~ postProcessMaxSize
* max_size: int = 1000,
> post process module 적용 시 문단에 포함되는 문자열의 최대 글자 수
> - 범위: 1 이상
* use_async: bool = False

In [3]:
import logging
import os
from dotenv import load_dotenv

load_dotenv()
logging.basicConfig(level=logging.INFO)

In [4]:
Ragcar.available_model_fields("clova")

'Available fields for clova are ([field]: model_n, [type]: str), ([field]: api_key, [type]: str), ([field]: app_key, [type]: str)'

In [5]:
ts = Ragcar(
    tool="text_segmentation", 
    src="clova",
    model={
        "model_n": "https://clovastudio.apigw.ntruss.com/testapp/v1/api-tools/segmentation/{}".format(os.getenv('SEGMENTATION_APP_ID')),
        "api_key": os.getenv("X-NCP-APIGW-API-KEY"),
        "app_key": os.getenv("X-NCP-CLOVASTUDIO-API-KEY")
    },
    min_size=100,
    max_size=200
)

In [6]:
ts("""네이버클라우드는 27일 ‘하이퍼클로바X’가 한국판 AI 성능 평가 체계 ‘KMMLU(Measuring Massive Multitask Language Understanding in Korean)’에서 오픈AI, 구글의 생성형 AI보다 높은 점수를 기록했다고 밝혔다. KMMLU 연구 논문에 따르면 일반 지식과 한국 특화 지식을 종합한 전반적인 성능 평가에서 하이퍼클로바X는 오픈AI의 ‘GPT-3.5 터보’와 구글의 ‘제미나이 프로’보다 높은 점수를 기록했다. 한국 특화 지식 기준으로는 오픈AI의 최신 버전인 ‘GPT-4′보다도 높은 점수를 기록했다.

KMMLU는 국내 개방형(오픈소스) 언어모델 연구팀 ‘해례’가 이끄는 AI 성능 평가 지표 구축 프로젝트로 네이버클라우드도 설계 과정에 참여했다. 인문학, 사회학, 과학∙기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항으로 구성됐다. 수학적 추론 능력과 같이 세계 공통으로 적용 가능한 광범위한 지식을 묻는 문항 비율이 약 80%, 한반도 지리, 국내법 등 한국 특화 문제 해결 능력을 평가하기 위한 문항이 20%를 차지한다.

네이버클라우드 관계자는 " 오픈AI, 구글 등 미국 기업들이 AI 성능을 확인하기 위해 주로 사용하는 지표인 ‘MMLU(대규모 다중작업 언어 이해)’를 한국어로 번역하는 경우, 부정확한 번역과 영어권 국가만의 문화적 배경 때문에 AI 모델의 한국어 능력을 제대로 가늠하기 어렵다”며 “KMMLU는 한국어가 원본인 시험 문제로 구성됐기 때문에 AI의 한국어 이해 역량을 보다 정확하게 평가할 수 있다”고 했다.""")

INFO:ragcar.models.base:{
    "id": "clova-48d92347-02e4-432e-8cde-dcc686b03b97",
    "model": "https://clovastudio.apigw.ntruss.com/testapp/v1/api-tools/segmentation/c5c3db9062814e41bcd6ad430c898a88",
    "parameters": {
        "text": "네이버클라우드는 27일 ‘하이퍼클로바X’가 한국판 AI 성능 평가 체계 ‘KMMLU(Measuring Massive Multitask Language Understanding in Korean)’에서 오픈AI, 구글의 생성형 AI보다 높은 점수를 기록했다고 밝혔다. KMMLU 연구 논문에 따르면 일반 지식과 한국 특화 지식을 종합한 전반적인 성능 평가에서 하이퍼클로바X는 오픈AI의 ‘GPT-3.5 터보’와 구글의 ‘제미나이 프로’보다 높은 점수를 기록했다. 한국 특화 지식 기준으로는 오픈AI의 최신 버전인 ‘GPT-4′보다도 높은 점수를 기록했다.\n\nKMMLU는 국내 개방형(오픈소스) 언어모델 연구팀 ‘해례’가 이끄는 AI 성능 평가 지표 구축 프로젝트로 네이버클라우드도 설계 과정에 참여했다. 인문학, 사회학, 과학∙기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항으로 구성됐다. 수학적 추론 능력과 같이 세계 공통으로 적용 가능한 광범위한 지식을 묻는 문항 비율이 약 80%, 한반도 지리, 국내법 등 한국 특화 문제 해결 능력을 평가하기 위한 문항이 20%를 차지한다.\n\n네이버클라우드 관계자는 \" 오픈AI, 구글 등 미국 기업들이 AI 성능을 확인하기 위해 주로 사용하는 지표인 ‘MMLU(대규모 다중작업 언어 이해)’를 한국어로 번역하는 경우, 부정확한 번역과 영어권 국가만의 문화적 배경 때문에 AI 모델의 한국어 능력을 제대로 가늠하기 어렵다”며 “KMMLU는 한국어가 원본인 시험 문제로 구성됐기 때문에 AI

[['네이버클라우드는 27일 ‘하이퍼클로바X’가 한국판 AI 성능 평가 체계 ‘KMMLU(Measuring Massive Multitask Language Understanding in Korean)’에서 오픈AI, 구글의 생성형 AI보다 높은 점수를 기록했다고 밝혔다.',
  'KMMLU 연구 논문에 따르면 일반 지식과 한국 특화 지식을 종합한 전반적인 성능 평가에서 하이퍼클로바X는 오픈AI의 ‘GPT-3.5 터보’와 구글의 ‘제미나이 프로’보다 높은 점수를 기록했다.',
  '한국 특화 지식 기준으로는 오픈AI의 최신 버전인 ‘GPT-4′보다도 높은 점수를 기록했다.'],
 ['KMMLU는 국내 개방형(오픈소스) 언어모델 연구팀 ‘해례’가 이끄는 AI 성능 평가 지표 구축 프로젝트로 네이버클라우드도 설계 과정에 참여했다.',
  '인문학, 사회학, 과학∙기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항으로 구성됐다.'],
 ['수학적 추론 능력과 같이 세계 공통으로 적용 가능한 광범위한 지식을 묻는 문항 비율이 약 80%, 한반도 지리, 국내법 등 한국 특화 문제 해결 능력을 평가하기 위한 문항이 20%를 차지한다.'],
 ['네이버클라우드 관계자는 " 오픈AI, 구글 등 미국 기업들이 AI 성능을 확인하기 위해 주로 사용하는 지표인 ‘MMLU(대규모 다중작업 언어 이해)’를 한국어로 번역하는 경우, 부정확한 번역과 영어권 국가만의 문화적 배경 때문에 AI 모델의 한국어 능력을 제대로 가늠하기 어렵다”며 “KMMLU는 한국어가 원본인 시험 문제로 구성됐기 때문에 AI의 한국어 이해 역량을 보다 정확하게 평가할 수 있다”고 했다.']]