# **1. 생성형 AI**
생성형 AI는 주어진 데이터를 학습하고 이를 바탕으로 새로운 콘텐츠를 만들어내는 인공지능 기술입니다. 예를 들어, 이런 AI는 사람처럼 글을 쓰거나 그림을 그릴 수 있습니다. 기본적으로 많은 데이터를 분석해 패턴을 배우고, 그 패턴을 사용해 새로운 것을 창작하는 것입니다. 그래서 질문에 대한 답변이나 창의적인 글쓰기, 이미지 생성 등 다양한 작업을 할 수 있도록 도와줍니다.

# **2. LLM와 SLM**


### 2-1. LLM(Large Language Model)
LLM은 대형 언어 모델을 의미합니다. 이 모델은 매우 큰 데이터셋을 기반으로 학습되며, 수억에서 수조 개의 파라미터를 가지고 있습니다. 주로 딥러닝 기술을 활용하며, 자연어 처리(NLP) 작업에서 뛰어난 성능을 발휘합니다. LLM은 인간의 언어를 이해하고 생성하는 데 매우 뛰어난 능력을 보이며, 예를 들어 텍스트 생성, 번역, 질문 응답, 요약 등 다양한 작업을 처리할 수 있습니다.

예) ChatGPT, Bloom, Gemini, LLaMa, Mistral 등

### 2-2. SLM(Small Language Model)
SLM은 소형 언어 모델을 의미하며, LLM과 비교하여 상대적으로 작은 크기의 모델입니다. SLM은 적은 수의 파라미터를 가지고 있으며, 특정 작업에 대해 최적화된 모델입니다. 이런 모델은 대형 모델보다 계산 자원이 적게 들고, 빠른 속도와 적은 메모리를 요구하지만, 성능은 LLM에 비해 다소 제한적일 수 있습니다.

예) T5-Small, GPT-NeoX, ALBERT, MobileBERT 등

# **4. 토큰**
토큰은 모델이 처리하는 텍스트의 작은 단위입니다. 하나의 토큰은 단어, 부분적인 단어, 또는 심지어 공백이나 구두점일 수 있습니다. 예를 들어, "나는 학교에 간다"라는 문장은 5개의 토큰(나는, 학교, 에, 간다)으로 나눠질 수 있습니다. GPT 모델은 텍스트를 처리할 때 이 토큰들을 기반으로 학습하고, 예측을 생성합니다.

### 4-1. 토큰은 과금 단위로 사용
- https://openai.com/api/pricing/

- https://platform.openai.com/tokenizer

### 4-2. 토큰화
토큰화(Tokenization)는 자연어 처리(NLP)에서 텍스트를 모델이 이해할 수 있는 작은 단위인 '토큰'으로 분리하는 과정입니다. 토큰은 대개 단어, 부분 단어, 구두점, 공백 등으로 구성될 수 있습니다. 이 과정은 언어 모델이 텍스트를 효과적으로 이해하고 처리할 수 있도록 돕습니다. 토큰화 방법은 문장을 어떻게 나누느냐에 따라 다르며, 각 방법은 모델이 텍스트를 어떻게 처리할지에 큰 영향을 미칩니다.

### 4-3. 토큰화 방법
* 단어 단위 토큰화 (Word-level Tokenization): 문장을 단어 단위로 나눕니다.
예) "나는 학교에 간다" → ["나는", "학교에", "간다"]
* 서브워드 단위 토큰화 (Subword-level Tokenization): 단어를 더 작은 단위로 나눕니다. 주로 길고 복잡한 단어를 나누는 데 사용됩니다.
예)  "학교에" → ["학", "교", "에"]
* 문자 단위 토큰화 (Character-level Tokenization): 문장을 하나하나의 문자로 나눕니다.
예)  "학교" → ["학", "교"]
* BPE (Byte Pair Encoding): 자주 등장하는 문자 쌍을 하나의 서브워드로 합치는 방법입니다.
예)  "low"와 "est"라는 단어가 있을 때, "low"와 "est"를 합쳐서 "lowest"와 같은 서브워드를 만드는 방식입니다. 자주 나오는 문자 쌍을 합쳐서 더 효율적인 토큰을 만들 수 있습니다. 이 방식은 주로 GPT와 같은 모델에서 사용됩니다.

# **5. GPT API 이용한 간단한 실습**

### 5-1. .env
.env 파일은 환경 변수(Environment Variables) 를 저장하는 파일로, 주로 애플리케이션의 설정 정보나 비밀 키(secret key), 데이터베이스 비밀번호 등의 중요한 정보를 코드와 분리하여 관리하기 위해 사용됩니다. 이렇게 중요한 정보를 코드 안에 하드코딩하는 대신 .env 파일에 저장하고, 이를 코드에서 읽어오는 방식으로 보안과 유연성을 높일 수 있습니다.

In [6]:
!pip install python-dotenv



In [7]:
!pip install openai



In [9]:
import os
from openai import OpenAI
from dotenv import load_dotenv

In [3]:
load_dotenv()

True

In [10]:
client = OpenAI(
    api_key = os.getenv('API_KEY')
)

In [11]:
response = client.chat.completions.create(
    model='gpt-3.5-turbo-0125',
    messages=[{"role":"user", "content":"Hello bukbuk, how are you?"}]
)

In [12]:
response

ChatCompletion(id='chatcmpl-AYtNSYjeT8MnLPDEnRI03Z0dVHmEM', choices=[Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content="Hello! I'm just a computer program, so I don't have feelings, but I'm here to help you with anything you need. How can I assist you today?", refusal=None, role='assistant', audio=None, function_call=None, tool_calls=None))], created=1732879386, model='gpt-3.5-turbo-0125', object='chat.completion', service_tier=None, system_fingerprint=None, usage=CompletionUsage(completion_tokens=35, prompt_tokens=16, total_tokens=51, completion_tokens_details=CompletionTokensDetails(accepted_prediction_tokens=0, audio_tokens=0, reasoning_tokens=0, rejected_prediction_tokens=0), prompt_tokens_details=PromptTokensDetails(audio_tokens=0, cached_tokens=0)))

In [13]:
response.choices[0].message.content

"Hello! I'm just a computer program, so I don't have feelings, but I'm here to help you with anything you need. How can I assist you today?"