## OpenAI에서 지원하는 GPT API 사용법을 알아보자!

In [1]:
!pip install openai

Collecting openai
  Downloading openai-1.99.1-py3-none-any.whl.metadata (29 kB)
Collecting jiter<1,>=0.4.0 (from openai)
  Downloading jiter-0.10.0-cp313-cp313-win_amd64.whl.metadata (5.3 kB)
Downloading openai-1.99.1-py3-none-any.whl (767 kB)
   ---------------------------------------- 0.0/767.8 kB ? eta -:--:--
   --------------------------------------- 767.8/767.8 kB 16.6 MB/s eta 0:00:00
Downloading jiter-0.10.0-cp313-cp313-win_amd64.whl (205 kB)
Installing collected packages: jiter, openai

   -------------------- ------------------- 1/2 [openai]
   -------------------- ------------------- 1/2 [openai]
   -------------------- ------------------- 1/2 [openai]
   -------------------- ------------------- 1/2 [openai]
   -------------------- ------------------- 1/2 [openai]
   -------------------- ------------------- 1/2 [openai]
   -------------------- ------------------- 1/2 [openai]
   -------------------- ------------------- 1/2 [openai]
   -------------------- -------------------

In [4]:
from openai import OpenAI
# 보안 정보를 화면에 표시없이 입력받을 때 사용하는 함수
from getpass import getpass

### API Key 설정
- API key는 잘못 유출되면 엄청난 금전적 손실을 볼 수 있으므로 감춰서 사용하는게 좋음

In [5]:
MY_API_KEY = getpass.getpass("OpenAI API Key :")

OpenAI API Key : ········


In [None]:
# OpenAI 객체 생성
client = OpenAI(api_key=MY_API_KEY)

### GPT 채팅 모델 불러와서 일반적인 질의하기

In [12]:
question = "안녕, 오늘 정말 바다 가고싶은 날씨다"

# chat.completions.create : OpenAI의 채팅 API를 생성
response = client.chat.completions.create(model="gpt-3.5-turbo",
                                          # 질의 정보를 설정하는 인자(role은 역할 설정, content는 질의 내용)
                                           # role은 'system', 'users', 'assistant' 중 한가지로 설정 가능
                                           # system은 사용자의 질의가 입력되기 전에 모델에게 숙지시켜놓는 대전제나 규칙
                                          messages=[{'role':'user', 'content':question}],
                                          # 생성할 응답의 최대 토큰 수 지정(출력 테스트의 길이 지정)
                                          max_tokens=150,
                                          # temperature : 생성되는 응답의 창의성 정도를 조정해주는 인자
                                           #              (0~2사이의 실수값, 0은 일관된 응답, 2는 창의적 응답)
                                          temperature=0
                                         )

In [13]:
response

ChatCompletion(id='chatcmpl-C1nAXklslIIZC733RYGvRmtBr5BbO', choices=[Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content='안녕하세요! 바다로 가기 좋은 날씨라니 정말 좋네요. 햇살 가득한 날씨에서 바다를 즐기시면 정말 기분이 좋을 것 같아요. 즐거운 시간 보내세요!', refusal=None, role='assistant', annotations=[], audio=None, function_call=None, tool_calls=None))], created=1754543369, model='gpt-3.5-turbo-0125', object='chat.completion', service_tier='default', system_fingerprint=None, usage=CompletionUsage(completion_tokens=79, prompt_tokens=31, total_tokens=110, completion_tokens_details=CompletionTokensDetails(accepted_prediction_tokens=0, audio_tokens=0, reasoning_tokens=0, rejected_prediction_tokens=0), prompt_tokens_details=PromptTokensDetails(audio_tokens=0, cached_tokens=0)))

In [14]:
type(response)

openai.types.chat.chat_completion.ChatCompletion

#### ChatCompletion 객체에는 사용자의 요청과 모델의 응답에 대한 정보가 담겨져 있음
- content에 실제 텍스트 응답이 있으며, role에는 역할, model에는 사용된 모델명, usage에는 토큰 사용량에 대한 정보가 들어있음
- 모델이 응답할 때 role은 항상 assistant로 출력됨(우리가 질의할 때는 user로 질의해야 함)
- usage에 prompt_tokens는 입력 토큰(질의)수, completions_tokens는 출력 토큰(응답)의 수가 됨

In [16]:
response.id

'chatcmpl-C1nAXklslIIZC733RYGvRmtBr5BbO'

In [19]:
response.choices   # 리스트 형태

[Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content='안녕하세요! 바다로 가기 좋은 날씨라니 정말 좋네요. 햇살 가득한 날씨에서 바다를 즐기시면 정말 기분이 좋을 것 같아요. 즐거운 시간 보내세요!', refusal=None, role='assistant', annotations=[], audio=None, function_call=None, tool_calls=None))]

In [21]:
response.choices[0].message

ChatCompletionMessage(content='안녕하세요! 바다로 가기 좋은 날씨라니 정말 좋네요. 햇살 가득한 날씨에서 바다를 즐기시면 정말 기분이 좋을 것 같아요. 즐거운 시간 보내세요!', refusal=None, role='assistant', annotations=[], audio=None, function_call=None, tool_calls=None)

In [22]:
response.choices[0].message.role   # role에 접근

'assistant'

In [23]:
response.choices[0].message.content    # 응답 텍스트 출력

'안녕하세요! 바다로 가기 좋은 날씨라니 정말 좋네요. 햇살 가득한 날씨에서 바다를 즐기시면 정말 기분이 좋을 것 같아요. 즐거운 시간 보내세요!'

### 자주 발생하는 코드 에러
- RatelimitError : API크레딧 사용 한도를 초과한 경우
- InvalidRequestError : 잘못된 요청이 발생한 경우
- APIConnectionErrror : API 서버와의 연결 문제로 발생한 경우
- OpenAIError : 기타 일반적인 openai라이브러리 사용 시 발생하는에러

In [30]:
question = "pandas DataFrane에서 중복 항목을 제거하는 방법은?"

response = client.chat.completions.create(model="gpt-3.5-turbo",
                                          messages=[{'role':'user', 'content':question}],
                                          max_tokens=150,
                                          temperature=0
                                         )
response.choices[0].message.content

"drop_duplicates() 함수를 사용하여 pandas DataFrame에서 중복 항목을 제거할 수 있습니다. 이 함수는 중복된 행을 제거하고 유일한 값만 남기는 기능을 제공합니다. 예를 들어, 다음과 같이 drop_duplicates() 함수를 사용하여 중복 항목을 제거할 수 있습니다.\n\n```python\nimport pandas as pd\n\n# 샘플 데이터프레임 생성\ndata = {'A': [1, 1, 2, 2, 3],\n        'B': ['a', 'a', 'b', 'b', 'c']}\ndf = pd.DataFrame"

In [33]:
#  프린트문으로 보기 좋게 출력
print(response.choices[0].message.content)

drop_duplicates() 함수를 사용하여 pandas DataFrame에서 중복 항목을 제거할 수 있습니다. 이 함수는 중복된 행을 제거하고 유일한 값만 남기는 기능을 제공합니다. 예를 들어, 다음과 같이 drop_duplicates() 함수를 사용하여 중복 항목을 제거할 수 있습니다.

```python
import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 1, 2, 2, 3],
        'B': ['a', 'a', 'b', 'b', 'c']}
df = pd.DataFrame


In [34]:
# 없는 데이터에 대한 요청
question = "지난 1년간의 판매 데이터를 시각화하기 위한 막대 차트를 생성해줘."

response = client.chat.completions.create(model="gpt-3.5-turbo",
                                          messages=[{'role':'user', 'content':question}],
                                          max_tokens=150,
                                          temperature=0
                                         )
response.choices[0].message.content

'물론이죠. 어떤 종류의 제품이나 판매 데이터를 시각화하고 싶으신가요? 예를 들어, 음식점의 음식 판매량이나 온라인 쇼핑몰의 제품 판매량 등을 시각화할 수 있습니다. 자세한 정보를 알려주시면 해당 데이터에 맞는 막대 차트를 생성해드리겠습니다.'

In [35]:
question = "지난 1년간의 판매 데이터를 시각화하기 위한 막대 차트를 생성해줘."

response = client.chat.completions.create(model="gpt-4o",
                                          messages=[{'role':'user', 'content':question}],
                                          max_tokens=150,
                                          temperature=0
                                         )
response.choices[0].message.content

# 상위 모델의 성능이 훨씬 뛰어남
# 현재는 ChatGPT 서비스를 이용하는게 아니라 API로 로컬에서 동작시키기 때문에 직접 시각화된 이미지가 나오지는 않고 코드로 제공함

"막대 차트를 생성하기 위해서는 먼저 판매 데이터를 준비해야 합니다. 데이터가 준비되었다고 가정하고, Python의 Matplotlib 라이브러리를 사용하여 막대 차트를 생성하는 방법을 설명하겠습니다. 아래는 예제 코드입니다.\n\n```python\nimport matplotlib.pyplot as plt\n\n# 예제 데이터: 월별 판매량\nmonths = ['1월', '2월', '3월', '4월', '5월', '6월', '7월', '8월', '9월', '10월', '11월', '12월']\nsales = [150, 200, 250, 300, 350, 400, 450, 500, "

In [38]:
question = "OTT 구독 서비스에서 고객 이탈에 영향을 미치는 주요 요인은?"

response = client.chat.completions.create(model="gpt-3.5-turbo",
                                          messages=[{'role':'user', 'content':question}],
                                          temperature=0
                                         )
print(response.choices[0].message.content)

1. 가격: 고객들은 가격이 비싸거나 경쟁사에 비해 높을 경우 이탈할 가능성이 높습니다.

2. 콘텐츠: 다양하고 흥미로운 콘텐츠를 제공하지 않을 경우 고객들은 다른 서비스로 이탈할 수 있습니다.

3. 서비스 품질: 서비스의 안정성, 속도, 사용자 경험 등이 만족스럽지 않을 경우 고객들은 이탈할 수 있습니다.

4. 경쟁사와의 비교: 경쟁사가 더 나은 혜택이나 콘텐츠를 제공할 경우 고객들은 이탈할 가능성이 높습니다.

5. 고객 서비스: 만족스러운 고객 서비스를 제공하지 않을 경우 고객들은 이탈할 수 있습니다.

6. 이용 편의성: 서비스 이용이 복잡하거나 불편할 경우 고객들은 이탈할 가능성이 높습니다.

7. 마케팅 활동: 적절한 마케팅 활동을 통해 고객들의 관심을 유지하지 못할 경우 이탈할 가능성이 높습니다.


### 입력된 파일에 대한 분석 요청
- 파일과 질의를 구분해서 하나의 전체 질의로 구성한 사용자 정의 함수 만들기
  

In [41]:
# 파일 위치를 data매개변수에, 질의를 question에, 모델명을 model에 넣게 됨
def analysis_data(data, question, model) :
    prompt = f"Data: {data}, Question: {question}"
    response = client.chat.completions.create(model=model,
                                              messages=[{'role':'user', 'content':prompt}]
                                             )
    return response.choices[0].message.content

In [42]:
data = "data/bmi_500.csv"
question = """해당 데이터는 500명의 bmi점수에 대한 데이터야. Extremly Week 부터 Extremly Obesity까지 각각의 데이터의 개수를 파악해서 출력해줘."""
model = "gpt-3.5-turbo"

result = analysis_data(data, question, model)
print(result)

Extremely Weak: 48
Underweight: 92
Normal: 170
Overweight: 129
Obesity I: 44
Obesity II: 14
Obesity III: 3


In [43]:
data = "data/bmi_500.csv"
question = """해당 데이터는 500명의 bmi점수에 대한 데이터야. Extremly Week 부터 Extremly Obesity까지 각각의 데이터의 개수를 파악해서 출력해줘."""
model = "gpt-4o"

result = analysis_data(data, question, model)
print(result)

`data/bmi_500.csv` 파일을 분석하여 각 BMI 카테고리에 속하는 데이터의 개수를 확인하려면 Python의 pandas 라이브러리를 사용하면 됩니다. 이 작업을 수행하기 위해 간단한 스크립트를 작성할 수 있습니다. 이 스크립트는 CSV 파일을 읽고, 각 카테고리별로 데이터 개수를 계산하여 출력합니다.

```python
import pandas as pd

# CSV 파일을 읽어옵니다.
file_path = 'data/bmi_500.csv'
data = pd.read_csv(file_path)

# BMI 점수에 따른 카테고리 개수를 계산합니다.
category_counts = data['BMI_Category'].value_counts()

# 각 카테고리의 개수를 출력합니다.
print(category_counts)
```

이 코드는 다음과 같은 작업을 수행합니다:
1. `pandas` 라이브러리를 사용하여 CSV 파일을 읽습니다.
2. `value_counts()` 메서드를 사용하여 'BMI_Category' 열의 고유한 값의 빈도를 계산합니다.
3. 각 카테고리별 데이터의 개수를 출력합니다.

각 카테고리는 'Extremely Weak', 'Weak', 'Normal', 'Overweight', 'Obesity', 'Extremely Obesity'일 수 있으며, 이 스크립트를 실행하면 각각의 카테고리에 속한 개인의 수를 얻을 수 있습니다. CSV 파일의 구조가 다를 경우, 'BMI_Category'라는 열 이름을 실제 값에 맞게 조정해야 합니다.


### 정리
- API를 활용하여 로컬 PC에서 결과를 출력하려 한다면 사용자별로 각기 다른 환경이기 때문에 시각화 요청에 대해 누구나 활용할 수 있는 코드 형태로 제공하는 경우가 많음
- ChatGPT 웹 서비스에서 3.5 무료 버전은 파일 입력이 불가능하지만, API의 3.5버전은 로컬 pc의 파일을 입력시켜줄 수 있음
- 기본적으로 상위 모델의 응답이 훨씬 퀄리티가 높으나 모든 응답이 정확성을 담보로 하지는 않기 때문에 100% 믿으면 리스크가 발생할 수 있음