### OpenAI에서 지원하는 GPT API 사용

In [1]:
from openai import OpenAI
from getpass import getpass # 보안 정보를 입력할 때 이를 화면에 노출하지 않도록 하는 모듈

In [2]:
MY_API_KEY = getpass("OpenAI API Key >> ")

In [3]:
client = OpenAI(api_key = MY_API_KEY)

#### GPT 모델을 불러와서 일반적인 질의하기

In [4]:
question = "안녕? 오늘은 피크닉 가기엔 최악인 비 내리는 날씨네"

'''
client.chat.completions.create() : OpenAI의 ChatAPI를 생성해 주는 함수
messages : 질의에 대한 정보를 설정 (role = 역할, content = 질의 내용)
role : "system", "user", "assistant" 중 하나로 지정 가능
max_tokens : 모델이 처리할 수 있는 최대 토큰 수 (최대 출력 토큰)
temperature : 응답의 일관성 및 창의성 정도를 조정하는 인자, 0 -> 모델이 같다면 항상 일관된 대답, 2 -> 매우 창의적
'''
res = client.chat.completions.create(
    model = "gpt-3.5-turbo",
    messages = [{"role" : "user", "content" : question}],
    max_tokens = 150,
    temperature = 0
)

In [5]:
'''
ChatCompletion : 객체에는 사용자의 요청에 대한 모델의 응답 정보들이 담겨 있음
completion_tokens : 출력된 토큰 수 (응답)
prompt_tokens : 입력된 토큰 수 (질문)
'''
res

ChatCompletion(id='chatcmpl-9j4wKBYF5X4acW7Ah7mhDorN8wN58', choices=[Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content='안녕하세요! 그런 날씨라면 피크닉은 취소하고 실내에서 영화를 보거나 따뜻한 차를 마시며 쉬는 것도 좋을 것 같아요. 햇빛이 비추는 날씨에는 다시 피크닉을 즐기시면 될 것 같아요. 좋은 하루 보내세요!', role='assistant', function_call=None, tool_calls=None))], created=1720530776, model='gpt-3.5-turbo-0125', object='chat.completion', service_tier=None, system_fingerprint=None, usage=CompletionUsage(completion_tokens=116, prompt_tokens=41, total_tokens=157))

In [6]:
type(res)

openai.types.chat.chat_completion.ChatCompletion

In [7]:
res.choices[0].message.content

'안녕하세요! 그런 날씨라면 피크닉은 취소하고 실내에서 영화를 보거나 따뜻한 차를 마시며 쉬는 것도 좋을 것 같아요. 햇빛이 비추는 날씨에는 다시 피크닉을 즐기시면 될 것 같아요. 좋은 하루 보내세요!'

#### 자주 발생하는 코드 에러
- RateLimitError : API 사용 한도 초과
- InvalidRequestError : 잘못된 요청
- APIConnectionError : API 서버와의 연결 문제
- OpenAIError : 기타 일반 라이브러리 오류

#### 프로그래밍 기술적인 내용 질의

In [8]:
question = "Pandas DataFrame에서 중복 항목을 제거하는 방법은?"

res = client.chat.completions.create(
    model = "gpt-3.5-turbo",
    messages = [{"role" : "user", "content" : question}],
    temperature = 0
)
res.choices[0].message.content

"Pandas DataFrame에서 중복 항목을 제거하는 방법은 `drop_duplicates()` 함수를 사용하는 것입니다. 이 함수는 DataFrame에서 중복된 행을 제거하고 유일한 값만을 남기는 역할을 합니다.\n\n예를들어, 다음은 DataFrame에서 중복 항목을 제거하는 예제 코드입니다.\n\n```python\nimport pandas as pd\n\n# 샘플 DataFrame 생성\ndata = {'A': [1, 2, 2, 3, 4],\n        'B': ['a', 'b', 'b', 'c', 'd']}\ndf = pd.DataFrame(data)\n\n# 중복 항목 제거\ndf = df.drop_duplicates()\n\nprint(df)\n```\n\n위 코드를 실행하면, 중복된 행이 제거된 DataFrame이 출력됩니다."

In [9]:
print(res.choices[0].message.content)

Pandas DataFrame에서 중복 항목을 제거하는 방법은 `drop_duplicates()` 함수를 사용하는 것입니다. 이 함수는 DataFrame에서 중복된 행을 제거하고 유일한 값만을 남기는 역할을 합니다.

예를들어, 다음은 DataFrame에서 중복 항목을 제거하는 예제 코드입니다.

```python
import pandas as pd

# 샘플 DataFrame 생성
data = {'A': [1, 2, 2, 3, 4],
        'B': ['a', 'b', 'b', 'c', 'd']}
df = pd.DataFrame(data)

# 중복 항목 제거
df = df.drop_duplicates()

print(df)
```

위 코드를 실행하면, 중복된 행이 제거된 DataFrame이 출력됩니다.


#### 데이터 시각화 질의

In [10]:
question = "지난 1년 간의 판매 데이터를 시각화하기 위한 막대 차트를 생성해줘"
res = client.chat.completions.create(
    model = "gpt-3.5-turbo",
    messages = [{"role" : "user", "content" : question}],
    max_tokens = 150,
    temperature = 0
)
res.choices[0].message.content

'죄송합니다. 판매 데이터가 없기 때문에 정확한 막대 차트를 생성해 드릴 수 없습니다. 만약 판매 데이터를 제공해 주신다면, 해당 데이터를 기반으로 막대 차트를 생성해 드릴 수 있습니다. 부탁드립니다.'

- 응답에 필요한 기초적인 데이터나 정보가 포함되어야 원하는 응답을 얻을 수 있음

#### 일반적인 데이터 분석 질의

In [11]:
question = "OTT 구독 서비스에서 고객 이탈에 영향을 미치는 주요 요인은?"
res = client.chat.completions.create(
    model = "gpt-3.5-turbo",
    messages = [{"role" : "user", "content" : question}],
    max_tokens = 300,
    temperature = 1
)
res.choices[0].message.content

'1. 가격: 구독 서비스의 가격이 높을 경우 고객들이 이탈할 가능성이 높아질 수 있습니다. 가격이 경쟁사에 비해 부담스럽다고 느낄 경우 고객들은 쉽게 다른 서비스로 이탈할 수 있습니다.\n\n2. 콘텐츠 품질: 구독 서비스의 콘텐츠 품질이 낮을 경우 고객들이 이탈할 가능성이 높아질 수 있습니다. 고객들이 원하는 콘텐츠를 제공하지 않는다면, 그들은 다른 서비스로 이탈할 수 있습니다.\n\n3. 사용자 경험: 구독 서비스의 사용자 경험이 좋지 않을 경우 고객들이 이탈할 가능성이 높아질 수 있습니다. 불편한 인터페이스, 긴 로딩 시간, 많은 광고 등은 고객들을 다른 서비스로 이탈'

In [12]:
print(res.choices[0].message.content) # 답변이 max_tokens 때문에 잘림

1. 가격: 구독 서비스의 가격이 높을 경우 고객들이 이탈할 가능성이 높아질 수 있습니다. 가격이 경쟁사에 비해 부담스럽다고 느낄 경우 고객들은 쉽게 다른 서비스로 이탈할 수 있습니다.

2. 콘텐츠 품질: 구독 서비스의 콘텐츠 품질이 낮을 경우 고객들이 이탈할 가능성이 높아질 수 있습니다. 고객들이 원하는 콘텐츠를 제공하지 않는다면, 그들은 다른 서비스로 이탈할 수 있습니다.

3. 사용자 경험: 구독 서비스의 사용자 경험이 좋지 않을 경우 고객들이 이탈할 가능성이 높아질 수 있습니다. 불편한 인터페이스, 긴 로딩 시간, 많은 광고 등은 고객들을 다른 서비스로 이탈


#### 입력한 파일에 대한 분석 요청
- 파일과 질의를 구분해서 프롬프트 질문 내용으로 구성한 사용자 정의 함수를 만들어 활용

In [13]:
def analysis_data(data, question, model) :
    prompt = f"Data : {data} \n Question : {question}"
    res = client.chat.completions.create(
        model = model,
        messages = [{"role" : "user", "content" : prompt}],
        max_tokens = 500,
        temperature = 0
    )
    return res.choices[0].message.content

In [14]:
data = "../data/score.csv"
question = "해당 숫자 데이터는 과목 별, 반 별 시험 점수야. 과목 별로 평균, 최댓값, 최솟값을 분석하고 matplotlib의 bar 그래프로 시각화 해줘."
model = "gpt-3.5-turbo"

result = analysis_data(data, question, model)
print(result)

분석 및 시각화 코드는 아래와 같습니다.

```python
import pandas as pd
import matplotlib.pyplot as plt

# 데이터 불러오기
data = pd.read_csv('../data/score.csv')

# 과목 별 평균, 최댓값, 최솟값 계산
subject_avg = data.groupby('과목')['점수'].mean()
subject_max = data.groupby('과목')['점수'].max()
subject_min = data.groupby('과목')['점수'].min()

# 시각화
plt.figure(figsize=(10, 6))
subject_avg.plot(kind='bar', color='skyblue', label='평균')
subject_max.plot(kind='bar', color='salmon', label='최댓값')
subject_min.plot(kind='bar', color='lightgreen', label='최솟값')

plt.title('과목 별 시험 점수 분석')
plt.xlabel('과목')
plt.ylabel('점수')
plt.legend()
plt.show()
```

위 코드를 실행하면 과목 별로 평균, 최댓값, 최솟값을 분석한 후 matplotlib의 bar 그래프로 시각화된 결과를 확인할 수 있습니다.


- Chat API를 활용하게 되면 문자열로 응답을 해주기 때문에 실제 시각화 된 이미지를 제공하지는 않고, 시각화를 할 수 있는 코드를 제공 (이미지 생성 모델로는 가능)
- 웹 서비스에서의 "gpt-3.5-turbo" 버전은 파일 입력이 불가능 하지만, gpt-3.5-turbo API를 가져와서 로컬에서 활용하는 경우는 파일 입력 가능
- 웹 서비스 gpt-4 버전 이상에서는 파일 입력 가능 