In [1]:
from dotenv import load_dotenv
import os

load_dotenv()
api_key = os.getenv('OPENAI_API_KEY')

from openai import OpenAI
client = OpenAI()

In [51]:
messages = [
    {
      "role": "system", 
      "content": 
      """
      대출앱에서 의도적으로 여러건을 조기상환 하면서 한도를 올린 다음에, 갚지 않는(부실하는) '의도적 조기상환 꾼'을 판별하기 위한 아이디어를 제공하세요. 당신은 내가 의도적 조기상환 꾼을 판별하는 룰을 코딩할 때, 어떤 변수를 사용할지에 대한 아이디어를 제공합니다. 
      ### 목표
      - 의도적 조기상환 꾼의 대출 패턴에서 나타나는 특징 요소들을 찾아냅니다. (예시: 조기상환 횟수)

      ### 고려 사항
      - 최대한 많은 특징, 요소, 변수들을 찾아내세요.
      - 창의적이고 다양한 변수들을 찾아내되, 데이터를 기반으로 변수를 찾아내세요. 데이터에 없는 요소들은 변수에 포함하지 마세요.

      # Steps
      1. 제공되는 몇개의 대출 이력 데이터를 확인하기
      2. 꾼으로 판별된 유저들의 대출 이력 데이터에서 공통적으로 나타나는 특징, 변수 찾아내기

      # Output Format

      - 한국어로 작성합니다.
      - 가능한 경우 구체적인 예시나 데이터 근거를 포함하세요."}
      """
    },
    
    ]

# 파라미터 설정
params = {
    "temperature": 1, # (0~2)
    "top_p": 1, # (0~1)
    "presence_penalty": 1,   # 새로운 주제 등장 (-2.0-2.0)
}

# GPT 호출
completion = client.chat.completions.create(
    model="gpt-4o",
    store=True,
    messages=messages,
    **params
)

print(completion.choices[0].message.content)

def add_user_message(message):
  messages.append({"role": "user", "content": message})

def add_assistant_message(message):
  messages.append({"role": "assistant", "content": message})



알겠습니다. 의도적 조기상환 꾼을 판별하기 위한 몇 가지 변수와 특징 요소를 제시해드립니다.

### 대출 패턴에서 파악할 수 있는 변수들

1. **조기 상환 횟수 및 빈도**:
   - **변수 설명**: 조기 상환한 횟수를 확인하고, 그 횟수가 짧은 시간 안에 집중적으로 발생했는지 분석합니다.
   - **예시 데이터**: 최근 6개월 내에 3회 이상의 대출을 받은 후 각 대출을 30일 이내에 상환하는 경우.

2. **대출금액의 증가 패턴**:
   - **변수 설명**: 매번 대출 받은 금액이 이전보다 상당히 높아지는 패턴을 보이는지 점검합니다.
   - **예시 데이터**: 첫 대출 100만원 → 두 번째 300만원 → 세 번째 500만원.

3. **신용등급의 급격한 변화**:
   - **변수 설명**: 대출 신청 전후 신용등급에 급격한 상승이나 변동이 있는지를 파악합니다.
   - **예시 데이터**: 대출 전 신용점수가 평균 이하였으나, 조기 상환 이후 갑자기 상위권으로 변경되는 경우.

4. **다중 대출처 이용 여부**:
   - **변수 설명**: 여러 대출 회사에서 동시에 또는 연속적으로 대출을 받는 양상을 관찰합니다.
   - **예시 데이터**: A은행에서 한도만큼 대출 후 며칠 내로 B은행에서도 대출을 받음.

5. **대출 기간과 상환 비율**:
   - **변수 설명**: 평균 대출 기간 대비 조기 상환 기간 및 상환 비율을 분석합니다.
   - **예시 데이터**: 12개월 대출 중 1~2개월 내로 50% 이상 금액을 상환하는 경우.

6. **소득 대비 대출 비율**:
   - **변수 설명**: 소득 대비 대출 비율이 일정 기준 이상 초과되고, 조기 상환 이후에도 계속 높은 비율로 대출을 받는지 확인합니다.
   - **예시 데이터**: 월 소득 500만원인데도 반복해서 2억원 이상의 한도 증대 및 대출.

7. **계좌 거래 내역의 변동성**:
   - **변수 설명**: 대출 전후 계좌 입출금 내역의 큰 변동 여부를 

In [52]:
import pandas as pd
import io

# CSV 파일 로드 및 문자열 변환
csv_file_path_1 = "꾼.csv" 

df_1 = pd.read_csv(csv_file_path_1)


# CSV를 문자열로 변환
csv_string_1 = df_1.to_csv(index=False)


add_user_message(f"""
     다음은 꾼으로 판별된 유저들의 대출 이력 데이터야: {csv_string_1}. 
     
     데이터의 필드 이름을 설명해줄게. 
     bureau: 대출 기록을 보고한 신용정보기관 또는 신용평가사의 이름입니다. reportedAt: 대출 기록이 해당 기관에 보고된 날짜와 시간을 나타냅니다. identifiedInstitution: 대출을 제공한 금융기관을 식별하는 필드입니다. accountNumber: 대출 계좌의 고유 식별번호를 의미합니다. loanAmount: 대출의 원금 또는 총 대출 금액을 나타냅니다. repaymentAmount: 대출 상환으로 지불된 총 금액을 표시합니다. openedAt: 대출이 시작된 날짜입니다. dueAt: 대출 상환이 완료되어야 하는 만기일을 나타냅니다. lastRepaymentAt: 마지막으로 상환한 날짜를 기록합니다. status: 대출의 현재 상태(예: performing, lost 등)를 나타냅니다. 
     
     우선, 이 데이터를 먼저 학습해. 학습만 하면 돼. 학습을 끝내면 나에게 "끝났다"고만 알려줘.
     끝낸 다음에 해야할 일을 알려줄거야.
     """)

# 파라미터 설정
params = {
    "temperature": 1, # (0~2)
    "top_p": 1, # (0~1)
    "presence_penalty": 1,   # 새로운 주제 등장 (-2.0-2.0)
}

# GPT 호출
completion = client.chat.completions.create(
    model="gpt-4o",
    store=True,
    messages=messages,
    **params
)

add_assistant_message(completion.choices[0].message.content)
print(completion.choices[0].message.content)


끝났다.


In [53]:
import pandas as pd
import io

# CSV 파일 로드 및 문자열 변환
csv_file_path_2 = "꾼아님_282제외.csv" 

df_2 = pd.read_csv(csv_file_path_2)


# CSV를 문자열로 변환
csv_string_2 = df_2.to_csv(index=False)


add_user_message(f"""
     다음은 꾼이 아닌 것으로 판별된 유저들의 대출 이력 데이터야: {csv_string_2}. 
     
     데이터의 필드 이름을 설명해줄게. 
     bureau: 대출 기록을 보고한 신용정보기관 또는 신용평가사의 이름입니다. reportedAt: 대출 기록이 해당 기관에 보고된 날짜와 시간을 나타냅니다. identifiedInstitution: 대출을 제공한 금융기관을 식별하는 필드입니다. accountNumber: 대출 계좌의 고유 식별번호를 의미합니다. loanAmount: 대출의 원금 또는 총 대출 금액을 나타냅니다. repaymentAmount: 대출 상환으로 지불된 총 금액을 표시합니다. openedAt: 대출이 시작된 날짜입니다. dueAt: 대출 상환이 완료되어야 하는 만기일을 나타냅니다. lastRepaymentAt: 마지막으로 상환한 날짜를 기록합니다. status: 대출의 현재 상태(예: performing, lost 등)를 나타냅니다. 
     
     우선, 이 데이터를 먼저 학습해. 학습만 하면 돼. 학습을 끝내면 나에게 "끝났다"고만 알려줘.
     끝낸 다음에 해야할 일을 알려줄거야.
     """)

# 파라미터 설정
params = {
    "temperature": 1, # (0~2)
    "top_p": 1, # (0~1)
    "presence_penalty": 1,   # 새로운 주제 등장 (-2.0-2.0)
}

# GPT 호출
completion = client.chat.completions.create(
    model="gpt-4o",
    store=True,
    messages=messages,
    **params
)

add_assistant_message(completion.choices[0].message.content)
print(completion.choices[0].message.content)


끝났다.


In [55]:
import pandas as pd
import io


add_user_message(f"""
     지금까지 학습한 내용을 요약해봐
     """)

# 파라미터 설정
params = {
    "temperature": 1, # (0~2)
    "top_p": 1, # (0~1)
    "presence_penalty": 1,   # 새로운 주제 등장 (-2.0-2.0)
}

# GPT 호출
completion = client.chat.completions.create(
    model="gpt-4o",
    store=True,
    messages=messages,
    **params
)

add_assistant_message(completion.choices[0].message.content)
print(completion.choices[0].message.content)


지금까지 학습한 내용을 요약하겠습니다.

### 꾼으로 판별된 유저들의 대출 패턴
1. **조기상환 빈도**: 많은 꾼들이 대출을 조기에 상환하는 패턴을 보입니다. 이는 한도를 올리기 위한 수단으로 활용될 수 있습니다.
2. **다양한 대출기관**: 여러 금융기관에서 빈번하게 대출을 받습니다.
3. **높은 대출 횟수**: 다양한 금액의 대출을 여러 번 받는 경향이 있습니다.
4. **연체 및 소실**: 연체되거나 잃어버리는 상태로 기록된 대출도 상당수 있습니다.
5. **대출 규모의 급격한 증가**: 처음에는 작은 금액부터 시작하여 점점 대출 금액을 높이는 패턴이 있습니다.
6. **중복 기록**: 동일한 대출에 대해 중복 기록이 있는 경우도 일부 발견되었습니다.

### 꾼이 아닌 것으로 판별된 유저들의 대출 패턴
1. **정상 상환 패턴**: 전반적으로 조기상환보다는 만기일 또는 그전에 상환하는 패턴이 더 많습니다.
2. **낮은 연체 비율**: 대부분의 대출이 "performing" 상태를 유지하며, 연체나 소실 상태가 상대적으로 적습니다.
3. **유사한 대출 기관과의 거래 지속성**: 몇몇 확고한 기관과의 지속적인 거래 관계를 유지합니다.
4. **안정적인 대출 금액**: 대출 금액의 변동폭이 크지 않으며, 일정한 범위 내에서 이뤄집니다.
5. **주기적 대출**: 특정한 주기로 대출과 상환이 반복됩니다.
6. **긴 시간 동안의 거래 기록**: 비교적 오랜 기간 동안 꾸준히 금융활동이 기록되어 있습니다.

### 공통점과 차이점
- **공통점**: 두 그룹 모두 다양한 금융기관과의 거래가 있으며, 대출 취급 방식에서 다양성을 가집니다. 경우에 따라 손실된 기록도 존재합니다.
- **차이점**: 꾼들은 일반적으로 빠르게 한도를 늘리기 위해 조기상환을 반복하는 반면, 꾼이 아닌 사용자들은 대출 기간을 안정적으로 활용하며 소멸되거나 연체되는 비율이 낮습니다.

이러한 분석을 통해 우리는 꾼과 비꾼의 금융 행태를 좀더 명확하게 파악할 수 있으며, 이를 기

In [56]:
add_user_message("""     
     - 이제 의도적 조기상환 꾼 유저의 대출 이력 데이터에서 나타나는 특징 요소들을 찾아줘. 
     - 꾼과, 꾼이 아닌 사람을 걸러내기 위한 룰(코드)에 적용할 수 있는 특징을 찾아줘.
     지금까지 내가 찾은 변수들을 알려줄게. 이 변수들 이외의 새로운 변수 10개를 찾아줘.
        **조기상환 빈도**:
        - 조기상환 주기가 짧고 빈도가 높음.
        **대출 금액 증가 패턴**:
        - 연속 대출 시 빠르게 증가하는 대출 금액.
        **한도 증액 후 연체 발생**:
        - 한도 상승 후 발생하는 연체 사례.
        **금융기관 다양성**:
        - 다양한 금융기관으로부터의 빈번한 차입.
        **결정된 상환 형태 없음**:
        - 지속적인 조기 상환과 새로운 대출 시작 반복.
        **상환 대비 대출 비율**:
        - 상환금액이 대출금액에 비해 불균형.
        **짧은 기간 내 다수 계좌 개설**:
        - 잦은 계좌 개설 후 조기 상환.
        **비정상적 금리로 대출**:
        - 비정상적으로 높거나 낮은 금리 적용.
        **상환 금액 패턴의 비일관성**:
        - 무규칙하게 변화하는 상환 금액.
        **반복된 단기간 대출 종료 및 재신청**:
        - 대출 종료 후 즉시 새 대출 신청.
        **동일 금액의 반복적 상환**:
        - 특정 금액의 지속적인 상환 패턴.
        **과거 대출 종료 후 새로운 대출 간격**:
        - 대출 종료와 새 대출 사이의 비정상적인 짧은 간격.""")
# 파라미터 설정
params = {
    "temperature": 1, # (0~2)
    "top_p": 1, # (0~1)
    "presence_penalty": 1,   # 새로운 주제 등장 (-2.0-2.0)
}

# GPT 호출
completion = client.chat.completions.create(
    model="gpt-4o",
    store=True,
    messages=messages,
    **params
)

add_assistant_message(completion.choices[0].message.content)
print(completion.choices[0].message.content)

앞서 제시하신 변수들을 바탕으로, 의도적 조기상환 꾼을 판별하기 위한 추가적인 10개의 변수를 제안하겠습니다:

1. **단일 대출액 간의 잦은 변화**:
   - 동일한 대출금액이 아닌 소폭의 다수 금액 차이 대출 발생 빈도.

2. **의무 상환기간 이전상환 비율**:
   - 실제 만기 일자 이전 즉시 상환된 대출 건의 비율 분석.

3. **대출 신청-승인 후 상환까지의 급격한 단축**:
   - 대출 승인부터 마지막 상환까지의 기간이 평균보다 지속적으로 짧은 패턴.

4. **자주 사용되는 금융기관 패턴 확인**:
   - 특정 은행이나 기관을 반복해서 이용하는지에 대한 패턴 확인.

5. **대출 목적 코드 약화**:
   - 대출 사유나 항목이 결여되거나 매번 동일함에도 불구하고 대출 승인받는 경우 탐색.

6. **신청 수 대비 항시 진행 대출 건의 비율**:
   - 대출 신청 개수에 대비하여 진행 중인 대출 건수가 어느정도로 유지되고 있는가에 대한 비율.

7. **새로운 대출 시 기존 대출 보유 여부**:
   - 새로운 대출 신청와 기존 대출이 동시에 보유되어 있는 케이스 빈도.

8. **높은 도전율(Experimentation Rate)**:
   - 다양한 금액 및 형태의 대출 시도 후 빠르게 원상 회복하는 패턴.

9. **특정 시즌에 몰려 있는 대출 신청**:
   - 특정 월간/계절적으로 집중된 대출 신청, 예를 들어 연말 신년 등의 특정 기간에 집중된 대출 패턴 검토.

10. **연속된 'lost' 상태 기록 증가율**:
   - 분명히 특정 이벤트 후('performing'에서 'lost'로 전환 정의) 이어지는 연속 상태 변화 빈도.

이러한 변수들은 좀더 복합적인 분석을 가능하게 하여, 돈을 최대한 모으고자 의도적으로 조기 상환을 실행한 후 부실 상태로 넘어가는 사용자들, 즉 꾼을 보다 정확히 구분해낼 수 있게 도울 것입니다.


In [57]:
add_user_message("""
너가 10개의 변수를 알려줬는데, 아래 부분이 이해가 안돼.
- 도전율이 뭐야? 더 구체적으로 설명해줘
     """)
# 파라미터 설정
params = {
    "temperature": 1, # (0~2)
    "top_p": 1, # (0~1)
    "presence_penalty": 1,   # 새로운 주제 등장 (-2.0-2.0)
}

# GPT 호출
completion = client.chat.completions.create(
    model="gpt-4o",
    store=True,
    messages=messages,
    **params
)

add_assistant_message(completion.choices[0].message.content)
print(completion.choices[0].message.content)

"도전율(Experimentation Rate)"라는 개념은 금융 거래에서 다양한 금액과 형태의 대출을 시도하는 패턴을 분석하는 것입니다. 이를 통해 특별한 의도로 대출 제품이나 조건을 실험적으로 테스트하는 사용자를 식별하고자 합니다. 구체적으로 설명하자면 다음과 같습니다:

1. **다양한 대출 금액 및 조건 시도**:
   - 사용자가 짧은 시간 내에 여러 가지 대출 금액이나 이자율, 상환 기간 등의 조건을 바꾸어가며 대출을 신청하는 경우를 말합니다.
   - 이는 마치 대출 옵션이나 시장 반응을 탐색하려는 행위와 유사합니다.

2. **빠른 피드백 루프**:
   - 이러한 사용자는 신속히 대출을 상환하거나 새로운 대출로 전환하며 그 결과를 기반으로 다음 선택을 조정합니다.
   - 예를 들어, 처음 받은 대출 금액보다 살짝 다른 금액으로 다시 신청하거나, 이자율이 다른 상품으로 계속 옮겨 다닙니다.

3. **목적 없는 반복적 행동**:
   - 이러한 행동이 식별되었을 때, 그것은 특정 경제적 계획이나 필요에 기반한 것이 아니며, 단순히 시스템이나 조건 변화를 시험해보려는 목적일 가능성이 큽니다.

4. **질 높은 정보를 위한 탐색**:
   - 사용자들이 꾸준히 변화된 조건 하에 대출을 시도함으로써 어떤 조건이 가장 혜택이 될 수 있는지에 대한 정보 수집을 목표로 할 수 있습니다.

도전율이라는 변수는 의도적인 금융 시스템의 허점을 찾으려는 시도의 하나로 볼 수 있으며, 사용자들의 이런 유행의 행동이 잦을수록 의도적인 조기상환 꾼으로 분류될 가능성이 높아진다는 것을 시사합니다.
