## 초기 환경 변수 및 라이브러리 import

In [None]:
import pymysql  # 추가된 부분
from collections import Counter, defaultdict
from typing import List
from dotenv import load_dotenv
import openai

from sentence_transformers import SentenceTransformer
from langchain_openai import ChatOpenAI
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
import os
import re

# 환경변수 로드
load_dotenv()

# LLM 초기화
api_key = os.getenv("OPENAI_API_KEY")
MODEL_NAME = os.getenv("MODEL_NAME")
TEMPERATURE = float(os.getenv("TEMPERATURE"))

client = openai.OpenAI(api_key=api_key)

## 참고; 로컬 mariadb 사용시 데이터 전처리 부분 수정됨 (더미데이터 추가 및 profileId 추가)

In [None]:
import pandas as pd
from sqlalchemy import create_engine, text

# # 엑셀 파일 로딩
# file_path = "processed_output.xlsx"
# df = pd.read_excel(file_path)

# # ID 컬럼이 NaN인 행 삭제
# df = df.dropna(subset=['ID'])
# print(f"📊 NaN 값 제거 후 총 {len(df)}개 행")

# # profileId 컬럼 추가 - 같은 ID값에 대해 동일한 profileId 부여
# unique_ids = df['ID'].unique()
# id_to_profile = {id_val: idx + 1 for idx, id_val in enumerate(unique_ids)}
# df['profileId'] = df['ID'].map(id_to_profile)

# # profileId를 첫 번째 컬럼으로 이동
# cols = ['profileId'] + [col for col in df.columns if col != 'profileId']
# df = df[cols]

# # 문자열 컬럼 강제 변환 (한글 오류 방지)
# for col in df.columns:
#     if df[col].dtype == object:
#         df[col] = df[col].astype(str)

# MariaDB 접속 정보
user = "root"
password = "1234"
host = "localhost"
port = 3306
database = "nav7"

# SQLAlchemy 연결
conn_str = f"mysql+pymysql://{user}:{password}@{host}:{port}/{database}?charset=utf8mb4"
engine = create_engine(conn_str)

def execute_sql(sql_query: str):
    with engine.connect() as conn:
        # text()로 감싸야 안전
        result = conn.execute(text(sql_query))
        # SELECT 쿼리면 결과를 fetch
        if sql_query.strip().lower().startswith("select"):
            rows = result.fetchall()
            # 컬럼명 가져오기
            columns = result.keys()
            # 결과 출력 또는 반환
            return columns, rows
        else:
            # SELECT 아닌 쿼리는 영향받은 row 수 반환
            return result.rowcount

# # 테이블 이름
# table_name = "project"

# # 테이블 생성 및 데이터 삽입
# df.head(0).to_sql(name=table_name, con=engine, if_exists='replace', index=False)
# df.to_sql(name=table_name, con=engine, if_exists='append', index=False)

# print(f"✅ MariaDB에 '{table_name}' 테이블 생성 및 데이터 입력 완료.")
# print(f"📊 총 {len(unique_ids)}개의 고유 ID에 대해 profileId 할당 완료")

# # profileId 할당 결과 확인
# print("\n📋 profileId 할당 결과:")
# for id_val, profile_id in sorted(id_to_profile.items()):
#     count = (df['ID'] == id_val).sum()
#     print(f"ID: {id_val} -> profileId: {profile_id} (총 {count}개 행)")

In [22]:
# user_question은 이미 쿼리 재생성 에이전트를 통해 처리되었다고 가정
project_id = "EMP-100014"
user_question = "반도체 설비관리 및 설비제어, SHE 통합시스템 구축 프로젝트에서 PL 및 PM 역할을 수행한 5년차 경력으로써, 비슷한 경력과 경험을 가진 다른 전문가들이 경력 발전을 위해 어떤 경로를 선택했는지 알려주세요."

## 1. RDB로 검색하기

In [None]:
# 실제 DB 연결 함수 
def execute_sql(sql):
    """MariaDB 연결해서 SQL 실행"""
    connection = pymysql.connect(
        host=os.getenv("DB_HOST", "localhost"),
        user=os.getenv("DB_USER", "root"), 
        password=os.getenv("DB_PASSWORD", "1234"),
        database=os.getenv("DB_NAME", "nav7"),
        charset='utf8mb4'
    )
    
    try:
        with connection.cursor() as cursor:
            cursor.execute(sql)
            if sql.strip().upper().startswith('SELECT'):
                columns = [desc[0] for desc in cursor.description]
                rows = cursor.fetchall()
                return columns, rows
            else:
                connection.commit()
                return cursor.rowcount
    finally:
        connection.close()

# 데이터베이스 스키마 및 메타데이터
SCHEMA = """
CREATE TABLE `project` (
  `ID` text DEFAULT NULL,
  `StartYear` double DEFAULT NULL,
  `EndYear` double DEFAULT NULL,
  `Project` text DEFAULT NULL,
  `ProjectScale` double DEFAULT NULL,
  `Roles` text DEFAULT NULL,
  `SkillSet1` text DEFAULT NULL,
  `SkillSet2` text DEFAULT NULL,
  `SkillSet3` text DEFAULT NULL,
  `SkillSet4` text DEFAULT NULL,
  `Industry` text DEFAULT NULL,
  `CareerImpact` double DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
"""

ROLES = """
Mainframe, System, Administrator, Application, Arch., Architect, Back-End, CICD, Cloud, Cost, DB2, DBA,
Dev., Eng., Engineer, Engineering, Front-End, MPA, Mgmt, Middleware, Monitoring, NW, Net., Networking,
Operation, Ops, PL, PM, PMO, Process, QA, SM, SaaS, Security, Server, Service, Solution,
TA, Tech., Technical, Web, architect, controller, 교육, 마스터, 모듈개발, 운영, 인터페이스
"""

SKILLSETS = """
Front-end Dev, Back-end Dev, Mobile Dev, Factory 기획/설계, 자동화 Eng, 지능화 Eng,
ERP_FCM, ERP_SCM, ERP_HCM, ERP_T&E, Biz. Solution, System/Network Eng,
Middleware/Database Eng, Data Center Eng, Cyber Security,
Application Architect, Data Architect, Technical Architect,
Infra PM, Application PM, Solution PM, PMO, Quality Eng, Offshoring Service Professional,
AI/Data Dev, Generative AI Dev, Generative AI Model Dev,
Sales, Domain Expert, ESG/SHE, ERP, SCM, CRM, AIX,
Strategy Planning, New Biz. Dev, Financial Mgmt, Human Resource Mgmt,
Stakeholder Mgmt, Governance & Public Mgmt,
Infra PM -- 대형PM, Application PM -- 대형PM, Solution PM -- 대형PM
"""

INDUSTRIES = """
물류, 제2금융, 제조, 공공, 미디어, 통신, 금융, 공통, Global, 
대외, 제1금융, 은행, 의료, 유통, 보험, SK그룹, 유통/서비스, 유통/물류/서비스
"""

def expand_questions(user_question: str) -> List[str]:
    """사용자 질문을 3개의 확장 질문으로 변환"""
    prompt = f"""
    당신은 데이터베이스 및 업무 도메인 전문가입니다.
    아래 사용자 질문과 관련된 다양한 데이터를 찾을 수 있는 3개의 확장 질문을 만들어주세요.

    중요한 규칙:
    1. 원본 질문의 핵심 키워드를 포함하되, 다양한 각도에서 데이터를 조회할 수 있도록 확장
    2. 데이터베이스 필터링 가능한 조건만 사용 (Roles, SkillSet1-4, Project, ProjectScale, Industry, CareerImpact, StartYear, EndYear 등)
    3. 추상적이거나 감정적인 내용은 절대 포함하지 말 것

    질문: "{user_question}"

    아래 형식으로만 응답하세요:
    - 질문 1
    - 질문 2  
    - 질문 3
    """
    
    intent_response = client.chat.completions.create(
        model=MODEL_NAME,
        messages=[
            {"role": "system", "content": "당신은 자연어 이해 및 질문 확장 전문가입니다."},
            {"role": "user", "content": prompt}
        ],
        temperature=TEMPERATURE
    )

    expanded_text = intent_response.choices[0].message.content.strip()
    questions = [
        line.lstrip("- ").strip()
        for line in expanded_text.splitlines()
        if line.startswith("- ")
    ]
    print("확장된 질문: ", questions)
    return questions

def generate_sql_queries(questions: List[str]) -> List[str]:
    """확장된 질문들을 SQL 쿼리로 변환 - 개선된 프롬프트"""
    questions_text = "\n".join([f"{i+1}. {q}" for i, q in enumerate(questions)])
    
    prompt = f"""
    아래는 데이터베이스 스키마입니다:
    {SCHEMA}

    Roles 목록: {ROLES}
    Skill Set 목록: {SKILLSETS}
    Industry 목록: {INDUSTRIES}

    다음 질문들에 각각 적합한 SQL 쿼리를 작성해 주세요.
    
    SQL 작성 가이드라인:
    1. 항상 'ID' 컬럼을 포함하여 조회
    2. LIKE '%키워드%' 사용하여 부분 매칭
    3. OR 조건을 적극 활용하여 많은 관련 데이터 수집
    
    각 질문에 대해 다음 형식으로 응답:
    질문 1에 대한 SQL:
    ```sql
    SELECT ID * FROM project WHERE ...
    ```
    
    질문들:
    {questions_text}
    """
    
    sql_response = client.chat.completions.create(
        model=MODEL_NAME,
        messages=[
            {"role": "system", "content": "당신은 SQL 전문가입니다."},
            {"role": "user", "content": prompt}
        ],
        temperature=TEMPERATURE
    )

    response_text = sql_response.choices[0].message.content.strip()
    
    # SQL 블록 추출
    sql_blocks = re.findall(r'```sql\s*(.*?)\s*```', response_text, re.DOTALL)
    sql_queries = []
    
    for sql_block in sql_blocks:
        cleaned_sql = ' '.join(sql_block.strip().split())
        sql_queries.append(cleaned_sql)
    
    return sql_queries

def execute_sql_queries(sql_queries: List[str], execute_sql_func, exclude_id=None) -> List[str]:
    """SQL 쿼리들을 실행하고 ID들을 수집"""
    all_ids = []
    
    for i, sql in enumerate(sql_queries, 1):
        try:
            result = execute_sql_func(sql)
            if isinstance(result, tuple):
                columns, rows = result
                
                # ID 컬럼 찾기
                try:
                    id_index = list(columns).index('ID')
                    ids = [row[id_index] for row in rows if row[id_index] is not None and row[id_index] != exclude_id]
                    all_ids.extend(ids)
                except ValueError:
                    print("❌ 'ID' 컬럼이 결과에 없습니다.")
            else:
                print(f"✅ Affected rows: {result}")
        except Exception as e:
            print(f"❌ Error executing SQL {i}: {e}")
    
    return all_ids

def get_top_career_profiles(all_ids: List[str], execute_sql_func, top_n: int = 3):
    """상위 N개 ID 프로필 조회 - ChromaDB 스타일과 같도록 출력"""
    counter = Counter(all_ids)
    most_common_ids = counter.most_common(top_n)
    
    if not most_common_ids:
        return {}
    
    # 상위 ID들 조회
    top_ids = [id_val for id_val, _ in most_common_ids]
    in_clause = ", ".join(f"'{id_val}'" for id_val in top_ids)
    query = f"SELECT * FROM project WHERE ID IN ({in_clause});"
    
    result = execute_sql_func(query)
    columns, rows = result
    
    # ID별 그룹화
    person_projects = defaultdict(list)
    for row in rows:
        row_dict = dict(zip(columns, row))
        person_projects[row_dict['ID']].append(row_dict)
    
    # 간단한 포맷팅
    career_profiles = {}
    for person_id, projects in person_projects.items():
        profile = f"=== 선택된 사원 ===\n사번: {person_id}\n총 경력 수: {len(projects)}개\n\n경력 상세:\n"
        
        for j, p in enumerate(projects, 1):
            years = f"{int(p.get('StartYear', 0))}~{int(p.get('EndYear', 0))}년차"
            skills = ', '.join([str(p.get(f'SkillSet{i}', '')) for i in range(1,5) if p.get(f'SkillSet{i}')])
            
            profile += f"  경력 {j}: {years} - {p.get('Roles', '')}\n"
            profile += f"    스킬셋: {skills}\n"
            profile += f"    도메인: {p.get('Industry', '')}\n"
            profile += f"    프로젝트규모: {p.get('ProjectScale', '')}\n"
            profile += f"    커리어임팩트: {p.get('CareerImpact', '')} - {p.get('CareerImpactDesc', '')}\n"
            profile += f"    요약: {p.get('Project', '')}\n\n"
        
        career_profiles[person_id] = profile
        print(profile)
    
    return career_profiles

def analyze_career_question(user_question: str, execute_sql_func):
    """전체 커리어 분석 프로세스 실행 - ChromaDB 형식 반환"""
    print(f"사용자 질문: {user_question}\n")
    
    # 1. 질문 확장
    expanded_questions = expand_questions(user_question)
    
    # 2. SQL 생성
    sql_queries = generate_sql_queries(expanded_questions)
    print(f"\n생성된 SQL 쿼리 {len(sql_queries)}개:")
    for i, sql in enumerate(sql_queries, 1):
        print(f"{i}. {sql}")
    
    # 3. SQL 실행 및 ID 수집
    all_ids = execute_sql_queries(sql_queries, execute_sql_func)
    
    # 4. 상위 커리어 프로필 조회 및 반환 (ChromaDB 형식)
    career_profiles = get_top_career_profiles(all_ids, execute_sql_func)
    
    return career_profiles


## 2. chromaDB로 검색하기

mariaDB에서 데이터를 못찾아온경우

### 원격 chromadb 연결을 위한 함수

In [13]:
import chromadb

def get_chroma_client():
    """원격 ChromaDB 클라이언트 생성 (데이터베이스 포함)"""
    client = chromadb.HttpClient(
        host="chromadb-1.skala25a.project.skala-ai.com",
        port=443,
        ssl=True,
        headers={
            "Authorization": "Basic YWRtaW46U2thbGEyNWEhMjMk"
        },
        database="nav7"  # 데이터베이스 이름 지정
    )
    
    return client

### chromadb search

In [None]:
def find_best_match(query_text: str):
    """쿼리에 가장 적합한 인재 찾기"""
    
    # 1. 상위 5명 정보 가져오기
    candidates = get_top5_info(query_text)
    
    # 2. LLM으로 1명 선택
    llm_choice = llm_select(query_text, candidates)
    
    # 3. 선택된 사번으로 상세 정보 반환
    emp_id = re.search(r'EMP-\d+', llm_choice).group(0)
    return get_employee_detail(emp_id)

def get_top5_info(query_text):
    """상위 5명 간단 정보"""
    client = get_chroma_client()
    collection = client.get_collection(name=os.getenv("JSON_HISTORY_COLLECTION_NAME"))
    
    embedding_model = SentenceTransformer(os.getenv("EMBEDDING_MODEL_NAME"))
    query_embedding = embedding_model.encode([query_text]).tolist()
    
    results = collection.query(query_embeddings=query_embedding, n_results=20, include=['metadatas'])
    
    # 중복 제거로 5명 선택
    seen = set()
    top5 = []
    for meta in results['metadatas'][0]:
        emp_id = meta['사번']
        if emp_id not in seen and emp_id != exclude_id:
            seen.add(emp_id)
            top5.append(emp_id)
            if len(top5) == 5:
                break
    
    # 간단한 후보 정보
    info = ""
    for i, emp_id in enumerate(top5, 1):
        emp_data = collection.get(where={"사번": emp_id}, include=['metadatas'])
        meta = emp_data['metadatas'][0]
        info += f"{i}. {meta['사번']} - {meta['grade']} - {len(emp_data['metadatas'])}개 경력\n"
    
    return info

def llm_select(query_text, candidates):
    """LLM으로 1명 선택"""
    llm = ChatOpenAI(model=os.getenv("MODEL_NAME"), temperature=0.3)
    
    prompt = PromptTemplate(
        input_variables=["query", "candidates"],
        template="""
쿼리에 가장 적합한 인재 1명을 선택해주세요.

**사용자 요청:**
{query}

**후보자들:**
{candidates}

**평가 기준:**
1. 쿼리와의 관련성 (기술 스택, 경험, 역할 등)
2. 경력 수준과 적합성
3. 도메인 경험
4. 성장 가능성 및 전환 가능성

선택: [사번]
이유: [간단한 선택 이유]
"""
    )
    
    chain = prompt | llm | StrOutputParser()
    return chain.invoke({"query": query_text, "candidates": candidates})

def get_employee_detail(emp_id):
    """선택된 사원 상세 정보"""
    client = get_chroma_client()
    collection = client.get_collection(name=os.getenv("JSON_HISTORY_COLLECTION_NAME"))
    
    emp_data = collection.get(where={"사번": emp_id}, include=['metadatas', 'documents'])
    
    result = f"=== 선택된 사원 ===\n"
    first_meta = emp_data['metadatas'][0]
    result += f"사번: {first_meta['사번']}\n"
    result += f"Grade: {first_meta['grade']}\n"
    result += f"입사년도: {first_meta['입사년도']}\n"
    result += f"총 경력 수: {len(emp_data['metadatas'])}개\n\n"
    
    result += "경력 상세:\n"
    for j, (meta, doc) in enumerate(zip(emp_data['metadatas'], emp_data['documents']), 1):
        result += f"  경력 {j}: {meta['연차']} - {meta['역할']}\n"
        result += f"    스킬셋: {meta['스킬셋']}\n"
        result += f"    도메인: {meta['도메인']}\n"
        result += f"    프로젝트규모: {meta['프로젝트규모']}\n"
        result += f"    요약: {meta['요약']}\n"
        result += f"    상세내용: {doc}\n\n"
    
    return result

In [None]:
search_rdb_result = analyze_career_question(user_question, execute_sql)
# search_rdb_result = {}

if not search_rdb_result:
    print("RDB 검색 결과가 없습니다. ChromaDB를 검색합니다")
    # ChromaDB나 다른 벡터DB 검색
    search_rdb_result = find_best_match(user_question)
    print(search_rdb_result)
    
    if not search_rdb_result:
        print("모든 검색에서 결과를 찾지 못했습니다.")
        search_rdb_result = {"error": "검색 결과 없음"}

사용자 질문: 반도체 설비관리 및 설비제어, SHE 통합시스템 구축 프로젝트에서 PL 및 PM 역할을 수행한 5년차 경력으로써, 비슷한 경력과 경험을 가진 다른 전문가들이 경력 발전을 위해 어떤 경로를 선택했는지 알려주세요.

확장된 질문:  ['반도체 설비관리 및 설비제어 분야에서 PL 및 PM 역할을 수행한 전문가들의 경력 발전 경로를 산업별로 분석한 데이터는 무엇인가요?', 'SHE 통합시스템 구축 프로젝트에 참여한 5년차 경력의 전문가들이 선택한 추가적인 스킬셋은 무엇인지 확인할 수 있는 데이터는 어떤 것이 있나요?', '반도체 산업에서 PL 및 PM 역할을 수행한 전문가들의 경력 발전에 영향을 미친 프로젝트 규모와 시작 연도에 대한 통계는 어떤가요?']

생성된 SQL 쿼리 3개:
1. SELECT ID FROM project WHERE (Roles LIKE '%PL%' OR Roles LIKE '%PM%') AND (Industry LIKE '%반도체%' OR Industry LIKE '%설비관리%' OR Industry LIKE '%설비제어%');
2. SELECT ID FROM project WHERE (Project LIKE '%SHE 통합시스템 구축%' OR Project LIKE '%SHE%') AND (StartYear >= 5 OR EndYear >= 5);
3. SELECT ProjectScale, StartYear FROM project WHERE (Roles LIKE '%PL%' OR Roles LIKE '%PM%') AND Industry LIKE '%반도체%';
❌ 'ID' 컬럼이 결과에 없습니다.
=== 선택된 사원 ===
사번: EMP-100014
총 경력 수: 1개

경력 상세:
  경력 1: 1~5년차 - PL, PM
    스킬셋: 자동화 Eng.., nan, nan, nan
    도메인: 제조
    프로젝트규모: 2.0
    커리어임팩트: None - nan
    요약: 반도체 설비관리 및 설비제어, SHE 통

# test 결과
### RDB 실행시 소요시간: 평균 5.1초
### chromadb 실행시 소요시간: 평균 5.9초 (근데 가뜸 11초가 나온다)

고려해볼점
1. rule base로 하면 어떨까?
예, 쿼리에 전문가가 있는경우, CL4 이상 데이터만 가져오기 -> 이런 규칙들은 좀 더 생각해봐야할듯

2. 사용자의 데이터를 제외하고 검색하는 로직 필요.
3. sql문 작성이 생각보다 잘 생성이 안된다. -> sql문 작성시 industry, skillset같은 부분이 주어졌음에도 불구하고 주어진 데이터 이외의 키워드를 자꾸 추출함
예) SELECT ProjectScale, StartYear FROM project WHERE (Roles LIKE '%PL%' OR Roles LIKE '%PM%') AND Industry LIKE '%반도체%';
예) SELECT ID FROM project WHERE (Roles LIKE '%PL%' OR Roles LIKE '%PM%') AND (Industry LIKE '%반도체%' OR Industry LIKE '%설비관리%' OR Industry LIKE '%설비제어%');