In [1]:
from googletrans import Translator
import joblib
import re, unicodedata
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
import nltk

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [2]:
# 불러오기
model = joblib.load('./model/knn_model.pkl')
vectorizer = joblib.load('./model/tfidf_vectorizer.pkl')
label_map = joblib.load('./model/label_map.pkl')
label_map_ko = {
    "Data Science": "데이터 사이언스",
    "Web Designing": "웹 디자인",
    "HR": "인사",
    "Advocate": "법조인",
    "Health and fitness": "건강 및 피트니스",
    "Java Developer": "자바 개발자",
    "Python Developer": "파이썬 개발자",
    "DevOps Engineer": "데브옵스 엔지니어",
    "Business Analyst": "비즈니스 분석가",
    "Electrical Engineering": "전기공학",
    "Testing": "테스터",
    "Blockchain": "블록체인 개발자"
}

In [3]:
# 전처리 함수
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def preprocess_text(text):
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('ascii')
    text = text.lower()
    text = re.sub(r'[^a-z0-9\s]', ' ', text)
    text = re.sub(r'\s+', ' ', text).strip()
    tokens = word_tokenize(text)
    tokens = [lemmatizer.lemmatize(w) for w in tokens if w not in stop_words and len(w) > 2]
    return ' '.join(tokens)

In [None]:
# 번역기
translator = Translator()

def translate_and_predict(text_ko):
    translated = translator.translate(text_ko, src='ko', dest='en').text
    print("번역된 텍스트:", translated)

    cleaned = preprocess_text(translated)
    vec = vectorizer.transform([cleaned])
    pred_idx = model.predict(vec)[0]
    pred_eng = label_map[pred_idx]
    pred_kor = label_map_ko.get(pred_eng, pred_eng)

    return {
        "original_korean": text_ko,
        "translated_english": translated,
        "predicted_category_en": pred_eng,
        "predicted_category_ko": pred_kor
    }

In [6]:
# 예시 실행
result = translate_and_predict("저는 파이썬과 데이터 분석에 능숙하며 머신러닝 프로젝트 경험이 있습니다.")
print(result)


✅ 번역된 텍스트: I am good at analysis of Python and data and have experience in machine learning projects.
{'original_korean': '저는 파이썬과 데이터 분석에 능숙하며 머신러닝 프로젝트 경험이 있습니다.', 'translated_english': 'I am good at analysis of Python and data and have experience in machine learning projects.', 'predicted_category_en': 'Data Science', 'predicted_category_ko': '데이터 사이언스'}


In [8]:
import joblib

# 기존 label_map 로드
label_map = joblib.load('./model/label_map.pkl')

# 한글 라벨 정의 (추가 필요 시 이곳에서 계속 확장)
label_korean = {
    "Data Science": "데이터 사이언스",
    "Web Designing": "웹 디자인",
    "HR": "인사",
    "Advocate": "법조인",
    "Health and fitness": "건강 및 피트니스",
    "Java Developer": "자바 개발자",
    "Python Developer": "파이썬 개발자",
    "DevOps Engineer": "데브옵스 엔지니어",
    "Business Analyst": "비즈니스 분석가",
    "Electrical Engineering": "전기공학",
    "Testing": "테스트 엔지니어",
    "Blockchain": "블록체인 개발자",
    "Arts": "예술 분야",
    "Operations Manager": "운영 관리자",
    "Mechanical Engineering": "기계공학",
    "Sales": "영업",
    "Digital Marketing": "디지털 마케팅",
    "Civil Engineer": "토목 엔지니어",
    "Automobile": "자동차",
    "Networking": "네트워크",
    "SAP Developer": "SAP 개발자",
    "DotNet Developer": ".NET 개발자",
    "Hadoop": "하둡",
    "ETL Developer": "ETL 개발자",
    "Database": "데이터베이스"
}

# 안전하게 매핑
label_map_ko = {idx: label_korean.get(eng, eng) for idx, eng in label_map.items()}

# 저장
joblib.dump(label_map_ko, './model/label_map_ko.pkl')
print("✅ label_map_ko.pkl 저장 완료!")


✅ label_map_ko.pkl 저장 완료!
