<a href="https://colab.research.google.com/github/chaeyoooo/capstondesign_voicefishing/blob/main/top10_voca.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install konlpy

from konlpy.tag import Okt
from collections import Counter
import pandas as pd

# ① 보이스피싱 STT 데이터 불러오기
phishing_df = pd.read_csv("/content/drive/MyDrive/unnormal_texts.csv")

# ② 전체 텍스트 합치기
all_text = " ".join(phishing_df['transcribed_text'])

# ③ 형태소 분석기 초기화
okt = Okt()

# ④ 명사 추출
nouns = okt.nouns(all_text)

print(f"✅ 명사 추출 완료: 총 {len(nouns)}개 단어")

# ⑤ 빈도수 계산
count = Counter(nouns)

# ⑥ 상위 100개 출력
top_words = count.most_common(100)

for i, (word, freq) in enumerate(top_words, 1):
    print(f"{i:>2}. {word:<15} {freq}")


Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m107.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (494 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m494.1/494.1 kB[0m [31m34.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.2 konlpy-0.6.0
✅ 명사 추출 완료: 총 190935개 단어
 1. 네               16117
 2. 거               4215
 3. 본인              3918
 4. 지금              3745
 5. 제               3109
 6. 그               2724
 7. 이               2508
 8. 예               2464
 9. 저희              2425
10. 안               2107


In [None]:
import pandas as pd
from google.colab import drive

### ================================
### 1. 구글 드라이브 마운트
### ================================
drive.mount('/content/drive')

### ================================
### 2. 보이스피싱 STT 데이터 불러오기
### ================================
phishing_df = pd.read_csv("/content/drive/MyDrive/unnormal_texts.csv")

print(f"✅ STT 데이터 로드 완료: {phishing_df.shape[0]} rows")
print(phishing_df.head())

### ================================
### 3. 사용자 지정 keyword 리스트
### ================================
custom_keywords = [
    '통장', '고객', '은행', '계좌', '금융',
    '카드', '조사', '대출', '피해자', '연락',
    '자금', '피해', '수사', '진술', '불법'
]

print("✅ 사용자 지정 Keywords:", custom_keywords)

### ================================
### 4. keyword flag 컬럼 추가
### ================================
def has_keyword(text):
    return int(any(keyword in text for keyword in custom_keywords))

phishing_df['has_keyword'] = phishing_df['transcribed_text'].apply(has_keyword)

print("✅ keyword flag 컬럼 추가 완료")
print(phishing_df[['transcribed_text', 'has_keyword']].head())

### ================================
### 5. 감정분석 결과 merge
### ================================
emotion_df = pd.read_csv("/content/drive/MyDrive/emotion_results.csv")

merged_phishing = pd.merge(phishing_df, emotion_df, on='file', how='left')

print("✅ 감정분석 결과 merge 완료")
print(merged_phishing[['file', 'transcribed_text', 'emotion', 'confidence', 'has_keyword']].head())

### ================================
### 6. is_deepfake 컬럼 추가
### ================================
merged_phishing['is_deepfake'] = 0

print("✅ is_deepfake 컬럼 추가 완료")
print(merged_phishing[['file', 'transcribed_text', 'emotion', 'confidence', 'has_keyword', 'is_deepfake']].head())

### ================================
### 7. DataFrame 저장
### ================================
merged_phishing.to_csv("/content/drive/MyDrive/merged_phishing.csv", index=False)

print("✅ merged_phishing 저장 완료 → /content/drive/MyDrive/merged_phishing.csv")


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
✅ STT 데이터 로드 완료: 407 rows
                                                file  \
0  _____________________________________________1...   
1  ____________________________________________tr...   
2  _______________________________OO_____________...   
3  _______________KB_____________________________...   
4  1_____________________________________________...   

                                    transcribed_text  
0   여보세요? 네 여기 강남서 사이버스사과예요 어디요? 강남서 사이버스사과요 강남서?...  
1   여보세요? 여기 강남서 사이버스 사과예요. 어디요? 강남서 사이버스 사과예요. 강...  
2   네. 네. 네. 네. 네. 네. 네. 네. 네. 네. 네. 네. 네. 네. 네. ...  
3   1단계로 알겠고요. 저희는 KB 금융괴로사 KB 저축은행인데요. 지금 5월에 저희...  
4   우리 햇살론 특성상 체무가 3개월 이상 쓰셔야 햇살론 진행이 가능하시거든요 3개월...  
✅ 사용자 지정 Keywords: ['통장', '고객', '은행', '계좌', '금융', '카드', '조사', '대출', '피해자', '연락', '자금', '피해', '수사', '진술', '불법']
✅ keyword flag 컬럼 추가 완료
                                    transcr