In [3]:
import pandas as pd
import re
from prefixspan import PrefixSpan

# 1. 데이터 로딩
df = pd.read_csv("train.csv")
texts = df["재발방지대책 및 향후조치계획"].dropna().tolist()

# 2. 텍스트 전처리 및 토큰화 함수
def preprocess_text(text):
    # 특수문자 제거 (한글에 맞게 필요 시 추가 전처리)
    text = re.sub(r'[^\w\s]', '', text)
    # 공백 기준 토큰화
    tokens = text.split()
    return tokens

# 모든 텍스트를 토큰 리스트(시퀀스)로 변환
sequences = [preprocess_text(text) for text in texts]

# 3. PrefixSpan을 사용한 순차 패턴 추출
ps = PrefixSpan(sequences)

# 최소 지지도를 5번 이상 등장하는 패턴으로 설정 (데이터에 맞게 조정)
patterns = ps.frequent(minsup=230)

# 지지도 기준 내림차순 정렬 후 출력
for sup, pattern in sorted(patterns, key=lambda x: -x[0]):
    print(f"지지도: {sup}, 패턴: {pattern}")


지지도: 15388, 패턴: ['및']
지지도: 8373, 패턴: ['안전교육']
지지도: 8342, 패턴: ['재발']
지지도: 8273, 패턴: ['방지']
지지도: 7950, 패턴: ['통한']
지지도: 7700, 패턴: ['실시']
지지도: 7493, 패턴: ['재발', '방지']
지지도: 7308, 패턴: ['작업']
지지도: 6624, 패턴: ['교육']
지지도: 5916, 패턴: ['시']
지지도: 5623, 패턴: ['조치']
지지도: 5339, 패턴: ['대책']
지지도: 5026, 패턴: ['방지', '대책']
지지도: 4954, 패턴: ['재발', '대책']
지지도: 4911, 패턴: ['재발', '방지', '대책']
지지도: 4896, 패턴: ['통한', '방지']
지지도: 4563, 패턴: ['작업', '및']
지지도: 4561, 패턴: ['통한', '재발']
지지도: 4484, 패턴: ['통한', '재발', '방지']
지지도: 4376, 패턴: ['근로자']
지지도: 4332, 패턴: ['계획']
지지도: 4223, 패턴: ['및', '실시']
지지도: 4179, 패턴: ['및', '및']
지지도: 4150, 패턴: ['안전교육', '및']
지지도: 4111, 패턴: ['철저']
지지도: 4027, 패턴: ['작업자']
지지도: 3962, 패턴: ['실시와']
지지도: 3958, 패턴: ['현장']
지지도: 3787, 패턴: ['전']
지지도: 3774, 패턴: ['대한']
지지도: 3721, 패턴: ['및', '방지']
지지도: 3664, 패턴: ['및', '통한']
지지도: 3637, 패턴: ['및', '조치']
지지도: 3605, 패턴: ['향후']
지지도: 3598, 패턴: ['통한', '대책']
지지도: 3573, 패턴: ['및', '재발']
지지도: 3561, 패턴: ['조치', '계획']
지지도: 3544, 패턴: ['통한', '방지', '대책']
지지도: 3491, 패턴: ['시', '및']
지지도: 3470, 패턴: [