`homework_web_review_preprocessing_251224.ipynb`에 작성하세요. # 36

웹에서 수집된 다음 리뷰데이터에 적절한 전처리를 수행하세요.

1. 개인정보 제거 (`ID`, `이름`, `전화번호`, `이메일`)
2. HTML 태그 제거
3. 한글 형태소 분석 및 불용어 제거
4. 정수 인코딩
5. 패딩 처리

```python
reviews = [
    "ID:apple01 이름:김사과 전화번호:010-1234-5678 이메일:apple01@example.com<br>이 신발 진짜 좋아요!! 착화감 짱이에요.<div>배송도 빠름</div>",
    "이름:이바나 전화번호:01098765432 이메일:banana77@naver.com<br><a href='#'>클릭</a>해서 사길 잘했어요. 가성비 최고입니다.",
    "ID:user123 이름:박멜론 전화번호:010-0000-0000 이메일:melon@gmail.com<br>별로였어요.. 품질이 아쉽네요. <b>별점: ★★☆☆☆</b>",
    "ID:guest99 이름:정오렌지 이메일:orange@daum.net<br>배송 느렸지만 제품은 괜찮아요.<br>잘 쓰고 있어요~!",
    "ID:cherry88 이름:한체리 전화번호:01011112222 이메일:hanchaeri@naver.com<br><div>포장도 깔끔하고 선물용으로 딱이에요!</div>",
    "이름:남블루 전화번호:010-9999-9999 이메일:blue@blue.com<br>생각보다 작아요. 그래도 품질은 만족입니다.",
    "ID:sky007 이름:하늘이 이메일:sky007@sk.com<br><span>재구매 의사 있어요.</span> 사이즈도 잘 맞고 예뻐요!",
    "ID:minty 이름:민트초코 전화번호:010-3333-4444 이메일:mint@mint.com<br>조금 무겁지만 튼튼해 보여서 만족합니다.",
    "ID:goldman 이름:황금이 전화번호:010-2323-2323 이메일:gold@gold.com<br><div>저렴하게 잘 샀어요. 다음에 또 구매할게요.</div>",
    "이름:유자 이메일:yooja@yooja.com<br>향이 진하고 고급스러워요. <b>추천합니다.</b>"
]
```


In [2]:
!pip install konlpy tensorflow
!pip uninstall jpype1
!pip install jpype1

^C


In [None]:
import re
from konlpy.tag import Okt
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 원본 데이터
reviews = [
    "ID:apple01 이름:김사과 전화번호:010-1234-5678 이메일:apple01@example.com<br>이 신발 진짜 좋아요!! 착화감 짱이에요.<div>배송도 빠름</div>",
    "이름:이바나 전화번호:01098765432 이메일:banana77@naver.com<br><a href='#'>클릭</a>해서 사길 잘했어요. 가성비 최고입니다.",
    "ID:user123 이름:박멜론 전화번호:010-0000-0000 이메일:melon@gmail.com<br>별로였어요.. 품질이 아쉽네요. <b>별점: ★★☆☆☆</b>",
    "ID:guest99 이름:정오렌지 이메일:orange@daum.net<br>배송 느렸지만 제품은 괜찮아요.<br>잘 쓰고 있어요~!",
    "ID:cherry88 이름:한체리 전화번호:01011112222 이메일:hanchaeri@naver.com<br><div>포장도 깔끔하고 선물용으로 딱이에요!</div>",
    "이름:남블루 전화번호:010-9999-9999 이메일:blue@blue.com<br>생각보다 작아요. 그래도 품질은 만족입니다.",
    "ID:sky007 이름:하늘이 이메일:sky007@sk.com<br><span>재구매 의사 있어요.</span> 사이즈도 잘 맞고 예뻐요!",
    "ID:minty 이름:민트초코 전화번호:010-3333-4444 이메일:mint@mint.com<br>조금 무겁지만 튼튼해 보여서 만족합니다.",
    "ID:goldman 이름:황금이 전화번호:010-2323-2323 이메일:gold@gold.com<br><div>저렴하게 잘 샀어요. 다음에 또 구매할게요.</div>",
    "이름:유자 이메일:yooja@yooja.com<br>향이 진하고 고급스러워요. <b>추천합니다.</b>"
]

# ---------------------------------------------------------
# 1 & 2단계: 개인정보 및 HTML 태그 제거 함수
# ---------------------------------------------------------
def clean_text(text):
    # 1. HTML 태그 제거 (<...>)
    text = re.sub(r'<[^>]+>', ' ', text)
    
    # 2. 개인정보 제거
    # 전화번호 (하이픈 있거나 없거나)
    text = re.sub(r'전화번호:\d{2,3}-?\d{3,4}-?\d{4}', '', text)
    # 이메일
    text = re.sub(r'이메일:[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '', text)
    # ID (영문+숫자)
    text = re.sub(r'ID:[a-zA-Z0-9_]+', '', text)
    # 이름 (한글)
    text = re.sub(r'이름:[가-힣]+', '', text)
    
    # 불필요한 특수문자 제거 (선택사항: 한글과 공백만 남김)
    # text = re.sub(r'[^가-힣\s]', '', text) 
    
    # 다중 공백을 하나의 공백으로 치환
    text = re.sub(r'\s+', ' ', text).strip()
    return text

# 정제된 텍스트 리스트 생성
cleaned_reviews = [clean_text(review) for review in reviews]

print("--- [1, 2단계 결과] 정제된 텍스트 ---")
for i, r in enumerate(cleaned_reviews):
    print(f"{i+1}: {r}")

# ---------------------------------------------------------
# 3단계: 한글 형태소 분석 및 불용어 제거
# ---------------------------------------------------------
okt = Okt()
stopwords = ['이', '가', '은', '는', '도', '를', '으로', '에서', '..', '!!', '~!', '이다', '하다']

tokenized_reviews = []
for sentence in cleaned_reviews:
    # 형태소 분석 및 어간 추출 (stem=True: 좋다, 빠르다 등 기본형으로 변경)
    temp_X = okt.morphs(sentence, stem=True) 
    # 불용어 제거
    temp_X = [word for word in temp_X if not word in stopwords] 
    tokenized_reviews.append(temp_X)

print("\n--- [3단계 결과] 토큰화 및 불용어 제거 ---")
print(tokenized_reviews[:3]) # 상위 3개만 출력

# ---------------------------------------------------------
# 4단계: 정수 인코딩
# ---------------------------------------------------------
tokenizer = Tokenizer()
tokenizer.fit_on_texts(tokenized_reviews)

# 텍스트를 정수 시퀀스로 변환
encoded_reviews = tokenizer.texts_to_sequences(tokenized_reviews)

print("\n--- [4단계 결과] 정수 인코딩 ---")
print(f"단어 집합 크기: {len(tokenizer.word_index)}")
print(encoded_reviews[:3])

# ---------------------------------------------------------
# 5단계: 패딩 (Padding)
# ---------------------------------------------------------
# 리뷰의 최대 길이 확인 (가장 긴 리뷰 기준) 또는 임의 설정
max_len = max(len(l) for l in encoded_reviews)

# 패딩 적용 (pad='pre'는 앞에 0을 채움, 'post'는 뒤에 채움)
padded_reviews = pad_sequences(encoded_reviews, maxlen=max_len, padding='pre')

print(f"\n--- [5단계 결과] 패딩 (최대 길이: {max_len}) ---")
print(padded_reviews)

  if not hasattr(np, "object"):


--- [1, 2단계 결과] 정제된 텍스트 ---
1: 이 신발 진짜 좋아요!! 착화감 짱이에요. 배송도 빠름
2: 클릭 해서 사길 잘했어요. 가성비 최고입니다.
3: 별로였어요.. 품질이 아쉽네요. 별점: ★★☆☆☆
4: 배송 느렸지만 제품은 괜찮아요. 잘 쓰고 있어요~!
5: 포장도 깔끔하고 선물용으로 딱이에요!
6: 생각보다 작아요. 그래도 품질은 만족입니다.
7: 재구매 의사 있어요. 사이즈도 잘 맞고 예뻐요!
8: 조금 무겁지만 튼튼해 보여서 만족합니다.
9: 저렴하게 잘 샀어요. 다음에 또 구매할게요.
10: 향이 진하고 고급스러워요. 추천합니다.


RuntimeError: Can't find org.jpype.jar support library