In [40]:
# Review Text 열에서 결측값 제거
data = data.dropna(subset=['Review Text'])

# 결과 확인 (결측값이 제거되었는지 확인)
print(data['Review Text'].isnull().sum())  # 결과는 0이어야 합니다.

# 필요하면 수정된 데이터를 다시 저장
data.to_csv('cleaned_review_data.csv', index=False, encoding='utf-8-sig')
print("결측값이 제거된 데이터가 'cleaned_review_data.csv'로 저장되었습니다.")


0
결측값이 제거된 데이터가 'cleaned_review_data.csv'로 저장되었습니다.


In [1]:
import pandas as pd

file_path = 'cleaned_review_data.csv'
data = pd.read_csv(file_path)

In [2]:
# 별점이 1인 데이터 필터링
data_1 = data.loc[data["Star Rating"] == "1점"]

# 별점이 2인 데이터 필터링
data_2 = data.loc[data["Star Rating"] == "2점"]

# 두 DataFrame을 합치기
data12 = pd.concat([data_1, data_2], ignore_index=True)
data12

Unnamed: 0,Star Rating,Review Text,Tokens
0,1점,도 효과없고별루,['효과']
1,1점,와 트러블 별로 없는 스타일인데 이거 저는 안맞네요 일단 팩 올리고 마른뒤에 떼어내...,"['오다', '트러블', '스타일', '맞다', '일단', '올리다', '마르다',..."
2,1점,사용하기엔 편리하나 이게 바르고 말리는과정에서 얼굴이 완전 쫙 쪼글거리면서 너무 음...,"['사용', '편리하다', '바르다', '말리다', '과정', '얼굴', '완전',..."
3,1점,주문하고 시간이나 지나서 멋대로 반은 품절로 취소시키고 개떡같은 서비스,"['주문', '시간', '지나다', '멋대로', '품절', '취소', '시키다', ..."
4,1점,좋아요 잘사용중 입니다,"['좋다', '사용']"
...,...,...,...
113,2점,사용하고 나서도 좀 건조했슴,"['사용', '나서다', '건조하다']"
114,2점,음되게 꾸덕하고 찐득하고 발림성이 좋진 않습니다그리고 되게 때처럼 밀려나와서 좀 불편해요,"['꾸다', '찐득하다', '발림', '좋다', '않다', '밀리다', '나오다',..."
115,2점,아우 그냥 너무 별로에염 절대안사,"['아우', '그냥', '대안사']"
116,2점,그럭저럭 사용중입니다,['사용']


In [9]:

data12.to_csv("filtered_1_2_star_reviews.csv", index=False, encoding="utf-8-sig")

print("별점 1점과 2점 데이터를 'filtered_1_2_star_reviews.csv' 파일로 저장 완료!")


별점 1점과 2점 데이터를 'filtered_1_2_star_reviews.csv' 파일로 저장 완료!


In [3]:
# 별점이 1인 데이터 필터링
data_5 = data.loc[data["Star Rating"] == "5점"]
data_5

Unnamed: 0,Star Rating,Review Text,Tokens
0,5점,사용하기 편리하고 넘 촉촉해요 요즘 잘 쓰고 있어요,"['사용', '편리하다', '넘다', '촉촉하다', '쓰다']"
1,5점,잘 사용하겠습니다,['사용']
2,5점,쫀쫀해요 화장이 잘 받아요,"['쫀쫀해', '화장', '받다']"
3,5점,종류가 많아 고르기 좋고 사용이 편리해요,"['종류', '많다', '고르다', '좋다', '사용', '편리하다']"
4,5점,알로에랑 두종류 구매했는데좋네요,"['알로', '종류', '구매', '좋다']"
...,...,...,...
26439,5점,저렴한가격에좋은제품써서굿,"['저렴하다', '가격', '좋다', '제품', '써다']"
26680,5점,이건 이미 유명하죠 지금 있는거 말고도 여러번 샀습니다,"['유명하다', '지금', '사다']"
26681,5점,뜯어내고나서 진짜 광이나서 좋아요 뜯는것도 잘 뜯어져서 좋아요,"['뜯다', '진짜', '이나', '좋다', '뜯다', '뜯다', '좋다']"
26682,5점,세안후 수분케어하고 바르고 떼어내면 피부가 촉촉하니 좋아요,"['세안', '수분', '케어', '바르다', '떼다', '피부', '촉촉하다', ..."


In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# 'Tokens' 컬럼을 문자열로 변환
data12['Cleaned Text'] = data12['Tokens'].apply(lambda tokens: ' '.join(eval(tokens)))
data_5['Cleaned Text'] = data_5['Tokens'].apply(lambda tokens: ' '.join(eval(tokens)))

# 초기 불용어 리스트
stop_words = []

def remove_stopwords(text, stop_words):
    """불용어 제거 함수"""
    tokens = text.split()
    return ' '.join([word for word in tokens if word not in stop_words])

while True:
    # TF-IDF 분석을 위한 벡터라이저 설정
    tfidf_vectorizer = TfidfVectorizer(max_features=20)  # 상위 20개 단어만 추출

    # 별점 1, 2 데이터 불용어 제거
    data12['Filtered Text'] = data12['Cleaned Text'].apply(lambda x: remove_stopwords(x, stop_words))
    tfidf_1_2 = tfidf_vectorizer.fit_transform(data12['Filtered Text'])
    df_1_2 = pd.DataFrame({
        'Star1,2': tfidf_vectorizer.get_feature_names_out(),
        'TF-IDF': tfidf_1_2.sum(axis=0).A1
    }).sort_values(by="TF-IDF", ascending=False)

    # 별점 5 데이터 불용어 제거
    data_5['Filtered Text'] = data_5['Cleaned Text'].apply(lambda x: remove_stopwords(x, stop_words))
    tfidf_5 = tfidf_vectorizer.fit_transform(data_5['Filtered Text'])
    df_5 = pd.DataFrame({
        'Star5': tfidf_vectorizer.get_feature_names_out(),
        'TF-IDF': tfidf_5.sum(axis=0).A1
    }).sort_values(by="TF-IDF", ascending=False)

    # 결과 병합
    result = pd.concat([df_1_2.reset_index(drop=True), df_5.reset_index(drop=True)], axis=1)

    # TF-IDF 결과 출력
    from IPython.display import display
    print("\n현재 불용어 목록:", stop_words)
    display(result)

    # 불용어 입력 받기
    user_stopwords = input("추가하고 싶은 불용어를 쉼표로 구분하여 입력하세요 (종료: 엔터):").strip()
    if user_stopwords == "":
        print("프로그램을 종료합니다.")
        break

    # 불용어 업데이트
    stop_words.extend([word.strip() for word in user_stopwords.split(",") if word.strip()])
    stop_words = list(set(stop_words))  # 중복 제거


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_5['Cleaned Text'] = data_5['Tokens'].apply(lambda tokens: ' '.join(eval(tokens)))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_5['Filtered Text'] = data_5['Cleaned Text'].apply(lambda x: remove_stopwords(x, stop_words))



현재 불용어 목록: []


Unnamed: 0,"Star1,2",TF-IDF,Star5,TF-IDF.1
0,좋다,12.761424,좋다,5785.764853
1,사용,10.518525,사용,2848.610331
2,바르다,9.590516,구매,2239.449871
3,얼굴,9.560909,피부,1908.077488
4,피부,8.897512,써다,1705.181329
5,다이소,8.411782,자극,1569.928933
6,받다,7.909643,쓰다,1434.19664
7,써다,7.62303,바르다,1279.948104
8,제품,7.439826,효과,1227.825321
9,주문,7.264269,촉촉하다,1027.696744


추가하고 싶은 불용어를 쉼표로 구분하여 입력하세요 (종료: 엔터):'다이소',  '재다',  '그렇다',  '리들샷',  '보고',  '구입',  '오다',  '쓰다',  '사다',  '써다',  '생각',  '사용',  '이벤트',  '이렇다',  '아니다',  '제품',  '맞다',  '들다',  '해보다',  '이서',  '모르다',  '받다',  '다음',  '한번',  '가다',  '거리',  '이용',  '않다',  '효과',  '계속',  '그냥',  '바르다',  '처음'


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_5['Filtered Text'] = data_5['Cleaned Text'].apply(lambda x: remove_stopwords(x, stop_words))



현재 불용어 목록: ["'해보다'", "'받다'", "'그렇다'", "'구입'", "'재다'", "'쓰다'", "'다이소'", "'오다'", "'거리'", "'효과'", "'사다'", "'들다'", "'가다'", "'그냥'", "'보고'", "'이서'", "'이용'", "'다음'", "'계속'", "'맞다'", "'생각'", "'이벤트'", "'사용'", "'이렇다'", "'써다'", "'리들샷'", "'아니다'", "'모르다'", "'않다'", "'바르다'", "'제품'", "'한번'", "'처음'"]


Unnamed: 0,"Star1,2",TF-IDF,Star5,TF-IDF.1
0,좋다,12.761424,좋다,5785.764853
1,사용,10.518525,사용,2848.610331
2,바르다,9.590516,구매,2239.449871
3,얼굴,9.560909,피부,1908.077488
4,피부,8.897512,써다,1705.181329
5,다이소,8.411782,자극,1569.928933
6,받다,7.909643,쓰다,1434.19664
7,써다,7.62303,바르다,1279.948104
8,제품,7.439826,효과,1227.825321
9,주문,7.264269,촉촉하다,1027.696744


추가하고 싶은 불용어를 쉼표로 구분하여 입력하세요 (종료: 엔터):다이소, 재다, 그렇다, 리들샷, 보고, 구입, 오다, 쓰다, 사다, 써다, 생각, 사용, 이벤트, 이렇다, 아니다, 제품, 맞다, 들다, 해보다, 이서, 모르다, 받다, 다음, 한번, 가다, 거리, 이용, 않다, 효과, 계속, 그냥, 바르다, 처음


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_5['Filtered Text'] = data_5['Cleaned Text'].apply(lambda x: remove_stopwords(x, stop_words))



현재 불용어 목록: ["'해보다'", "'받다'", '다이소', "'그렇다'", "'구입'", '재다', '그렇다', '리들샷', "'재다'", "'쓰다'", "'다이소'", '보고', '구입', "'거리'", "'오다'", '오다', '쓰다', "'효과'", "'사다'", '사다', "'들다'", '써다', '생각', '사용', "'가다'", "'그냥'", '이벤트', "'보고'", '이렇다', '아니다', "'이서'", '제품', "'이용'", "'다음'", '처음', "'계속'", '맞다', '들다', '해보다', "'맞다'", '이서', "'생각'", '모르다', "'이벤트'", '받다', "'사용'", "'이렇다'", '다음', "'써다'", '한번', '가다', "'리들샷'", "'아니다'", "'모르다'", '이용', '않다', '효과', "'않다'", '계속', '그냥', "'바르다'", "'제품'", "'한번'", "'처음'", '바르다', '거리']


Unnamed: 0,"Star1,2",TF-IDF,Star5,TF-IDF.1
0,좋다,14.38269,좋다,6832.468405
1,얼굴,11.510484,구매,2621.13444
2,피부,9.328707,피부,2057.944222
3,주문,8.044948,자극,1792.326358
4,따갑다,7.695773,촉촉하다,1131.738789
5,배송,5.488888,느낌,816.206199
6,뒤집어지다,4.844258,꾸준하다,769.947733
7,자극,4.721411,편하다,690.979595
8,느낌,4.67876,따갑다,680.337335
9,구매,4.469,배송,676.423151


추가하고 싶은 불용어를 쉼표로 구분하여 입력하세요 (종료: 엔터):되어다


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_5['Filtered Text'] = data_5['Cleaned Text'].apply(lambda x: remove_stopwords(x, stop_words))



현재 불용어 목록: ["'해보다'", "'받다'", '다이소', "'그렇다'", "'구입'", '재다', '그렇다', '리들샷', "'재다'", "'쓰다'", '되어다', "'다이소'", '보고', '구입', "'오다'", "'거리'", '오다', '쓰다', "'효과'", "'사다'", '사다', "'들다'", '써다', '생각', '사용', "'가다'", "'그냥'", '이벤트', "'보고'", '이렇다', '아니다', "'이서'", '제품', "'이용'", "'다음'", "'계속'", '맞다', '들다', '해보다', "'맞다'", '이서', "'생각'", '모르다', "'이벤트'", '받다', "'사용'", "'이렇다'", '다음', "'써다'", '한번', '가다', "'리들샷'", "'아니다'", "'모르다'", '이용', '않다', '거리', '효과', "'않다'", '계속', '그냥', "'바르다'", "'제품'", "'한번'", "'처음'", '바르다', '처음']


Unnamed: 0,"Star1,2",TF-IDF,Star5,TF-IDF.1
0,좋다,14.532524,좋다,6832.468405
1,얼굴,12.0093,구매,2621.13444
2,피부,9.582711,피부,2057.944222
3,주문,7.890705,자극,1792.326358
4,따갑다,7.801192,촉촉하다,1131.738789
5,배송,5.488888,느낌,816.206199
6,뒤집어지다,4.844258,꾸준하다,769.947733
7,자극,4.836036,편하다,690.979595
8,느낌,4.67876,따갑다,680.337335
9,구매,4.469,배송,676.423151


추가하고 싶은 불용어를 쉼표로 구분하여 입력하세요 (종료: 엔터):
프로그램을 종료합니다.


In [11]:
stop_words

["'해보다'",
 "'받다'",
 '다이소',
 "'그렇다'",
 "'구입'",
 '재다',
 '그렇다',
 '리들샷',
 "'재다'",
 "'쓰다'",
 '되어다',
 "'다이소'",
 '보고',
 '구입',
 "'오다'",
 "'거리'",
 '오다',
 '쓰다',
 "'효과'",
 "'사다'",
 '사다',
 "'들다'",
 '써다',
 '생각',
 '사용',
 "'가다'",
 "'그냥'",
 '이벤트',
 "'보고'",
 '이렇다',
 '아니다',
 "'이서'",
 '제품',
 "'이용'",
 "'다음'",
 "'계속'",
 '맞다',
 '들다',
 '해보다',
 "'맞다'",
 '이서',
 "'생각'",
 '모르다',
 "'이벤트'",
 '받다',
 "'사용'",
 "'이렇다'",
 '다음',
 "'써다'",
 '한번',
 '가다',
 "'리들샷'",
 "'아니다'",
 "'모르다'",
 '이용',
 '않다',
 '거리',
 '효과',
 "'않다'",
 '계속',
 '그냥',
 "'바르다'",
 "'제품'",
 "'한번'",
 "'처음'",
 '바르다',
 '처음']

In [12]:
import pandas as pd

# 데이터 로드
file_path =  'cleaned_review_data.csv'  # 제공된 파일 이름
data = pd.read_csv(file_path)

def remove_stopwords(tokens, stop_words):
    """Tokens에서 불용어 제거 함수"""
    return [word for word in tokens if word not in stop_words]

# 'Tokens' 컬럼을 리스트로 변환
data['Tokens'] = data['Tokens'].apply(eval)


# 불용어 제거 적용 (기존 Tokens 컬럼에서만 처리)
data['Tokens'] = data['Tokens'].apply(lambda tokens: remove_stopwords(tokens, stop_words))

# 'Filtered Tokens'와 'Filtered Text' 열 제거
columns_to_drop = ['Filtered Tokens', 'Filtered Text']
data = data.drop(columns=[col for col in columns_to_drop if col in data.columns])

# 'Tokens' 컬럼이 빈 리스트([])인 행 제거
data_cleaned = data[data['Tokens'].apply(len) > 0]

# 결과를 새로운 CSV 파일로 저장
output_file = 'cleaned_filtered_tokens_data.csv'
data_cleaned.to_csv(output_file, index=False, encoding='utf-8-sig')

print(f"불용어가 제거되고 정리된 데이터가 '{output_file}' 파일로 저장되었습니다.")


불용어가 제거되고 정리된 데이터가 'cleaned_filtered_tokens_data.csv' 파일로 저장되었습니다.


In [18]:
import pandas as pd

# 데이터 로드
file_path = "cleaned_filtered_tokens_data.csv"  # 파일 경로를 적절히 변경
data = pd.read_csv(file_path)

# "따끔하다"를 "따갑다"로 변환하는 함수
def merge_tokens(tokens):
    return ["따갑다" if token == "따끔하다" else token for token in tokens]

# NaN 값 제거 및 문자열 변환 후 적용
data["Tokens"] = data["Tokens"].dropna().apply(eval).apply(merge_tokens)

# 변환된 데이터 저장
data.to_csv("merged_tokens_data.csv", index=False, encoding="utf-8-sig")

print("변환 완료! '따끔하다' → '따갑다' 변경 후 'merged_tokens_data.csv'에 저장되었습니다.")


변환 완료! '따끔하다' → '따갑다' 변경 후 'merged_tokens_data.csv'에 저장되었습니다.


In [13]:
import pandas as pd

file_path = 'cleaned_filtered_tokens_data.csv' 
data3= pd.read_csv(file_path)
data3

Unnamed: 0,Star Rating,Review Text,Tokens
0,5점,사용하기 편리하고 넘 촉촉해요 요즘 잘 쓰고 있어요,"['편리하다', '넘다', '촉촉하다']"
1,5점,쫀쫀해요 화장이 잘 받아요,"['쫀쫀해', '화장']"
2,5점,종류가 많아 고르기 좋고 사용이 편리해요,"['종류', '많다', '고르다', '좋다', '편리하다']"
3,5점,알로에랑 두종류 구매했는데좋네요,"['알로', '종류', '구매', '좋다']"
4,5점,아주마음에 들어요,['마음']
...,...,...,...
25981,5점,세안후 수분케어하고 바르고 떼어내면 피부가 촉촉하니 좋아요,"['세안', '수분', '케어', '떼다', '피부', '촉촉하다', '좋다']"
25982,5점,추천받아서 써봤는데 자고 일어나면 은은하게 광이 생기는 느낌,"['추천', '자고', '일어나다', '은은하다', '생기다', '느낌']"
25983,4점,개별 파우치라 위생적 간편함,"['개별', '파우치', '위생', '간편하다']"
25984,4점,하고나면 촉촉하네요 개별파우치라 위생접,"['촉촉하다', '개별', '파우치', '위생']"


In [11]:
import pandas as pd
from collections import Counter

# 필터링된 데이터 로드
filtered_file_path = 'cleaned_filtered_tokens_data.csv'
filtered_data = pd.read_csv(filtered_file_path)

# 'Filtered Tokens' 컬럼을 리스트 형태로 변환
filtered_data['Filtered Tokens'] = filtered_data['Filtered Tokens'].apply(eval)

# 모든 단어의 빈도 계산
all_words = [word for tokens in filtered_data['Filtered Tokens'] for word in tokens]
word_counts = Counter(all_words)

# 단어와 빈도를 데이터프레임으로 변환
word_freq_df = pd.DataFrame(word_counts.items(), columns=['단어', '빈도']).sort_values(by='빈도', ascending=False).reset_index(drop=True)

# 데이터프레임 출력
print("단어 빈도 데이터프레임:")
print(word_freq_df.head(20))  # 상위 20개 단어 출력


단어 빈도 데이터프레임:
      단어    빈도
0     구매  4279
1     피부  4184
2     자극  3193
3    바르다  2987
4     효과  2449
5   촉촉하다  1742
6    리들샷  1727
7     느낌  1618
8     제품  1496
9     재다  1235
10  꾸준하다  1204
11   따갑다  1171
12    배송  1113
13   괜찮다  1112
14  좋아지다  1100
15   편하다   976
16  확실하다   941
17    받다   934
18    생각   926
19    계속   903


In [21]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26762 entries, 0 to 26761
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Star Rating  26762 non-null  object
 1   Review Text  26688 non-null  object
 2   Tokens       26762 non-null  object
dtypes: object(3)
memory usage: 627.4+ KB
