# 데이터 불러오기 및 컬럼 분류

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd '/content/drive/MyDrive/Colab/Project/real_score'

/content/drive/MyDrive/Colab/Project/real_score


In [None]:
import pandas as pd
data = pd.read_csv('/content/drive/MyDrive/Colab/Project/Music/combined_Music.csv')
data_text = data['content']
data_score = data['score']
data_thumb = data['thumbsUpCount']

In [None]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m16.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m21.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


# 형태소 분석

In [None]:
from konlpy.tag import Okt

def analyze_and_merge_pos(data_text, data_score, data_thumb):
    okt = Okt()
    morphed_data = ''

    for i, data_each in enumerate(data_text):
        # 입력값이 문자열이 아닌 경우, 무시하고 계속 진행합니다.
        if not isinstance(data_each, str):
            continue

        morphed_data_each = okt.pos(data_each)  # 형태소 분석 및 품사 태깅
        merged_data_each = ''
        for word, pos in morphed_data_each:
            if pos in ['Noun', 'Verb', 'Adjective']:  # 명사, 동사, 형용사만 선택하여 하나로 묶기
                merged_data_each += word + ' '

        if merged_data_each:  # 내용이 있는 경우에만 저장합니다.
            morphed_data += str(data_score[i]) + "," + merged_data_each.strip() + "," + str(data_thumb[i]) + "\n"

    # 결과를 파일로 저장합니다.
    with open("/content/drive/MyDrive/Colab/Project/merge_morphed/test.csv", "w", encoding="utf-8") as f:
        f.write(morphed_data)

# 함수를 호출하여 형태소 분석을 수행하고 결과를 저장합니다.
analyze_and_merge_pos(data_text, data_score, data_thumb)  # 실제 코드에서는 이 부분에 적절한 데이터를 넣어야 합니다.


# 저장된 형태소 분석 데이터를 불러온 뒤, 리뷰가 담긴 컬럼의 이름을 변경

In [None]:
data = pd.read_csv('/content/drive/MyDrive/Colab/Project/merge_morphed/merged_morphed_wonbin.csv', header=None)
print(data)
data.rename(columns={1: 'review'}, inplace=True)
print(data)


      0                                     1  2
0     5             전세계 국가 미 승인 국가 제외 의 국기 있다  0
1     5                                    외움  0
2     5                            사 해 이윤석 올림  0
3     3  프랑스 령 폴리네시아 있으면서 프랑스 령 기아나 왜 없음 완벽하게  0
4     5                                    쉼다  0
...  ..                                   ... ..
2848  5                          집중 감 쩌네 리 이종  1
2849  5                     여기 소문 듣던 앱입 아아 아악  3
2850  5                        이종 화이팅 고생 하셨어요  0
2851  5                                이종 화이팅  0
2852  5                                이종 화이팅  0

[2853 rows x 3 columns]
      0                                review  2
0     5             전세계 국가 미 승인 국가 제외 의 국기 있다  0
1     5                                    외움  0
2     5                            사 해 이윤석 올림  0
3     3  프랑스 령 폴리네시아 있으면서 프랑스 령 기아나 왜 없음 완벽하게  0
4     5                                    쉼다  0
...  ..                                   ... ..
2848  5                          집중 감 쩌네 리 이

# 단순 빈도분석

In [None]:
from collections import Counter

def analyze_frequency(data):
    # 'tokenized_text' 열의 데이터를 모두 결합하여 하나의 문자열로 만듭니다.
    combined_text = ' '.join(data['review'])
    frequency_counter = Counter(combined_text.split())  # 공백을 기준으로 단어를 분리하여 빈도수를 세어줍니다.
    return frequency_counter

# 빈도분석 실행
result = analyze_frequency(data)

# 결과 출력
print(result)


Counter({'게임': 571, '광고': 364, '좋아요': 225, '재밌어요': 180, '이': 150, '때': 145, '제': 133, '개': 129, '진짜': 123, '좀': 123, '거': 121, '문제': 119, '점': 114, '퀴즈': 114, '더': 113, '정말': 109, '입니다': 104, '재미있어요': 101, '재미': 101, '것': 100, '추천': 94, '할': 94, '모찌': 85, '사람': 83, '나라': 82, '굿': 81, '업데이트': 81, '계속': 80, '앱': 78, '왜': 76, '저': 76, '국기': 74, '좋은': 70, '별': 69, '넘': 68, '했는데': 68, '하면': 68, '수': 67, '같아요': 66, '안': 66, '공부': 63, '합니다': 63, '하는': 63, '요': 63, '해': 62, '다시': 59, '완전': 57, '해주세요': 57, '잘': 55, '겜': 54, '있어서': 52, '꿀잼': 52, '버그': 52, '조금': 51, '최고': 51, '현질': 51, '재밌고': 50, '좋은데': 50, '시간': 50, '해서': 50, '있어요': 50, '있는': 49, '아주': 47, '정답': 45, '알': 44, '하고': 44, '뭐': 44, '생각': 43, '좋네요': 43, '아니': 42, '별로': 42, '러브비트': 42, '토끼': 41, '레벨': 40, '그냥': 40, '과자': 40, '재밌네요': 39, '힌트': 39, '힐링': 39, '단계': 38, '말': 38, '단점': 38, '감사합니다': 38, '와': 37, '재미있고': 37, '친구': 37, '처음': 36, '분': 36, '번': 36, '그': 36, '계정': 36, '또': 35, '있고': 35, '귀엽고': 35, '귀여워요': 35, '있습니다': 34, '보고': 34

# 특정 문자열이 포함된 KEY들을 필터링하여 새로운 딕셔너리로 반환

In [None]:
def filter_by_keywords(result, keywords):
    # 결과를 필터링합니다.
    filtered_result = {key: value for key, value in result.items() if any(keyword in key for keyword in keywords)}

    # 필터링된 결과를 값(value)에 따라 내림차순으로 정렬합니다.
    sorted_result = dict(sorted(filtered_result.items(), key=lambda item: item[1], reverse=True))

    return sorted_result

# 사용 예시:
# result = {'apple': 1, 'banana': 2, 'cherry': 3, 'durian': 4, 'elderberry': 5}
# keywords = ['a', 'e']
# print(filter_by_keywords(result, keywords))


# '재미'와 '흥미로운'이 포함된 key들만 필터링하여 새로운 딕셔너리로 반환합니다.
filtered_result = filter_by_keywords(result, ['재미있', '재밌', '재밋','꿀잼', '좋습니다', '좋아', '좋은', '아주', '좋네', '감사', '추천', '좋네', '귀엽', '귀여','장점', '굳'])

print(filtered_result)


{'좋아요': 225, '재밌어요': 180, '재미있어요': 101, '추천': 94, '좋은': 70, '꿀잼': 52, '재밌고': 50, '좋은데': 50, '아주': 47, '좋네요': 43, '재밌네요': 39, '감사합니다': 38, '재미있고': 37, '귀엽고': 35, '귀여워요': 35, '재밌게': 33, '좋습니다': 31, '장점': 28, '재밌음': 26, '재미있는': 26, '재미있네요': 23, '재밌다': 21, '재미있다': 18, '재미있게': 17, '재밌습니다': 17, '재밌는': 16, '귀여운': 15, '재미있음': 14, '좋아하는': 14, '재밌어': 14, '재밌는데': 14, '재미있는데': 14, '재밌어용': 13, '좋아': 13, '좋아여': 12, '굳': 12, '재미있습니다': 12, '재밌어서': 11, '감사': 10, '좋아용': 10, '감사하겠습니다': 9, '귀여워서': 9, '재미있어서': 8, '재밌었어요': 8, '좋아하는데': 7, '재미있긴한데': 7, '재미있지만': 7, '좋아하시는': 7, '귀여워': 7, '좋아해서': 6, '감사해요': 6, '재밌': 6, '귀엽다': 6, '핵꿀잼': 5, '재미있었어요': 5, '재미있': 5, '재밋': 5, '재밌어여': 5, '재밌긴한데': 4, '재밋어': 4, '좋아서': 4, '좋아해요': 4, '귀엽습니다': 4, '안좋아요': 3, '재밋다': 3, '좋아져서': 3, '재밌내요': 3, '감사하고': 3, '재미있어용': 3, '개꿀잼': 3, '귀여워용': 3, '귀여운거': 3, '귀여운데': 3, '재밌긴': 3, '재미있네용': 3, '재밋음': 3, '재밋네': 3, '재밌어하네요': 2, '추천드랴': 2, '재밌답니다': 2, '좋아하는건': 2, '재미있을꺼': 2, '좋아졌어요': 2, '재미있기는': 2, '재미있긴': 2, '좋아하네요': 2, '좋아하고': 2, '재미있었고': 2, '

# 특정 문자열을 포함한 KEY의 원본 인덱스 값을 리스트로 반환하는 코드

In [None]:
def filter_by_keywords(df, keywords):
    filtered_indices = [index for index, row in df.iterrows() if any(keyword in row['review'] for keyword in keywords)]
    return filtered_indices

# 데이터프레임의 'review' 열에서 '재미'와 '흥미로운'이 포함된 행 인덱스를 리스트로 반환합니다.
filtered_indices_list = filter_by_keywords(data, ['재미있', '재밌', '재밋','꿀잼', '좋습니다', '좋아', '좋은', '아주', '좋네', '감사', '추천', '좋네', '귀엽', '귀여','장점', '굳'])

print(filtered_indices_list)


[8, 9, 11, 14, 15, 18, 19, 20, 22, 24, 25, 26, 27, 28, 29, 31, 32, 33, 34, 37, 39, 41, 42, 44, 45, 46, 47, 48, 49, 50, 52, 53, 55, 62, 66, 67, 70, 71, 72, 74, 76, 78, 79, 80, 81, 82, 83, 84, 85, 90, 91, 92, 93, 94, 96, 97, 101, 102, 103, 107, 112, 113, 116, 118, 121, 124, 127, 128, 133, 134, 135, 136, 137, 141, 142, 145, 148, 150, 151, 153, 158, 161, 165, 166, 167, 171, 172, 173, 178, 180, 183, 185, 187, 188, 195, 203, 212, 213, 214, 215, 220, 221, 223, 225, 226, 227, 228, 231, 233, 235, 236, 237, 239, 240, 244, 245, 246, 248, 253, 254, 257, 258, 259, 260, 265, 267, 268, 269, 272, 274, 276, 278, 279, 280, 282, 283, 284, 286, 287, 289, 293, 295, 298, 299, 301, 302, 305, 309, 310, 311, 313, 317, 323, 324, 328, 330, 334, 335, 339, 343, 345, 349, 351, 352, 353, 355, 356, 357, 358, 359, 360, 362, 363, 364, 365, 368, 371, 372, 373, 375, 379, 381, 382, 383, 384, 386, 391, 392, 393, 394, 395, 396, 397, 400, 402, 403, 404, 406, 408, 409, 410, 411, 412, 413, 414, 416, 417, 418, 419, 420, 422, 42

# 행 인덱스의 리스트를 그 인덱스에 해당하는 REVIEW칼럼 값을 지닌 리스트 값으로 반환하는 코드

In [None]:
def get_reviews_by_indices(df, filtered_indices_list):
    reviews_list = df.loc[filtered_indices_list, 'review'].tolist()
    return reviews_list

# 데이터프레임 'data'에서 주어진 인덱스들에 해당하는 'review' 칼럼의 값을 리스트로 반환합니다.
reviews_list = get_reviews_by_indices(data, filtered_indices_list)



# 보기 편하게


In [None]:
def print_list_with_numbers(input_list):
    for i, item in enumerate(input_list, start=1):
        print(f"{i}. {item}")

# 리스트를 순서대로 숫자와 함께 출력
print_list_with_numbers(reviews_list)


1. 재밌음
2. 손흥민 입니다 재밌어요
3. 제 원래 나라 수도 알았었는데 이 앱 하고나니 더 확실히 알수있네요 아주 좋아요
4. 와 정말 재밌네요
5. 제 평소 지리 자신감 없었는데 이 게임 하고나서 자신감 생겼어요 재밌고 좋아요
6. 해봤지만 좋은 게임
7. 재밌게 공부 건 처음 이군 터키 튀르키예 바꿔주시면 좋겠네요
8. 좋아여 좋아여 좋아요 처음 과금 해본 게임 광고 거슬릴 정도 아닌데 만들어주신 개발자 노고 감사 드리는 의미 구매 했습니다 좋아여
9. 한글패치 제대로 안됬음 틀리면 정답 알수가 없어 별로 임 앱 추천 안함
10. 별로 재밌음
11. 재밌고 국기 외울 때 좋습니다
12. 재밌어요
13. 아이 재미있게 놀이하듯 게임 하며 세계 나라 대해 알아가요
14. 광고 안 나오고 나라 대해 잘 알 되었어요 엄빠 핸드폰 보지 말 할 때 나라 공부 한다고 뻥 치면 되서 정말 좋아요
15. 학교 안 배운것도 있고 꽤 재미있어서 추천 드려요
16. 아니 북한 민주주의 어쩌구저쩌 구나 루마니아 가왜 아르메니아 여러분 게임 많긴하지만 잘못 됀것도 있음 아니 타이 가왜 태국 임 타이가 태국 불리느 라라 도공 부용 정말 추천 안함 거 개줌
17. 게임 자체 좋아요 대한민국 했으면 별 충분히 가능했네요
18. 재밌게 나라 공부
19. 제작자 너무하신거아니에요 몰랐던나라 국기 등 알았고 단점 이하나 없어요 점 있었으면 점 좋습니다 앱 깔으세요 완전 좋습니다
20. 재밌어요 저희 동생 재밌어하네요
21. 나라 국기 알수있어 아주 좋아요
22. 여러가지 나라 있고 문제 재밌고 나라 더 알수 있어서 더 좋은 거 같네요 점 드리고 갑니다
23. 재미있어요
24. 재미있음 완전 강추
25. 정말 좋아요
26. 퀴즈 하니 재밌어요
27. 좋아요
28. 공부 가능하 메 꿀잼
29. 좋은데 레시 카드 정답 보기 누르면 해석 란 태평양 아시아 유럽 것 추가 해주시면 공부 하는데 도움 될것 같아요
30. 진짜 이계 임 좋은 거 갔에요
31. 좋아요
32. 좋아요
33. 이 게임 하고

In [None]:
data

Unnamed: 0,0,review,2
0,5,전세계 국가 미 승인 국가 제외 의 국기 있다,0
1,5,외움,0
2,5,사 해 이윤석 올림,0
3,3,프랑스 령 폴리네시아 있으면서 프랑스 령 기아나 왜 없음 완벽하게,0
4,5,쉼다,0
...,...,...,...
2848,5,집중 감 쩌네 리 이종,1
2849,5,여기 소문 듣던 앱입 아아 아악,3
2850,5,이종 화이팅 고생 하셨어요,0
2851,5,이종 화이팅,0


In [None]:
def filter_by_keywords(result, keywords):
    # 결과를 필터링합니다.
    filtered_result = {key: value for key, value in result.items() if any(keyword in key for keyword in keywords)}

    # 필터링된 결과를 값(value)에 따라 내림차순으로 정렬합니다.
    sorted_result = dict(sorted(filtered_result.items(), key=lambda item: item[1], reverse=True))

    return sorted_result

# 사용 예시:
# result = {'apple': 1, 'banana': 2, 'cherry': 3, 'durian': 4, 'elderberry': 5}
# keywords = ['a', 'e']
# print(filter_by_keywords(result, keywords))

filtered_result = filter_by_keywords(result, ['재미', '재밌', '재밋', '좋습니다', '좋아', '좋은', '아주', '좋네', '감사','추천', '좋네', '귀엽', '귀여','장점', '굳'])

print(filtered_result)


{'좋아요': 225, '재밌어요': 180, '재미있어요': 101, '재미': 101, '추천': 94, '좋은': 70, '재밌고': 50, '좋은데': 50, '아주': 47, '좋네요': 43, '재밌네요': 39, '감사합니다': 38, '재미있고': 37, '귀엽고': 35, '귀여워요': 35, '재밌게': 33, '좋습니다': 31, '장점': 28, '재밌음': 26, '재미있는': 26, '재미있네요': 23, '재밌다': 21, '재미있다': 18, '재미있게': 17, '재밌습니다': 17, '재밌는': 16, '귀여운': 15, '재미있음': 14, '좋아하는': 14, '재밌어': 14, '재밌는데': 14, '재미있는데': 14, '재밌어용': 13, '좋아': 13, '좋아여': 12, '굳': 12, '재미있습니다': 12, '재밌어서': 11, '감사': 10, '좋아용': 10, '감사하겠습니다': 9, '귀여워서': 9, '재미있어서': 8, '재밌었어요': 8, '재미없음': 8, '좋아하는데': 7, '재미있긴한데': 7, '재미있지만': 7, '좋아하시는': 7, '귀여워': 7, '좋아해서': 6, '감사해요': 6, '재밌': 6, '귀엽다': 6, '재미있었어요': 5, '재미있': 5, '재밋': 5, '재밌어여': 5, '재밌긴한데': 4, '재미없다': 4, '재밋어': 4, '좋아서': 4, '재미나': 4, '좋아해요': 4, '귀엽습니다': 4, '안좋아요': 3, '재밋다': 3, '좋아져서': 3, '재미없네요': 3, '재미없어요': 3, '재밌내요': 3, '감사하고': 3, '재미있어용': 3, '귀여워용': 3, '귀여운거': 3, '귀여운데': 3, '재밌긴': 3, '재미있네용': 3, '재밋음': 3, '재밋네': 3, '재밌어하네요': 2, '추천드랴': 2, '재밌답니다': 2, '좋아하는건': 2, '재미있을꺼': 2, '좋아졌어요': 2, '재미있기는': 2, '재미있긴': 2,