In [8]:
import pandas as pd
import re

# 데이터 불러오기
file_path = 'google_play_reviews.csv'
df = pd.read_csv(file_path)

# 리뷰 내용이 공백이거나 길이가 너무 짧은 (예: 5글자 이하) 행 제거
df = df[df['content'].str.strip() != '']  # 공백 제거
df = df[df['content'].str.len() > 5]  # 길이가 5 이하인 리뷰 제거

# 정규표현식을 사용하여 무의미한 패턴 제거
def is_meaningful(text):
    # 무의미한 패턴 정의 (예: 반복되는 글자, 비정상적인 문자열)
    meaningless_patterns = [
        r'(.)\1{2,}',  # 동일 문자 3회 이상 반복
        r'[ㄱㄷ-ㅎㅏ-ㅣ]{1,}',  # 한글 자음 모음 반복
        r'[^\w\s]',  # 특수 문자
        r'\b\w{1,2}\b'  # 1~2글자 단어
    ]
    for pattern in meaningless_patterns:
        if re.search(pattern, text):
            return False
    return True

df = df[df['content'].apply(is_meaningful)]

# 결과를 새로운 파일에 저장
cleaned_file_path = 'cleaned.csv'
df.to_csv(cleaned_file_path, index=False)

print(df.head())
print("Cleaned data saved to:", cleaned_file_path)


                                 reviewId anonymized_user  score  \
11   3f405030-f373-4e00-a4ae-c9548bab4a7f           사용자12      5   
13   7951a8c0-679a-49fe-a2f5-409657054c31           사용자14      4   
30   75102d6f-ba80-4b24-8a57-52160f56b824           사용자31      1   
40   37247559-5095-437d-b4b4-75a9a7ae1143           사용자41      1   
117  3f4a425a-0f3c-43aa-a12e-f2183c81e3b0          사용자118      5   

                              content                   at  
11                          카니발 하이리무진  2024-06-04 08:17:10  
13                      좋습니다 하여간 좋습니다  2024-05-28 18:54:34  
30                      수리잘 안해줍니다 비추천  2024-04-23 10:41:12  
40   차량을 검색하려하면 검색도안돼고 멈춰있는데 검색하기싫게한다  2024-03-23 18:42:28  
117                 살펴보기도 편하고 빨라서 좋아요  2024-03-13 17:39:42  
Cleaned data saved to: cleaned.csv


In [10]:
import pandas as pd
import re

# 데이터 불러오기
file_path = 'google_play_reviews.csv'
df = pd.read_csv(file_path)

# 리뷰 내용이 공백이거나 길이가 너무 짧은 (예: 5글자 이하) 행 제거
df = df[df['content'].str.strip() != '']  # 공백 제거
df = df[df['content'].str.len() > 5]  # 길이가 5 이하인 리뷰 제거

# 정규표현식을 사용하여 무의미한 패턴 제거
def is_meaningful(text):
    # 무의미한 패턴 정의 (예: 반복되는 글자, 비정상적인 문자열)
    meaningless_patterns = [
        r'(.)\1{4,}',  # 동일 문자 5회 이상 반복
        r'[ㄱ-ㅎㅏ-ㅣ]{3,}',  # 한글 자음 모음 3회 반복
        r'[^\w\s]{3,}',  # 특수 문자 3회 이상 반복
        r'\b\w{1,2}\b'  # 1~2글자 단어
    ]
    for pattern in meaningless_patterns:
        if re.search(pattern, text):
            return False
    return True

df = df[df['content'].apply(is_meaningful)]

# 결과를 새로운 파일에 저장
cleaned_file_path = 'cleaned_google.csv'
df.to_csv(cleaned_file_path, index=False)

print(df.head())
print("Cleaned data saved to:", cleaned_file_path)


                                reviewId anonymized_user  score  \
3   b7295651-3275-48e2-99a6-fc79e0ec9235            사용자4      4   
11  3f405030-f373-4e00-a4ae-c9548bab4a7f           사용자12      5   
13  7951a8c0-679a-49fe-a2f5-409657054c31           사용자14      4   
30  75102d6f-ba80-4b24-8a57-52160f56b824           사용자31      1   
40  37247559-5095-437d-b4b4-75a9a7ae1143           사용자41      1   

                             content                   at  
3                접속장애가 계속되는 사유가 뭘까요?  2024-07-12 10:38:21  
11                         카니발 하이리무진  2024-06-04 08:17:10  
13                     좋습니다 하여간 좋습니다  2024-05-28 18:54:34  
30                     수리잘 안해줍니다 비추천  2024-04-23 10:41:12  
40  차량을 검색하려하면 검색도안돼고 멈춰있는데 검색하기싫게한다  2024-03-23 18:42:28  
Cleaned data saved to: cleaned_google.csv


In [18]:
import pandas as pd
import re
from datetime import datetime

# CSV 파일 읽기
df = pd.read_csv('google_play_reviews.csv')

# 날짜를 datetime 객체로 변환
df['at'] = pd.to_datetime(df['at'])

# 2018년 11월 1일부터 현재까지의 데이터만 필터링
start_date = datetime(2018, 11, 1)
df = df[df['at'] >= start_date]

# 자음 모음만 있는 패턴 정의
hangul_pattern = re.compile(r'^[ㄱ-ㅎㅏ-ㅣ\s]+$')

# 내용이 비어있거나 자음 모음만 있는 행 제거
df = df[df['content'].notna() & ~df['content'].astype(str).apply(lambda x: hangul_pattern.match(x) is not None)]

# 중복된 내용 제거
df = df.drop_duplicates(subset=['content'])

# 결과를 새 CSV 파일로 저장
df.to_csv('processed_reviews.csv', index=False)

print(f"처리된 리뷰 수: {len(df)}")

처리된 리뷰 수: 4348


In [20]:
import pandas as pd
import re
from datetime import datetime

# CSV 파일 읽기
df = pd.read_csv('google_play_reviews.csv')

# 'at' 열을 datetime 객체로 변환 (형식 확인 후 수정 가능)
df['at'] = pd.to_datetime(df['at'], errors='coerce')

# 2018년 11월 1일부터 현재까지의 데이터만 필터링
start_date = datetime(2018, 11, 1)
df = df[df['at'] >= start_date]

# 자음 모음만 있는 패턴 정의
hangul_pattern = re.compile(r'^[ㄱ-ㅎㅏ-ㅣ\s]+$')

# 내용이 비어있거나 자음 모음만 있는 행 제거
df = df[df['content'].notna() & ~df['content'].astype(str).apply(lambda x: hangul_pattern.match(x) is not None)]

# 중복된 내용 제거
df = df.drop_duplicates(subset=['content'])

# 결과를 새 CSV 파일로 저장
df.to_csv('processed_reviews.csv', index=False)

print(f"처리된 리뷰 수: {len(df)}")

처리된 리뷰 수: 4348


In [9]:
import pandas as pd
import re
from datetime import datetime

# 데이터 불러오기
file_path = 'google_play_reviews.csv'
df = pd.read_csv(file_path)

# 날짜 필터링을 위한 날짜 형식 변환
df['date'] = pd.to_datetime(df['at'])

# 2018년 11월부터 현재까지의 데이터만 선택
start_date = '2018-11-01'
df = df[df['at'] >= start_date]

# 결과를 새로운 파일에 저장
cleaned_file_path = 'clean2018.csv'
df.to_csv(cleaned_file_path, index=False)

print(df.head())
print("Cleaned data saved to:", cleaned_file_path)


                               reviewId anonymized_user  score  \
0  f3bc27b7-13c4-4fcb-8f6e-cdfea0c682da            사용자1      3   
1  96fe465e-58e4-48f3-a93d-1cc6daf6e06e            사용자2      5   
2  13be613c-06de-4312-9603-7acd9e7f1683            사용자3      1   
3  b7295651-3275-48e2-99a6-fc79e0ec9235            사용자4      4   
4  d7c4a960-758e-4887-934f-ab9177b034c7            사용자5      1   

                    content                   at                date  
0   위클리특가 탭하면 왜 링크 에러나는건가요?  2024-07-26 17:47:13 2024-07-26 17:47:13  
1                         굿  2024-07-26 07:17:58 2024-07-26 07:17:58  
2                   차 겁나 없음  2024-07-23 22:08:11 2024-07-23 22:08:11  
3       접속장애가 계속되는 사유가 뭘까요?  2024-07-12 10:38:21 2024-07-12 10:38:21  
4  로딩이 너무 오래 걸려요 엔카랑 비교돼요ㅜㅜ  2024-07-07 12:39:15 2024-07-07 12:39:15  
Cleaned data saved to: clean2018.csv


In [50]:
pip install openpyxl


Note: you may need to restart the kernel to use updated packages.


In [52]:
import pandas as pd
import re
from datetime import datetime

# 데이터 불러오기
file_path = 'google_play_reviews.csv'
df = pd.read_csv(file_path)

# 날짜 필터링을 위한 날짜 형식 변환
df['date'] = pd.to_datetime(df['at'])

# 2018년 11월부터 현재까지의 데이터만 선택
start_date = '2018-11-01'
df = df[df['at'] >= start_date]

# 리뷰 내용이 공백이거나 길이가 너무 짧은 (예: 3글자 이하) 행 제거
df = df[df['content'].str.strip() != '']  # 공백 제거
df = df[df['content'].str.len() > 3]  # 길이가 3 이하인 리뷰 제거

# 정규표현식을 사용하여 무의미한 패턴 제거
def is_meaningful(text):
    # 무의미한 패턴 정의 (예: 반복되는 글자, 비정상적인 문자열)
    meaningless_patterns = [
        r'(.)\1{5,}',  # 동일 문자 6회 이상 반복
        r'[ㄱ-ㅎㅏ-ㅣ]{3,}',  # 한글 자음 모음 4회 반복
        r'[^\w\s]{4,}',  # 특수 문자 4회 이상 반복
        r'\b\w{1,2}\b'  # 1~2글자 단어
    ]
    for pattern in meaningless_patterns:
        if re.search(pattern, text):
            return False
    return True

df = df[df['content'].apply(is_meaningful)]

# 결과를 새로운 Excel 파일에 저장
cleaned_file_path = 'last_clean.xlsx'
df.to_excel(cleaned_file_path, index=False, engine='openpyxl')

print(df.head())
print("Cleaned data saved to:", cleaned_file_path)


                                reviewId anonymized_user  score  \
3   b7295651-3275-48e2-99a6-fc79e0ec9235            사용자4      4   
11  3f405030-f373-4e00-a4ae-c9548bab4a7f           사용자12      5   
13  7951a8c0-679a-49fe-a2f5-409657054c31           사용자14      4   
30  75102d6f-ba80-4b24-8a57-52160f56b824           사용자31      1   
40  37247559-5095-437d-b4b4-75a9a7ae1143           사용자41      1   

                             content                   at                date  
3                접속장애가 계속되는 사유가 뭘까요?  2024-07-12 10:38:21 2024-07-12 10:38:21  
11                         카니발 하이리무진  2024-06-04 08:17:10 2024-06-04 08:17:10  
13                     좋습니다 하여간 좋습니다  2024-05-28 18:54:34 2024-05-28 18:54:34  
30                     수리잘 안해줍니다 비추천  2024-04-23 10:41:12 2024-04-23 10:41:12  
40  차량을 검색하려하면 검색도안돼고 멈춰있는데 검색하기싫게한다  2024-03-23 18:42:28 2024-03-23 18:42:28  
Cleaned data saved to: last_clean.xlsx
