导入库

In [9]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import csv
import re


In [10]:
def clean_text(text: str, stopwords: list) -> str:
    """
    清洗文本，去除停用词、空行、多余空格和 URL。
    
    :param text: 需要清洗的文本
    :param stopwords: 停用词列表
    :return: 清洗后的文本
    """
    # 去除URL
    text = re.sub(r'http[s]?://\S+', '', text)
    
    # 去除多余空格
    text = re.sub(r'\s+', ' ', text).strip()
    
    # 按行分割，去除空行
    lines = [line.strip() for line in text.split('\n') if line.strip()]
    
    # 去除停用词
    clean_lines = []
    for line in lines:
        words = line.split()
        filtered_words = [word for word in words if word not in stopwords]
        clean_lines.append(' '.join(filtered_words))
    
    return '\n'.join(clean_lines)

导入数据

In [23]:
data = pd.read_csv("douban_reviews.csv", encoding='utf-8')
data["review"] = data["review"].str.replace("\n", "")
data.head()

Unnamed: 0,title,rating,upvote,downvote,review
0,把仙翁塑造成世俗意义上的恶人，这个电影立意就落入俗套了,20,3123,1161,欢迎讨论，骂人的都反弹，看到的会删。电影里十二金仙说不能师出无名去剿灭龙族，太乙真人对仙翁说...
1,哪吒反叛的力量：从弑父到弑神,50,1885,226,当银幕上哪吒在天元鼎内完成涅槃浴火重生时，相信所有人都会赞同，这绝不是一部普通的续作。时隔六...
2,看过一天后，从三星降到两星，喜欢这部电影的这么多，不差我陈塘关百姓一个,20,3263,1821,这根本就是一部不该存在的续集，不过魔童降世实在太太太成功了，能怎么办呢。结果就是，哪吒第二部...
3,唯余叹息——哪吒2的成功是快餐流量的狂欢，也是对电影艺术的侮辱,20,2362,829,哪吒2开分8.5，大感震惊，似乎与我观影感受有所出入，特来交流一番。（加更：墙裂恳请认同的点...
4,合格的商业片，但仍想提出质疑,30,1093,263,作为贺岁档电影，哪吒无疑是一部合格的商业片。故事节奏快，至少看着不会无聊，围绕亲情...


数据清洗

In [24]:
stopwords = [line.strip() for line in open('stopwords.txt', 'r', encoding='utf-8').readlines()]
stopwords[:10]

['打开天窗说亮话',
 '到目前为止',
 '赶早不赶晚',
 '常言说得好',
 '何乐而不为',
 '毫无保留地',
 '由此可见',
 '这就是说',
 '这么点儿',
 '综上所述']

In [27]:
data['review'] = data['review'].apply(lambda x: clean_text(x, stopwords))
data['review'].head()

0    欢迎讨论，骂人的都反弹，看到的会删。电影里十二金仙说不能师出无名去剿灭龙族，太乙真人对仙翁说...
1    当银幕上哪吒在天元鼎内完成涅槃浴火重生时，相信所有人都会赞同，这绝不是一部普通的续作。时隔六...
2    这根本就是一部不该存在的续集，不过魔童降世实在太太太成功了，能怎么办呢。结果就是，哪吒第二部...
3    哪吒2开分8.5，大感震惊，似乎与我观影感受有所出入，特来交流一番。（加更：墙裂恳请认同的点...
4    作为贺岁档电影，哪吒无疑是一部合格的商业片。故事节奏快，至少看着不会无聊，围绕亲情线展开，也...
Name: review, dtype: object