In [1]:
import re
import pandas as pd

In [2]:
# 读入数据，给定各字段的名字
df = pd.read_csv('../data/douban.csv', header=None,
                 names=['p_name', 'p_url', 'c_date_time', 'c_data', 'c_rank', 'c_recom'])

In [3]:
# 预览数据
df.head(5)

Unnamed: 0,p_name,p_url,c_date_time,c_data,c_rank,c_recom
0,王大根,https://www.douban.com/people/diewithme/,2018-01-19 18:17:25,在这种家庭里做一条狗都好啊\n,力荐,6463
1,李阿斗,https://www.douban.com/people/gailsylee/,2017-11-25 02:12:27,当时出国以后的第一最大感受就是尊重，不论老弱病孕还是任何“与众不同”，都不会有人上下打量你...,力荐,3429
2,光明小卖部,https://www.douban.com/people/gooooooooooohe/,2017-12-06 15:10:45,所有人都知道是化妆只有我一个人以为请的真实病人出演吗。。。\n,力荐,3349
3,同志亦凡人中文站,https://www.douban.com/people/3540441/,2017-11-24 15:57:52,有种糖放多了的感觉，精华基本都在预告里了。但对孩子们的纯真友情毫无抵抗力啊，就像被温柔的抚...,推荐,1814
4,桃桃淘电影,https://www.douban.com/people/qijiuzhiyue/,2018-01-19 14:18:28,其实这更像当代童话，因为，实在是太暖了。里面每个人都那么暖，怎么可以那么暖，怎么可以那么暖...,推荐,1711


In [4]:
# 缺失值检测与去除
print(df.isnull().sum())
#df.dropna(inplace=True)

p_name         0
p_url          0
c_date_time    0
c_data         0
c_rank         0
c_recom        0
dtype: int64


In [5]:
# 拆分原c_date_time为c_date和c_time
def get_date(date_time):
    # 有时会格式不对
    if len(date_time) < 10:
        return None
    return re.findall(r'(\d+-\d+-\d+) \d+.*?', date_time)[0]


def get_time(date_time):
    if len(date_time) < 10:
        return None
    return re.findall(r'.*? (\d+:\d+:\d+)', date_time)[0]


df['c_date'] = df['c_date_time'].apply(get_date)
df['c_time'] = df['c_date_time'].apply(get_time)

In [6]:
# 预览数据
df.head(5)

Unnamed: 0,p_name,p_url,c_date_time,c_data,c_rank,c_recom,c_date,c_time
0,王大根,https://www.douban.com/people/diewithme/,2018-01-19 18:17:25,在这种家庭里做一条狗都好啊\n,力荐,6463,2018-01-19,18:17:25
1,李阿斗,https://www.douban.com/people/gailsylee/,2017-11-25 02:12:27,当时出国以后的第一最大感受就是尊重，不论老弱病孕还是任何“与众不同”，都不会有人上下打量你...,力荐,3429,2017-11-25,02:12:27
2,光明小卖部,https://www.douban.com/people/gooooooooooohe/,2017-12-06 15:10:45,所有人都知道是化妆只有我一个人以为请的真实病人出演吗。。。\n,力荐,3349,2017-12-06,15:10:45
3,同志亦凡人中文站,https://www.douban.com/people/3540441/,2017-11-24 15:57:52,有种糖放多了的感觉，精华基本都在预告里了。但对孩子们的纯真友情毫无抵抗力啊，就像被温柔的抚...,推荐,1814,2017-11-24,15:57:52
4,桃桃淘电影,https://www.douban.com/people/qijiuzhiyue/,2018-01-19 14:18:28,其实这更像当代童话，因为，实在是太暖了。里面每个人都那么暖，怎么可以那么暖，怎么可以那么暖...,推荐,1711,2018-01-19,14:18:28


In [7]:
# 如果需要，也可以进行数据类型的转换
print('Before->\n', df.dtypes)
df['c_date_time'] = df['c_date_time'].astype('datetime64[ns]')
print('After->\n',  df.dtypes)

Before->
 p_name         object
p_url          object
c_date_time    object
c_data         object
c_rank         object
c_recom         int64
c_date         object
c_time         object
dtype: object
After->
 p_name                 object
p_url                  object
c_date_time    datetime64[ns]
c_data                 object
c_rank                 object
c_recom                 int64
c_date                 object
c_time                 object
dtype: object


In [8]:
# 也可方便地进行数据转换[Encoding Categorical Values]
# 将汉字对应编码为数字
def trans(words):
    if words == '力荐':
        return 5
    elif words == '推荐':
        return 4
    elif words == '还行':
        return 3
    elif words == '较差':
        return 2
    elif words == '很差':
        return 1
    else:
        return None


df['c_rank_num'] = df['c_rank'].apply(trans)

In [9]:
# 预览数据
df.head(5)

Unnamed: 0,p_name,p_url,c_date_time,c_data,c_rank,c_recom,c_date,c_time,c_rank_num
0,王大根,https://www.douban.com/people/diewithme/,2018-01-19 18:17:25,在这种家庭里做一条狗都好啊\n,力荐,6463,2018-01-19,18:17:25,5
1,李阿斗,https://www.douban.com/people/gailsylee/,2017-11-25 02:12:27,当时出国以后的第一最大感受就是尊重，不论老弱病孕还是任何“与众不同”，都不会有人上下打量你...,力荐,3429,2017-11-25,02:12:27,5
2,光明小卖部,https://www.douban.com/people/gooooooooooohe/,2017-12-06 15:10:45,所有人都知道是化妆只有我一个人以为请的真实病人出演吗。。。\n,力荐,3349,2017-12-06,15:10:45,5
3,同志亦凡人中文站,https://www.douban.com/people/3540441/,2017-11-24 15:57:52,有种糖放多了的感觉，精华基本都在预告里了。但对孩子们的纯真友情毫无抵抗力啊，就像被温柔的抚...,推荐,1814,2017-11-24,15:57:52,4
4,桃桃淘电影,https://www.douban.com/people/qijiuzhiyue/,2018-01-19 14:18:28,其实这更像当代童话，因为，实在是太暖了。里面每个人都那么暖，怎么可以那么暖，怎么可以那么暖...,推荐,1711,2018-01-19,14:18:28,4


In [10]:
# 设置索引列为c_date_time
df.index = df['c_date_time']

# 去除多余的c_date_time列
df = df.drop(['c_date_time'], axis=1)

# 其他的一些操作...

In [11]:
# 去除操作产生的缺失值
df.dropna(inplace=True)
# 保存预处理后的文件
df.to_csv('douban_processed.csv')