# movielens电影评分数据分析(上)

In [25]:
import numpy as np
import pandas as pd

## 读取数据

In [27]:
# 从用户表读取用户信息
users = pd.read_table('users.dat', header=None, names=['UserID','Gender','Age','Occupation','Zip-code'], sep='::',engine='python')

In [29]:
# 打印列表长度，共有6040条记录
print(len(users))

6040


In [53]:
# 查看前五条记录
users.head(5)

Unnamed: 0,UserID,Gender,Age,Occupation,Zip-code
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117
3,4,M,45,7,2460
4,5,M,25,20,55455


In [54]:
# 同样方法，导入电影评分表
ratings = pd.read_table('ratings.dat', header=None, names=['UserID', 'MovieID', 'Rating', 'Timestamp'], sep='::',engine='python')
# 打印列表长度
print(len(ratings))
print(ratings.head(5))
# 同样方法，导入电影数据表
movies = pd.read_table('movies.dat', header=None, names=['MovieID', 'Title', 'Genres'], sep='::',engine='python')
print(len(movies))
print(movies.head(5))

1000209
   UserID  MovieID  Rating  Timestamp
0       1     1193       5  978300760
1       1      661       3  978302109
2       1      914       3  978301968
3       1     3408       4  978300275
4       1     2355       5  978824291
3883
   MovieID                               Title                        Genres
0        1                    Toy Story (1995)   Animation|Children's|Comedy
1        2                      Jumanji (1995)  Adventure|Children's|Fantasy
2        3             Grumpier Old Men (1995)                Comedy|Romance
3        4            Waiting to Exhale (1995)                  Comedy|Drama
4        5  Father of the Bride Part II (1995)                        Comedy


## 合并数据表

In [None]:
# 导入完成之后，我们可以发现这三张表类似于数据库中的表
# 要进行数据分析，我们就要将多张表进行合并才有助于分析 先将users与ratings两张表合并再跟movied合并
data = pd.merge(pd.merge(users, ratings), movies)
data.head(10)

## 对数据初步描述分析

In [None]:
data.describe()

In [None]:
data.info()

## 查看数据

In [None]:
# 合并后的每一条记录反映了每个人的年龄，职业，性别，邮编，电影ID，评分，时间戳，电影信息，电影分类等一系列信息
# 比如我们查看用户id为12的所有信息
data[data.UserID==12]

## 查看每一部电影不同性别的平均评分并计算分歧差值，之后排序

In [None]:
# 查看每一部电影不同性别的平均评分 data_gender接收
data_gender=data.pivot_table(index='Title',columns='Gender',values='Rating')
data_gender.head()

In [None]:
# 查看电影分歧最大的那部电影，在原数据中体现
data_gender['diff']=np.abs(data_gender.F-data_gender.M)
print(data_gender.shape)
data_gender.head(10)

In [None]:
# 男女电影分歧最大进行排序 data_gender_sorted接收
data_gender_sorted=data_gender.sort_values(by='diff',ascending=False)
data_gender_sorted.head()

## 算出每部电影平均得分并对其进行排序

In [None]:
#算出每部电影平均得分并对其进行排序 data_mean_rating 接收
data_mean_rating=data.pivot_table(index='Title',values='Rating')
data_mean_rating['size'] = data_mean_rating.head()

In [None]:
# 对电影平均得分排序
data_mean_rating_sorted=data_mean_rating.sort_values(by='Rating',ascending=False)
data_mean_rating_sorted.head()

## 查看评分次数多的电影并进行排序 

In [None]:
# 查看评分次数多的电影并进行排序   data_rating_num接收
data_rating_num = pd.crosstab(data.Title, data.Rating)
data_rating_num['count'] = np.sum(data_rating_num, axis=1)
data_rating_num.head()


In [None]:
#进行排序
data_rating_num_sorted = data_rating_num.sort_values(by='count',ascending=False)
print(data_rating_num_sorted.shape)
data_rating_num_sorted.head()

# movielens电影评分数据分析(下)

## 过滤掉评分条目数不足250条的电影

In [None]:
#过滤掉评分条目数不足250条的电影
data_rating_num_sorted = data_rating_num_sorted[data_rating_num_sorted['count']>250]
print(data_rating_num_sorted.shape)

In [None]:
#对评分数量进行排序，并取前20条数据
data_rating_num_sorted.head(20)

## 评分最高的十部电影


In [None]:
#评分最高的十部电影


## 查看不同年龄的分布情况并且采用直方图进行可视化

## 在原数据中标记出用户位于的年龄分组

## 电影评分表中计算不同类型电影的频数

In [None]:
#对数据进行规整-movies


In [None]:
#删除level_1列，将columns为0的列重命名为genres,并重新定义数据框为movies_genres


In [None]:
#将原movies数据中的genres列替换成movies_genres，得到规整化处理后的movies数据 



In [None]:
#合并。构建电影评分数据集movie_ratings



In [None]:
#计算movies_ratings中不同类型电影的频数

