## 筛选让你心动的电影

In [None]:
import pandas as pd
from datetime import datetime as dt
df = pd.read_csv('douban_movie.csv', header = 0, sep = '\t')
df.head()

In [None]:
df.info()

In [None]:
df.describe()

按行索引进行选取loc[]函数

In [None]:
df.loc[range(4)]

In [None]:
df.loc[[1,5,6]]

按一列或多列筛选

In [None]:
print(df['title'])
print(df[['title','actors']])

按一行一列或多行多列同时筛选

In [None]:
df.loc[5, 'actors'] #索引值是 5 的行，且列名是 actors 的列

In [None]:
df.loc[[1, 5, 8], ['title', 'actors'] ]#索引值是 1、5、8 的行，且列名是 title 和 actors 的列。

In [None]:
df.tail()#后5行

查看df的数据类型,index 索引、columns 列名 、values 值

In [None]:
type(df)#Pandas 的基本数据结构是 DataFrame

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.values

带有一个中括号的类型是 Series，带有两个中括号的类型是 DataFrame。

In [None]:
type(df['title'])

In [None]:
df['title']

In [None]:
type(df[['title']])

除了按行或按列筛选，还可以按照一个或多个条件对数据进行筛选

In [None]:
# 筛选电影类型是剧情的 title 和 score 两列
#df[ df['category'] == '剧情' ]['title']
df[ df['category'] == '剧情' ][['title', 'score']]

In [None]:
# 筛选电影排名小于等于 5 且评分高于 9.0 的 title 一列
df[ (df['rank'] <=5) & (df['score'] > 9.0) ][['title']]

In [None]:
# 筛选电影发布日期大于 2010-01-01 或 评论数超过 50万 的title列
df[ (df['release_date'] > '2010-01-01') | (df['vote_count'] > 500000) ][['title']].head()

In [None]:
df[ (df['release_date'] > '2010-01-01') | (df['vote_count'] > 500000) ]['title'].head()

借助一些函数进行筛选，比如：

isnull ( ) 函数：筛选空值

notnull ( ) 函数：筛选非空值

isin( ) 函数：筛选某个字段的值在给定列表中

In [None]:
df['url'].isnull()

In [None]:
df[df['regions'].notnull()][['title']].size

In [None]:
df[df['score'].isin([8.0, 9.0, 9.5])][['title']].size

In [None]:
df[df['score'].isin([8.0, 9.0, 9.5])][['title']].head()

Pandas 教程——电影数据是干净的吗(1)

In [None]:
df[['id', 'types']][1000:1006]

In [None]:
df[ df['id'] == 10455077 ][['types','category', 'rank']]

按列删除，需要设置 axis 值为 1

In [None]:
df.drop(['category', 'rank'], axis = 1)

按行删除：一般先获取到需要删除数据的索引，然后根据索引删除

In [None]:
drop_indexes = df[ df['regions'] == '[意大利]' ].index
drop_indexes

In [None]:
df.loc[175]

In [None]:
df.drop(drop_indexes)#axis ＝0 为默认值，表示按行删除，不需要赋值。

Pandas 中去重使用 drop_duplicates( ) 函数

In [None]:
new_movie_pd = df.drop(['category', 'rank'], axis = 1)
print(new_movie_pd.head(1))
new_movie_pd = df.drop_duplicates() #去除特定列下面的重复行。返回DataFrame格式的数据

In [None]:
len(new_movie_pd)

In [None]:
print(new_movie_pd['id'].unique()) #返回去重后id数组
print(new_movie_pd['id'].nunique())#nunique( ) 函数直接返回 id 去重后的个数


In [None]:
# 一个GroupBy对象，它实际上还没有进行任何计算，只是含有一些有关分组键的中间数据而已，
# 然后我们可以调用GroupBy的响应方法来计算分组平均值
movie_count = new_movie_pd.groupby('id')
print(movie_count)
movie_count = new_movie_pd.groupby('id').size().reset_index(name='count')
movie_count.head()

In [None]:
movie_count[ movie_count['count'] > 1 ].head()

Pandas 教程——电影数据是干净的吗(2)

map( ) : 参数可以传入字典 或 使用 lambda 表达式

to_datetime( )：将 字符串类型 转化为 日期类型

cut( ) : 对数值型变量划分区间

比如需要根据电影的评分增加电影评分等级 movie_level 新列 ，评分小于 7.5 分的等级是 B，7.5 到 9.0 之间的是 A，9.0 以上的是 S

In [None]:
movie_pd = pd.read_csv('douban_movie.csv', header=0, sep='\t')
movie_level_list = list()
for i in movie_pd.index:
	score = movie_pd.loc[i, 'score'] # 行，列
	if score < 7.5:
		movie_level = 'B'
	elif 7.5 <= score < 9.0:
		movie_level = 'A'
	else:
		movie_level = 'S'
	movie_level_list.append(movie_level)
movie_pd['movie_level'] = pd.Series(movie_level_list)
movie_pd[['score', 'movie_level']].head()

map( ) 函数：参数中可以传入字典，也可以使用 lambda 表达式,用来增加新列

如 is_playable 字段在 Pandas 中的值是 True/False

增加一列中文的新列，True 对应的值为 可以播放，False 对应的值为 不能播放，写法如下


In [None]:
movie_pd['playable_ch'] = movie_pd['is_playable'].map({True: '可以播放', False: '不能播放'})

In [None]:
movie_pd[['score','playable_ch','is_playable']].head()

又比如电影评分 9.0 以上才我想看的，增加一列 want_watch，1 表示想看，0 表示不想看

使用 lambda 表达式，其中的 x 就相当于 for 循环时每次的 score 值。

In [None]:
movie_pd['want_watch'] = movie_pd['score'].map(lambda x: 1 if x >= 9.0 else 0)

In [None]:
movie_pd[['score','want_watch','title']].head()

根据电影的上映日期 release_date 和 评论人数 vote_count，计算每部电影每天的平均评价人数

首先，使用 to_datetime( ) 函数将 字符串类型 转化为日期；

然后使用 map( ) 函数计算电影上映日期距离现在的时间差，并转化为天数；

最后，vote_count 和 total_day 两列直接相除得到 每部电影每天的平均评价人数。

In [None]:
movie_pd['release_date'] = pd.to_datetime(movie_pd['release_date'])
movie_pd['total_day'] = movie_pd['release_date'].map(lambda x: (dt.now() - x).total_seconds() / (3600 * 24))
movie_pd['daily_vote'] = movie_pd['vote_count'] / movie_pd['total_day']
movie_pd[['release_date', 'total_day', 'vote_count', 'daily_vote']].head()

cut( ) 函数：完美解决根据变量值划分区间的问题

bins 参数为一个列表，表示划分区间的临界值，labels 为不同区间对应的值，right = False 表示前必后开，默认为 前开后必，所以最终的区间为：[0, 7.5) 对应值为 B，[7.5,9.0) 对应值为 A，9.0 及以上对应值为 S，float('Inf') 表示正无穷大。

刚开始对电影评级的问题，现在可以这么写：

In [None]:
movie_pd['movie_level'] =  pd.cut(movie_pd['score'], bins = [0, 7.5, 9.0, float('Inf')], labels = ['B', 'A', 'S'], right = False)

In [None]:
movie_pd[['score', 'movie_level']].head()

Pandas 教程——不同类型电影的比较(1)

In [None]:
movie_pd[ movie_pd['url'].isnull() ].head(10)# 筛选电影链接为空的前 10 条

按照电影类型 category 分组计算每个类型的电影个数

In [None]:
import pandas as pd
import numpy as np

movie_pd = pd.read_csv('douban_movie.csv', header=0, sep='\t')
movie_pd.groupby('category').size()

其类型为 Series，如果想要转化为 DataFrame 格式，同时给电影个数那一列添加列名 num，可以使用 reset_index( ) 函数，写法如下

In [None]:
movie_pd.groupby('category').size().reset_index(name = 'num')

SQL 中还会涉及到 count ( distinct movie_id ) 的去重计数操作，这个时候把 size( ) 函数替换为 nunique( ) 函数

即可，如下：

In [None]:
movie_pd.groupby('category')['id'].nunique().reset_index(name='num')

In [None]:
movie_pd.columns

agg：辅助分组的函数
有时候按照某个字段分组以后，需要计算多个字段的值，这个时候就可以借助 agg 函数来实现。

pandas引入了agg函数，它提供基于列的聚合操作。而groupby可以看做是基于行，或者说index的聚合操作。

In [None]:
agg_pd = movie_pd.groupby('id').agg({
	'score': [ np.max, np.min ], 'vote_count': np.mean}).reset_index()

agg_pd.head()

In [None]:
agg_pd.columns

In [None]:
for temp in agg_pd.columns:
	print(temp)

实现多字段分组

In [None]:
movie_pd.groupby(['category', 'id']).agg({
	'score': np.mean, 'vote_count': np.max}).reset_index()

如果需要对分组结果进行排序的话，使用 sort_values( ) 函数

比如按照 score 降序排列，可以写成：

In [None]:
movie_pd.groupby(['category', 'id']).agg({
	'score': np.mean, 'vote_count': np.mean
}).reset_index().sort_values('score', ascending = False)

Pandas 教程——不同类型电影的比较(2)

除了 常见的分组操作，另一个比较重要的是多个 DataFrame 之间的连接操作 和 合并操作，在 MySQL 中相对应的就是 join 和 union 关键字。

merge ( ) 函数

In [None]:
merge_pd = pd.merge(movie_pd_1, movie_pd_2, on = 'movie_id')

如果需要实现类似于 MySQL 中的 left / right join 操作，只需要加入参数 how = 'left' 或者how = 'right' 即可，如下：

In [None]:
merge_pd = pd.merge(movie_pd_1, movie_pd_2, on = 'movie_id', how = 'left')

concat ( ) 函数对应
MySQL 中合并两个表：

In [None]:
union_pd = pd.concat([movie_pd_1, movie_pd_2], ignore_index = True)
#ignore_index 参数表示 union 时忽略两个 DataFrame 的索引，同时会建新的索引。

如果想要实现 union 操作的话，concat 完成后去重即可，如下：

In [None]:
union_pd = pd.concat([movie_pd_1, movie_pd_2], ignore_index = True).drop_duplicates()