In [2]:
#在数据分析中，基本功之一：从众多数据中筛选出所需数据。
#在进行分析时，我们一般拿到的文件一般都不会是肉眼能全部看的过来的，所以经常需要根据要求来筛选不同的数据。
#这个项目练习如何完成数据筛选，包含：
#1. 根据行筛选数据
#2. 根据列筛选数据
#3. 根据行列筛选数据
#4. 根据布尔条件筛选数据
import pandas as pd
import numpy as np

In [3]:
#第一步：读取数据
#这里读取我们上一节生成的合并后的结果文件
try:
    data = pd.read_csv("/home/wp/Pandas_practice/1_data/movie_ratings_summary.csv", encoding="gbk")
    data.head()
except Exception as e:
    print(e)

In [4]:
#data = pd.read_csv("/home/wp/Pandas_practice/1_data/movie_ratings_summary.csv", encoding="gbk")
data = pd.read_csv("/home/wp/Pandas_practice/1_data/movie_ratings_summary.csv")
data.head()

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama,112792,9909
1,7,31,3.0,851868750,Dangerous Minds (1995),Drama,112792,9909
2,31,31,4.0,1273541953,Dangerous Minds (1995),Drama,112792,9909
3,32,31,4.0,834828440,Dangerous Minds (1995),Drama,112792,9909
4,36,31,3.0,847057202,Dangerous Minds (1995),Drama,112792,9909


In [5]:
data.shape

(100004, 8)

In [6]:
#第二步： 根据“行”筛选数据
#先看，如何筛选 行数据。仔细看前两行的数据？
data.head(2)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama,112792,9909
1,7,31,3.0,851868750,Dangerous Minds (1995),Drama,112792,9909


In [7]:
#除了调用 head ()方法可以实现外，切片操作行，也可以实现。
data[ :2]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama,112792,9909
1,7,31,3.0,851868750,Dangerous Minds (1995),Drama,112792,9909


In [8]:
#筛选最后2条数据，直接使用tail().
data.tail(2)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
100002,665,4736,1,1010197684,Summer Catch (2001),Comedy|Drama|Romance,234829,26602
100003,668,6425,1,993613478,"6th Man, The (Sixth Man, The) (1997)",Comedy,120142,36807


In [9]:
#筛选出第5~10条数据，使用切片，传入开始、截止的索引（左右闭区间）即可----->连续筛选
data[4:9]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
4,36,31,3.0,847057202,Dangerous Minds (1995),Drama,112792,9909
5,39,31,3.0,832525157,Dangerous Minds (1995),Drama,112792,9909
6,73,31,3.5,1255591860,Dangerous Minds (1995),Drama,112792,9909
7,88,31,3.0,1239755559,Dangerous Minds (1995),Drama,112792,9909
8,96,31,2.5,1223256331,Dangerous Minds (1995),Drama,112792,9909


In [10]:
#如何筛选不连续的数据呢？通过切片一样可以完成每隔两行筛选一条数据。
data[ : : 3].head()

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama,112792,9909
3,32,31,4.0,834828440,Dangerous Minds (1995),Drama,112792,9909
6,73,31,3.5,1255591860,Dangerous Minds (1995),Drama,112792,9909
9,110,31,4.0,840100695,Dangerous Minds (1995),Drama,112792,9909
12,161,31,3.0,837629820,Dangerous Minds (1995),Drama,112792,9909


In [11]:
#第三步： 根据“列”筛选数据
#除了掌握筛选行数据之外，掌握筛选列数据也是必须的。

#比如想要筛选出所有评分的这一列，通过 get方法可以获取。
data.get("rating").head()

0    2.5
1    3.0
2    4.0
3    4.0
4    3.0
Name: rating, dtype: float64

In [12]:
#另外，通过属性的方式，也能够实现。
data.rating.head()

0    2.5
1    3.0
2    4.0
3    4.0
4    3.0
Name: rating, dtype: float64

In [13]:
#再者，通过切片的方式，同样可以实现。
data["rating"].head()

0    2.5
1    3.0
2    4.0
3    4.0
4    3.0
Name: rating, dtype: float64

In [14]:
#可以看到，上面的方式筛选得到的结果都是一个 Series，如果得到 DataFrame 类型呢？
#一种：最笨的办法是将得到的 Series 通过 to_frame ( ) 方法转为 DataFrame。
data.rating.to_frame().head()

Unnamed: 0,rating
0,2.5
1,3.0
2,4.0
3,4.0
4,3.0


In [15]:
#第二种：将切片中传入一个列表。
data[["rating"]].head()

Unnamed: 0,rating
0,2.5
1,3.0
2,4.0
3,4.0
4,3.0


In [16]:
#在实际使用时，你可能不仅仅只是筛选某一列，而是多列。
#比如筛选出用户、电影、评分这三列数据。
#实现方式同样可以将要筛选的列名组装成一个列表，传入到切片中。
cols = ["userId", "movieId", "rating"]
data[cols].head()

Unnamed: 0,userId,movieId,rating
0,1,31,2.5
1,7,31,3.0
2,31,31,4.0
3,32,31,4.0
4,36,31,3.0


In [17]:
#第四步：根据“行+列”筛选数据
#上面所做的筛选要么是根据行，要么是根据列，能不能既考虑行，有考虑列呢？
#1. 答案当然是可以的了。比如想要筛选出前5行的评分这一列。
data[ :5]["rating"]

0    2.5
1    3.0
2    4.0
3    4.0
4    3.0
Name: rating, dtype: float64

In [18]:
#通过上面的切片进行两次筛选就完成要求了，但是这个不是我们想要的方式，我们想要的是一步到位。
#2. 我们通过 loc 来实现，0: 5 表示筛选出前5行，"rating"表示筛选出评分这一列。
data.loc[0:5, "rating"]

0    2.5
1    3.0
2    4.0
3    4.0
4    3.0
5    3.0
Name: rating, dtype: float64

In [19]:
#3. 除了 loc 外，通过 iloc 一样可以实现，只是 iloc 中接受的都是数字索引。
#2 表示 rating 这一列在整个列名列表中的索引是 2。
data.iloc[0:5, 2]

0    2.5
1    3.0
2    4.0
3    4.0
4    3.0
Name: rating, dtype: float64

In [20]:
# 第五步：根据“布尔条件”筛选数据
#实际工作中，我们用到更多的是通过布尔条件来进行筛选数据的。
#Boolean（布尔运算）通过对两个以上X进行并集、差集、交集的运算，只有true(真)和false(假)两种值。

#例如想要筛选出电影id为 2049 的数据，通过给切片中传入一个布尔表达式即可。
data[data["movieId"]==2049] 

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
98644,547,2049,2.5,1199392175,"Happiest Millionaire, The (1967)",Comedy|Musical,61749,25445


In [23]:
#假如想要筛选出电影id是 2049 或者 6268 的数据。只需要通过条件连接符连接多个布尔条件即可。
#注意：
#(1)布尔操作时，& 对应 and，| 对应 or，~ 对应 not
#(2)多个布尔条件需要使用小括号进行分组
data[ (data["movieId"]==2049) | (data["movieId"]==6268) ]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
97344,407,6268,3.5,1079737241,Raising Victor Vargas (2002),Comedy|Drama|Romance,316188,25461
97345,671,6268,2.5,1065579370,Raising Victor Vargas (2002),Comedy|Drama|Romance,316188,25461
98644,547,2049,2.5,1199392175,"Happiest Millionaire, The (1967)",Comedy|Musical,61749,25445


In [24]:
#其实还有另外一种方式可以实现，通过 isin 函数。
mids = [2049, 6268]
data[data["movieId"].isin(mids)]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
97344,407,6268,3.5,1079737241,Raising Victor Vargas (2002),Comedy|Drama|Romance,316188,25461
97345,671,6268,2.5,1065579370,Raising Victor Vargas (2002),Comedy|Drama|Romance,316188,25461
98644,547,2049,2.5,1199392175,"Happiest Millionaire, The (1967)",Comedy|Musical,61749,25445
