> **在数据分析中，能从众多数据中筛选出所需数据，这是必会的基本功**

在进行分析时，我们一般拿到的文件一般都不会是肉眼能全部看的过来的，所以经常需要根据要求来筛选不同的数据。这个项目练习教给大家如何完成数据筛选，包含：

- 根据行筛选数据
- 根据列筛选数据
- 根据行列筛选数据
- 根据布尔条件筛选数据

In [1]:
import pandas as pd
import numpy as np

## 读取数据

这里我们读取我们上一节生成的合并后的结果文件。

In [2]:
try:
    data = pd.read_csv("../data/ml-latest-small/user_for_movie_ratings_summary.csv")
    data.head()
except Exception as e:
    print(e)

'utf-8' codec can't decode byte 0xa8 in position 1: invalid start byte


可以看到，读取过程中出现了异常，提示 `utf-8` 解码失败。在使用 `read_csv` 读取文件如果出现了这种编码问题，一般都可以通过设置参数 `encoding` 来解决。那么问题来了：**这个参数应该设置成什么呢**？

答案很简单，其实就是需要设置成与文件存储相同的编码格式即可，关键是如何知道文件存储所用的格式呢？

一般在工作对接时，生成这个文件的同事会告诉你文件的编码，自然而然你可以设置对应的编码。

-------

难道除了这种方式外，就没有别的方式了么？

答案是：有的，通过一些高级文本编辑器（如 notepad++、ultraedit 等）打开文本文件之后，可以看到文件的编码。

这里我通过 ultraedit 打开 user_for_movie_ratings_summary.csv 文件，在底部可以看到文件编码方式为：gbk。

![](../image/02-电影评分数据编码.png)

所以在通过 `read_csv` 读取数据时，直接设定参数 `encoding="gbk"` 即可。

In [3]:
data = pd.read_csv("../data/ml-latest-small/user_for_movie_ratings_summary.csv", encoding="gbk")
data.head()

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama,112792.0,9909.0
1,1,1029,3.0,1260759179,Dumbo (1941),Animation|Children|Drama|Musical,33563.0,11360.0
2,1,1061,3.0,1260759182,Sleepers (1996),Thriller,117665.0,819.0
3,1,1129,2.0,1260759185,Escape from New York (1981),Action|Adventure|Sci-Fi|Thriller,82340.0,1103.0
4,1,1172,4.0,1260759205,Cinema Paradiso (Nuovo cinema Paradiso) (1989),Drama,95765.0,11216.0


In [4]:
data.shape

(100004, 8)

## 根据行筛选数据

我们先来看看如何筛选行数据吧~

首先来看下如何筛选前2行数据。

In [5]:
data.head(2)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama,112792.0,9909.0
1,1,1029,3.0,1260759179,Dumbo (1941),Animation|Children|Drama|Musical,33563.0,11360.0


除了调用 `head` 方法可以实现外，切片操作一行可以实现。

In [6]:
data[:2]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama,112792.0,9909.0
1,1,1029,3.0,1260759179,Dumbo (1941),Animation|Children|Drama|Musical,33563.0,11360.0


筛选最后的2条数据，直接使用 `tail` 即可。

In [7]:
data.tail(2)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
100002,671,6385,2.5,1070979663,Whale Rider (2002),Drama,298228.0,1088.0
100003,671,6565,3.5,1074784724,Seabiscuit (2003),Drama,329575.0,4464.0


筛选出第5~10条数据，使用切片，传入开始、截止的索引（左右闭区间）即可。

In [8]:
data[4:9]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
4,1,1172,4.0,1260759205,Cinema Paradiso (Nuovo cinema Paradiso) (1989),Drama,95765.0,11216.0
5,1,1263,,1260759151,"Deer Hunter, The (1978)",Drama|War,77416.0,11778.0
6,1,1287,2.0,1260759187,Ben-Hur (1959),Action|Adventure|Drama,52618.0,665.0
7,1,1293,2.0,1260759148,Gandhi (1982),Drama,83987.0,783.0
8,1,1339,3.5,1260759125,Dracula (Bram Stoker's Dracula) (1992),Fantasy|Horror|Romance|Thriller,103874.0,6114.0


上面的筛选出的数据都是连续的，如何筛选不连续的数据呢？

通过切片一样可以完成每隔两行筛选一条数据。

In [9]:
data[::3].head()

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama,112792.0,9909.0
3,1,1129,2.0,1260759185,Escape from New York (1981),Action|Adventure|Sci-Fi|Thriller,82340.0,1103.0
6,1,1287,2.0,1260759187,Ben-Hur (1959),Action|Adventure|Drama,52618.0,665.0
9,1,1343,2.0,1260759131,Cape Fear (1991),Thriller,101540.0,1598.0
12,1,1953,4.0,1260759191,"French Connection, The (1971)",Action|Crime|Thriller,67116.0,1051.0


## 根据列筛选数据

除了掌握筛选行数据之外，掌握筛选列数据也是必须的。

比如想要筛选出所有评分的这一列，通过 `get`方法可以获取。

In [10]:
data.get("rating").head()

0    2.5
1    3.0
2    3.0
3    2.0
4    4.0
Name: rating, dtype: float64

通过属性的方式，也能够实现。

In [11]:
data.rating.head()

0    2.5
1    3.0
2    3.0
3    2.0
4    4.0
Name: rating, dtype: float64

通过切片的方式，同样可以实现。

In [12]:
data["rating"].head()

0    2.5
1    3.0
2    3.0
3    2.0
4    4.0
Name: rating, dtype: float64

可以看到，上面的方式筛选得到的结果都是一个 Series，如果得到 DataFrame 类型呢？

最笨的办法是将得到的 Series 通过 `to_frame` 方法转为 DataFrame。

In [13]:
data.rating.to_frame().head()

Unnamed: 0,rating
0,2.5
1,3.0
2,3.0
3,2.0
4,4.0


另外一种方式就是将切片中传入一个列表。

In [14]:
data[["rating"]].head()

Unnamed: 0,rating
0,2.5
1,3.0
2,3.0
3,2.0
4,4.0


在实际使用时，你可能不仅仅只是筛选某一列，而是多列。比如筛选出用户、电影、评分这三列数据。

实现方式同样可以将要筛选的列名组装成一个列表，传入到切片中。

In [15]:
cols = ["userId", "movieId", "rating"]
data[cols].head()

Unnamed: 0,userId,movieId,rating
0,1,31,2.5
1,1,1029,3.0
2,1,1061,3.0
3,1,1129,2.0
4,1,1172,4.0


## 根据行列筛选数据

上面所做的筛选要么是根据行，要么是根据列，能不能既考虑行，有考虑列呢？

答案当然是可以的了。比如想要筛选出前5行的评分这一列。

In [16]:
data[:5]["rating"]

0    2.5
1    3.0
2    3.0
3    2.0
4    4.0
Name: rating, dtype: float64

通过上面的切片进行两次筛选就完成要求了，但是这个不是我们想要的方式，我们想要的是一步到位。

我们通过 `loc` 来实现，`0: 5` 表示筛选出前5行，`"rating"`表示筛选出评分这一列。

In [17]:
data.loc[0: 5, "rating"]

0    2.5
1    3.0
2    3.0
3    2.0
4    4.0
5    NaN
Name: rating, dtype: float64

除了 `loc` 外，通过 `iloc` 一样可以实现，只是 `iloc` 中接受的都是数字索引。2 表示 `rating` 这一列在整个列名列表中的索引是 2。

In [18]:
data.iloc[0: 5, 2]

0    2.5
1    3.0
2    3.0
3    2.0
4    4.0
Name: rating, dtype: float64

## 根据布尔条件筛选数据

你以为上面的筛选操作就是我要教你的全部？不不不，实际工作上，我们用到更多的是通过布尔条件来进行筛选数据的。

例如想要筛选出电影id为 2049 的数据，通过给切片中传入一个布尔表达式即可。

In [19]:
data[data["movieId"] == 2049]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
78934,547,2049,2.5,1199392175,"Happiest Millionaire, The (1967)",Comedy|Musical,61749.0,25445.0


假如想要筛选出电影id是 2049 或者 6268 的数据。只需要通过条件连接符连接多个布尔条件即可。

注意：

- 布尔操作时，`&` 对应 `and`，`|` 对应 `or`，`~` 对应 `not`
- 多个布尔条件需要使用小括号进行分组

In [20]:
data[(data["movieId"] == 2049) | (data["movieId"] == 6268)]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
56641,407,6268,3.5,1079737241,Raising Victor Vargas (2002),Comedy|Drama|Romance,316188.0,25461.0
78934,547,2049,2.5,1199392175,"Happiest Millionaire, The (1967)",Comedy|Musical,61749.0,25445.0
99999,671,6268,2.5,1065579370,Raising Victor Vargas (2002),Comedy|Drama|Romance,316188.0,25461.0


其实还有另外一种方式可以实现，通过 `isin` 函数。

In [21]:
mids = [2049, 6268]
data[data["movieId"].isin(mids)]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,imdbId,tmdbId
56641,407,6268,3.5,1079737241,Raising Victor Vargas (2002),Comedy|Drama|Romance,316188.0,25461.0
78934,547,2049,2.5,1199392175,"Happiest Millionaire, The (1967)",Comedy|Musical,61749.0,25445.0
99999,671,6268,2.5,1065579370,Raising Victor Vargas (2002),Comedy|Drama|Romance,316188.0,25461.0
