# Pandas行选择和列选择

本文的数据来源：[https://github.com/fivethirtyeight/data/tree/master/fandango](https://github.com/fivethirtyeight/data/tree/master/fandango)

In [15]:
import pandas as pd

fandango = pd.read_csv('fandango_score_comparison.csv')

In [3]:
fandango.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 146 entries, 0 to 145
Data columns (total 22 columns):
FILM                          146 non-null object
RottenTomatoes                146 non-null int64
RottenTomatoes_User           146 non-null int64
Metacritic                    146 non-null int64
Metacritic_User               146 non-null float64
IMDB                          146 non-null float64
Fandango_Stars                146 non-null float64
Fandango_Ratingvalue          146 non-null float64
RT_norm                       146 non-null float64
RT_user_norm                  146 non-null float64
Metacritic_norm               146 non-null float64
Metacritic_user_nom           146 non-null float64
IMDB_norm                     146 non-null float64
RT_norm_round                 146 non-null float64
RT_user_norm_round            146 non-null float64
Metacritic_norm_round         146 non-null float64
Metacritic_user_norm_round    146 non-null float64
IMDB_norm_round               146 n

## 行选择
Pandas进行行选择一般有三种方法：

- 连续多行的选择用类似于python的列表切片
- 按照指定的索引选择一行或多行，使用`loc[]`方法
- 按照指定的位置选择一行多多行，使用`iloc[]`方法

### 第一种

In [5]:
df1 = fandango[1:3]
df1

Unnamed: 0,FILM,RottenTomatoes,RottenTomatoes_User,Metacritic,Metacritic_User,IMDB,Fandango_Stars,Fandango_Ratingvalue,RT_norm,RT_user_norm,...,IMDB_norm,RT_norm_round,RT_user_norm_round,Metacritic_norm_round,Metacritic_user_norm_round,IMDB_norm_round,Metacritic_user_vote_count,IMDB_user_vote_count,Fandango_votes,Fandango_Difference
1,Cinderella (2015),85,80,67,7.5,7.1,5.0,4.5,4.25,4.0,...,3.55,4.5,4.0,3.5,4.0,3.5,249,65709,12640,0.5
2,Ant-Man (2015),80,90,64,8.1,7.8,5.0,4.5,4.0,4.5,...,3.9,4.0,4.5,3.0,4.0,4.0,627,103660,12055,0.5


从结果可以看到，和python的列表切片一样，索引号从0开始，选择了索引号1和2的数据（不包括3）

### 第二种
通过指定列名选择多列。

In [6]:
df2 = fandango.loc[1]
df2

FILM                          Cinderella (2015)
RottenTomatoes                               85
RottenTomatoes_User                          80
Metacritic                                   67
Metacritic_User                             7.5
IMDB                                        7.1
Fandango_Stars                                5
Fandango_Ratingvalue                        4.5
RT_norm                                    4.25
RT_user_norm                                  4
Metacritic_norm                            3.35
Metacritic_user_nom                        3.75
IMDB_norm                                  3.55
RT_norm_round                               4.5
RT_user_norm_round                            4
Metacritic_norm_round                       3.5
Metacritic_user_norm_round                    4
IMDB_norm_round                             3.5
Metacritic_user_vote_count                  249
IMDB_user_vote_count                      65709
Fandango_votes                          

In [7]:
df3 = fandango.loc[1:3]
df3

Unnamed: 0,FILM,RottenTomatoes,RottenTomatoes_User,Metacritic,Metacritic_User,IMDB,Fandango_Stars,Fandango_Ratingvalue,RT_norm,RT_user_norm,...,IMDB_norm,RT_norm_round,RT_user_norm_round,Metacritic_norm_round,Metacritic_user_norm_round,IMDB_norm_round,Metacritic_user_vote_count,IMDB_user_vote_count,Fandango_votes,Fandango_Difference
1,Cinderella (2015),85,80,67,7.5,7.1,5.0,4.5,4.25,4.0,...,3.55,4.5,4.0,3.5,4.0,3.5,249,65709,12640,0.5
2,Ant-Man (2015),80,90,64,8.1,7.8,5.0,4.5,4.0,4.5,...,3.9,4.0,4.5,3.0,4.0,4.0,627,103660,12055,0.5
3,Do You Believe? (2015),18,84,22,4.7,5.4,5.0,4.5,0.9,4.2,...,2.7,1.0,4.0,1.0,2.5,2.5,31,3136,1793,0.5


可以看到，df2是一个Series，选择了索引号为1的那一行数据，注意df3，它与第一种的列表索引最大的不同是包含了索引号为3的那一行数据。

In [8]:
df4 = fandango.loc[[1,3]]
df4

Unnamed: 0,FILM,RottenTomatoes,RottenTomatoes_User,Metacritic,Metacritic_User,IMDB,Fandango_Stars,Fandango_Ratingvalue,RT_norm,RT_user_norm,...,IMDB_norm,RT_norm_round,RT_user_norm_round,Metacritic_norm_round,Metacritic_user_norm_round,IMDB_norm_round,Metacritic_user_vote_count,IMDB_user_vote_count,Fandango_votes,Fandango_Difference
1,Cinderella (2015),85,80,67,7.5,7.1,5.0,4.5,4.25,4.0,...,3.55,4.5,4.0,3.5,4.0,3.5,249,65709,12640,0.5
3,Do You Believe? (2015),18,84,22,4.7,5.4,5.0,4.5,0.9,4.2,...,2.7,1.0,4.0,1.0,2.5,2.5,31,3136,1793,0.5


这里按照索引号选择不连续的行。

### 第三种
在上面的数据中，使用`iloc[]`和`loc[]`的效果是一样的，因为索引号都是从0开始并且连续不断，现在删除索引号为1和2的这两行。

In [9]:
fandango_drop = fandango.drop([1,2], axis=0)

此时如果仍然用`loc[]`来索引行号为2的那一行，就会出错，这时候可以使用`iloc[]`来进行选择。

In [12]:
df5 = fandango_drop.iloc[2]
df5

FILM                          Hot Tub Time Machine 2 (2015)
RottenTomatoes                                           14
RottenTomatoes_User                                      28
Metacritic                                               29
Metacritic_User                                         3.4
IMDB                                                    5.1
Fandango_Stars                                          3.5
Fandango_Ratingvalue                                      3
RT_norm                                                 0.7
RT_user_norm                                            1.4
Metacritic_norm                                        1.45
Metacritic_user_nom                                     1.7
IMDB_norm                                              2.55
RT_norm_round                                           0.5
RT_user_norm_round                                      1.5
Metacritic_norm_round                                   1.5
Metacritic_user_norm_round              

看到了吧，`iloc[2]`的意思是选择第三行的数据，也就是索引号为4的那一行数据，因为`iloc[]`的计算也是从0开始的，所以`iloc[]`适用于数据进行了筛选后造成索引号与原来不一致的情况

`loc[]`与`iloc[]`方法之间还有一个巨大的差别，那就是`loc[]`里的参数是对应的索引值即可，所以参数可以是整数，也可以是字符串。而`iloc[]`里的参数表示的是第几行的数据，所以只能是整数。

## 列选择
列选择比较简单，只要直接把列名传递过去即可，如果有多列的数据，要单独指出列名或列的索引号。

### 第一种
选择单列（电影名称）。

In [14]:
df6 = fandango['FILM']
df6

0                      Avengers: Age of Ultron (2015)
1                                   Cinderella (2015)
2                                      Ant-Man (2015)
3                              Do You Believe? (2015)
4                       Hot Tub Time Machine 2 (2015)
5                            The Water Diviner (2015)
6                               Irrational Man (2015)
7                                     Top Five (2014)
8                        Shaun the Sheep Movie (2015)
9                                 Love & Mercy (2015)
10                  Far From The Madding Crowd (2015)
11                                   Black Sea (2015)
12                                   Leviathan (2014)
13                                    Unbroken (2014)
14                          The Imitation Game (2014)
15                                     Taken 3 (2015)
16                                       Ted 2 (2015)
17                                    Southpaw (2015)
18     Night at the Museum: 

### 第二种


In [16]:
df7 = fandango[['FILM','Metacritic']]
df7

Unnamed: 0,FILM,Metacritic
0,Avengers: Age of Ultron (2015),66
1,Cinderella (2015),67
2,Ant-Man (2015),64
3,Do You Believe? (2015),22
4,Hot Tub Time Machine 2 (2015),29
5,The Water Diviner (2015),50
6,Irrational Man (2015),53
7,Top Five (2014),81
8,Shaun the Sheep Movie (2015),81
9,Love & Mercy (2015),80
