# 介绍

在几乎任何数据操作中，选择要处理的 pandas DataFrame 或 Series 的特定值都是一个隐含的步骤，因此在使用 Python 处理数据时，您首先需要学习的是如何快速有效地选择与您相关的数据点。

In [1]:

import pandas as pd
reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
pd.set_option('display.max_rows', 5)

# 原生访问器

原生 Python 对象提供了很好的索引数据的方法。Pandas 将所有这些都继承了下来，这有助于使其易于上手。

考虑这个 DataFrame：

In [2]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


在 Python 中，我们可以通过将其作为属性访问来访问对象的属性。例如，一个 `book` 对象可能有一个 `title` 属性，我们可以通过调用 `book.title` 来访问它。Pandas DataFrame 中的列工作方式基本相同。

因此，要访问 `reviews` 的 `country` 属性，我们可以使用：

In [3]:
reviews.country

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

如果我们有一个 Python 字典，我们可以使用索引（`[]`）运算符访问它的值。我们也可以对 DataFrame 中的列执行相同的操作：

In [4]:
reviews['country']

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

这是从 DataFrame 中选择特定 Series 的两种方法。它们在语法上都不更或不少有效，但索引运算符 `[]` 有一个优点，就是它可以处理列名中包含保留字符的情况（例如，如果我们有一个名为 `country providence` 的列，`reviews.country providence` 就无法工作）。

难道 pandas Series 看起来不像一个高级字典吗？它基本上就是这样，因此毫不奇怪，要深入到一个特定的值，我们只需要再次使用索引运算符 `[]`：

In [5]:
reviews['country'][0]

'Italy'

# pandas 中的索引

索引运算符和属性选择很好，因为它们的工作方式与 Python 生态系统中的其他地方一样。对于新手来说，这使得它们容易上手和使用。然而，pandas 有它自己的访问器运算符，即 `loc` 和 `iloc`。对于更高级的操作，这些是您应该使用的。

### 基于索引的选择

Pandas 的索引工作在两种范式之一中。第一种是**基于索引的选择**：根据数据在数据中的数值位置选择数据。`iloc` 遵循这种范式。

要选择 DataFrame 中的第一行数据，我们可以使用以下方法：

In [6]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

`loc` 和 `iloc` 都是先行后列。这与我们在原生 Python 中的操作相反，原生 Python 是先列后行。

这意味着检索行稍微容易一些，而检索列稍微困难一些。要使用 `iloc` 获取列，我们可以执行以下操作：

In [7]:
reviews.iloc[:, 0]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

独立使用的 `:` 运算符来自原生 Python，表示“所有内容”。然而，当与其他选择器结合使用时，它可以用来表示一系列值。例如，要从第一行、第二行和第三行中仅选择 `country` 列，我们可以执行以下操作：

In [8]:
reviews.iloc[:3, 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

或者，要选择第二和第三个条目，我们可以执行以下操作：

In [9]:
reviews.iloc[1:3, 0]

1    Portugal
2          US
Name: country, dtype: object

也可以传递一个列表：

In [10]:
reviews.iloc[[0, 1, 2], 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

最后，值得知道的是，在选择中可以使用负数。这将从值的 _末尾_ 开始向前计数。因此，例如，这里是数据集的最后五个元素。

In [11]:
reviews.iloc[-5:]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


### 基于标签的选择

属性选择的第二个范式是由 `loc` 运算符遵循的范式：**基于标签的选择**。在这种范式中，重要的是数据的索引值，而不是其位置。

例如，要获取 `reviews` 中的第一个条目，我们现在会执行以下操作：

In [12]:
reviews.loc[0, 'country']

'Italy'

`iloc` 在概念上比 `loc` 更简单，因为它忽略了数据集的索引。当我们使用 `iloc` 时，我们把数据集看作一个大矩阵（一个列表的列表），我们需要通过位置索引到它。相比之下，`loc` 使用索引中的信息来完成其工作。由于数据集通常具有有意义的索引，因此通常更容易使用 `loc` 来完成操作。例如，以下操作使用 `loc` 要简单得多：

In [13]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

Unnamed: 0,taster_name,taster_twitter_handle,points
0,Kerin O’Keefe,@kerinokeefe,87
1,Roger Voss,@vossroger,87
...,...,...,...
129969,Roger Voss,@vossroger,90
129970,Roger Voss,@vossroger,90


### 在 `loc` 和 `iloc` 之间做选择

在选择或转换 `loc` 和 `iloc` 之间时，有一个值得注意的“陷阱”，就是这两种方法使用略有不同的索引方案。

`iloc` 使用 Python 标准库的索引方案，其中范围的第一个元素包含在内，最后一个元素不包含在内。因此，`0:10` 将选择条目 `0,...,9`。而 `loc` 则是包容性索引。因此，`0:10` 将选择条目 `0,...,10`。

为什么会有这种变化呢？请记住，loc 可以索引任何 stdlib 类型：例如字符串。如果我们有一个索引值为 `Apples, ..., Potatoes, ...` 的 DataFrame，并且我们想要选择“从 Apples 到 Potatoes 之间的所有字母顺序的水果选择”，那么使用 `df.loc['Apples':'Potatoes']` 要比像 `df.loc['Apples', 'Potatoet']` 这样的索引方便得多（`t` 在字母表中在 `s` 之后）。

当 DataFrame 索引是一个简单的数值列表时，例如 `0,...,1000`，这种情况特别令人困惑。在这种情况下，`df.iloc[0:1000]` 将返回 1000 个条目，而 `df.loc[0:1000]` 将返回其中的 1001 个！要使用 `loc` 获取 1000 个元素，您需要选择比实际数量少一个的范围，并请求 `df.loc[0:999]`。

否则，使用 `loc` 的语义与使用 `iloc` 的语义相同。

# 操纵索引

基于标签的选择从索引中的标签中获取其能力。关键是，我们使用的索引是可变的。我们可以以任何我们认为合适的方式操纵索引。

`set_index()` 方法可以用来完成这个任务。当我们将索引设置为 `title` 字段时会发生什么，如下所示：

In [14]:
reviews.set_index("title")

Unnamed: 0_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Nicosia 2013 Vulkà Bianco (Etna),Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...
Domaine Marcel Deiss 2012 Pinot Gris (Alsace),France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Pinot Gris,Domaine Marcel Deiss
Domaine Schoffit 2012 Lieu-dit Harth Cuvée Caroline Gewurztraminer (Alsace),France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Gewürztraminer,Domaine Schoffit


如果您能想出一个比当前索引更好的索引，那么这将非常有用。

# 条件选择

到目前为止，我们一直在使用 DataFrame 本身的结构属性索引各种数据。然而，要对数据进行 *有趣* 的操作，我们经常需要根据条件提出问题。

例如，假设我们特别关注在意大利生产的高于平均水平的葡萄酒。

我们可以首先检查每种葡萄酒是否是意大利产的：

In [15]:
reviews.country == 'Italy'

0          True
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

这个操作生成了一个基于每条记录的 `country` 的 `True`/`False` 布尔值的 Series。然后可以将这个结果用在 `loc` 内部来选择相关数据：

In [16]:
reviews.loc[reviews.country == 'Italy']

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


这个 DataFrame 有约 20,000 行。原始的 DataFrame 有约 130,000 行。这意味着大约 15% 的葡萄酒来自意大利。

我们还想知道哪些葡萄酒的质量高于平均水平。葡萄酒的评分是基于一个 80 到 100 分的等级制度，因此这可能意味着获得至少 90 分的葡萄酒。

我们可以使用 ampersand (`&`) 将这两个问题结合起来：

In [17]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
120,Italy,"Slightly backward, particularly given the vint...",Bricco Rocche Prapó,92,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Prapó (Barolo),Nebbiolo,Ceretto
130,Italy,"At the first it was quite muted and subdued, b...",Bricco Rocche Brunate,91,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Brunate (Barolo),Nebbiolo,Ceretto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


假设我们会购买任何意大利产的葡萄酒 _或者_ 评分高于平均水平的葡萄酒。对于这个条件，我们使用一个竖线 (`|`)：

In [18]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Pandas 提供了一些内置的条件选择器，其中两个我们将在这里进行突出显示。

第一个是 `isin`。`isin` 允许您选择其值“在”值列表中的数据。例如，以下是我们如何使用它来选择仅来自意大利或法国的葡萄酒：

In [19]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


第二个是 `isnull`（以及它的伴侣 `notnull`）。这些方法允许您突出显示为空（`NaN`）的值（或不为空的值）。例如，要过滤掉数据集中缺少价格标签的葡萄酒，我们会这样做：

In [20]:
reviews.loc[reviews.price.notnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


# 分配数据

相反，将数据分配给 DataFrame 很容易。您可以分配一个常量值：

In [21]:
reviews['critic'] = 'everyone'
reviews['critic']

0         everyone
1         everyone
            ...   
129969    everyone
129970    everyone
Name: critic, Length: 129971, dtype: object

或者使用一个值的可迭代对象：

In [22]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int64