# Indexing, selecting, assigning 

In [2]:
import pandas as pd
reviews = pd.read_csv("./input/winemag-data-130k-v2.csv", index_col=0)
pd.set_option("display.max_rows", 5)

选择要处理的pandas DataFrame或Series的特定值几乎是您将运行的任何数据操作中的隐式步骤。 因此，对如何切片和切块数据集的充分理解至关重要。

## Naive accessors

本机Python对象提供了许多索引数据的好方法。 pandas携带所有这些，这有助于使它容易入手。

考虑一下这个DataFrame：

In [4]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


在Python中，我们可以通过将其作为属性访问来访问对象的属性。 例如，book对象可能有title属性，我们可以通过调用book.title来访问它。 pandas DataFrame中的列以相同的方式工作。

因此，要访问我们评论的国家/地区属性，我们可以使用：

In [5]:
reviews.country

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

如果我们在Python中有一个dict对象，我们可以使用索引（[]）运算符访问它的值。 同样，我们可以对pandas DataFrame列执行相同的操作。

In [6]:
reviews['country']

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

这是从pandas DataFrame中选择特定柱状系列的两种方法。 它们中的任何一个都没有或多或少在语法上有效，但索引operator []确实具有可以处理其中包含保留字符的列名的优点（例如，如果我们有一个country providence列，则review.country上提请不会' 工作）。

要深入到单个特定值，我们只需再次使用索引运算符[]：

In [7]:
reviews['country'][0]

'Italy'

## Index-based selection

索引操作符和属性选择很好，因为它们的工作方式与Python生态系统的其他部分一样。 作为一个新手，这使他们易于拿起和使用。 但是，pandas有自己的访问者运算符loc和iloc。 对于更高级的操作，这些是您应该使用的操作。

pandas索引在两种范例之一中起作用。 第一种是基于索引的选择：根据数据中的数字位置选择数据。 iloc遵循这种范式。

要选择此DataFrame中的第一行数据，我们可能会使用以下内容：

In [8]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

loc和iloc都是行优先，列为其次。 这与我们在本机Python中所做的相反，它是第一列，第二行。

这意味着检索行更容易，并且获取检索列的难度更小。 要获取包含iloc的列，我们可以执行以下操作：

In [9]:
reviews.iloc[:, 0]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

loc和iloc都是行优先，列为秒。 这与我们在本机Python中所做的相反，它是第一列，第二行。

这意味着检索行更容易，并且获取检索列的难度更小。 要获取包含iloc的列，我们可以执行以下操作：

In [10]:
reviews.iloc[:, 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

它自己的：运算符，也来自本机Python，意思是“一切”。 但是，当与其他选择器结合使用时，它可用于指示一系列值。 例如，要从第一行，第二行和第三行选择国家/地区列，我们将执行以下操作：

In [11]:
reviews.iloc[:3, 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

或者，要仅选择第二个和第三个条目，我们会这样做：

In [12]:
reviews.iloc[1:3, 0]

1    Portugal
2          US
Name: country, dtype: object

也可以传递一个列表：

In [13]:
reviews.iloc[[0, 1, 2], 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

最后，值得知道负数可用于选择。 这将从值的结尾开始向前计数。 例如，这里是数据集的最后五个元素。

In [14]:
reviews.iloc[-5:]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


## Label-based selection

属性选择的第二个范例是loc运算符后面的范例：基于标签的选择。 在这个范例中，重要的是数据索引值，而不是它的位置。

例如，要获得评论中的第一个条目，我们现在将执行以下操作：

In [15]:
reviews.loc[0, 'country']

'Italy'

iloc在概念上比loc更简单，因为它忽略了数据集的索引。 当我们使用iloc时，我们将数据集视为一个大矩阵（列表列表），我们必须按位置索引。 相比之下，loc使用索引中的信息来完成其工作。 由于您的数据集通常具有有意义的索引，因此使用loc通常更容易。 例如，这是一个使用loc更容易的操作：

In [16]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

Unnamed: 0,taster_name,taster_twitter_handle,points
0,Kerin O’Keefe,@kerinokeefe,87
1,Roger Voss,@vossroger,87
...,...,...,...
129969,Roger Voss,@vossroger,90
129970,Roger Voss,@vossroger,90


在loc和iloc之间选择或转换时，有一个值得记住的“问题”，即两种方法使用略有不同的索引方案。

iloc使用Python stdlib索引方案，其中包含范围的第一个元素，排除最后一个元素。因此0:10将选择条目0，...，9。同时，loc包含索引。因此0:10将选择条目0，...，10。

为什么要改变？请记住，loc可以索引任何stdlib类型：例如，字符串。如果我们有一个带有索引值Apples，...，Potatoes，...的DataFrame，并且我们想要选择“苹果和土豆之间的所有字母水果选择”，那么索引df会更加方便。 loc ['Apples'：'Potatoes']比索引像df.loc ['Apples'，'Potatoet]（t在字母表中的s之后）。

当DataFrame索引是简单的数字列表时，例如，这尤其令人困惑。 0，...，1000。在这种情况下，df.iloc [0：1000]将返回1000个条目，而df.loc [0：1000]将返回1001个条目！要使用loc获取1000个元素，您需要降低一个并请求df.iloc [0：999]。本教程的早期版本没有明确指出这一点，导致很多用户对某些相关答案感到困惑，因此我们在此处提供了解释此问题的说明。

否则，使用loc的语义与iloc的语义相同。


## Manipulating the index

基于标签的选择从索引中的标签获得其权力。 关键的是，我们使用的索引不是一成不变的。 我们可以以我们认为合适的任何方式操纵索引。

set_index方法可用于完成工作。 以下是set_index到title字段时会发生的情况：

In [17]:
reviews.set_index("title")

Unnamed: 0_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Nicosia 2013 Vulkà Bianco (Etna),Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...
Domaine Marcel Deiss 2012 Pinot Gris (Alsace),France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Pinot Gris,Domaine Marcel Deiss
Domaine Schoffit 2012 Lieu-dit Harth Cuvée Caroline Gewurztraminer (Alsace),France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Gewürztraminer,Domaine Schoffit


如果您可以为数据集提供比当前数据集更好的索引，则执行set_index非常有用。

## Conditional selection

到目前为止，我们一直使用DataFrame本身的结构属性索引各种数据。 但是，为了对数据做有趣的事情，我们经常需要根据条件提出问题。

例如，假设我们特别关注意大利生产的优质葡萄酒。

我们可以先询问每种葡萄酒是否为意大利葡萄酒：

In [19]:
reviews.country == 'Italy'

0          True
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

此操作根据每条记录的国家/地区生成一系列真/假布尔值。 然后可以在loc内部使用此结果来选择相关数据：

In [20]:
reviews.loc[reviews.country == 'Italy']

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


这个DataFrame有大约20,000行。 原来有~130,000。 这意味着大约15％的葡萄酒来自意大利。

我们还想知道哪些比平均水平更好。 葡萄酒的评分为80至100分，因此这可能意味着葡萄酒至少累积90分。

我们可以使用＆符号（＆）将两个问题放在一起：

In [21]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
120,Italy,"Slightly backward, particularly given the vint...",Bricco Rocche Prapó,92,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Prapó (Barolo),Nebbiolo,Ceretto
130,Italy,"At the first it was quite muted and subdued, b...",Bricco Rocche Brunate,91,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Brunate (Barolo),Nebbiolo,Ceretto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


假设我们将购买任何在意大利制造或评级高于平均水平的葡萄酒。 为此，我们使用管道（|）：

In [22]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


pandas附带了一些预先建立的条件选择器，其中两个我们将在这里重点介绍。 第一个是isin。 isin允许您选择值“在...中”的数据列表。 例如，以下是我们如何使用它来选择仅来自意大利或法国的葡萄酒：

In [23]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


第二个是isnull（和它的伴侣notnull）。 这些方法可以突出显示非空（NaN）的值。 例如，要过滤掉数据集中缺少价格标签的葡萄酒，我们将采取以下措施：

In [24]:
reviews.loc[reviews.price.notnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


## Assigning data

另一方面，将数据分配给DataFrame很容易。 您可以指定一个常量值：

In [25]:
reviews['critic'] = 'everyone'
reviews['critic']

0         everyone
1         everyone
            ...   
129969    everyone
129970    everyone
Name: critic, Length: 129971, dtype: object

或者使用可迭代的值：

In [26]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int32