In [10]:
import numpy as np
import pandas as pd

## 索引

### 索引器

#### 列索引

选定 DataFrame 结构的数据中的某一列或几列, 输出的根据列数呈现 Series 或 DataFrame 的数据格式.

- `df['Name']`
- `df[['Name', 'Gender']]`  多列同时索引使用一个 list 将他们一起引用
- `df.Name`  在列名不含空格的情况下可以使用这种方式进行引用, 效果与第一种相同

#### 行索引

行索引是 DataFrame 数据格式中每一行的索引结构. 行索引可以使用字符串或是数字. 一边不使用混合类型或者浮点数的格式作为行索引.

行索引可以正常使用类似列索引的方法引用, 还可以使用切片进行统一调用. (需要切片两端的值是唯一的)

- `s[['c', 'b']]`
- `s['c':'b':-2]`
- `s[[1,-1]]`

#### loc & iloc

loc 类型的索引器为 loc 和 iloc 两个, 分别对应对元素的索引和对序列的索引.

两者索引的规则是高度类似的, 因此现在只看 loc 进行索引的方法, iloc 以此类推即可.

loc 的索引一般可选一个或两个常用参数, `loc[*, *]`. 其中第一个为行的选择, 第二个为列的选择.

- loc 参数可以接受的对象类型有:
	
	- 单个元素
	- 列表
	- 切片
	- 布尔值
	- 函数 (需要 return 一个上述四种类型的结果)

其中布尔值作为判断元素特征然后进行筛选的方法在实际应用中能起到非常大的作用.

iloc 参数具有一样的性质, 需要注意的是 iloc 一般是列表的位置进行筛选, 用数字表明这个数据在 DataFrame 中的位置. 因此在使用布尔列表筛选的时候也应该注意, iloc 不能直接使用 Series 格式的数据, 而是需要使用 `.values` 方法来完成转换.

#### Query

使用 `df.query()` 可以使用 query 表达式进行更加便捷的数据搜查.

```Python
df.query('((School == "Fudan University")&'
   ....:         ' (Grade == "Senior")&'
   ....:         ' (Weight > 70))|'
   ....:         '((School == "Peking University")&'
   ....:         ' (Grade != "Senior")&'
   ....:         ' (Weight > 80))')
```

Query 表达式中注册了一些常用的逻辑符号, 以及对应的英文单词, 还有 Series 数据格式的所有性质和方法, 因此都可以直接在字符串中使用. 习惯中在分行时一般用独立的 `''` 进行标注, 不同的字符串也能够被统一连贯地识别.

#### 随机抽样: sample

要使用随机抽样可以使用 sample 函数. 

- sample 的参数

	- n: 抽样数量
	- axis: 抽样方向 (行列)
	- frac: 抽样比例
	- replace: 是否放回抽样
	- weights: 每个元素的权重

### 多级索引

#### 多级索引

多级索引是在需要用超过两个维度的元素来进行表格的构造的情况下使用的更高阶方法. 具有多级索引的结构如图所示:

![](https://s1.vika.cn/space/2022/08/29/987af25760494933abe0640f38313d8c)

这种结构本质上还是行索引和列索引二维定位数据的结构. 只不过这个时候的行索引和列索引被替换为了一个元组, 即通过多个元素的检索才能得到我们需求的数据.

索引的名字和属性分别可以通过 name 和 values 获得.

```Python
df_multi.index.names
Out[75]: FrozenList(['School', 'Gender'])

df_multi.columns.names
Out[76]: FrozenList(['Indicator', 'Grade'])

df_multi.index.values
Out[77]: 
array([('A', 'Female'), ('A', 'Male'), ('B', 'Female'), ('B', 'Male'),
       ('C', 'Female'), ('C', 'Male'), ('D', 'Female'), ('D', 'Male')],
      dtype=object)

df_multi.columns.values
Out[78]: 
array([('Height', 'Freshman'), ('Height', 'Senior'),
       ('Height', 'Sophomore'), ('Height', 'Junior'),
       ('Weight', 'Freshman'), ('Weight', 'Senior'),
       ('Weight', 'Sophomore'), ('Weight', 'Junior')], dtype=object)
```

需要获得某一层的索引时, 可以使用 `get_level_values` 函数获得特定的索引.

#### 多级索引中的 iloc

在使用多级索引调用 iloc 时, 基本方法与之前相同, 只需要把单个元素改为元组即可. 需要注意的是在使用时最好先进行索引的排序:

`df_sorted = df_multi.sort_index()`

尤其在使用元组列表和切片方法的时候.

对于多级索引来说, loc 还有一个特殊的用法, 可以把每一层索引需要的元素都写出来, 索引中全都要的就用 : 表示.

`res = df_multi.loc[(['Peking University', 'Fudan University'], ['Sophomore', 'Junior']), :]`

这样就可以得到所有北大和复旦的大二大三学生的信息.

#### IndexSlice 对象

使用 IndexSlice 对象可以实现分层索引, 即对不同等级的索引分别做要求.

使用 `loc[idx[*,*],idx[*,*]]` 型可以实现分层索引.

#### 多级索引的构造

构造多级索引时, 可以使用 `set_index()` 来设置多级索引. 

除此之外, 常用的有 `from_tuples, from_arrays, from_product` 三种方法.

### 索引的常用方法

#### 索引层的交换和删除

索引层的交换由 `swaplevel` 和 `reorder_levels` 完成，前者只能交换两个层，而后者可以交换任意层，两者都可以指定交换的是轴是哪一个，即行索引或列索引.

删除某一层索引可以使用 `dropolevel` 方法.

#### 索引属性的修改

通过 `rename_axis` 可以对索引层的名字进行修改

使用 `rename` 可以对索引的值做修改, 多级索引需要指定 level

对应整个索引, 也可以使用列表或者字符串用迭代实现.

使用 map() 可以批量对属性进行函数处理, 实现每一层索引的变形, 也可以实现索引的拆分和合并

#### 索引的设置和重置

索引的设置可以使用 `set_index` 完成, 这里的主要参数是 `append` , 表示是否来保留原来的索引.

索引的重置可以使用 `reset_index` 来进行索引的重置, 其中主要参数是 `drop`. 

#### 索引的变形


## 五、练习
### Ex1：公司员工数据集
现有一份公司员工数据集：

In [11]:
df = pd.read_csv('data/company.csv')
df.head(3)

Unnamed: 0,EmployeeID,birthdate_key,age,city_name,department,job_title,gender
0,1318,1/3/1954,61,Vancouver,Executive,CEO,M
1,1319,1/3/1957,58,Vancouver,Executive,VP Stores,F
2,1320,1/2/1955,60,Vancouver,Executive,Legal Counsel,F


1. 分别只使用 query 和 loc 选出年龄不超过四十岁且工作部门为 Dairy 或 Bakery 的男性。

2. 选出员工 ID 号 为奇数所在行的第1、第3和倒数第2列。

3. 按照以下步骤进行索引操作：

   - 把后三列设为索引后交换内外两层

   - 恢复中间层索引

   - 修改外层索引名为 Gender

   - 用下划线合并两层行索引

   - 把行索引拆分为原状态

   - 修改索引名为原表名称

   - 恢复默认索引并将列保持为原表的相对位置

In [12]:
# 分别只使用 query 和 loc 选出年龄不超过四十岁且工作部门为 Dairy 或 Bakery 的男性。

df_query = df.query('(age <= 40) &' '((department == "Dairy") |' '(department == "Bakery")) & gender == "M"')
df_loc = df.loc[df.department.isin(['Dairy', 'Bakery']) & (df.age <= 40) & (df.gender == 'M')]
print(df_query, df_loc)

      EmployeeID birthdate_key  age    city_name department     job_title  \
3611        5791     1/14/1975   40      Kelowna      Dairy  Dairy Person   
3613        5793     1/22/1975   40     Richmond     Bakery         Baker   
3615        5795     1/30/1975   40      Nanaimo      Dairy  Dairy Person   
3617        5797      2/3/1975   40      Nanaimo      Dairy  Dairy Person   
3618        5798      2/4/1975   40       Surrey      Dairy  Dairy Person   
...          ...           ...  ...          ...        ...           ...   
6108        8307    10/20/1994   21      Burnaby      Dairy  Dairy Person   
6113        8312    11/12/1994   21      Burnaby      Dairy  Dairy Person   
6137        8336    12/31/1994   21    Vancouver      Dairy  Dairy Person   
6270        6312     5/14/1979   36  Grand Forks      Dairy  Dairy Person   
6271        6540     2/14/1981   34     Victoria     Bakery         Baker   

     gender  
3611      M  
3613      M  
3615      M  
3617      M  
3618 

In [13]:
# 选出员工 ID 号 为奇数所在行的第1、第3和倒数第2列。

df_ID = df.loc[(df.EmployeeID & 1) == 1].iloc[:,[0,2,-2]]
df_ID

Unnamed: 0,EmployeeID,age,job_title
1,1319,58,VP Stores
3,1321,56,VP Human Resources
5,1323,53,"Exec Assistant, VP Stores"
6,1325,51,"Exec Assistant, Legal Counsel"
8,1329,48,Store Manager
...,...,...,...
6276,7659,26,Cashier
6277,7741,25,Cashier
6278,7801,25,Dairy Person
6280,8181,22,Cashier


In [14]:
df_3 = df.copy()
df_3 = df_3.set_index(df_3.columns[-3:].tolist()).swaplevel(0,2,axis=0)
df_3 = df_3.reset_index(level=1)
df_3 = df_3.rename_axis(index= {'gender': 'Gender'})
df_3.index = df_3.index.map(lambda x: '_'.join(x))
df_3

Unnamed: 0,job_title,EmployeeID,birthdate_key,age,city_name
M_Executive,CEO,1318,1/3/1954,61,Vancouver
F_Executive,VP Stores,1319,1/3/1957,58,Vancouver
F_Executive,Legal Counsel,1320,1/2/1955,60,Vancouver
M_Executive,VP Human Resources,1321,1/2/1959,56,Vancouver
M_Executive,VP Finance,1322,1/9/1958,57,Vancouver
...,...,...,...,...,...
F_Customer Service,Cashier,8036,8/9/1992,23,New Westminister
M_Customer Service,Cashier,8181,9/26/1993,22,Prince George
M_Customer Service,Cashier,8223,2/11/1994,21,Trail
F_Customer Service,Cashier,8226,2/16/1994,21,Victoria


In [15]:
df_3.index = df_3.index.map(lambda x: tuple(x.split('_')))
df_3 = df_3.rename_axis(index=['gender', 'department'])
df_3

Unnamed: 0_level_0,Unnamed: 1_level_0,job_title,EmployeeID,birthdate_key,age,city_name
gender,department,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
M,Executive,CEO,1318,1/3/1954,61,Vancouver
F,Executive,VP Stores,1319,1/3/1957,58,Vancouver
F,Executive,Legal Counsel,1320,1/2/1955,60,Vancouver
M,Executive,VP Human Resources,1321,1/2/1959,56,Vancouver
M,Executive,VP Finance,1322,1/9/1958,57,Vancouver
...,...,...,...,...,...,...
F,Customer Service,Cashier,8036,8/9/1992,23,New Westminister
M,Customer Service,Cashier,8181,9/26/1993,22,Prince George
M,Customer Service,Cashier,8223,2/11/1994,21,Trail
F,Customer Service,Cashier,8226,2/16/1994,21,Victoria


In [16]:
df_3 = df_3.rename_axis(index = ['gender', 'department'])
df_3 = df_3.reset_index().reindex(df.columns, axis=1)
df_3

Unnamed: 0,EmployeeID,birthdate_key,age,city_name,department,job_title,gender
0,1318,1/3/1954,61,Vancouver,Executive,CEO,M
1,1319,1/3/1957,58,Vancouver,Executive,VP Stores,F
2,1320,1/2/1955,60,Vancouver,Executive,Legal Counsel,F
3,1321,1/2/1959,56,Vancouver,Executive,VP Human Resources,M
4,1322,1/9/1958,57,Vancouver,Executive,VP Finance,M
...,...,...,...,...,...,...,...
6279,8036,8/9/1992,23,New Westminister,Customer Service,Cashier,F
6280,8181,9/26/1993,22,Prince George,Customer Service,Cashier,M
6281,8223,2/11/1994,21,Trail,Customer Service,Cashier,M
6282,8226,2/16/1994,21,Victoria,Customer Service,Cashier,F


### Ex2：巧克力数据集
现有一份关于巧克力评价的数据集：

In [18]:
df = pd.read_csv('./data/chocolate.csv')
df.head(3)

Unnamed: 0,Company,Review\r\nDate,Cocoa\r\nPercent,Company\r\nLocation,Rating
0,A. Morin,2016,63%,France,3.75
1,A. Morin,2015,70%,France,2.75
2,A. Morin,2015,70%,France,3.0


1. 把列索引名中的`\n`替换为空格。
2. 巧克力`Rating`评分为1至5，每0.25分一档，请选出2.75分及以下且可可含量`Cocoa Percent`高于中位数的样本。
3. 将`Review Date`和`Company Location`设为索引后，选出`Review Date`在2012年之后且`Company Location`不属于`France, Canada, Amsterdam, Belgium`的样本。

In [24]:
df.columns = [' '.join(i.split('\n')) for i in df.columns]
df.columns = [' '.join(i.split('\r')) for i in df.columns]
df.head(3)

Unnamed: 0,Company,Review Date,Cocoa Percent,Company Location,Rating
0,A. Morin,2016,63%,France,3.75
1,A. Morin,2015,70%,France,2.75
2,A. Morin,2015,70%,France,3.0


In [26]:
df['Cocoa Percent'] = df['Cocoa Percent'].apply(lambda x:float(x[:-1])/100)
df_rating = df.loc[(df.Rating <= 2.75) & (df['Cocoa Percent'] > df['Cocoa Percent'].median())]
df_rating

Unnamed: 0,Company,Review Date,Cocoa Percent,Company Location,Rating
33,Akesson's (Pralus),2010,0.75,Switzerland,2.75
34,Akesson's (Pralus),2010,0.75,Switzerland,2.75
36,Alain Ducasse,2014,0.75,France,2.75
38,Alain Ducasse,2013,0.75,France,2.50
39,Alain Ducasse,2013,0.75,France,2.50
...,...,...,...,...,...
1736,Wilkie's Organic,2013,0.89,Ireland,2.75
1738,Wilkie's Organic,2013,0.75,Ireland,2.75
1741,Willie's Cacao,2013,1.00,U.K.,2.25
1769,Zart Pralinen,2016,0.85,Austria,2.75


In [31]:
df_2 = df.set_index(['Review Date', 'Company Location']).sort_index(level=0)
idx = pd.IndexSlice
Loc = ['France', 'Canada', 'Amsterdam', 'Belgium']
df_2 = df_2.loc[idx[2012:, ~df_2.index.get_level_values(1).isin(Loc)],:]
df_2

Unnamed: 0_level_0,Unnamed: 1_level_0,Company,Cocoa Percent,Rating
Review Date,Company Location,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012,Australia,Bahen & Co.,0.70,3.00
2012,Australia,Bahen & Co.,0.70,2.50
2012,Australia,Bahen & Co.,0.70,2.50
2012,Australia,Cravve,0.75,3.25
2012,Australia,Cravve,0.65,3.25
...,...,...,...,...
2017,U.S.A.,Spencer,0.70,3.75
2017,U.S.A.,Spencer,0.70,3.50
2017,U.S.A.,Spencer,0.70,2.75
2017,U.S.A.,Xocolla,0.70,2.75
