# 索引对齐

## 检查索引

In [2]:
import pandas as pd 
import numpy as np 


In [None]:
# 提取所有列
college = pd.read_csv("college.csv")
columns = college.columns
columns

Index(['instnm', 'city', 'stabbr', 'hbcu', 'menonly', 'womenonly', 'relaffil',
       'satvrmid', 'satmtmid', 'distanceonly', 'ugds', 'ugds_white',
       'ugds_black', 'ugds_hisp', 'ugds_asian', 'ugds_aian', 'ugds_nhpi',
       'ugds_2mor', 'ugds_nra', 'ugds_unkn', 'pptug_ef', 'curroper', 'pctpell',
       'pctfloan', 'ug25abv', 'md_earn_wne_p10', 'grad_debt_mdn_supp'],
      dtype='object')

In [None]:
# 用 values 属性，访问底层的numpy数组
columns.values

array(['instnm', 'city', 'stabbr', 'hbcu', 'menonly', 'womenonly',
       'relaffil', 'satvrmid', 'satmtmid', 'distanceonly', 'ugds',
       'ugds_white', 'ugds_black', 'ugds_hisp', 'ugds_asian', 'ugds_aian',
       'ugds_nhpi', 'ugds_2mor', 'ugds_nra', 'ugds_unkn', 'pptug_ef',
       'curroper', 'pctpell', 'pctfloan', 'ug25abv', 'md_earn_wne_p10',
       'grad_debt_mdn_supp'], dtype=object)

In [6]:
# 取出该数组的第六个值
columns[5]

'womenonly'

In [7]:
# 取出该数组的第2/9/11
columns[[1, 8, 10]]

Index(['city', 'satmtmid', 'ugds'], dtype='object')

In [8]:
# 逆序切片选取
columns[-7:-4]

Index(['pptug_ef', 'curroper', 'pctpell'], dtype='object')

In [9]:
# 索引有许多和series 和dataframe相同的方法
columns.min(), columns.max(), columns.isnull().sum()

('city', 'womenonly', 0)

In [10]:
# 索引对象可以直接通过字符串修改
columns + 'A'

Index(['instnmA', 'cityA', 'stabbrA', 'hbcuA', 'menonlyA', 'womenonlyA',
       'relaffilA', 'satvrmidA', 'satmtmidA', 'distanceonlyA', 'ugdsA',
       'ugds_whiteA', 'ugds_blackA', 'ugds_hispA', 'ugds_asianA', 'ugds_aianA',
       'ugds_nhpiA', 'ugds_2morA', 'ugds_nraA', 'ugds_unknA', 'pptug_efA',
       'curroperA', 'pctpellA', 'pctfloanA', 'ug25abvA', 'md_earn_wne_p10A',
       'grad_debt_mdn_suppA'],
      dtype='object')

In [11]:
# 索引对象也可以通过比较运算符，得到布尔索引
columns > 'G'

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True])

In [13]:
# 尝试用赋值的方法，修改索引对象的一个值，会导致类型错误，因为索引对象是不可变类型
columns[1] = 'A'

TypeError: Index does not support mutable operations

In [18]:
# 切片
c1 = columns[:4]
c1

Index(['instnm', 'city', 'stabbr', 'hbcu'], dtype='object')

In [19]:
c2 = columns[2:5]
c2

Index(['stabbr', 'hbcu', 'menonly'], dtype='object')

In [20]:
# 联合
c1.union(c2)

Index(['city', 'hbcu', 'instnm', 'menonly', 'stabbr'], dtype='object')

In [21]:
c1 | c2

  c1 | c2


Index(['city', 'hbcu', 'instnm', 'menonly', 'stabbr'], dtype='object')

In [22]:
# 对称差
c1.symmetric_difference(c2)

Index(['city', 'instnm', 'menonly'], dtype='object')

In [23]:
c1 ^ c2

  c1 ^ c2


Index(['city', 'instnm', 'menonly'], dtype='object')

## 求笛卡尔积
- 笛卡尔积：两个集合中所有可能的有序对组合

In [28]:
''' 
- range(4) 返回一个 range 对象，它是一个迭代器，表示一个包含从 0 到 3 的整数的序列，但并没有立即创建一个列表，只有在迭代时才会生成这些值。
- np.arange(4) 返回一个 NumPy 数组，这意味着它会创建一个实际的数组对象，可以直接操作、切片、进行数学运算等。
'''
print(range(4))
print(np.arange(4))
s1 = pd.Series(index=list('aaab'), data=np.arange(4))
s1

range(0, 4)
[0 1 2 3]


a    0
a    1
a    2
b    3
dtype: int32

In [29]:
# 创建两个有不同索引，但包含一些相同值的series
s1 = pd.Series(index=list('aaab'), data=np.arange(4))
s1

a    0
a    1
a    2
b    3
dtype: int32

In [30]:
s2 = pd.Series(index=list('cababb'), data=np.arange(6))
s2

c    0
a    1
b    2
a    3
b    4
b    5
dtype: int32

In [None]:
# 两者相加，以产生一个笛卡尔积
''' 
s1 + s2 的行为是根据索引对齐相加的：

- Pandas 会根据索引名称匹配对应的元素做相加
- 如果某个索引在其中一个 Series 中不存在，对应结果为 NaN
- 因为索引里有重复的标签，Pandas 会尝试把带有相同标签的所有元素两两对应相加，产生一种“笛卡尔积”式的对齐。

举例：

s1 中标签 'a' 有三个值 [0,1,2]
s2 中标签 'a' 有两个值 [1,3]
对这两个标签 'a'，s1 + s2 会做所有可能的配对相加（3个 × 2个 = 6 个结果）

类似的标签 'b' 有 1 个和 3 个值，对应会产生 3 个结果

标签 'c' 只在 s2 中有，在 s1 中没有对应，结果是 NaN
'''
s1 + s2

a    1.0
a    3.0
a    2.0
a    4.0
a    3.0
a    5.0
b    5.0
b    7.0
b    8.0
c    NaN
dtype: float64

In [32]:
# 当两组索引元素完全相同，顺序也相同时，不会生成笛卡尔积，索引会按照他们的位置对齐
s1 = pd.Series(index=list('aaabb'), data=np.arange(5))
s2 = pd.Series(index=list('aaabb'), data=np.arange(5))
s1 + s2

a    0
a    2
a    4
b    6
b    8
dtype: int32

In [33]:
# 如果索引元素相同，但顺序不同，是能产生笛卡尔积的
s1 = pd.Series(index=list('aaabb'), data=np.arange(5))
s2 = pd.Series(index=list('bbaaa'), data=np.arange(5))
s1 + s2

a    2
a    3
a    4
a    3
a    4
a    5
a    4
a    5
a    6
b    3
b    4
b    4
b    5
dtype: int32

## 索引爆炸

In [35]:
employee = pd.read_csv('employee.csv', index_col='race')
employee.head()

Unnamed: 0_level_0,dept,title,hire_date,salary,sex
race,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
White,Police,POLICE SERGEANT,2001-12-03,87545.38,Male
Hispanic,Other,ASSISTANT CITY ATTORNEY II,2010-11-15,82182.0,Male
Black,Houston Public Works,SENIOR SLUDGE PROCESSOR,2006-01-09,49275.0,Male
Hispanic,Police,SENIOR POLICE OFFICER,1997-05-27,75942.1,Male
White,Police,SENIOR POLICE OFFICER,2006-01-23,69355.26,Male
