In [1]:
import pandas as pd

s1 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
s2 = pd.Series([2, 3, 4], index=['a', 'b', 'c'])
print(s1 + s2)

a    12
b    23
c    34
dtype: int64


### 修改索引

`df.reindex()` 是 Pandas 中用于重新索引（Reindexing）的方法。重新索引是指根据指定的新索引标签，对数据结构进行重新排序和调整。

方法签名为：
```python
DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan, limit=None, tolerance=None)
```

其中一些重要的参数包括：

- **labels/index/columns：** 指定新的行索引、列索引，或同时指定行列索引。
  
- **axis：** 指定重新索引的轴，0表示行索引，1表示列索引。

- **method：** 指定填充缺失值的方法，例如'ffill'表示向前填充，'bfill'表示向后填充。

- **fill_value：** 指定填充缺失值的具体数值。

- **copy：** 默认为 True，表示是否返回一个新的对象，如果为 False，则可能修改原始对象。


In [2]:
import pandas as pd

# 创建一个示例 DataFrame
s=pd.Series([11,22,33], index=[1, 2, 3])

print("Original Series:\n", s, '\n')

# Reset index
print(s.reindex(range(1,6)), '\n') 
print('Fill value with 0:\n', s.reindex(range(1,6), fill_value=0))
print('\nFill Forward:\n', s.reindex(range(1,6), method='ffill'), '\n')
print('Fill Backward:\n', s.reindex(range(1,6), method='bfill'), '\n')



Original Series:
 1    11
2    22
3    33
dtype: int64 

1    11.0
2    22.0
3    33.0
4     NaN
5     NaN
dtype: float64 

Fill value with 0:
 1    11
2    22
3    33
4     0
5     0
dtype: int64

Fill Forward:
 1    11
2    22
3    33
4    33
5    33
dtype: int64 

Fill Backward:
 1    11.0
2    22.0
3    33.0
4     NaN
5     NaN
dtype: float64 



In [10]:
import pandas as pd

pd.set_option('display.unicode.east_asian_width',  True)

score = [[90, 100, 90], [100, 39, 89], [49,79, 87]]
class_name = ['c3-1', 'c3-2', 'c3-3']
subject = ['Math', 'English', 'Literature']

df = pd.DataFrame(score, columns=subject, index=class_name)
print(df, '\n')


# Reset Row index
print(df.reindex(['c3-1', 'c3-2', 'c3-3', 'c3-4', 'c3-5']), '\n')

# Reset Column index
print(df.reindex(columns=['Math', 'English', 'Science', 'History']), '\n')

# Reset Row and Column index
print(df.reindex(['c3-1', 'c3-2', 'c3-3', 'c3-4', 'c3-5'], columns=['Math', 'English', 'Science', 'History'], fill_value=0), '\n')

      Math  English  Literature
c3-1    90      100          90
c3-2   100       39          89
c3-3    49       79          87 

       Math  English  Literature
c3-1   90.0    100.0        90.0
c3-2  100.0     39.0        89.0
c3-3   49.0     79.0        87.0
c3-4    NaN      NaN         NaN
c3-5    NaN      NaN         NaN 

      Math  English  Science  History
c3-1    90      100      NaN      NaN
c3-2   100       39      NaN      NaN
c3-3    49       79      NaN      NaN 

      Math  English  Science  History
c3-1    90      100        0        0
c3-2   100       39        0        0
c3-3    49       79        0        0
c3-4     0        0        0        0
c3-5     0        0        0        0 



### 设置某列为行索引

In [13]:
import pandas as pd 

df = pd.read_excel('data/msb课程记录.xls')
print(df)

print()
df.set_index('买家会员名', inplace=True)
print(df)

   买家会员名  买家实际支付金额  课程总数量             课程标题   类别  \
0      msb001          30960.00         2.0  Java互联网高级架构师  课程   
1      msb002              1.00         1.0    金三银四面试突击班   NaN   
2      msb003           9980.00         1.0    GoLang从入门到精通  课程   
3      msb004           9980.00         NaN  算法与数据结构进阶班  课程   
4      msb005              9.90         1.0       大前端VIP体验营   NaN   
5      msb006              0.02         1.0  零基础速成班HTML+CSS  课程   
6      msb007           2400.00         1.0              操作系统  课程   
7      msb008              1.00         NaN            自定义注解  课程   
8      msb009           2980.00         1.0        多线程与高并发  课程   
9      msb010           1980.00         1.0              科技英语  课程   
10     msb010           1980.00         1.0              科技英语  课程   

          订单付款时间  
0  2020-10-09 22:54:26  
1  2020-10-09 22:52:42  
2  2020-01-19 12:53:01  
3  2020-06-30 11:46:14  
4  2020-03-23 18:25:45  
5  2020-03-24 19:25:45  
6  2020-03-25 11:00:45  
7  2020-03-26 23

#### 数据清洗后重新设置连续索引

In [20]:
import pandas as pd 

df = pd.read_excel('data/msb课程记录.xls')
# print(df)

df = df.dropna(axis=0, how='any').reset_index(drop=True)
print(df)

  买家会员名  买家实际支付金额  课程总数量             课程标题   类别  \
0     msb001          30960.00         2.0  Java互联网高级架构师  课程   
1     msb003           9980.00         1.0    GoLang从入门到精通  课程   
2     msb006              0.02         1.0  零基础速成班HTML+CSS  课程   
3     msb007           2400.00         1.0              操作系统  课程   
4     msb009           2980.00         1.0        多线程与高并发  课程   
5     msb010           1980.00         1.0              科技英语  课程   
6     msb010           1980.00         1.0              科技英语  课程   

         订单付款时间  
0 2020-10-09 22:54:26  
1 2020-01-19 12:53:01  
2 2020-03-24 19:25:45  
3 2020-03-25 11:00:45  
4 2020-03-27 07:25:30  
5 2020-03-28 18:09:12  
6 2020-03-28 18:09:12  
