## numpt,DataFrame通过索引的基本操作-重新索引和增加

In [2]:
import numpy as np
import pandas as pd

In [31]:
ser1 = pd.Series(range(5))
ser1

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [40]:
df1 = pd.DataFrame(np.arange(9).reshape(3,3),index=['a','b','c'],columns=['A','B','C'])
df1

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


### 1. 重新索引。

pd.DataFrame.reindex(labels=None,index=None,columns=None,axis=None,method=None,copy=True,<br>level=None,fill_value=nan,limit=None,tolerance=None,)

 * reindex()方法用于将原来的数据重新排列。用于dataframe时可以针对行或列重新排列，变换index或columns参数即可。
 * 重新排列后有利于按照正常顺序查看数据
 * 行或列的index参数需要是原行列索引的范围内。
 * fill_value参数用于在重新索引中填充缺失位置的值
 * method,缺失值填充方法。向前填充：缺失值后面的值向前填充。也有向后填充的方法。
 * copy,默认为True,生成新的对象。为False时，新旧相等不复制。

In [12]:
# 创建一个符合新索引的新对象
# 由于原来数据中并没有下述参数的索引值，因此，返回值都为NaN
ser2 = ser1.reindex(['a','b','d','c','e'])
ser2

a   NaN
b   NaN
d   NaN
c   NaN
e   NaN
dtype: float64

In [14]:
# dataframe行索引重建。默认指向行索引。建议明确指定index或columns参数。或使用axis参数指定轴。

df2 = df1.reindex(['a','b','c','d'])
df2

Unnamed: 0,A,B,C
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


In [18]:
df3 = df1.reindex(['c','b','a','d'])
df3

Unnamed: 0,A,B,C
c,6.0,7.0,8.0
b,3.0,4.0,5.0
a,0.0,1.0,2.0
d,,,


In [43]:
#通过新增索引的方式增加数据
#首先通过索引的insert()方法，在形成一个新的索引，增加了索引'F'
#再通过reindex()方法中的填充参数，变更原来的索引和增加了填充数据。
newc = df1.columns.insert(4,'F')
df_n = df1.reindex(columns=newc,fill_value=8)
df_n

Unnamed: 0,A,B,C,F
a,0,1,2,8
b,3,4,5,8
c,6,7,8,8


In [44]:
df_n.index

Index(['a', 'b', 'c'], dtype='object')

### 2. 通过 索引增加数据

### 2.1Series增加数据方法

In [20]:
ser1

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [23]:
#使用索引增加数据项，此方法会修改原数据
ser1['g']=8
ser1

0    0
1    1
2    2
3    3
4    4
g    8
dtype: int64

In [25]:
#使用append()方法，在原有的数据基础上添加。不修改原有数据。
ser2 = pd.Series({'f':45})
print(ser2)
ser3 = ser1.append(ser2)
ser3

f    45
dtype: int64


0     0
1     1
2     2
3     3
4     4
g     8
f    45
dtype: int64

In [32]:
ser1

0    0
1    1
2    2
3    3
4    4
dtype: int64

### 2.2 DataFrame的列 增加数据索引-使用索引

In [29]:
# 使用索引的方式给dataframe增加数据
df1

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [32]:
# 使用索引的方式默认增加列
# 只给一个数值的时候，所有的行增加的数值相同
df1['D']=5
df1

Unnamed: 0,A,B,C,D
a,0,1,2,5
b,3,4,5,5
c,6,7,8,5


In [33]:
# 增加列：如果增加的每行数值不同，可以给一个数组赋值
df1['F'] = [6,7,9]
df1

Unnamed: 0,A,B,C,F
a,0,1,2,6
b,3,4,5,7
c,6,7,8,9


### 2.3 DataFrame的行 增加数据索引-使用insert函数

In [36]:
# 增加列，时选择增加的位置。使用insert()函数
# insert函数:pd.DataFrame.insert(loc,column,value,allow_duplicates: 'bool' = False,)
# loc:增加的列位置；column:增加的列名称；value:增加列的值。
df1.insert(0,'J',[9,6,3])
df1

Unnamed: 0,J,O,A,B,C,F
a,9,9,0,1,2,6
b,6,6,3,4,5,7
c,3,3,6,7,8,9


### 2.4 DataFrame的行 增加数据索引-使用高级索引标签

In [38]:
# dataframe增加行的操作,需要使用高级标签索引loc
# 增加数据的列数需和原数组数据相同
df1.loc['l'] = [1,2,3,4,6]
df1

ValueError: cannot set a row with mismatched columns

### 2.5 DataFrame的行 增加数据索引-使用append函数

In [18]:
# 通过append()函数添加数据
# 添加的数据是本身没有行索引的情况下，通过此方式会忽略原来的索引，自动添加数字索引。
# 在列方向上，添加的数据会自动找到对应的列；而没有找到的列会成为Nan值。
row = {'E':3,'A':4,'B':2,'C':8,'D':9}
print(row)
df5 = df1.append(row,ignore_index=True)
df5

{'E': 3, 'A': 4, 'B': 2, 'C': 8, 'D': 9}


Unnamed: 0,A,B,C,D,E
0,0,1,2,,
1,3,4,5,,
2,6,7,8,,
3,4,2,8,9.0,3.0


In [20]:
np.random.rand(2,3)

array([[0.37265671, 0.94275736, 0.86834812],
       [0.34880572, 0.40940746, 0.00102351]])

In [27]:
#如果在dataframe上增加一个dataframe数据，那么默认索引会叠加
df8 = pd.DataFrame(np.random.rand(2,3),index=['A','B'],columns=['A','B','C'])  #,index=['A','B','C']
df8

Unnamed: 0,A,B,C
A,0.170731,0.206497,0.382094
B,0.478738,0.349186,0.787387


In [28]:
df9 = df1.append(df8)
df9

Unnamed: 0,A,B,C
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
A,0.170731,0.206497,0.382094
B,0.478738,0.349186,0.787387


In [39]:
pd.DataFrame.reindex?