In [21]:
# DataFrame可使用列标签完成数据的选取、添加、删除等操作，下面依次对操作进行介绍
import numpy as np
import pandas as pd

In [22]:
# 1.选取数据列：可以使用列索引实现
data1={'Name':['关羽','刘备','张飞','曹操'],'Age':[28,34,29,42]}
# 定义行标签
index1=['rank1','rank2','rank3','rank4']
# 通过字典创建DataFrame
df1=pd.DataFrame(data1,index=index1)
print(df1)
print("=======df1['Name']：取得Name列=======")
print(df1['Name'])
print("=======df1['Age']：取得Age列=======")
print(df1['Age'])
print("=======df1[['Name','Age']]：取得Name,Age列=======")
print(df1[['Name','Age']])
# 注意列不能使用切片选取多列
print("=======列不能使用切片选取多列=======")
print(df1['Name':'Age'])    # 空DataFrame
# 不能直接通过标签位置索引获取列，只认标签
# df1[1]  #报错 KeyError: 1

      Name  Age
rank1   关羽   28
rank2   刘备   34
rank3   张飞   29
rank4   曹操   42
rank1    关羽
rank2    刘备
rank3    张飞
rank4    曹操
Name: Name, dtype: object
rank1    28
rank2    34
rank3    29
rank4    42
Name: Age, dtype: int64
      Name  Age
rank1   关羽   28
rank2   刘备   34
rank3   张飞   29
rank4   曹操   42
Empty DataFrame
Columns: [Name, Age]
Index: []


In [23]:
# 2.添加数据列
# (1)使用columns列索引标签可以实现添加新的数据列
data2={'one':pd.Series([1,2,3],index=['a','b','c']),
   'two':pd.Series([1,2,3,4],index=['a','b','c','d'])
}
df2=pd.DataFrame(data2)
print(df2)
# 使用df2['列名']=值，插入新的数据列
print("=======通过Series添加一个新的列=======")
df2['three']=pd.Series([10,20,30],index=['a','b','c'])
print(df2)
# 将已存在的数据列相加运算，从而创建一个新的列
df2['four']=df2['one']+df2['three']
print(df2)
df2['five']=df2['two']+df2['three']
print(df2)

# (2)使用insert(loc,column,value,allow_duplicates=False)方法添加
# loc：整型，插入列位置的索引，必须验证0<=loc<=len（列数）
# column：插入列的标签，类型可以是字符串/数字/散列对象
# value：数值、Series、数组
# allow_duplicates：允许重复，可以有相同的列标签数据，默认为False
info=[['王杰',18],['李杰',19],['刘杰',17]]
df2=pd.DataFrame(info,columns=['name','age'])
print(df2)
# 注意是column参数，数值1代表插入到columns列表的索引位置
# 如果超出列数范围，报错 IndexError: index 3 is out of bounds for axis 0 with size 2
df2.insert(2,column='score',value=[91,90,75])
print(df2)
# 可以添加重复列标签数据
# 如果allow_duplicates=False，报错 ValueError: cannot insert score, already exists
df2.insert(1,column='score',value=[91,90,75],allow_duplicates=True)
print(df2)
print(df2['score'])  # 取出两列名称均为'score'的列数据

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN
   one  two  three  four
a  1.0    1   10.0  11.0
b  2.0    2   20.0  22.0
c  3.0    3   30.0  33.0
d  NaN    4    NaN   NaN
   one  two  three  four  five
a  1.0    1   10.0  11.0  11.0
b  2.0    2   20.0  22.0  22.0
c  3.0    3   30.0  33.0  33.0
d  NaN    4    NaN   NaN   NaN
  name  age
0   王杰   18
1   李杰   19
2   刘杰   17
  name  age  score
0   王杰   18     91
1   李杰   19     90
2   刘杰   17     75
  name  score  age  score
0   王杰     91   18     91
1   李杰     90   19     90
2   刘杰     75   17     75
   score  score
0     91     91
1     90     90
2     75     75


In [24]:
# 3.删除数据列
data3={
    'one':pd.Series([1,2,3],index=['a','b','c']),
    'two':pd.Series([1,2,3,4],index=['a','b','c','d']),
    'three':pd.Series([10,20,30],index=['a','b','c'])
}
df3=pd.DataFrame(data3)
print(df3)
# (1)使用del关键字删除，无返回值
del df3['one']
print("=======通过del关键字删除一个列=======")
print(df3)

# (2)使用pop()方法删除，返回值是被删除的数据列
res_pop=df3.pop('two')
print("=======通过pop()方法删除一个列=======")
print(df3)
print("=======pop()方法返回被删除列=======")
print(res_pop)

   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN
   two  three
a    1   10.0
b    2   20.0
c    3   30.0
d    4    NaN
   three
a   10.0
b   20.0
c   30.0
d    NaN
a    1
b    2
c    3
d    4
Name: two, dtype: int64


In [25]:
# 4.行操作：行标签选取
data4={'one':pd.Series([1,2,3],index=['a','b','c']),
   'two':pd.Series([1,2,3,4],index=['a','b','c','d'])
}
df4=pd.DataFrame(data4)
print(df4)

# (1)行标签索引和切片
# 确定标签为b的数据
print("=======标签为b的数据=======")
# 需要通过loc()方法获取对应数据
print(df4.loc['b'])
# loc()方法允许接受两个参数分别是行和列
print(df4.loc['b','one'])
# loc()方法允许行和列使用切片（包含结束位置）
print(df4.loc['b':'d','one'])
# 注意与numpy整数数组索引的区别
print(df4.loc[['a','b'],['one','two']])

# (2)数值型索引和切片，使用数据型索引需要使用iloc属性
# 直接使用索引，会优先查找列标签，如果找不到会报错，没有位置索引
data4={'Name':['关羽','刘备','张飞','曹操'],'Age':[28,34,29,42]}
# 定义行标签
index=['rank1','rank2','rank3','rank4']
# 通过字典创建DataFrame
df4=pd.DataFrame(data4)
print(df4)
# 取得位置索引为2的数据
print("=======位置索引为2的数据=======")
print(df4.iloc[2])
# 取得位置索引分别为0和2的数据
print("=======位置索引为0和2的数据=======")
print(df4.iloc[[0,2]])
# iloc()方法允许行和列使用切片（不包含结束位置数据）
print("=======iloc()方法行和列使用切片=======")
print(df4.iloc[1:3,0:2])

# 注意：loc()与iloc()里面的参数不能混用，例如：
# df4.loc[1,'name']或者df4.iloc[1,'name']

# (3)append()方法添加数据行（已弃用，请使用concat()）
d2={'Name':'诸葛亮','Age':30}
df5=pd.concat([df4,pd.DataFrame(d2,index=['rank5'])],ignore_index=True)
print(df5)

# 追加字典：注意添加ignore_index=True；或者将字典转化为Series并设置name参数
# 追加列表：
# (1)如果list是一维的，则以列的形式追加
# (2)如果list是二维的，则以行的形式追加
# (3)如果list是三维的，只添加一个值

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
one    2.0
two    2.0
Name: b, dtype: float64
2.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64
   one  two
a  1.0    1
b  2.0    2
  Name  Age
0   关羽   28
1   刘备   34
2   张飞   29
3   曹操   42
Name    张飞
Age     29
Name: 2, dtype: object
  Name  Age
0   关羽   28
2   张飞   29
  Name  Age
1   刘备   34
2   张飞   29
  Name  Age
0   关羽   28
1   刘备   34
2   张飞   29
3   曹操   42
4  诸葛亮   30


In [None]:
# 5.删除数据行，drop()方法
df6=df5.drop(0)
print("=======修改前的数据df5=======")
print(df5)
print("=======修改后的数据df6=======")
print(df6)
print("=======修改后的数据df5=======")
print(df5)
df6=df5.drop(3,inplace=True)
print(df5)

# 删除：drop("行标签")，和Series一样的操作
# 注意：标签找不到会报错，默认不改变原数据

  Name  Age
0   关羽   28
1   刘备   34
2   张飞   29
3   曹操   42
4  诸葛亮   30
  Name  Age
1   刘备   34
2   张飞   29
3   曹操   42
4  诸葛亮   30
  Name  Age
0   关羽   28
1   刘备   34
2   张飞   29
3   曹操   42
4  诸葛亮   30
  Name  Age
0   关羽   28
1   刘备   34
2   张飞   29
4  诸葛亮   30
