#  pandas之DataFrame数据帧

In [53]:
import pandas as pd
import numpy as np

In [62]:
np.random.seed(125)
data = np.random.randint(1, 100, (6, 4))
row_index = np.arange(2001, 2007).astype(str)
col_index = ['语文', '数学', '英语', '物理']
data

array([[62, 30, 99, 88],
       [68, 78, 87, 44],
       [60, 65, 38, 87],
       [99, 96, 28, 31],
       [54, 59,  1, 85],
       [51, 90, 33, 88]])

In [63]:
# 创建 DateFrame
df1 = pd.DataFrame(
    data,  # 二维数据
    index=row_index,  # 行索引标签
    columns=col_index  # 列标签
)
df1

Unnamed: 0,语文,数学,英语,物理
2001,62,30,99,88
2002,68,78,87,44
2003,60,65,38,87
2004,99,96,28,31
2005,54,59,1,85
2006,51,90,33,88


In [9]:
print('df1的形状',df1.shape)
print('df1的维度',df1.ndim)
print('df1的行索引',df1.index)
print('df1的列名称',df1.columns)
print('df1的值\n',df1.values)
print('df1的数据类型:\n',df1.dtypes)

df1的形状 (6, 4)
df1的维度 2
df1的行索引 Index(['2001', '2002', '2003', '2004', '2005', '2006'], dtype='object')
df1的列名称 Index(['语文', '数学', '英语', '物理'], dtype='object')
df1的值
 [[62 30 99 88]
 [68 78 87 44]
 [60 65 38 87]
 [99 96 28 31]
 [54 59  1 85]
 [51 90 33 88]]
df1的数据类型:
 语文    int64
数学    int64
英语    int64
物理    int64
dtype: object


In [10]:
type(df1.values)

numpy.ndarray

In [14]:
# 增删改查
# 查找数据-单列
df1['语文']
df1.语文
# 查找数据-多列
df1[['语文','数学']]

Unnamed: 0,语文,数学
2001,62,30
2002,68,78
2003,60,65
2004,99,96
2005,54,59
2006,51,90


In [21]:
type(df1['语文']) # 查看列的类型
# 新增一列
np.random.seed(123)
df1['化学'] = np.random.randint(1, 100,6)
df1

Unnamed: 0,语文,数学,英语,物理,化学
2001,62,30,99,88,67
2002,68,78,87,44,93
2003,60,65,38,87,99
2004,99,96,28,31,18
2005,54,59,1,85,84
2006,51,90,33,88,58


In [22]:
# 删除一列
del df1['化学']
df1

Unnamed: 0,语文,数学,英语,物理
2001,62,30,99,88
2002,68,78,87,44
2003,60,65,38,87
2004,99,96,28,31
2005,54,59,1,85
2006,51,90,33,88


In [26]:
# 对于行的操作
# df1开始的行索引：结束的行索引：步长]
df1[0:2:1]

Unnamed: 0,语文,数学,英语,物理
2001,62,30,99,88
2002,68,78,87,44


In [32]:
# 得到前2行，前2列,根据索引位置去取
df1.iloc[0:2,0:2]
# 得到前2行，前2列,根据标签名称去取
df1.loc['2001':'2002','语文':'数学']

Unnamed: 0,语文,数学
2001,62,30
2002,68,78


In [44]:
# 2001 2003 语文英语
df1.iloc[0:3:2,0:3:2]
df1.iloc[[0,2],[0,2]]
# df1.loc['2001':'2003':2,'语文':'英语':2]
# df1.loc[['2001','2003'],['语文','英语']]

Unnamed: 0,语文,英语
2001,62,99
2003,60,38


In [43]:
# 新增行
# df1.loc['2007'] = np.random.randint(1,100,4)
# 新增一列，计算语文+数学
df1['语数成绩']=df1['语文']+df1['数学']
df1

Unnamed: 0,语文,数学,英语,物理,语数成绩
2001,62,30,99,88,92
2002,68,78,87,44,146
2003,60,65,38,87,125
2004,99,96,28,31,195
2005,54,59,1,85,113
2006,51,90,33,88,141
2007,26,84,79,37,110


1. 得到2002，2004英语，物理的成绩数据
2. 所有数学成绩都加10分
3. 修改2005的英语成绩为89分

In [64]:
# df1.iloc[1:4:2,2:4:1]
# df1.iloc[[1,3],[2,3]]
# df1.loc['2002':'2004':2,'英语':'物理']
# df1.loc[['2002','2004'],['英语','物理']]

df1['数学'] = df1['数学'] +10
df1.loc['2005','英语'] = 89
df1


Unnamed: 0,语文,数学,英语,物理
2001,62,40,99,88
2002,68,88,87,44
2003,60,75,38,87
2004,99,106,28,31
2005,54,69,89,85
2006,51,100,33,88


1. 得到数学及格的信息
2.得到语文成绩大雨80，数学成绩》85的数据




In [70]:
df1[df1['数学']>60]
df1[(df1['语文']>80)&(df1['数学']>85)]

Unnamed: 0,语文,数学,英语,物理
2004,99,106,28,31


In [73]:
# 访问前几行,默认是5
df1.head(2)
# 访问后5行
df1.tail()

Unnamed: 0,语文,数学,英语,物理
2002,68,88,87,44
2003,60,75,38,87
2004,99,106,28,31
2005,54,69,89,85
2006,51,100,33,88
