# DataFrame基础 (一)

In [1]:
import numpy as np
import pandas as pd

### DataFrame的创建

In [2]:
np.random.seed(110) # 随机种子，确保每次随机都取相同的值
marks= np.random.randint(70,101,(3,4)) # 3行4列的表格矩阵，70～100分
marks

array([[70, 73, 99, 85],
       [99, 95, 85, 70],
       [86, 86, 76, 72]])

In [3]:
names = np.array(['小明','小红','小刚'])
subjects = np.array(['语文','数学','英语','物理'])

In [4]:
mark_table = pd.DataFrame(marks,names,subjects)
# DataFrame(data数据(二维数组，嵌套列表 等等)，index行标题(一维数组，列表 等)，columns列标题(一维数组，列表等))
mark_table

Unnamed: 0,语文,数学,英语,物理
小明,70,73,99,85
小红,99,95,85,70
小刚,86,86,76,72


### 读取DataFrame数据

In [5]:
print(mark_table['语文']) # 通过列标题获取该列的数据，不能直接过通过写行标题来获取数据
print("="*30)
print(mark_table.语文) # 更方便，但要注意不要和.method重名(英文列标题可能重名)
print("="*30)
print(type(mark_table['语文'])) # 游Series数据类型构成

小明    70
小红    99
小刚    86
Name: 语文, dtype: int64
小明    70
小红    99
小刚    86
Name: 语文, dtype: int64
<class 'pandas.core.series.Series'>


In [6]:
mark_table[['语文','数学']] # 获取多列数据，中括号内写list
# 多列数据type为DataFrame
# mark_table.化学 # 读取不存在的列，会报错

Unnamed: 0,语文,数学
小明,70,73
小红,99,95
小刚,86,86


In [7]:
mark_table.loc['小明'] # .loc['行标题'] 方式进行获取
mark_table.loc[['小明','小红']] # .loc[['行标题','行标题’]] 方式获取多行，顺序不限
mark_table.iloc[0]
mark_table.iloc[[1,0]] # .iloc 通过行好获取，顺序不限

Unnamed: 0,语文,数学,英语,物理
小红,99,95,85,70
小明,70,73,99,85


In [8]:
mark_table.loc['小明','语文'] # .loc['行标题','列标题'] 获取某行某列  结果是一个数字70
mark_table.loc[['小明','小红'],['英语','数学']] # .loc[['行标题',...],['列标题',...]] 获取表格的一部分，顺序不限

Unnamed: 0,英语,数学
小明,99,73
小红,85,95


### 添加列

In [9]:
mark_table['历史']=(mark_table.语文+mark_table.数学)*0.5
# 创建新列时必须用中文括号索引，不能这样mark_table.历史
mark_table

Unnamed: 0,语文,数学,英语,物理,历史
小明,70,73,99,85,71.5
小红,99,95,85,70,97.0
小刚,86,86,76,72,86.0


In [10]:
mark_table.dtypes # 有整数有浮点

语文      int64
数学      int64
英语      int64
物理      int64
历史    float64
dtype: object

### 删除列

In [11]:
mark_table.drop('历史',axis=1) # 返回一个去掉'历史'列的DataFrame，axis=0表示行，1表示列

Unnamed: 0,语文,数学,英语,物理
小明,70,73,99,85
小红,99,95,85,70
小刚,86,86,76,72


In [12]:
mark_table # 不会改变原表格

Unnamed: 0,语文,数学,英语,物理,历史
小明,70,73,99,85,71.5
小红,99,95,85,70,97.0
小刚,86,86,76,72,86.0


In [13]:
mark_table.drop('历史',axis=1,inplace=True) # inplace=True真正改变原表格
mark_table

Unnamed: 0,语文,数学,英语,物理
小明,70,73,99,85
小红,99,95,85,70
小刚,86,86,76,72


In [14]:
mark_table.drop('小明',axis=0,inplace=True) # 去掉某行；注意 默认 axis=0，inplace=False
mark_table

Unnamed: 0,语文,数学,英语,物理
小红,99,95,85,70
小刚,86,86,76,72
