# DataFrame的创建

Series作为某一特征的数据集， DataFrame就是多个特征的数据集

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

- 列表方式或ndarray(二维)创建

In [2]:
d = DataFrame([[8700, 6500],
               [8600, 6200],
               [8650, 6400],
               [8615, 6219]],
              index=('西安', '成都', '上海', '北京'),
              columns=('Iphone XS Max','华为10'))
d

Unnamed: 0,Iphone XS Max,华为10
西安,8700,6500
成都,8600,6200
上海,8650,6400
北京,8615,6219


- 以ndarray方式创建

In [5]:
index = ('吕布', '李广', '关羽', '张飞', '项羽')
columns = ('统率', '政治', '武力', '智力')
# numpy的方式随机生成数据集
data = np.random.randint(50, 100, 
                         size=(len(index), len(columns)))
d2 = DataFrame(data, index, columns)
d2

Unnamed: 0,统率,政治,武力,智力
吕布,83,74,80,85
李广,53,70,93,51
关羽,51,83,73,59
张飞,60,51,70,51
项羽,97,76,60,86


- 以字典的方式创建DataFrame

key 为列为, value为特征的数据集, 一般为一维数组

In [8]:
d3 = DataFrame({
    '统率':np.random.randint(50, 100, size=5),
    '武力':np.random.randint(50, 100, size=5),
    '智力':np.random.randint(50, 100, size=5),
    '政治':np.random.randint(50, 100, size=5),
    '官阶':np.random.randint(1, 10, size=5),
},index=index)
d3

Unnamed: 0,官阶,政治,智力,武力,统率
吕布,6,90,87,64,59
李广,1,70,75,65,83
关羽,6,94,75,86,95
张飞,3,95,90,92,60
项羽,3,96,67,99,85


## DataFrame的索引操作与Series相似
- 显示索引
  - d[列名][索引名]
  - d.loc[索引名, 列名]
- 隐式索引
  - d.iloc[索引值，列位置]

In [11]:
d3['武力']['吕布'] = 108  # d[列名][索引名或索引值]
d3

Unnamed: 0,官阶,政治,智力,武力,统率
吕布,6,90,87,108,59
李广,1,70,75,65,83
关羽,6,94,75,86,95
张飞,3,95,90,92,60
项羽,3,96,67,99,85


In [12]:
d3['官阶'][['关羽','项羽']] = 2
d3

Unnamed: 0,官阶,政治,智力,武力,统率
吕布,6,90,87,108,59
李广,1,70,75,65,83
关羽,2,94,75,86,95
张飞,3,95,90,92,60
项羽,2,96,67,99,85


In [13]:
d3.loc[['李广', '关羽'], '政治'] = 98 
d3

Unnamed: 0,官阶,政治,智力,武力,统率
吕布,6,90,87,108,59
李广,1,98,75,65,83
关羽,2,98,75,86,95
张飞,3,95,90,92,60
项羽,2,96,67,99,85


In [18]:
d3.iloc[:3, -1] += 10  # 隐式索引
d3

Unnamed: 0,官阶,政治,智力,武力,统率
吕布,6,90,87,108,79
李广,1,98,75,65,103
关羽,2,98,75,86,115
张飞,3,95,90,92,60
项羽,2,96,67,99,85


In [29]:
d3.iloc[-3:, -3:] += 5  # 切片使用隐式索引
d3

Unnamed: 0,官阶,政治,智力,武力,统率
吕布,6,90,87,108,79
李广,1,98,75,65,103
关羽,2,98,80,91,120
张飞,3,95,95,97,65
项羽,2,96,72,104,90


### 注意
- d['列名']  读取某一列
- d['索引值或名':'索引值或名']  # 行切片

In [33]:
d3['李广':'张飞']

Unnamed: 0,官阶,政治,智力,武力,统率
李广,1,98,75,65,103
关羽,2,98,80,91,120
张飞,3,95,95,97,65
