数据帧(DataFrame)是二维数据结构，即数据以行和列的表格方式排列。
数据帧的功能特点:

* 潜在的列是不同的类型
* 大小可变
* 标记轴(行和列)
* 可以对行和列执行算术运算

## pandas.DataFrame

构造函数
```python
pandas.DataFrame( data, index, columns, dtype, copy)
```
参数如下:

| 编号 |  参数  |   描述  |
|:---: |:--: | :--:|
| 1 | data | 数据可以采用 ndarray, series, map, lists, dict, constant和另外一个Dataframe |
| 2 | index | 对于标签，要用于结果帧的索引是可选缺省值 np.arrange(n) |
| 3 | columns | 缺省值 np.arange(n) |
| 4 | dtype | 每列的数据类型 |
| 5 | copy | 默认值 False, 用于复制数据 |

In [2]:
# 从列表创建DataFrame
import pandas as pd
data = [1, 2, 3, 4, 5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [8]:
# 使用二维列表来构造
data = [['Alex', 10], ['Bob', 12], ['Clarke', 13]]
# 也可以用元组
data1 = [('Alex', 10), ('Bob', 12), ('Clarke', 13)]
df1 = pd.DataFrame(data1, columns=['Name', 'Age'])
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
print(df1)

     Name  Age
0    Alex   10
1     Bob   12
2  Clarke   13
     Name  Age
0    Alex   10
1     Bob   12
2  Clarke   13


In [5]:
# 指定类型
df = pd.DataFrame(data, columns=['Name', 'Age'], dtype=float)
print(df)

     Name   Age
0    Alex  10.0
1     Bob  12.0
2  Clarke  13.0


## 从 ndarrays / Lists 的字典来创建DataFrame

所有的 ndarrays 必须具有相同的长度，如果传递了索引index, 则索引长度应等于数组长度，默认使用 range(n)

In [6]:
data = {'Name': ['Tome', 'Jack', 'Steve', 'Ricky'], 'Age': [28, 34, 29, 42]}
df = pd.DataFrame(data)
print(df)

   Age   Name
0   28   Tome
1   34   Jack
2   29  Steve
3   42  Ricky


In [9]:
# 字典列表作为输入数据来创建DataFrame, 字典键默认为列名
data = [{'a': 1, 'b': 2}, {'a': 5, 'b':10, 'c': 20}]
df = pd.DataFrame(data)
print(df)

   a   b     c
0  1   2   NaN
1  5  10  20.0


In [11]:
# 添加行索引
data = [{'a': 1, 'b': 2}, {'a': 5, 'b':10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df)

        a   b     c
first   1   2   NaN
second  5  10  20.0


In [24]:
# 加上列索引
df = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
print(df)
print(df1)

        a   b
first   1   2
second  5  10
        a  b1
first   1 NaN
second  5 NaN


In [25]:
# 字典的系列构成DataFrame,所得到的索引是通过的所有列表的并集
d = {'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


## 列选择

In [17]:
print(df['one'])

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64


## 列添加

向现有的DataFrame添加一个新列

In [26]:
df['three'] = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(df)

   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN


## 列删除

列可以删除或弹出

In [27]:
# 使用del
del df['two']
print(df)
# 使用pop
df.pop('three')
print(df)

   one  three
a  1.0   10.0
b  2.0   20.0
c  3.0   30.0
d  NaN    NaN
   one
a  1.0
b  2.0
c  3.0
d  NaN


## 行选择、添加和删除

### 通过将行标签传递个loc[] 函数来选择行

In [34]:
d = {'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
# 注意是 loc[]
print(df.loc['b'])

one    2.0
two    2.0
Name: b, dtype: float64


### 通过将整数位置传递给 iloc[] 函数来选择行

In [33]:
# 注意是 iloc[]
print(df.iloc[2])

one    3.0
two    3.0
Name: c, dtype: float64


### 行切片

In [35]:
print(df[2:4])

   one  two
c  3.0    3
d  NaN    4


### 附加行

使用 append() 函数将新行添加到 DataFrame

In [36]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=['a', 'b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a', 'b'])
df = df.append(df2)
print(df)

   a  b
0  1  2
1  3  4
0  5  6
1  7  8


In [49]:
# 在df2中选择一行添加到df中
df = pd.DataFrame([[1, 2], [3, 4]], columns=['a', 'b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a', 'b'])
# 也可以使用 df2.loc[0]
df = df.append(df2.iloc[1])
print(df)
print('--'*30)
print(df2.loc[1])

   a  b
0  1  2
1  3  4
1  7  8
------------------------------------------------------------
a    7
b    8
Name: 1, dtype: int64


### 删除行

使用索引标签从DataFrame中删除或删除行行，如果标签重复，则会删除多行


In [53]:
df = df.append(df2)
df

Unnamed: 0,a,b
0,1,2
1,3,4
1,7,8
0,5,6
1,7,8
0,5,6
1,7,8
0,5,6
1,7,8


In [55]:
df = df.drop(0)
df

Unnamed: 0,a,b
1,3,4
1,7,8
1,7,8
1,7,8
1,7,8


In [57]:
df.index = list('abcde')
df

Unnamed: 0,a,b
a,3,4
b,7,8
c,7,8
d,7,8
e,7,8
