# Pandas DataFrame
参考资料：
[pandas 官方文档](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe)

## DataFrame 是什么
- 是二维的、带标签的数据结构
- 可以看作 Sql 表，或者是 Series 对象的的字典（一个序列对象就是一列）
- 可选项，可以在每一行加索引（行标签），在每一列加列名（列标签）
- 如果加了索引或列名，不匹配的数据将会被丢弃掉
- 对于 Python version >= 3.6 and pandas >= 0.23，DataFrame 列的顺序是插入这些列的顺序；否则为列名的字典顺序

## 怎样创建一个DataFrame

### 1. 通过 Series 的字典创建

In [6]:
import pandas as pd
d = {
   "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
   "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
   }

df = pd.DataFrame(d)
print(df)
print("\n")

df = pd.DataFrame(d, index=["d", "b", "a"])
print(df)
print("\n")

df = pd.DataFrame(d, index=["d", "b", "a"], columns=["two", "three"])
print(df)


   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0


   one  two
d  NaN  4.0
b  2.0  2.0
a  1.0  1.0


   two three
d  4.0   NaN
b  2.0   NaN
a  1.0   NaN


### 2. 通过 ndarrays / lists 的字典创建
注意：ndarrays / lists 的长度必须相同

In [9]:
d = {"one": [1.0, 2.0, 3.0, 4.0], "two": [4.0, 3.0, 2.0, 1.0]}
df = pd.DataFrame(d)
print(df)
print("\n")

df = pd.DataFrame(d, index=["a", "b", "c", "d"])
print(df)

   one  two
0  1.0  4.0
1  2.0  3.0
2  3.0  2.0
3  4.0  1.0


   one  two
a  1.0  4.0
b  2.0  3.0
c  3.0  2.0
d  4.0  1.0


### 3. 通过 ndarrays 的创建
注意：ndarrays 的每一个元素是一个元组，是 DataFrame 的一行记录

In [14]:
import numpy as np

data = np.zeros((2,), dtype=[("A", "i4"), ("B", "f4"), ("C", "a10")])
print(data)

data[:] = [(1, 2.0, "Hello"), (2, 3.0, "World")]
print(data)

df = pd.DataFrame(data)
print(df)

df = pd.DataFrame(data, index=["first", "second"])
print(df)

df = pd.DataFrame(data, columns=["C", "A", "B"])
print(df)


[(0, 0., b'') (0, 0., b'')]
[(1, 2., b'Hello') (2, 3., b'World')]
   A    B         C
0  1  2.0  b'Hello'
1  2  3.0  b'World'
        A    B         C
first   1  2.0  b'Hello'
second  2  3.0  b'World'
          C  A    B
0  b'Hello'  1  2.0
1  b'World'  2  3.0


## 列选择、添加、删除
可以在语义上将 DataFrame 视为 Series 对象的字典。获取、设置和删除列的操作语法与类似dict操作的语法相同

In [6]:
import pandas as pd
d = {
   "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
   "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
   }

df = pd.DataFrame(d)

print("选择列：")
print(df["one"])

print("\n添加列：")
df["three"] = df["one"] * df["two"]
df["flag"] = df["one"] > 2
df["foo"] = "bar"
df["one_trunc"] = df["one"][:2]
print(df)

print("\n删除列：")
del df["two"]
df.pop("three")
print(df)

选择列：
a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

添加列：
   one  two  three   flag  foo  one_trunc
a  1.0  1.0    1.0  False  bar        1.0
b  2.0  2.0    4.0  False  bar        2.0
c  3.0  3.0    9.0   True  bar        NaN
d  NaN  4.0    NaN  False  bar        NaN

删除列：
   one   flag  foo  one_trunc
a  1.0  False  bar        1.0
b  2.0  False  bar        2.0
c  3.0   True  bar        NaN
d  NaN  False  bar        NaN


## 按 列 / 行 选择数据
| 操作   | 语法   |  输出
| ---- | ---- | ---- |
|   选择列   |   df[col] 或 df[[cols]]   |   Series 或 DataFrame   |
|   通过每行的标签选择行   |   df.loc[label]   |   Series   |
|   通过行号选择行   |   df.iloc[loc]   |   Series   |
|   按行切分   |   df[5:10]   |   DataFrame   |
|   通过布尔向量选择行   |   df[[bool_vec]]   |   DataFrame   |

In [17]:
print("选择列")
print(df[["flag", "one"]])

print("\n通过每行的标签选择行")
print(df.loc["b"])

print("\n通过行号选择行")
print(df.iloc[2])

print("\n按行切分")
print(df[1:3])

print("\n通过布尔向量选择行")
print(df[[True, False, True, False]])

选择列
    flag  one
a  False  1.0
b  False  2.0
c   True  3.0
d  False  NaN

通过每行的标签选择行
one            2.0
flag         False
foo            bar
one_trunc      2.0
Name: b, dtype: object

通过行号选择行
one           3.0
flag         True
foo           bar
one_trunc     NaN
Name: c, dtype: object

按行切分
   one   flag  foo  one_trunc
b  2.0  False  bar        2.0
c  3.0   True  bar        NaN

通过布尔向量选择行
   one   flag  foo  one_trunc
a  1.0  False  bar        1.0
c  3.0   True  bar        NaN


## 创建新的列 / 覆写现有的列，返回新的 DataFrame

In [4]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

iris = load_iris()

df = pd.DataFrame(data=np.c_[iris['data'], iris['target']], columns=iris['feature_names']+['target'])

df.rename(columns={'sepal length (cm)':'SepalLength', 
                   'sepal width (cm)':'SepalWidth', 
                   'petal length (cm)':'PetalLength',
                   'petal width (cm)':'PetalWidth'}, 
          inplace=True)
print(df.head())

# 方式一
print(df.assign(sepal_ratio=df["SepalWidth"] / df["SepalLength"]).head())

# 方式二
print(df.assign(sepal_ratio=lambda x: (x["SepalWidth"] / x["SepalLength"])).head())

   SepalLength  SepalWidth  PetalLength  PetalWidth  target
0          5.1         3.5          1.4         0.2     0.0
1          4.9         3.0          1.4         0.2     0.0
2          4.7         3.2          1.3         0.2     0.0
3          4.6         3.1          1.5         0.2     0.0
4          5.0         3.6          1.4         0.2     0.0
   SepalLength  SepalWidth  PetalLength  PetalWidth  target  sepal_ratio
0          5.1         3.5          1.4         0.2     0.0     0.686275
1          4.9         3.0          1.4         0.2     0.0     0.612245
2          4.7         3.2          1.3         0.2     0.0     0.680851
3          4.6         3.1          1.5         0.2     0.0     0.673913
4          5.0         3.6          1.4         0.2     0.0     0.720000
   SepalLength  SepalWidth  PetalLength  PetalWidth  target  sepal_ratio
0          5.1         3.5          1.4         0.2     0.0     0.686275
1          4.9         3.0          1.4         0.2     

注意：**assign 总是返回数据的副本，而原始DataFrame保持不变**

In [5]:
print(df.head())


   SepalLength  SepalWidth  PetalLength  PetalWidth  target
0          5.1         3.5          1.4         0.2     0.0
1          4.9         3.0          1.4         0.2     0.0
2          4.7         3.2          1.3         0.2     0.0
3          4.6         3.1          1.5         0.2     0.0
4          5.0         3.6          1.4         0.2     0.0
