# Pandas

https://pandas.pydata.org/docs/getting_started/index.html

pandas 是一个用于处理表格数据的 Python 库。

主要有两种数据结构：Series 和 DataFrame。

一个表格数据称为 `DataFrame`，一个列/行数据称为 `Series`。

## DataFrame

In [37]:
import pandas as pd
# 二维数组
df = pd.DataFrame([
  ['th0', 'th1', 'th2'],
  ['td00', 'td10', 'td20'],
  ['td01', 'td11', 'td21']
])

print(df.to_markdown())

|    | 0    | 1    | 2    |
|---:|:-----|:-----|:-----|
|  0 | th0  | th1  | th2  |
|  1 | td00 | td10 | td20 |
|  2 | td01 | td11 | td21 |


In [38]:
# 指定列标签（列表头）、行标签（行表头）
df1 = pd.DataFrame(
  [
    ['td00', 'td10', 'td20'],
    ['td01', 'td11', 'td21']
  ],
  columns=['th0', 'th1', 'th2'],
  index=['rh0', 'rh1']
)

print(df1.to_markdown())

|     | th0   | th1   | th2   |
|:----|:------|:------|:------|
| rh0 | td00  | td10  | td20  |
| rh1 | td01  | td11  | td21  |


In [39]:
# 使用字典创
df2 = pd.DataFrame({
  'th0': ['td00', 'td01'],
  'th1': ['td10', 'td11'],
  'th2': ['td20', 'td21']
})
print(df2.to_markdown())

|    | th0   | th1   | th2   |
|---:|:------|:------|:------|
|  0 | td00  | td10  | td20  |
|  1 | td01  | td11  | td21  |


## Series

使用列标签从 DataFrame 提取列作为 Series。

In [42]:
print(df[0])
print(df1['th0'])

0     th0
1    td00
2    td01
Name: 0, dtype: object
|     | th0   |
|:----|:------|
| rh0 | td00  |
| rh1 | td01  |


使用 loc 或 iloc 方法可以提取 DataFrame 的某一行，返回的同样是一个 Series。

In [41]:
print(df.loc[0])
print(df1.loc['rh0'])
print(df1.iloc[0])

0    th0
1    th1
2    th2
Name: 0, dtype: object
th0    td00
th1    td10
th2    td20
Name: rh0, dtype: object
th0    td00
th1    td10
th2    td20
Name: rh0, dtype: object
