# pandas 数据结构 - DataFrame 
二维表格，在行上和列上都有索引：
1. 行：Record 
2. 列：Series 

```
pandas.DataFrame(data, index, columns, dtype, copy) 
```
- data: 一组数据 （ndarray，series，map，list，dict 等类型）
- index: 行索引，或称作行标签
- columns: 列索引，或称作列标签，默认为 RangeIndex(0,1,2,...,n)

In [14]:
import pandas as pd 
data = [
    ['google', 10], 
    ['Runoob', 12], 
    ['wiki', 13], 
]
df = pd.DataFrame(data, index=['g1', 'g2', 'g3'], columns=['Site', 'Age'], dtype=float)
df

Unnamed: 0,Site,Age
g1,google,10.0
g2,Runoob,12.0
g3,wiki,13.0


## 使用 ndarray 创建


In [4]:
data = {
    'Site': ['google', 'Runoob', 'Wiki'], 
    'Age': [10, 12, 13]
}
pd.DataFrame(data)

Unnamed: 0,Site,Age
0,google,10
1,Runoob,12
2,Wiki,13


## 使用字典创建

In [7]:
data = [
    {'a': 1, 'b': 2}, 
    {'a': 5, 'b': 10, 'c': 20}
]
pd.DataFrame(data)
# 注意，缺失值被默认补充为 NaN

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


## 访问指定行
可以通过 DataFrame.loc 属性返回行。如果构建时没有设置索引，则默认从 0 开始。 

In [8]:
data = {
    'calories': [420, 380, 390], 
    'duration': [50, 40, 45], 
}

df = pd.DataFrame(data)
df.loc[0]

calories    420
duration     50
Name: 0, dtype: int64

In [9]:
# 注意这是一个 Series 对象 
type(df.loc[0])

pandas.core.series.Series

In [10]:
# 通过 [[...]] 指定多行 
df.loc[[0, 1]]

Unnamed: 0,calories,duration
0,420,50
1,380,40


In [11]:
type(df.loc[[0, 1]])

pandas.core.frame.DataFrame

## 设置行索引

In [None]:
data = {
    'calories': [420, 380, 390], 
    'duration': [50, 40, 45], 
}

pd.DataFrame(data, index=['day1', 'day2', 'day3'])