# 2. DataFrame
* DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。
* DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。
```python
pandas.DataFrame( data, index, columns, dtype, copy)
# 参数说明
data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者可以称为行标签。
columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。
```

# 1. build a dataframe instance

1. 使用`list`
2. 使用`ndarrays`
3. 使用`dictionary`

### 1.1 使用`list`

In [14]:
# 1. 使用`list`

import pandas as pd
data = [["Google",10],["Runoob",12],["Wiki",13]]
df = pd.DataFrame(data,columns = ["site","age"],dtype = float)
print(df)
df.dtypes

     site   age
0  Google  10.0
1  Runoob  12.0
2    Wiki  13.0


  df = pd.DataFrame(data,columns = ["site","age"],dtype = float)


site     object
age     float64
dtype: object

### 1.2 使用`ndarrays or 多维字典`创建 - 带列名的数据

In [17]:
# 2. 使用 ndarrays 创建

import pandas as pd
data = {"Site":["Google","Runoob","Wiki"],"Age":[10,12,13]}
print(type(data))

df = pd.DataFrame(data)
print(df)

<class 'dict'>
     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13


### 1.3 使用`dictionary`
* 一个字典是一行

In [19]:
import pandas as pd

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
# 一个字典是一行

print(type(data))

df = pd.DataFrame(data)

print (df)

<class 'list'>
   a   b     c
0  1   2   NaN
1  5  10  20.0


## 1.4 一列数据

In [28]:
index = ["第一", "第二", "第三","第四"]
data = ["Excel","Sql","Python","PPT"]
columns = ["技能"]
pd.DataFrame(data,columns = columns,index = index)


Unnamed: 0,技能
第一,Excel
第二,Sql
第三,Python
第四,PPT


## 1.4 多列数据 - 嵌套列表

In [32]:
index = ["第一", "第二", "第三","第四"]
data = [["Excel","week1"],["Sql","week2"],["Python","week3"],["PPT","week4"]]
columns = ["技能","周数"]
pd.DataFrame(data,columns = columns,index = index)


Unnamed: 0,技能,周数
第一,Excel,week1
第二,Sql,week2
第三,Python,week3
第四,PPT,week4


# 2. 获取指定行数据

* Pandas 可以使用 `loc` 属性返回指定行的数据，如果没有设置索引，第一行索引为 0，第二行索引为 1，以此类推：
* 注意：返回结果其实就是一个 Pandas Series 数据。
* 也可以返回多行数据，使用 `[[ ... ]]` 格式，... 为各行的索引，以逗号隔开：


In [23]:
import pandas as pd
data = { #ndarrays
    "Calories":[420,380,390],
    "Duration":[45,55,50]
}

df = pd.DataFrame(data,index = ["day1",'day2',"day3"])
print(df,end = "\n\n")
print(df.loc["day2"])

      Calories  Duration
day1       420        45
day2       380        55
day3       390        50

Calories    380
Duration     55
Name: day2, dtype: int64


In [24]:
import pandas as pd
data = { #ndarrays
    "Calories":[420,380,390],
    "Duration":[45,55,50]
}

df = pd.DataFrame(data)
print(df,end = "\n\n")
# 第一行
print(df.loc[0])
# 第二行
print(df.loc[1])

   Calories  Duration
0       420        45
1       380        55
2       390        50

Calories    420
Duration     45
Name: 0, dtype: int64
Calories    380
Duration     55
Name: 1, dtype: int64


In [25]:
obj = df.loc[2]
print(obj)


Calories    390
Duration     50
Name: 2, dtype: int64

### 也可以返回多行数据，使用 `[[ ... ]]` 格式，... 为各行的索引，以逗号隔开：

In [26]:
import pandas as pd
data = { #ndarrays
    "Calories":[420,380,390],
    "Duration":[45,55,50]
}

df = pd.DataFrame(data,index = ["day1",'day2',"day3"])

df.loc[["day1",'day2']]

Unnamed: 0,Calories,Duration
day1,420,45
day2,380,55


# 3. 查询 列和行 索引


In [33]:
df.index

Index(['day1', 'day2', 'day3'], dtype='object')

In [34]:
df.columns

Index(['Calories', 'Duration'], dtype='object')

In [35]:
df

Unnamed: 0,Calories,Duration
day1,420,45
day2,380,55
day3,390,50
