#### 数据帧(DataFrame)是二维数据结构，即数据以行和列的表格方式排列
- 潜在的列是不同的类型
- 大小可变
- 标记轴(行和列)
- 可以对行和列执行算术运算

##### pandas.DataFrame( data, index, columns, dtype, copy)
- data	数据采取各种形式，如:ndarray，series，map，lists，dict，constant和另一个DataFrame
- index	对于行标签
- columns	对于列标签，可选的默认语法是 - np.arange(n)
- dtype	每列的数据类型

###### 创建DataFrame
可以使用各种输入创建，如 
- 列表
- 字典
- 系列
- Numpy ndarrays
- 另一个数据帧(DataFrame)

In [1]:
import pandas as pd

In [2]:
# 空的DataFrame
df = pd.DataFrame()
print(df)

Empty DataFrame
Columns: []
Index: []


##### 从列表创建

In [16]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [15]:
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['name','age'],dtype=float)
print(df)

     name   age
0    Alex  10.0
1     Bob  12.0
2  Clarke  13.0


##### 从ndarrays/Lists的字典来创建
- 所有的ndarrays必须具有相同的长度。如果传递了索引(index)，则索引的长度应等于数组的长度

In [18]:
# 字典
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)

    Name  Age
0    Tom   28
1   Jack   34
2  Steve   29
3  Ricky   42


##### 从字典列表创建
字典列表可作为输入数据传递以用来创建数据帧(DataFrame)，字典键默认为列名
- 一个字典被当作一个数据表
- 键默认为列

In [24]:
data = [{'name':'adam','age':11},{'age':15},{'birth':'1991'}]
df = pd.DataFrame(data)
print(df)

    age birth  name
0  11.0   NaN  adam
1  15.0   NaN   NaN
2   NaN  1991   NaN


如何通过传递字典列表和行索引来创建数据帧(DataFrame)

In [23]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df)

        a   b     c
first   1   2   NaN
second  5  10  20.0


如何使用字典，行索引和列索引列表创建数据帧

In [28]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df1 = pd.DataFrame(data,index=['aa','bb'],columns=['a','b'])
print(df1)

    a   b
aa  1   2
bb  5  10


##### 从系列的字典来创建

In [31]:
# 字典：键为列
d = {'one': pd.Series([1,2,3],index=['a','b','c']),
    'tow': pd.Series([1,2,3,4],index=['a','b','c','d'])}
df = pd.DataFrame(d)
print(df)

   one  tow
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


##### 列选择

In [35]:
print(df['one'])

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64


##### 列添加

In [36]:
print(df)

   one  tow
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


In [39]:
df['three'] = pd.Series(['q','w'],index=['c','d'])
print(df)
df['four'] = df['one'] + df['tow']
print(df)

   one  tow three
a  1.0    1   NaN
b  2.0    2   NaN
c  3.0    3     q
d  NaN    4     w
   one  tow three  four
a  1.0    1   NaN   2.0
b  2.0    2   NaN   4.0
c  3.0    3     q   6.0
d  NaN    4     w   NaN


##### 列删除
列可以删除或弹出

In [52]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}
df = pd.DataFrame(d)
print(df)

   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN


In [53]:
# using del function
del df['one']
print(df)

   two  three
a    1   10.0
b    2   20.0
c    3   30.0
d    4    NaN


In [54]:
# using pop function
a = df.pop('two')
print(a)
print(df)

a    1
b    2
c    3
d    4
Name: two, dtype: int64
   three
a   10.0
b   20.0
c   30.0
d    NaN


#### 行选择，添加和删除

##### 标签选择
- location index

通过将行标签传递给loc()函数来选择行

In [56]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


In [58]:
print(df.loc['a'])

one    1.0
two    1.0
Name: a, dtype: float64


##### 按整数位置选择
可以通过将整数位置传递给iloc()函数来选择行

In [61]:
print(df.iloc[2])

one    3.0
two    3.0
Name: c, dtype: float64


##### 行切片
dataframe 直接切片是对行运算

In [63]:
print(df)
print('------')
print(df[1:3])

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
------
   one  two
b  2.0    2
c  3.0    3


##### 附加行
使用append()函数将新行添加到DataFrame

In [64]:
df = pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
print(df)

   a  b
0  1  2
1  3  4


In [65]:
df1 = pd.DataFrame([[5,6],[7,8]],columns=['a','b'])
print(df1)

   a  b
0  5  6
1  7  8


In [66]:
df = df.append(df1)
print(df)

   a  b
0  1  2
1  3  4
0  5  6
1  7  8


In [67]:
df.loc[0]

Unnamed: 0,a,b
0,1,2
0,5,6


##### 删除行
- 使用drop

使用索引标签从DataFrame中删除或删除行。 如果标签重复，则会删除多行

In [68]:
print(df.drop(0))

   a  b
1  3  4
1  7  8
