**# DataFrame** 

**DataFrame基本概念**

* Dataframe，二维，Series容器
* DataFrame对象既有行索引，又有列索引
  
  行索引，表明不同行，横向索引，index，0轴，axis=0
  
  列索引，表明不同列，纵向索引，columns，1轴，axis=1

In [None]:
import pandas as pd
import numpy as np

pd.DataFrame(np.arange(12).reshape(3,4))

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [None]:
pd.DataFrame(np.arange (12).reshape(3,4), index=list('abc'), columns=list('wxyz'))

Unnamed: 0,w,x,y,z
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11


* 传递一个字典形式的 Series，从而创建一个 DataFrame 对象，其输出结果的行索引是所有 index 的合集。

In [23]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


**字典类型**

In [None]:
dict1 = {'name': ['xiaoming','xiaohong'], 'age':[20,32], 'tel':[10086,10010]}

a = pd.DataFrame(dict1)
a, type(a)

(       name  age    tel
 0  xiaoming   20  10086
 1  xiaohong   32  10010, pandas.core.frame.DataFrame)

In [None]:
dict2 = [{'name': 'xiaoming', 'age':20, 'tel':10086}, {'name': 'xiaohong', 'age':18}, {'name': 'xiaogang', 'tel':10010}]

b = pd.DataFrame(dict2)
b

Unnamed: 0,name,age,tel
0,xiaoming,20.0,10086.0
1,xiaohong,18.0,
2,xiaogang,,10010.0


**列索引**

* DataFrame 可以使用列索（columns index）引来完成数据的选取、添加和删除操作。

In [25]:
data = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(data)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [26]:
# 数据选取
df['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [28]:
# 使用 columns 列索引表标签可以实现添加新的数据列
df['three'] = pd.Series([10,20,30],index=['a','b','c'])
# 将已经存在的数据列做相加运算
df['four'] = df['one'] + df['three']
df

Unnamed: 0,one,two,three,four
a,1.0,1,10.0,11.0
b,2.0,2,20.0,22.0
c,3.0,3,30.0,33.0
d,,4,,


In [31]:
# 使用 insert() 方法插入新的列
# 数值1代表插入到columns列表的索引位置
df.insert(1, column='new_one', value=[6,7,8,9])
df

Unnamed: 0,one,new_one,two,three,four
a,1.0,6,1,10.0,11.0
b,2.0,7,2,20.0,22.0
c,3.0,8,3,30.0,33.0
d,,9,4,,


* 通过 del 和 pop() 都能够删除 DataFrame 中的数据列。

In [32]:
# 使用del删除
del df['one']
df

Unnamed: 0,new_one,two,three,four
a,6,1,10.0,11.0
b,7,2,20.0,22.0
c,8,3,30.0,33.0
d,9,4,,


In [33]:
#使用pop方法删除
df.pop('two')
df

Unnamed: 0,new_one,three,four
a,6,10.0,11.0
b,7,20.0,22.0
c,8,30.0,33.0
d,9,,


**行索引**

In [35]:
data = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(data)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


* 可以将行标签传递给 **loc** 函数，来选取数据。

In [39]:
df.loc['b']   # 该函数只能接收标签索引

one    2.0
two    2.0
Name: b, dtype: float64

* 通过将数据行所在的索引位置传递给 **iloc** 函数，也可以实现数据行选取。

In [41]:
df.iloc[1]

one    2.0
two    2.0
Name: b, dtype: float64

* 切片的多行选取

In [44]:
df[2:4]

Unnamed: 0,one,two
c,3.0,3
d,,4


* 使用 **append()** 函数，可以将新的数据行添加到 DataFrame 中，该函数会在行末追加数据行。

In [45]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
#在行末追加新数据行
df = df.append(df2)
df

Unnamed: 0,a,b
0,1,2
1,3,4
0,5,6
1,7,8


* 可以使用行索引标签，从 DataFrame 中删除某一行数据。如果索引标签存在重复，那么它们将被一起删除。

In [46]:
df = df.drop(0)
df

Unnamed: 0,a,b
1,3,4
1,7,8
