# DataFrame
- DataFrame是一个表格型的数据结构
- 它含有一组有序的列，每一列都可以使不同类型的数据，有行索引也有列索引
- 它可以看做是由Series组成的字典
- 数据是以二维结构存放的

## DataFrame构建
#### 字典类：
- 数组、列表或元组构成的字典构造dataframe
- Series构成的字典构造dataframe
- 字典构成的字典构造dataframe

#### 列表类:
- 2D ndarray 构造dataframe
- 字典构成的列表构造dataframe
- Series构成的列表构造dataframe


### 字典类

In [1]:
import numpy as np
import pandas as pd

In [4]:
# 1. 数组、列表或元组构成的字典构造dataframe
# 构造一个字典
data = {'a':[1,2,3,4], 
        'b':(5,6,7,8),
        'c':np.arange(9,13)
       }
# 构造DataFrame
f = pd.DataFrame(data)
print(f)

   a  b   c
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12


In [7]:
# 通过index属性查看行索引
print(f.index)

RangeIndex(start=0, stop=4, step=1)


In [9]:
# 通过columns属性查看列索引
print(f.columns)

Index(['a', 'b', 'c'], dtype='object')


In [11]:
# 通过values属性查看值
print(f.values)

[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]


In [13]:
# 指定index行索引
f = pd.DataFrame(data, index=["A", "B", "C", "D"])
print(f)

   a  b   c
A  1  5   9
B  2  6  10
C  3  7  11
D  4  8  12


In [18]:
# 指定columns列索引
f = pd.DataFrame(data, index=["A", "B", "C", "D"], columns=["a", "b", "c", "d"])
print(f)

   a  b   c    d
A  1  5   9  NaN
B  2  6  10  NaN
C  3  7  11  NaN
D  4  8  12  NaN


In [20]:
# 2. Series构成的字典构造dataframe
pd1 = pd.DataFrame({'a':pd.Series(np.arange(3)), 
                   'b':pd.Series(np.arange(4, 7)),
                   'c':pd.Series(np.arange(7, 9))
                   })
print(pd1)

   a  b    c
0  0  4  7.0
1  1  5  8.0
2  2  6  NaN


In [23]:
# 3. 字典构成的字典构造dataframe
# 字典嵌套（内部字典的key是行索引，外部字典的key是列索引）
pd2 = pd.DataFrame({'a':{'apple':3.6, 'banana':5.6},
                   'b':{'apple':3.4, 'banana':5.5},
                   'c':{'apple':3.8, 'banana':5.8}
                   })
print(pd2)

          a    b    c
apple   3.6  3.4  3.8
banana  5.6  5.5  5.8


### 列表类

In [33]:
# 1. 2D ndarray 构造dataframe
# 首先构造二维数组
arr1 = np.arange(12).reshape(4,3)
pd1 = pd.DataFrame(arr1, index=range(1,5), columns=['a', 'b', 'c'])# 注意指定索引时，长度与原数组保持一致
print(pd1)

   a   b   c
1  0   1   2
2  3   4   5
3  6   7   8
4  9  10  11


In [36]:
# 2. 字典构成的列表构造dataframe
pd2 = pd.DataFrame([{'apple':3.6, 'banana':5.6}, {'apple':3.7, 'banana':5.5}, {'apple':3.9, 'banana':5.2}])
print(pd2)

   apple  banana
0    3.6     5.6
1    3.7     5.5
2    3.9     5.2


In [39]:
# 3. Series构成的列表构造dataframe
pd3 = pd.DataFrame([pd.Series(np.random.rand(3)), pd.Series(np.random.rand(2)), pd.Series(np.random.rand(3))])
print(pd3)

          0         1         2
0  0.480952  0.653118  0.895774
1  0.137835  0.244478       NaN
2  0.299664  0.957929  0.267158


## DataFrame基本用法
- .T转置
- 通过列索引获取列数据（Series类型）
- 增加列数据
-  删除列

In [40]:
pd = pd.DataFrame(np.arange(9).reshape(3,3), index=['a', 'c', 'b'], columns=['A', 'B', 'C']) 
print(pd)

   A  B  C
a  0  1  2
c  3  4  5
b  6  7  8


In [44]:
# 和numpy一样进行转置
# 行和列进行转置
pd.T

Unnamed: 0,a,c,b
A,0,3,6
B,1,4,7
C,2,5,8


In [51]:
# 通过列索引获取列数据
print(pd['A'])
print()
print(type(pd['A']))

a    0
c    3
b    6
Name: A, dtype: int64

<class 'pandas.core.series.Series'>


In [59]:
# 增加列数据
pd['D'] = [9, 10, 11]
print(pd)

   A  B  C   D
a  0  1  2   9
c  3  4  5  10
b  6  7  8  11


In [60]:
# 删除列
del(pd['D'])
print(pd)

   A  B  C
a  0  1  2
c  3  4  5
b  6  7  8


# DataFrame练习


In [63]:
#１. 创建一个DataFrame
# 用列表创建
import numpy as np
import pandas as pd

ls1 = [{'语文':89, '数学':59, '英语':84, '体育':0} , 
       {'语文':78, '数学':83, '英语':97, '体育':0} ,
       {'语文':79, '数学':85, '英语':88, '体育':0} ,
       {'语文':89, '数学':92, '英语':83, '体育':0} ,
       {'语文':90, '数学':67, '英语':67, '体育':0} ,
       {'语文':87, '数学':81, '英语':73, '体育':0} ,
       {'语文':83, '数学':77, '英语':71, '体育':0} ,
      ]
pd1 = pd.DataFrame(ls1, index=['张三', "李四", '王五', '小明', '小红', '小刚', '小亮'])
print(pd)

<module 'pandas' from '/var/sw/anaconda3/lib/python3.6/site-packages/pandas/__init__.py'>


In [64]:
#１. 创建一个DataFrame
# 用字典创建
import numpy as np
import pandas as pd
d1 = {'张三':{'语文':89, '数学':59, '英语':84, '体育':0},
      '李四':{'语文':78, '数学':83, '英语':97, '体育':0},
      '王五':{'语文':79, '数学':85, '英语':88, '体育':0},
      '小明':{'语文':89, '数学':92, '英语':83, '体育':0},
      '小红':{'语文':90, '数学':67, '英语':67, '体育':0},
      '小刚':{'语文':87, '数学':81, '英语':73, '体育':0},
      '小亮':{'语文':83, '数学':77, '英语':71, '体育':0}
     }
pd = pd.DataFrame(d1)
print(pd)

    小亮  小刚  小明  小红  张三  李四  王五
体育   0   0   0   0   0   0   0
数学  77  81  92  67  59  83  85
英语  71  73  83  67  84  97  88
语文  83  87  89  90  89  78  79
