# DataFrame
- DataFrame是一个表格型的数据结构
- 它含有一组有序的列，每一列都可以使不同类型的数据，有行索引也有列索引
- 它可以看做是由Series组成的字典
- 数据是以二维结构存放的

## DataFrame构建
#### 字典类：
- 数组、列表或元组构成的字典构造dataframe
- Series构成的字典构造dataframe
- 字典构成的字典构造dataframe

#### 列表类:
- 2D ndarray 构造dataframe
- 字典构成的列表构造dataframe
- Series构成的列表构造dataframe


### 字典类

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 1. 数组、列表或元组构成的字典构造dataframe
# 构造一个字典
data = {'a':[1,2,3,4], 
        'b':(5,6,7,8),
        'c':np.arange(9,13)
       }
# 构造DataFrame
f = pd.DataFrame(data)
print(f)

   a  b   c
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12


In [3]:
# 通过index属性查看行索引
print(f.index)

RangeIndex(start=0, stop=4, step=1)


In [4]:
# 通过columns属性查看列索引
print(f.columns)

Index(['a', 'b', 'c'], dtype='object')


In [5]:
# 通过values属性查看值
print(f.values)

[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]


In [6]:
# 指定index行索引
f = pd.DataFrame(data, index=["A", "B", "C", "D"])
print(f)

   a  b   c
A  1  5   9
B  2  6  10
C  3  7  11
D  4  8  12


In [7]:
# 指定columns列索引
f = pd.DataFrame(data, index=["A", "B", "C", "D"], columns=["a", "b", "c", "d"])
print(f)

   a  b   c    d
A  1  5   9  NaN
B  2  6  10  NaN
C  3  7  11  NaN
D  4  8  12  NaN


In [8]:
# 2. Series构成的字典构造dataframe
pd1 = pd.DataFrame({'a':pd.Series(np.arange(3)), 
                   'b':pd.Series(np.arange(4, 7)),
                   'c':pd.Series(np.arange(7, 9))
                   })
print(pd1)

   a  b    c
0  0  4  7.0
1  1  5  8.0
2  2  6  NaN


In [9]:
# 3. 字典构成的字典构造dataframe
# 字典嵌套（内部字典的key是行索引，外部字典的key是列索引）
pd2 = pd.DataFrame({'a':{'apple':3.6, 'banana':5.6},
                   'b':{'apple':3.4, 'banana':5.5},
                   'c':{'apple':3.8, 'banana':5.8}
                   })
print(pd2)

          a    b    c
apple   3.6  3.4  3.8
banana  5.6  5.5  5.8


### 列表类

In [10]:
# 1. 2D ndarray 构造dataframe
# 首先构造二维数组
arr1 = np.arange(12).reshape(4,3)
pd1 = pd.DataFrame(arr1, index=range(1,5), columns=['a', 'b', 'c'])# 注意指定索引时，长度与原数组保持一致
print(pd1)

   a   b   c
1  0   1   2
2  3   4   5
3  6   7   8
4  9  10  11


In [11]:
# 2. 字典构成的列表构造dataframe
pd2 = pd.DataFrame([{'apple':3.6, 'banana':5.6}, {'apple':3.7, 'banana':5.5}, {'apple':3.9, 'banana':5.2}])
print(pd2)

   apple  banana
0    3.6     5.6
1    3.7     5.5
2    3.9     5.2


In [12]:
# 3. Series构成的列表构造dataframe
pd3 = pd.DataFrame([pd.Series(np.random.rand(3)), pd.Series(np.random.rand(2)), pd.Series(np.random.rand(3))])
print(pd3)

          0         1         2
0  0.464066  0.098613  0.957727
1  0.052819  0.006440       NaN
2  0.800106  0.552113  0.085739


## DataFrame基本用法
- .T转置
- 通过列索引获取列数据（Series类型）
- 增加列数据
-  删除列

In [13]:
pd = pd.DataFrame(np.arange(9).reshape(3,3), index=['a', 'c', 'b'], columns=['A', 'B', 'C']) 
print(pd)

   A  B  C
a  0  1  2
c  3  4  5
b  6  7  8


In [14]:
# 和numpy一样进行转置
# 行和列进行转置
pd.T

Unnamed: 0,a,c,b
A,0,3,6
B,1,4,7
C,2,5,8


In [15]:
# 通过列索引获取列数据
print(pd['A'])
print()
print(type(pd['A']))

a    0
c    3
b    6
Name: A, dtype: int64

<class 'pandas.core.series.Series'>


In [16]:
# 增加列数据
pd['D'] = [9, 10, 11]
print(pd)

   A  B  C   D
a  0  1  2   9
c  3  4  5  10
b  6  7  8  11


In [17]:
# 删除列
del(pd['D'])
print(pd)

   A  B  C
a  0  1  2
c  3  4  5
b  6  7  8


# DataFrame练习


In [18]:
#１.1 创建一个DataFrame
# 用列表创建
import numpy as np
import pandas as pd

ls1 = [['张三', 89, 59, 84, 0],
      ['李四', 78, 83, 97, 0],
      ['王五', 79, 85, 88, 0],
      ['小明', 89, 92, 83, 0],
      ['小红', 90, 67, 67, 0],
      ['小刚', 87, 81, 73, 0],
      ['小亮', 83, 77, 71, 0]
      ]
pd1 = pd.DataFrame(ls1, columns=['姓名', '语文', '数学', '英语', '体育'])
pd1

Unnamed: 0,姓名,语文,数学,英语,体育
0,张三,89,59,84,0
1,李四,78,83,97,0
2,王五,79,85,88,0
3,小明,89,92,83,0
4,小红,90,67,67,0
5,小刚,87,81,73,0
6,小亮,83,77,71,0


In [19]:
#１.2 创建一个DataFrame
# 用字典创建
import numpy as np
import pandas as pd
d2 = {'姓名':['张三', "李四", '王五', '小明', '小红', '小刚', '小亮'],
     '语文':[89, 78, 79, 89, 90, 87, 83],
     '数学':[59, 83, 85, 92, 67, 81, 77],
     '英语':[84, 97, 88, 83, 67, 73, 71],
     '体育':[0, 0, 0, 0, 0, 0, 0]}
pd2 = pd.DataFrame(d2, columns=['姓名', '语文', '数学', '英语', '体育'])
pd2

Unnamed: 0,姓名,语文,数学,英语,体育
0,张三,89,59,84,0
1,李四,78,83,97,0
2,王五,79,85,88,0
3,小明,89,92,83,0
4,小红,90,67,67,0
5,小刚,87,81,73,0
6,小亮,83,77,71,0


In [20]:
# 2. 进行转置
pd1.T

Unnamed: 0,0,1,2,3,4,5,6
姓名,张三,李四,王五,小明,小红,小刚,小亮
语文,89,78,79,89,90,87,83
数学,59,83,85,92,67,81,77
英语,84,97,88,83,67,73,71
体育,0,0,0,0,0,0,0


In [21]:
# 3. 删除体育成绩
del(pd1['体育'])
pd1

Unnamed: 0,姓名,语文,数学,英语
0,张三,89,59,84
1,李四,78,83,97
2,王五,79,85,88
3,小明,89,92,83
4,小红,90,67,67
5,小刚,87,81,73
6,小亮,83,77,71


In [22]:
# 3. 删除体育成绩
pd2.drop(['体育'], axis=1, inplace=True)
pd2

Unnamed: 0,姓名,语文,数学,英语
0,张三,89,59,84
1,李四,78,83,97
2,王五,79,85,88
3,小明,89,92,83
4,小红,90,67,67
5,小刚,87,81,73
6,小亮,83,77,71


In [23]:
# 4. 添加‘综合’成绩：（97，87,78，76,84,88,91）
pd1['综合'] = [97, 87, 78, 76, 84, 88, 91]
pd1

Unnamed: 0,姓名,语文,数学,英语,综合
0,张三,89,59,84,97
1,李四,78,83,97,87
2,王五,79,85,88,78
3,小明,89,92,83,76
4,小红,90,67,67,84
5,小刚,87,81,73,88
6,小亮,83,77,71,91
