## 任务描述

1. 了解Series和DataFrame

2. 掌握DataFrame的简单运用

## 相关知识

### Numpy 和 Pandas 有什么不同

如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的，没有数值标签，而 Pandas 就是字典形式。Pandas是基于Numpy构建的，让Numpy为中心的应用变得更加简单。

要使用pandas，首先需要了解他主要两个数据结构：Series和DataFrame。

**Series** 

In [1]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,6,np.nan,44,1])

print(s)

0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64


**Series**的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引。于是会自动创建一个0到N-1（N为长度）的整数型索引。

**DataFrame** 

In [2]:
dates = pd.date_range('20160101',periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

print(df)

                   a         b         c         d
2016-01-01  1.008079 -0.909296  0.364971 -2.924797
2016-01-02 -1.229248 -0.461787 -1.502666  0.820631
2016-01-03 -0.732234 -1.170077  0.723907 -0.908035
2016-01-04  0.284446 -0.018246 -0.452493 -2.146266
2016-01-05  0.689601  0.791187  0.442903 -1.485754
2016-01-06 -0.517849 -1.066947  1.190703 -0.002733


**DataFrame**是一个表格型的数据结构，它包含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔值等）。DataFrame既有行索引也有列索引， 它可以被看做由Series组成的大字典。

我们可以根据每一个不同的索引来挑选数据, 比如挑选 b 的元素:

**DataFrame 的一些简单运用**

In [3]:
print(df['b'])

2016-01-01   -0.909296
2016-01-02   -0.461787
2016-01-03   -1.170077
2016-01-04   -0.018246
2016-01-05    0.791187
2016-01-06   -1.066947
Freq: D, Name: b, dtype: float64


我们在创建一组没有给定行标签和列标签的数据 df1:

In [4]:
df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
print(df1)

   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11


这样,他就会采取默认的从0开始 index. 还有一种生成 df 的方法, 如下 df2:

In [5]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo'})
                    
print(df2)

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo


这种方法能对每一列的数据进行特殊对待. 如果想要查看数据中的类型, 我们可以用 dtype这个属性:

In [6]:
print(df2.dtypes)


A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


如果想看对列的序号:


In [7]:
print(df2.index)

Int64Index([0, 1, 2, 3], dtype='int64')


同样, 每种数据的名称也能看到:

In [8]:
print(df2.columns)

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')


如果只想看所有`df2`的值:

In [9]:
print(df2.values)

[[1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']]


想知道数据的总结, 可以用 describe():只能对数字型进行操作

In [10]:
df2.describe()

Unnamed: 0,A,C,D
count,4.0,4.0,4.0
mean,1.0,1.0,3.0
std,0.0,0.0,0.0
min,1.0,1.0,3.0
25%,1.0,1.0,3.0
50%,1.0,1.0,3.0
75%,1.0,1.0,3.0
max,1.0,1.0,3.0


如果想翻转数据, transpose:

In [11]:
print(df2.T)

                     0                    1                    2  \
A                  1.0                  1.0                  1.0   
B  2013-01-02 00:00:00  2013-01-02 00:00:00  2013-01-02 00:00:00   
C                  1.0                  1.0                  1.0   
D                    3                    3                    3   
E                 test                train                 test   
F                  foo                  foo                  foo   

                     3  
A                  1.0  
B  2013-01-02 00:00:00  
C                  1.0  
D                    3  
E                train  
F                  foo  


如果想对数据的index进行排序并输出:

In [12]:
print(df2.sort_index(axis=1, ascending=False))


     F      E  D    C          B    A
0  foo   test  3  1.0 2013-01-02  1.0
1  foo  train  3  1.0 2013-01-02  1.0
2  foo   test  3  1.0 2013-01-02  1.0
3  foo  train  3  1.0 2013-01-02  1.0


如果是对数据值排序输出:

In [13]:
print(df2.sort_values(by='B'))

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo


## 编程要求

根据上述知识，创建一个6行4列的表格型数据并打印输出

1. 随机生成6行4列矩阵，数值范围在1-10之间
2. 行索引为 20210509 - 20210515
3. 列索引为 A B C D 

### 参考答案

In [14]:
import numpy as np
import pandas as pd
dates = np.arange(20210509,20210515)
df1 = pd.DataFrame(np.random.randint(1,10,(6,4)),index=dates,columns=["A","B","C","D"])
print(df1)

          A  B  C  D
20210509  8  8  5  9
20210510  8  2  7  5
20210511  7  3  4  5
20210512  3  4  2  5
20210513  7  6  6  7
20210514  7  3  7  1
