# 介绍
要使用pandas，首先需要了解他主要两个数据结构：Series和DataFrame。

# Series

In [1]:
import pandas as pd 
print(pd.__version__)

1.0.1


In [4]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,6,np.nan,44,1])

print(s)

0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64


Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引。于是会自动创建一个0到N-1（N为长度）的整数型索引。

# DataFrame

In [3]:
dates = pd.date_range('20160101',periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

print(df)

                   a         b         c         d
2016-01-01  0.218704 -0.289484 -1.049884 -0.653263
2016-01-02  1.268731  0.598683  0.962616 -0.548968
2016-01-03  0.116265  0.183029 -1.801132 -1.140238
2016-01-04  0.567435  1.362461 -1.208078 -0.860417
2016-01-05  0.218559  0.494392 -1.251786  0.772419
2016-01-06  1.512194 -0.345637  0.950020  0.165191


`DataFrame`是一个表格型的数据结构，它包含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔值等）。`DataFrame`既有行索引也有列索引， 它可以被看做由`Series`组成的大字典。

我们可以根据每一个不同的索引来挑选数据, 比如挑选 `b` 的元素:

## DataFrame 的一些简单运用

In [4]:
print(df['b'])

2016-01-01   -0.289484
2016-01-02    0.598683
2016-01-03    0.183029
2016-01-04    1.362461
2016-01-05    0.494392
2016-01-06   -0.345637
Freq: D, Name: b, dtype: float64


我们在创建一组没有给定行标签和列标签的数据 df1:

In [5]:
df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
print(df1)

   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11


这样,他就会采取默认的从0开始 index. 

还有一种生成 df 的方法, 如下 df2:

In [6]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo'})
                    
print(df2)

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo


这种方法能对每一列的数据进行特殊对待。

如果想要查看数据中的类型, 我们可以用 dtype 这个属性:

In [7]:
print(df2.dtypes)

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


如果想看对列的序号:

In [8]:
print(df2.index)

Int64Index([0, 1, 2, 3], dtype='int64')


同样, 每种数据的名称也能看到:

In [9]:
print(df2.columns)

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')


如果只想看所有df2的值:

In [10]:
print(df2.values)

[[1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']]


想知道数据的总结, 可以用 describe():

In [11]:
df2.describe()

Unnamed: 0,A,C,D
count,4.0,4.0,4.0
mean,1.0,1.0,3.0
std,0.0,0.0,0.0
min,1.0,1.0,3.0
25%,1.0,1.0,3.0
50%,1.0,1.0,3.0
75%,1.0,1.0,3.0
max,1.0,1.0,3.0


如果想翻转数据, transpose:

In [12]:
print(df2.T)

                     0                    1                    2  \
A                    1                    1                    1   
B  2013-01-02 00:00:00  2013-01-02 00:00:00  2013-01-02 00:00:00   
C                    1                    1                    1   
D                    3                    3                    3   
E                 test                train                 test   
F                  foo                  foo                  foo   

                     3  
A                    1  
B  2013-01-02 00:00:00  
C                    1  
D                    3  
E                train  
F                  foo  


如果想对数据的 index 进行排序并输出:

In [14]:
print(df2.sort_index(axis=1, ascending=True))

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo


如果是对数据 值 排序输出:

In [15]:
print(df2.sort_values(by='B'))

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo


# Pandas 选择数据
我们建立了一个 6X4 的矩阵数据。

In [17]:
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates, columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2013-01-01,0,1,2,3
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19
2013-01-06,20,21,22,23


## 简单的筛选
如果我们想选取DataFrame中的数据，下面描述了两种途径, 他们都能达到同一个目的：

In [18]:
print(df['A'])
print(df.A)

2013-01-01     0
2013-01-02     4
2013-01-03     8
2013-01-04    12
2013-01-05    16
2013-01-06    20
Freq: D, Name: A, dtype: int64
2013-01-01     0
2013-01-02     4
2013-01-03     8
2013-01-04    12
2013-01-05    16
2013-01-06    20
Freq: D, Name: A, dtype: int64


让选择跨越多行或多列:

In [19]:
print(df[0:3])

            A  B   C   D
2013-01-01  0  1   2   3
2013-01-02  4  5   6   7
2013-01-03  8  9  10  11


In [20]:
print(df['20130102':'20130104'])

             A   B   C   D
2013-01-02   4   5   6   7
2013-01-03   8   9  10  11
2013-01-04  12  13  14  15


如果df[3:3]将会是一个空对象。后者选择20130102到20130104标签之间的数据，并且包括这两个标签。

## 根据标签 loc
同样我们可以使用标签来选择数据 loc, 本例子主要通过标签名字选择某一行数据， 或者通过选择某行或者所有行（:代表所有行）然后选其中某一列或几列数据。:

In [22]:
print(df.loc['20130102'])

A    4
B    5
C    6
D    7
Name: 2013-01-02 00:00:00, dtype: int64


In [23]:
print(df.loc[:,['A','B']]) 

             A   B
2013-01-01   0   1
2013-01-02   4   5
2013-01-03   8   9
2013-01-04  12  13
2013-01-05  16  17
2013-01-06  20  21


In [24]:
print(df.loc['20130102',['A','B']])

A    4
B    5
Name: 2013-01-02 00:00:00, dtype: int64


## 根据序列 iloc
另外我们可以采用位置进行选择 iloc, 在这里我们可以通过位置选择在不同情况下所需要的数据例如选某一个，连续选或者跨行选等操作。

In [26]:
print(df.iloc[3,1])

13


In [27]:
print(df.iloc[3:5,1:3])

             B   C
2013-01-04  13  14
2013-01-05  17  18


In [28]:
print(df.iloc[[1,3,5],1:3])

             B   C
2013-01-02   5   6
2013-01-04  13  14
2013-01-06  21  22


在这里我们可以通过位置选择在不同情况下所需要的数据, 例如选某一个，连续选或者跨行选等操作。

## 通过判断的筛选
最后我们可以采用判断指令 (Boolean indexing) 进行选择. 我们可以约束某项条件然后选择出当前所有数据.

In [30]:
print(df[df.A>8])

             A   B   C   D
2013-01-04  12  13  14  15
2013-01-05  16  17  18  19
2013-01-06  20  21  22  23


# Pandas 设置值
## 创建数据 
我们可以根据自己的需求, 用 pandas 进行更改数据里面的值, 或者加上一些空的,或者有数值的列.

首先建立了一个 6X4 的矩阵数据。

In [33]:
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates, columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2013-01-01,0,1,2,3
2013-01-02,4,5,6,7
2013-01-03,8,9,10,11
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19
2013-01-06,20,21,22,23


## 根据位置设置 loc 和 iloc 
我们可以利用索引或者标签确定需要修改值的位置。


In [35]:
df.iloc[2,2] = 1111
df.loc['20130101','B'] = 2222
df

Unnamed: 0,A,B,C,D
2013-01-01,0,2222,2,3
2013-01-02,4,5,6,7
2013-01-03,8,9,1111,11
2013-01-04,12,13,14,15
2013-01-05,16,17,18,19
2013-01-06,20,21,22,23


## 根据条件设置
如果现在的判断条件是这样, 我们想要更改B中的数, 而更改的位置是取决于 A 的. 对于A大于4的位置. 更改B在相应位置上的数为0.

In [36]:
df.B[df.A>4] = 0
df

Unnamed: 0,A,B,C,D
2013-01-01,0,2222,2,3
2013-01-02,4,5,6,7
2013-01-03,8,0,1111,11
2013-01-04,12,0,14,15
2013-01-05,16,0,18,19
2013-01-06,20,0,22,23


## 按行或列设置
如果对整列做批处理, 加上一列 ‘F’, 并将 F 列全改为 NaN, 如下:

In [38]:
df['F'] = np.nan
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0,2222,2,3,
2013-01-02,4,5,6,7,
2013-01-03,8,0,1111,11,
2013-01-04,12,0,14,15,
2013-01-05,16,0,18,19,
2013-01-06,20,0,22,23,


## 添加数据
用上面的方法也可以加上 Series 序列（但是长度必须对齐）。

In [40]:
df['E'] = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130101',periods=6)) 
df

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0,2222,2,3,,1
2013-01-02,4,5,6,7,,2
2013-01-03,8,0,1111,11,,3
2013-01-04,12,0,14,15,,4
2013-01-05,16,0,18,19,,5
2013-01-06,20,0,22,23,,6


这样我们大概学会了如何对DataFrame中在自己想要的地方赋值或者增加数据。 下次课会将pandas如何处理丢失数据的过程。

# Pandas 处理丢失数据
## 创建含 NaN 的矩阵 
有时候我们导入或处理数据, 会产生一些空的或者是 NaN 数据,如何删除或者是填补这些 NaN 数据就是我们今天所要提到的内容.

建立了一个6X4的矩阵数据并且把两个位置置为空.

In [47]:
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates, columns=['A','B','C','D'])
df.iloc[0,1] = np.nan
df.iloc[1,2] = np.nan
df

Unnamed: 0,A,B,C,D
2013-01-01,0,,2.0,3
2013-01-02,4,5.0,,7
2013-01-03,8,9.0,10.0,11
2013-01-04,12,13.0,14.0,15
2013-01-05,16,17.0,18.0,19
2013-01-06,20,21.0,22.0,23


## pd.dropna()
如果想直接去掉有 NaN 的行或列, 可以使用 dropna

In [43]:
df.dropna(
    axis=0,     # 0: 对行进行操作; 1: 对列进行操作
    how='any'   # 'any': 只要存在 NaN 就 drop 掉; 'all': 必须全部是 NaN 才 drop 
    ) 

Unnamed: 0,A,B,C,D
2013-01-03,8,9.0,10.0,11
2013-01-04,12,13.0,14.0,15
2013-01-05,16,17.0,18.0,19
2013-01-06,20,21.0,22.0,23


## pd.fillna()
如果是将 NaN 的值用其他值代替, 比如代替成 0:

In [49]:
df.fillna(value=0) # 注意，这里是生成一张新表了

Unnamed: 0,A,B,C,D
2013-01-01,0,0.0,2.0,3
2013-01-02,4,5.0,0.0,7
2013-01-03,8,9.0,10.0,11
2013-01-04,12,13.0,14.0,15
2013-01-05,16,17.0,18.0,19
2013-01-06,20,21.0,22.0,23


## pd.isnull()
判断是否有缺失数据 NaN, 为 True 表示缺失数据:

In [50]:
df.isnull() 

Unnamed: 0,A,B,C,D
2013-01-01,False,True,False,False
2013-01-02,False,False,True,False
2013-01-03,False,False,False,False
2013-01-04,False,False,False,False
2013-01-05,False,False,False,False
2013-01-06,False,False,False,False


检测在数据中是否存在 NaN, 如果存在就返回 True:

In [51]:
np.any(df.isnull()) == True  

True

# Pandas 合并 concat
pandas处理多组数据的时候往往会要用到数据的合并处理,使用 concat是一种基本的合并方式.而且concat中有很多参数可以调整,合并成你想要的数据形式.

## axis (合并方向) 
axis=0是预设值，因此未设定任何参数时，函数默认axis=0。

In [30]:
import pandas as pd
import numpy as np

#定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
df3 = pd.DataFrame(np.ones((3,4))*2, columns=['a','b','c','d'])
print(df1)
print(df2)
print(df3)

#concat纵向合并
res = pd.concat([df1, df2, df3], axis=0)

#打印结果
print(res)

     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
     a    b    c    d
0  1.0  1.0  1.0  1.0
1  1.0  1.0  1.0  1.0
2  1.0  1.0  1.0  1.0
     a    b    c    d
0  2.0  2.0  2.0  2.0
1  2.0  2.0  2.0  2.0
2  2.0  2.0  2.0  2.0
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
0  1.0  1.0  1.0  1.0
1  1.0  1.0  1.0  1.0
2  1.0  1.0  1.0  1.0
0  2.0  2.0  2.0  2.0
1  2.0  2.0  2.0  2.0
2  2.0  2.0  2.0  2.0


仔细观察会发现结果的index是0, 1, 2, 0, 1, 2, 0, 1, 2，若要将index重置，请看例子二。

## ignore_index (重置 index) ¶

In [31]:
#承上一个例子，并将index_ignore设定为True
res = pd.concat([df1, df2, df3], axis=0, ignore_index=True)

#打印结果
print(res)

     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
6  2.0  2.0  2.0  2.0
7  2.0  2.0  2.0  2.0
8  2.0  2.0  2.0  2.0


结果的index变0, 1, 2, 3, 4, 5, 6, 7, 8。

## join (合并方式) 
join='outer'为预设值，因此未设定任何参数时，函数默认join='outer'。此方式是依照column来做纵向合并，有相同的column上下合并在一起，其他独自的column个自成列，原本没有值的位置皆以NaN填充。

In [39]:
import pandas as pd
import numpy as np

#定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d','e'], index=[2,3,4])
print(df1)
print(df2)

#纵向"外"合并df1与df2
res = pd.concat([df1, df2], axis=0, join='outer', sort=False)

print(res)

     a    b    c    d
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  0.0  0.0  0.0  0.0
     b    c    d    e
2  1.0  1.0  1.0  1.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
     a    b    c    d    e
1  0.0  0.0  0.0  0.0  NaN
2  0.0  0.0  0.0  0.0  NaN
3  0.0  0.0  0.0  0.0  NaN
2  NaN  1.0  1.0  1.0  1.0
3  NaN  1.0  1.0  1.0  1.0
4  NaN  1.0  1.0  1.0  1.0


原理同上个例子的说明，但只有相同的column合并在一起，其他的会被抛弃。

In [40]:
#承上一个例子

#纵向"内"合并df1与df2
res = pd.concat([df1, df2], axis=0, join='inner')

#打印结果
print(res)

     b    c    d
1  0.0  0.0  0.0
2  0.0  0.0  0.0
3  0.0  0.0  0.0
2  1.0  1.0  1.0
3  1.0  1.0  1.0
4  1.0  1.0  1.0


## join_axes (依照 axes 合并)


In [45]:
import pandas as pd
import numpy as np

#定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d','e'], index=[2,3,4])
print(df1)
print(df2)

#依照`df1.index`进行横向合并
res = pd.concat([df1, df2], axis=1, join_axes=[df1.index])

#打印结果
print(res)

     a    b    c    d
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  0.0  0.0  0.0  0.0
     b    c    d    e
2  1.0  1.0  1.0  1.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
     a    b    c    d    b    c    d    e
1  0.0  0.0  0.0  0.0  NaN  NaN  NaN  NaN
2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0


In [42]:
#移除join_axes，并打印结果
res = pd.concat([df1, df2], axis=1)
print(res)

     a    b    c    d    b    c    d    e
1  0.0  0.0  0.0  0.0  NaN  NaN  NaN  NaN
2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
4  NaN  NaN  NaN  NaN  1.0  1.0  1.0  1.0


## append (添加数据) 

In [48]:
import pandas as pd
import numpy as np

#定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
df3 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
s1 = pd.Series([1,2,3,4], index=['a','b','c','d'])

#将df2合并到df1的下面，以及重置index，并打印出结果
res = df1.append(df2, ignore_index=True)
print(res)

#合并多个df，将df2与df3合并至df1的下面，以及重置index，并打印出结果
res = df1.append([df2, df3], ignore_index=True)
print(res)

#合并series，将s1合并至df1，以及重置index，并打印出结果
res = df1.append(s1, ignore_index=True)
print(res)

     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
6  1.0  1.0  1.0  1.0
7  1.0  1.0  1.0  1.0
8  1.0  1.0  1.0  1.0
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  2.0  3.0  4.0


# Pandas 合并 merge

# Pandas 读取CSV
pandas可以读取与存取的资料格式有很多种，像csv、excel、json、html与pickle等…， 详细请看[官方说明文件](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

In [2]:
import pandas as pd #加载模块

#读取csv
data = pd.read_csv('./CSVFiles/sz000002.csv')

#打印出data
print(data.head())

       股票代码 股票名称        交易日期                                          新浪概念  \
0  sz000002  万科Ａ  14/12/2016  含H股；融资融券；保障房；前海概念；保险重仓；QFII重仓；深圳本地；基金重仓；股权激励   
1  sz000002  万科Ａ  13/12/2016  含H股；融资融券；保障房；前海概念；保险重仓；QFII重仓；深圳本地；基金重仓；股权激励   
2  sz000002  万科Ａ  12/12/2016  含H股；融资融券；保障房；前海概念；保险重仓；QFII重仓；深圳本地；基金重仓；股权激励   
3  sz000002  万科Ａ  09/12/2016  含H股；融资融券；保障房；前海概念；保险重仓；QFII重仓；深圳本地；基金重仓；股权激励   
4  sz000002  万科Ａ  08/12/2016  含H股；融资融券；保障房；前海概念；保险重仓；QFII重仓；深圳本地；基金重仓；股权激励   

     收盘价       涨跌幅       成交量 MACD_金叉死叉  
0  22.29 -0.033391  41281457       NaN  
1  23.06 -0.008598  48450098       NaN  
2  23.26 -0.062475  78901945       NaN  
3  24.81  0.002829  48168045       NaN  
4  24.74 -0.015911  38055084       NaN  


In [51]:
df = pd.read_csv(
    # 该参数为数据在电脑中的路径，可以不填写
    filepath_or_buffer='./CSVFiles/sz000002.csv',
    # 线上读取
#     filepath_or_buffer='https://bit.ly/sz000002',

    # 该参数代表数据的分隔符，csv文件默认是逗号。其他常见的是'\t'
    sep=',',
    # 该参数代表跳过数据文件的的第1行不读入
#     skiprows=1,
    # nrows，只读取前n行数据，若不指定，读入全部的数据
    nrows=10,
    # 将指定列的数据识别为日期格式。若不指定，时间数据将会以字符串形式读入。一开始先不用。
    # parse_dates=['交易日期'],
    # 将指定列设置为index。若不指定，index默认为0, 1, 2, 3, 4...
    index_col=['交易日期'],
    # 读取指定的这几列数据，其他数据不读取。若不指定，读入全部列
    usecols=['交易日期', '股票代码', '股票名称', '收盘价', '涨跌幅', '成交量', 'MACD_金叉死叉'],
    # 当某行数据有问题时，报错。设定为False时即不报错，直接跳过该行。当数据比较脏乱的时候用这个。
    error_bad_lines=False,
    # 将数据中的null识别为空值
    na_values='NULL',
    # 更多其他参数，请直接搜索"pandas read_csv"，要去逐个查看一下。比较重要的，header等
)
print(df)

                股票代码 股票名称    收盘价       涨跌幅       成交量  MACD_金叉死叉
交易日期                                                           
14/12/2016  sz000002  万科Ａ  22.29 -0.033391  41281457        NaN
13/12/2016  sz000002  万科Ａ  23.06 -0.008598  48450098        NaN
12/12/2016  sz000002  万科Ａ  23.26 -0.062475  78901945        NaN
09/12/2016  sz000002  万科Ａ  24.81  0.002829  48168045        NaN
08/12/2016  sz000002  万科Ａ  24.74 -0.015911  38055084        NaN
07/12/2016  sz000002  万科Ａ  25.14 -0.009456  49462389        NaN
06/12/2016  sz000002  万科Ａ  25.38 -0.004706  35645541        NaN
05/12/2016  sz000002  万科Ａ  25.50 -0.035917  68906336        NaN
02/12/2016  sz000002  万科Ａ  26.45 -0.019281  51572972        NaN
01/12/2016  sz000002  万科Ａ  26.97 -0.000371  95017059        NaN


In [60]:
# =====看数据
print(df.shape)  # 输出dataframe有多少行、多少列。
# print(df.shape[0])  # 取行数量，相应的列数量就是df.shape[1]
# print(df.columns)  # 顺序输出每一列的名字，演示如何for语句遍历。
# print(df.index)  # 顺序输出每一行的名字，可以for语句遍历。
# print(df.dtypes)  # 数据每一列的类型不一样，比如数字、字符串、日期等。该方法输出每一列变量类型
# print(df.head(3))  # 看前3行的数据，默认是5。与自然语言很接近
# print(df.tail(3))  # 看最后3行的数据，默认是5。
# print(df.sample(n=3))  # 随机抽取3行，想要去固定比例的话，可以用frac参数
# print(df.describe())  # 非常方便的函数，对每一类数据有直观感受；只会对数字类型的列有效

(10, 6)


In [3]:
# 对print出的数据格式进行修正
pd.set_option('expand_frame_repr', False)  # 当列太多时不换行
pd.set_option('max_colwidth', 100) # 设定每一列的最大宽度，恢复原设置的方法，pd.reset_option('max_colwidth')
# 更多设置请见http://pandas.pydata.org/pandas-docs/stable/options.html
print(df)

NameError: name 'pd' is not defined

In [80]:
# =====列操作
# 行列加减乘除
# print(df['股票名称'] + '_地产')  # 字符串列可以直接加上字符串，对整列进行操作
# print(df['收盘价'] * 100)  # 数字列直接加上或者乘以数字，对整列进行操作。
print(df['收盘价'] * df['成交量'])  # 两列之间可以直接操作。收盘价*成交量计算出的是什么？
# 新增一列
# df['股票名称+行业'] = df['股票名称'] + '_地产'

交易日期
14/12/2016    9.201637e+08
13/12/2016    1.117259e+09
12/12/2016    1.835259e+09
09/12/2016    1.195049e+09
08/12/2016    9.414828e+08
07/12/2016    1.243484e+09
06/12/2016    9.046838e+08
05/12/2016    1.757112e+09
02/12/2016    1.364105e+09
01/12/2016    2.562610e+09
dtype: float64


In [81]:
# =====统计函数
# print(df['收盘价'].mean())  # 求一整列的均值，返回一个数。会自动排除空值。
# print(df[['收盘价', '成交量']].mean())  # 求两列的均值，返回两个数，Series
# print(df[['收盘价', '成交量']])
# print(df[['收盘价', '成交量']].mean(axis=1))  # 求两列的均值，返回DataFrame。axis=0或者1要搞清楚。
# axis=1，代表对整几列进行操作。axis=0（默认）代表对几行进行操作。实际中弄混很正常，到时候试一下就知道了。

In [None]:
# print(df['收盘价'].max())  # 最大值
# print(df['收盘价'].min())  # 最小值
# print(df['收盘价'].std())  # 标准差
# print(df['收盘价'].count()) # 非空的数据的数量
# print(df['收盘价'].median())  # 中位数
# print(df['收盘价'].quantile(0.5))  # 50%分位数
# 肯定还有其他的函数计算其他的指标，在实际使用中遇到可以自己搜索

In [82]:
# =====筛选操作，根据指定的条件，筛选出相关拿数据。
# print(df['股票代码'] == 'sz000002')  # 判断股票代码是否等于sz000002
# print(df[df['股票代码'] == 'sz000002'])  # 将判断为True的输出：选取股票代码等于sz000002的行
# print(df[df['股票代码'].isin(['sz000002', 'sz000003 ', 'sz000004'])])  # 选取股票代码等于sz000002的行
# print(df[df['收盘价'] >= 24.0])  # 选取收盘价大于24的行
# print(df[(df.index >= '03/12/2016') & (df.index <= '06/12/2016')])  # 两个条件，或者的话就是|



In [None]:
# =====排序函数
# df.reset_index(inplace=True)
# print(df.sort_values(by=['股票名称'], ascending=[1, 1]))  # by参数指定按照什么进行排序，acsending参数指定是顺序还是逆序，1顺序，0逆序
# print(df.sort_values(by=['股票名称', '交易日期], ascending=[1, 1]))  # 按照多列进行排序


In [24]:
# =====两个df上下合并操作，append操作
df1 = df.iloc[0:10][['股票代码', '收盘价', '涨跌幅']]
df2 = df.iloc[5:15][['股票名称', '收盘价', '涨跌幅']]
print(df1)
print(df2)

# print(df1.append(df2))  # append操作，将df1和df2上下拼接起来。注意观察拼接之后的index
df3 = df1.append(df2, ignore_index=True)  # ignore_index参数，用户重新确定index
df3
# 当两个df的列名不完全相同的时候，来自两个df的所有列都会保留

                股票代码    收盘价       涨跌幅
交易日期                                 
14/12/2016  sz000002  22.29 -0.033391
13/12/2016  sz000002  23.06 -0.008598
12/12/2016  sz000002  23.26 -0.062475
09/12/2016  sz000002  24.81  0.002829
08/12/2016  sz000002  24.74 -0.015911
07/12/2016  sz000002  25.14 -0.009456
06/12/2016  sz000002  25.38 -0.004706
05/12/2016  sz000002  25.50 -0.035917
02/12/2016  sz000002  26.45 -0.019281
01/12/2016  sz000002  26.97 -0.000371
           股票名称    收盘价       涨跌幅
交易日期                            
07/12/2016  万科Ａ  25.14 -0.009456
06/12/2016  万科Ａ  25.38 -0.004706
05/12/2016  万科Ａ  25.50 -0.035917
02/12/2016  万科Ａ  26.45 -0.019281
01/12/2016  万科Ａ  26.97 -0.000371


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  sort=sort)


Unnamed: 0,收盘价,涨跌幅,股票代码,股票名称
0,22.29,-0.033391,sz000002,
1,23.06,-0.008598,sz000002,
2,23.26,-0.062475,sz000002,
3,24.81,0.002829,sz000002,
4,24.74,-0.015911,sz000002,
5,25.14,-0.009456,sz000002,
6,25.38,-0.004706,sz000002,
7,25.5,-0.035917,sz000002,
8,26.45,-0.019281,sz000002,
9,26.97,-0.000371,sz000002,


In [26]:
# =====对数据进行去重
# df3中有重复的行数，我们如何将重复的行数去除？
df3.drop_duplicates(
    subset=['股票代码'],  # subset参数用来指定根据哪类类数据来判断是否重复。若不指定，则用全部列的数据来判断是否重复
    keep='last',  # 在去除重复值的时候，我们是保留上面一行还是下面一行？first保留上面一行，last保留下面一行，False就是一行都不保留
    inplace=True
)
df3

Unnamed: 0,收盘价,涨跌幅,股票代码,股票名称
9,26.97,-0.000371,sz000002,
14,26.97,-0.000371,,万科Ａ


In [28]:
# =====其他常用重要函数
# print(df.rename(columns={'MACD_金叉死叉': '金叉死叉', '涨跌幅': '涨幅'}))  # rename函数给变量修改名字。使用dict将要修改的名字传给columns参数
# print(df.empty)  # 判断一个df是不是为空，此处输出不为空
# print(pd.DataFrame().empty)  # pd.DataFrame()创建一个空的DataFrame，此处输出为空
# print(df.T)  # 将数据转置，行变成列，很有用

                股票代码 股票名称    收盘价        涨幅       成交量  金叉死叉
交易日期                                                      
14/12/2016  sz000002  万科Ａ  22.29 -0.033391  41281457   NaN
13/12/2016  sz000002  万科Ａ  23.06 -0.008598  48450098   NaN
12/12/2016  sz000002  万科Ａ  23.26 -0.062475  78901945   NaN
09/12/2016  sz000002  万科Ａ  24.81  0.002829  48168045   NaN
08/12/2016  sz000002  万科Ａ  24.74 -0.015911  38055084   NaN
07/12/2016  sz000002  万科Ａ  25.14 -0.009456  49462389   NaN
06/12/2016  sz000002  万科Ａ  25.38 -0.004706  35645541   NaN
05/12/2016  sz000002  万科Ａ  25.50 -0.035917  68906336   NaN
02/12/2016  sz000002  万科Ａ  26.45 -0.019281  51572972   NaN
01/12/2016  sz000002  万科Ａ  26.97 -0.000371  95017059   NaN
False


In [None]:
# =====输出
# print df
# df.to_csv('output.csv')
# df.to_csv('output.csv', index=False)
# df.to_csv('output_gbk.csv', index=False, encoding='gbk')  # 指定编码格式