# Pandas的数据结构



导入pandas：  
三剑客

In [4]:
import pandas as pd
from pandas import Series,DataFrame
import numpy as np

### 1、Series

Series是一种类似与一维数组的对象，由下面两个部分组成：
- values：一组数据（ndarray类型）
- index：相关的数据索引标签

#### 1）Series的创建

两种创建方式：

(1) 由列表或numpy数组创建

    默认索引为0到N-1的整数型索引

In [3]:
#使用列表创建Series
Series(data=[1,2,3])
Series(data=[1,2,3],index=['a','b','c']) #显式索引

a    1
b    2
c    3
dtype: int64

In [11]:
#使用numpy创建Series
s = Series(data=np.random.randint(0,100,size=(4,)),index=['a','b','c','d'])
s

a    87
b    92
c    94
d    10
dtype: int32

============================================

练习1：

使用多种方法创建以下Series，命名为s1：  
语文 150   
数学 150   
英语 150   
理综 300   

============================================

#### 2）Series的索引和切片

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里<font color=red>一个列表</font>取多个索引（此时返回的是一个Series类型）。

(1) 显式索引：

    - 使用index中的元素作为索引值
    - 使用s.loc[]（推荐）:注意，loc中括号中放置的一定是显示索引

 注意，此时是闭区间

In [14]:
s[[1,2]]

b    92
c    94
dtype: int32

(2) 隐式索引：

    - 使用整数作为索引值
    - 使用.iloc[]（推荐）:iloc中的中括号中必须放置隐式索引

 注意，此时是半开区间

## 切片:隐式索引切片和显示索引切片

- 显示索引切片:index和loc

In [15]:
s[0:3]

a    87
b    92
c    94
dtype: int32

#### 3）Series的基本概念

可以通过shape，size，index,values等得到series的属性

In [17]:
s.values
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

可以使用s.head(),tail()分别查看前n个和后n个值

In [19]:
s.head(2)
s.tail(2)

c    94
d    10
dtype: int32

对Series元素进行去重

In [22]:
s = Series(data=[1,1,2,2,3,3,3,4,5,6,7,7,8,9,9,9])
s.unique()

array([1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int64)

当索引没有对应的值时，可能出现缺失数据显示NaN（not a number）的情况

- 使得两个Series进行相加

In [24]:
s1 = Series(data=[1,2,3],index=['a','b','c'])
s2 = Series(data=[1,2,3],index=['a','b','d'])
s = s1 + s2
s

a    2.0
b    4.0
c    NaN
d    NaN
dtype: float64

可以使用pd.isnull()，pd.notnull()，或s.isnull(),notnull()函数检测缺失数据

In [26]:
s.isnull()
s.notnull()

a     True
b     True
c    False
d    False
dtype: bool

In [33]:
s

a    2.0
b    4.0
c    NaN
d    NaN
dtype: float64

In [35]:
s[[True,True,False,False]]
s[s.notnull()]

a    2.0
b    4.0
dtype: float64

#### 4）Series的运算

(1) + - * /

In [38]:
s1.add(s2)

a    2.0
b    4.0
c    NaN
d    NaN
dtype: float64

(2) add() sub() mul() div()  :  s1.add(s2,fill_value=0)

(3) Series之间的运算

- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN

============================================

练习3：

1. 想一想Series运算和ndarray运算的规则有什么不同？

2. 新建另一个索引包含“文综”的Series s2，并与s2进行多种算术操作。

============================================

### 2、DataFrame

DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values

#### 1）DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引。

使用字典创建的DataFrame后，则columns参数将不可被使用。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。


- 使用ndarray创建DataFrame

In [39]:
arr = np.array([1,2,3])
type(arr)

numpy.ndarray

In [41]:
DataFrame(data=np.random.randint(0,100,size=(3,4)),index=['a','b','c'])

Unnamed: 0,0,1,2,3
a,77,43,59,44
b,2,93,60,74
c,63,6,39,66


DataFrame属性：values、columns、index、shape

使用字典创建DataFrame：创建一个表格用于展示张三，李四，王五的java，python的成绩

In [73]:
dic = {
    '张三':[11,22,33,44],
    '李四':[55,66,77,88]
}
df_score = DataFrame(data=dic,index=['语文','数学','英语','理综'])

============================================

练习4：

根据以下考试成绩表，创建一个DataFrame，命名为df：
```
    张三  李四  
语文 150  0
数学 150  0
英语 150  0
理综 300  0
```

============================================

#### 2）DataFrame的索引

(1) 对列进行索引

    - 通过类似字典的方式  df['q']
    - 通过属性的方式     df.q

 可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

In [52]:
df = DataFrame(data=np.random.randint(0,100,size=(3,4)),index=['a','b','c'],columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
a,61,87,56,73
b,59,52,88,83
c,98,17,60,82


In [53]:
#获取前两列
df[['A','B']]

Unnamed: 0,A,B
a,61,87
b,59,52
c,98,17


(2) 对行进行索引

    - 使用.loc[]加index来进行行索引
    - 使用.iloc[]加整数来进行行索引
    
 同样返回一个Series，index为原来的columns。

In [60]:
df.iloc[[0,1]]
df.loc[['a','b']]

Unnamed: 0,A,B,C,D
a,61,87,56,73
b,59,52,88,83


(3) 对元素索引的方法
    - 使用列索引
    - 使用行索引(iloc[3,1] or loc['C','q']) 行索引在前，列索引在后
    

In [63]:
df.loc['a','D']
df.loc[['a','b'],'D']

a    73
b    83
Name: D, dtype: int32

#### 切片：

【注意】
直接用中括号时：
- 索引表示的是列索引
- 切片表示的是行切片

In [64]:
df

Unnamed: 0,A,B,C,D
a,61,87,56,73
b,59,52,88,83
c,98,17,60,82


In [67]:
#切出前两行
df['a':'b']
df[0:2]

Unnamed: 0,A,B,C,D
a,61,87,56,73
b,59,52,88,83


在loc和iloc中使用切片(切列) ：      df.loc['B':'C','丙':'丁']

In [71]:
df.loc[:,'A':'B']

Unnamed: 0,A,B
a,61,87
b,59,52
c,98,17


============================================

练习5：

使用多种方法对ddd进行索引和切片，并比较其中的区别

============================================

#### 3）DataFrame的运算

（1） DataFrame之间的运算

同Series一样：

- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN

In [72]:
df + df

Unnamed: 0,A,B,C,D
a,122,174,112,146
b,118,104,176,166
c,196,34,120,164


创建DataFrame df1 不同人员的各科目成绩，月考一

创建DataFrame df2 不同人员的各科目成绩，月考二  
有新学生转入

============================================

练习6：

1. 假设ddd是期中考试成绩，ddd2是期末考试成绩，请自由创建ddd2，并将其与ddd相加，求期中期末平均值。

2. 假设张三期中考试数学被发现作弊，要记为0分，如何实现？

3. 李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？

4. 后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现？

============================================

In [75]:
qizhong = df_score
qimo = df_score

In [76]:
(qizhong + qimo) / 2

Unnamed: 0,张三,李四
语文,11,55
数学,22,66
英语,33,77
理综,44,88


In [77]:
qizhong

Unnamed: 0,张三,李四
语文,11,55
数学,22,66
英语,33,77
理综,44,88


In [79]:
qizhong.loc['数学','张三'] = 0
qizhong

Unnamed: 0,张三,李四
语文,11,55
数学,0,66
英语,33,77
理综,44,88


In [82]:
qizhong['李四'] += 100
qizhong

Unnamed: 0,张三,李四
语文,11,155
数学,0,166
英语,33,177
理综,44,188


In [86]:
qizhong += 10
qizhong

Unnamed: 0,张三,李四
语文,41,185
数学,30,196
英语,63,207
理综,74,218


In [5]:
#使用tushare包获取某股票的历史行情数据
import tushare as ts
df = ts.get_k_data(code='600519',start='2000-01-01')
df.to_csv('./maotai.csv')

In [9]:
df = pd.read_csv('./maotai.csv')
#删除df中的某一列
df.drop(labels='Unnamed: 0',axis=1,inplace=True)

In [15]:
#将df总的date这一列作为源数据的行索引,将字符串i形式的时间数据转换成时间类型
df = pd.read_csv('./maotai.csv',index_col='date',parse_dates=['date'])
#删除df中的某一列
df.drop(labels='Unnamed: 0',axis=1,inplace=True)

In [16]:
#输出该股票所有收盘比开盘上涨3%以上的日期。
df.head(5)

Unnamed: 0_level_0,open,close,high,low,volume,code
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2001-08-27,5.392,5.554,5.902,5.132,406318.0,600519
2001-08-28,5.467,5.759,5.781,5.407,129647.79,600519
2001-08-29,5.777,5.684,5.781,5.64,53252.75,600519
2001-08-30,5.668,5.796,5.86,5.624,48013.06,600519
2001-08-31,5.804,5.782,5.877,5.749,23231.48,600519


In [18]:
#验证行索引的数据类型
df.index[0]

Timestamp('2001-08-27 00:00:00')

In [26]:
#输出该股票所有收盘比开盘上涨3%以上的日期。
#(收盘-开盘)/开盘 > 0.03
(df['close'] - df['open']) / df['open'] > 0.03
#一旦遇到了一组布尔值，直接将布尔值作为源数据的行索引
df.loc[(df['close'] - df['open']) / df['open'] > 0.03]
#将行索引取出
df.loc[(df['close'] - df['open']) / df['open'] > 0.03].index

DatetimeIndex(['2001-08-27', '2001-08-28', '2001-09-10', '2001-12-21',
               '2002-01-18', '2002-01-31', '2003-01-14', '2003-10-29',
               '2004-01-05', '2004-01-14',
               ...
               '2019-01-15', '2019-02-11', '2019-03-01', '2019-03-18',
               '2019-04-10', '2019-04-16', '2019-05-10', '2019-05-15',
               '2019-06-11', '2019-06-20'],
              dtype='datetime64[ns]', name='date', length=301, freq=None)

In [31]:
#输出该股票所有开盘比前日收盘跌幅超过2%的日期。
#(开盘-前日收盘)/前日收盘  < -0.02
(df['open'] - df['close'].shift(1))/df['close'].shift(1) < -0.02
df.loc[(df['open'] - df['close'].shift(1))/df['close'].shift(1) < -0.02]
df.loc[(df['open'] - df['close'].shift(1))/df['close'].shift(1) < -0.02].index

DatetimeIndex(['2001-09-12', '2002-06-26', '2002-12-13', '2004-07-01',
               '2004-10-29', '2006-08-21', '2006-08-23', '2007-01-25',
               '2007-02-01', '2007-02-06', '2007-03-19', '2007-05-21',
               '2007-05-30', '2007-06-05', '2007-07-27', '2007-09-05',
               '2007-09-10', '2008-03-13', '2008-03-17', '2008-03-25',
               '2008-03-27', '2008-04-22', '2008-04-23', '2008-04-29',
               '2008-05-13', '2008-06-10', '2008-06-13', '2008-06-24',
               '2008-06-27', '2008-08-11', '2008-08-19', '2008-09-23',
               '2008-10-10', '2008-10-15', '2008-10-16', '2008-10-20',
               '2008-10-23', '2008-10-27', '2008-11-06', '2008-11-12',
               '2008-11-20', '2008-11-21', '2008-12-02', '2009-02-27',
               '2009-03-25', '2009-08-13', '2010-04-26', '2010-04-30',
               '2011-08-05', '2012-03-27', '2012-08-10', '2012-11-22',
               '2012-12-04', '2012-12-24', '2013-01-16', '2013-01-25',
      

In [None]:
#假如我从2010年1月1日开始，每月第一个交易日买入1手股票，每年最后一个交易日卖出所有股票，到今天为止，我的收益如何？

In [37]:
#2010-2019
new_df = df['2010-01-01':'2019-09-03']
new_df

Unnamed: 0_level_0,open,close,high,low,volume,code
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2010-01-04,109.760,108.446,109.760,108.044,44304.88,600519
2010-01-05,109.116,108.127,109.441,107.846,31513.18,600519
2010-01-06,107.840,106.417,108.165,106.129,39889.03,600519
2010-01-07,106.417,104.477,106.691,103.302,48825.55,600519
2010-01-08,104.655,103.379,104.655,102.167,36702.09,600519
2010-01-11,104.400,102.926,105.230,102.422,24461.03,600519
2010-01-12,103.028,105.708,106.040,102.492,31063.40,600519
2010-01-13,104.649,103.022,105.389,102.741,37924.44,600519
2010-01-14,103.379,107.552,107.974,103.379,46454.64,600519
2010-01-15,107.533,108.401,110.641,107.533,45938.50,600519


In [43]:
#将买股票对应的行数据找出
    #- 在new_df中将每个月的第一个交易日的行数据取出
    #- 将每一行中的open值取出
df_monthly = new_df.resample('M').first()
df_yearly = new_df.resample('A').last()[:-1]

In [45]:
cost_monty = df_monthly['open'].sum()*100
cost_monty

3453686.0999999996

In [46]:
df_yearly

Unnamed: 0_level_0,open,close,high,low,volume,code
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2010-12-31,117.103,118.469,118.701,116.62,46084.0,600519
2011-12-31,138.039,138.468,139.6,136.105,29460.0,600519
2012-12-31,155.208,152.087,156.292,150.144,51914.0,600519
2013-12-31,93.188,96.48,97.179,92.061,57546.0,600519
2014-12-31,157.642,161.056,161.379,157.132,46269.0,600519
2015-12-31,207.487,207.458,208.704,207.106,19673.0,600519
2016-12-31,317.239,324.563,325.67,317.239,34687.0,600519
2017-12-31,707.948,687.725,716.329,681.918,76038.0,600519
2018-12-31,563.3,590.01,596.4,560.0,63678.0,600519


In [48]:
#计算买入股票一共花了多少钱
recv_monry = df_yearly['open'].sum()*1200
recv_monry

2948584.7999999993

In [53]:
#将19年手中剩余的股票进行估价，将估价的值也计算到收益中
recv_monry = 900 * new_df[-1:]['open'] + recv_monry
recv_monry

date
2019-09-03    3974584.8
Name: open, dtype: float64

In [54]:
recv_monry - cost_monty

date
2019-09-03    520898.7
Name: open, dtype: float64