### 为何要使用pandas来完成数据处理工作：
- excel是功能非常强大的表格型数据处理工具，基本可以完成任何的数据处理分析工作，但是要完成稍微复杂的数据分析处理，操作也不简单，也难以对大量具有相同或类似表结构的表格完成批量化处理.
- 此外对大量有关联的，却分布在不同excel文件中的表格，要进行连表分析，对于小白来说是非常复杂而痛苦的事情。
- Python的pandas库可以很好的帮助我们使用较少的精力，顺利完成excel难以做到，或者实现过程非常复杂的数据分析操作。
- 不过相对于excel，pandas的入门曲线稍显陡峭，毕竟要掌握一些基础的编程语法和思维方式，然而一旦入门，你将开启一道通往新世界的大门！

#### 因为本课程是针对没有编程基础和经验的同学，我决一开始就讲解示例，通过在示例中穿插基础知识的方式，让大家没那么容易放弃.
#### 好的，废话不多说，那就让我们进入到pandas的神奇世界之中：

### 示例一：股票数据分析
- 获取某股票的历史行情数据。
- 输出该股票所有收盘比开盘上涨3%以上的日期。
- 输出该股票所有开盘比前日收盘跌幅超过2%的日期。
- 假如我从2010年1月1日开始，每月第一个交易日买入1手股票，每年最后一个交易日卖出所有股票，到今天为止，我的收益如何？

In [1]:
# 导入numpy,pandas库
import numpy as np
import pandas as pd

In [2]:
# 从保存在本地磁盘的csv文件中读取数据
df = pd.read_csv('maotai.csv')
# 查看数据格式
df.head(3)

Unnamed: 0.1,Unnamed: 0,date,open,close,high,low,使用,code
0,0,2001-08-27,5.392,5.554,5.902,5.132,406318.0,600519
1,1,2001-08-28,5.467,5.759,5.781,5.407,129647.79,600519
2,2,2001-08-29,5.777,5.684,5.781,5.64,53252.75,600519


### 1.从读取的原始数据中我们可以看到，有不需要的列'Unnamed: 0'，并且我们很希望把日期'date'这一列作为索引，以便后面的分析

In [3]:
# 使用drop函数，删除不需要的列
df.drop(labels='Unnamed: 0',axis=1,inplace=True)
df.head(3)

Unnamed: 0,date,open,close,high,low,使用,code
0,2001-08-27,5.392,5.554,5.902,5.132,406318.0,600519
1,2001-08-28,5.467,5.759,5.781,5.407,129647.79,600519
2,2001-08-29,5.777,5.684,5.781,5.64,53252.75,600519


In [4]:
# 把日期时间从字符串，转换为时间对象，并设置为索引，就是index
type(df['date'][0])

str

In [5]:
df.index = pd.to_datetime(df['date'])
df.drop('date',axis=1,inplace=True)
df.head(3)

Unnamed: 0_level_0,open,close,high,low,使用,code
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2001-08-27,5.392,5.554,5.902,5.132,406318.0,600519
2001-08-28,5.467,5.759,5.781,5.407,129647.79,600519
2001-08-29,5.777,5.684,5.781,5.64,53252.75,600519


In [6]:
type(df.index[0])

pandas._libs.tslibs.timestamps.Timestamp

### 另一种方法:将date这一列的数据先转成时间类型然后将其作为原数据的行索引
- df = pd.read_csv('./maotai.csv',index_col='date',parse_dates=['date'])
- df.drop(labels='Unnamed: 0',axis=1,inplace=True)

### 2.输出该股票所有收盘比开盘上涨3%以上的日期

In [7]:
# 找到（收盘-开盘）/开盘 > 0.03 的行,True:满足需求,false:不满足
df.loc[(df['close'] - df['open']) / df['open'] > 0.03].index

DatetimeIndex(['2001-08-27', '2001-08-28', '2001-09-10', '2001-12-21',
               '2002-01-18', '2002-01-31', '2003-01-14', '2003-10-29',
               '2004-01-05', '2004-01-14',
               ...
               '2019-03-01', '2019-03-18', '2019-04-10', '2019-04-16',
               '2019-05-10', '2019-05-15', '2019-06-11', '2019-06-20',
               '2019-09-12', '2019-09-18'],
              dtype='datetime64[ns]', name='date', length=303, freq=None)

In [6]:
# 获取了满足需求的日期


### 3.输出该股票所有开盘比前日收盘跌幅超过2%的日期。
-（开盘-前日收盘）/ 前日收盘 < -0.02

In [8]:
# 找到（开盘-前日收盘）/ 前日收盘 < -0.02 的行,True:满足需求,false:不满足
(df['open'] - df['close'].shift(1)) / df['close'].shift(1) < -0.02

date
2001-08-27    False
2001-08-28    False
2001-08-29    False
2001-08-30    False
2001-08-31    False
              ...  
2019-09-11    False
2019-09-12    False
2019-09-16    False
2019-09-17    False
2019-09-18    False
Length: 4309, dtype: bool

In [9]:
# 获取了满足需求的日期
df.loc[(df['open'] - df['close'].shift(1)) / df['close'].shift(1) < -0.02].index

DatetimeIndex(['2001-09-12', '2002-06-26', '2002-12-13', '2004-07-01',
               '2004-10-29', '2006-08-21', '2006-08-23', '2007-01-25',
               '2007-02-01', '2007-02-06', '2007-03-19', '2007-05-21',
               '2007-05-30', '2007-06-05', '2007-07-27', '2007-09-05',
               '2007-09-10', '2008-03-13', '2008-03-17', '2008-03-25',
               '2008-03-27', '2008-04-22', '2008-04-23', '2008-04-29',
               '2008-05-13', '2008-06-10', '2008-06-13', '2008-06-24',
               '2008-06-27', '2008-08-11', '2008-08-19', '2008-09-23',
               '2008-10-10', '2008-10-15', '2008-10-16', '2008-10-20',
               '2008-10-23', '2008-10-27', '2008-11-06', '2008-11-12',
               '2008-11-20', '2008-11-21', '2008-12-02', '2009-02-27',
               '2009-03-25', '2009-08-13', '2010-04-26', '2010-04-30',
               '2011-08-05', '2012-03-27', '2012-08-10', '2012-11-22',
               '2012-12-04', '2012-12-24', '2013-01-16', '2013-01-25',
      

### 4.计算收益

- 假如我从2010年1月1日开始，每月第一个交易日买入1手股票，每年最后一个交易日卖出所有股票，到今天为止，我的收益如何？
- 分析：
    - 规则：基于开盘价股票的买卖
    - 买：一个完整的年需要买12次股票，一次买入100只，一个完整的年需要买入1200只（单价：当天开盘价）
    - 卖：一个完整的年需要卖一次股票，一次卖出1200只
    - 备注：19年不是一个完整的年，该年只可以买入900只，并且卖不出去

In [11]:
# 获取对应时间段的股票数据
df_new = df['2010':'2019']
df_new.head(3)

Unnamed: 0_level_0,open,close,high,low,使用,code
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2010-01-04,109.76,108.446,109.76,108.044,44304.88,600519
2010-01-05,109.116,108.127,109.441,107.846,31513.18,600519
2010-01-06,107.84,106.417,108.165,106.129,39889.03,600519


In [12]:
# 数据的重新取样的机制(resample):获取每月第一个交易日股票的数据
df_monthly = df_new.resample('M').first()
df_monthly.head()

Unnamed: 0_level_0,open,close,high,low,使用,code
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2010-01-31,109.76,108.446,109.76,108.044,44304.88,600519
2010-02-28,107.769,107.776,108.216,106.576,29655.94,600519
2010-03-31,106.219,106.085,106.857,105.925,21734.74,600519
2010-04-30,101.324,102.141,102.422,101.311,23980.83,600519
2010-05-31,81.676,82.091,82.678,80.974,23975.16,600519


In [13]:
# 计算出买股票一共花了多少钱
costs = df_monthly['open'].sum() * 100
costs

3453686.0999999996

In [14]:
# 计算卖出所有的股票一共进账多少钱
# 每年最后一个交易日以开盘价为单价进行卖出
df_yearly = df_new.resample('A').last()
df_yearly

Unnamed: 0_level_0,open,close,high,low,使用,code
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2010-12-31,117.103,118.469,118.701,116.62,46084.0,600519
2011-12-31,138.039,138.468,139.6,136.105,29460.0,600519
2012-12-31,155.208,152.087,156.292,150.144,51914.0,600519
2013-12-31,93.188,96.48,97.179,92.061,57546.0,600519
2014-12-31,157.642,161.056,161.379,157.132,46269.0,600519
2015-12-31,207.487,207.458,208.704,207.106,19673.0,600519
2016-12-31,317.239,324.563,325.67,317.239,34687.0,600519
2017-12-31,707.948,687.725,716.329,681.918,76038.0,600519
2018-12-31,563.3,590.01,596.4,560.0,63678.0,600519
2019-12-31,1108.5,1148.9,1150.0,1108.18,69314.0,600519


In [15]:
# 因为数据没有包括2019年12月，所以去掉2019的最后一个月的数据
df_yearly = df_yearly[:-1]
df_yearly

Unnamed: 0_level_0,open,close,high,low,使用,code
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2010-12-31,117.103,118.469,118.701,116.62,46084.0,600519
2011-12-31,138.039,138.468,139.6,136.105,29460.0,600519
2012-12-31,155.208,152.087,156.292,150.144,51914.0,600519
2013-12-31,93.188,96.48,97.179,92.061,57546.0,600519
2014-12-31,157.642,161.056,161.379,157.132,46269.0,600519
2015-12-31,207.487,207.458,208.704,207.106,19673.0,600519
2016-12-31,317.239,324.563,325.67,317.239,34687.0,600519
2017-12-31,707.948,687.725,716.329,681.918,76038.0,600519
2018-12-31,563.3,590.01,596.4,560.0,63678.0,600519


In [16]:
# 计算每年最后一个交易日,以开盘价卖出所有股票,获得的收入总额
recv_money = df_yearly['open'].sum() * 1200
recv_money

2948584.7999999993

In [17]:
# 计算到数据截至日期前，2019年持有的股票的总价值
stock_data_2019 = df.groupby(df.index.year).last().iloc[-1]
stock_data_2019

open       1108.50
close      1148.90
high       1150.00
low        1108.18
使用        69314.00
code     600519.00
Name: 2019, dtype: float64

In [19]:
# 计算2019年有几个月的数据
month_count = len(df.loc['2019'].resample('M').sum().index)
month_count

9

In [20]:
# 计算到数据截至日期前，2019年持有的股票的总价值
total_val_2019 = stock_data_2019['close'] * 100 * month_count
total_val_2019

1034010.0000000001

In [21]:
# 计算截至到统计数据最后一天，此人 股票买卖总收益=2010年至2018年卖出股票获得的收益+2019年持有股票的价值-2010至2019购买股票的总花费
total_income = total_val_2019 + recv_money - costs
total_income

528908.6999999997