In [None]:
#%%

### ch3. 金融数据处理
################################################
# 3.1 概述
# 3.2 使用yfinance获取金融数据(yfinance包, 国外)
# 3.3 使用tushare获取金融数据(tushare包, 国内)
# 3.4 使用wb获取经济数据(pandas_datareader包, 国外)
# 3.5 量化平台API接口（jqdatasdk包, 付费）

In [None]:
#%%

# 导入需要的包
# pip install pandas_datareader yfinance tushare jqdatasdk  #安装金融数据源相关的包

import datetime, math #导入时间和数学包（python默认已经安装）
import pandas as pd

import yfinance as yf  # 雅虎财经 金融数据, 国外
import tushare as ts   # TUSHARE数据 金融数据, 国内
import pandas_datareader.wb as wb  # 可用于获取世界银行的经济数据, 国外
import jqdatasdk as jq # 聚宽量化平台 量化平台, 付费

In [None]:
#%% 

### 3.1 概述
###############
'''
获取的数据一般为pandas数据框来处理, 通过df.to_csv()可将数据存入CSV文件中, 供 pd.read_csv() 调用
国外接口需要科学上网。

金融数据在线获取目前较好的方式如下：
1. 通过 yfinance 包 获取股票数据
    Yahoo Finance - Stock Market Live, Quotes, Business.
    官网 https://finance.yahoo.com/
        https://pypi.org/project/yfinance/
2.  通过 Tushare 接口获取(国内接口, 需要注册获取key)
    可获取沪深股市、指数、期货期权、美股、港股等数据
    官网 https://tushare.pro/ (老网站 http://tushare.org/)
        https://tushare.pro/document/2
3.  通过 pandas_datareader 包 获取经济、金融数据
    官网 https://pandas-datareader.readthedocs.io
    Functions from pandas_datareader.data and pandas_datareader.wb extract data from various Internet sources into a pandas DataFrame. 
    股票数据源(API)有: stooq(美国股市),  Naver Finance(韩国股市), 
                    Yahoo Finance(暂不可用,可使用yfinance包替代), 
                    IEX(需要申请API Key), Alpha Vantage(需要申请API Key)
                    quandl(需要申请API Key, 也可以直接使用quandl包https://www.quandl.com/), 
    经济数据源(API)有: World Bank, FRED(Federal Reserve Economic Data), St.Louis FED, Eurostat, OECD, ECB, EIA, etc.
4. 通过量化数据平台, 如聚宽量化 jqdatasdk包 ,可获取除一般的金融数据外的其他经过处理的数据, 如各种因子数据
5. 通过手工方式收集, 录入Excel并整理, 然后另存为csv文件格式, 在使用pandas的pd.read_csv()函数读取为数据框。

'''
print("准备好了")

准备好了


In [None]:
#%%

### 3.2 使用yfinance获取金融数据(yfinance包, 国外)
#################################################

import yfinance as yf
# 如果报no timezone found错误，可能需要将urllib3包设置为1.25.11版本。因为最新的urllib3包在有代理的情况下不好用。
# pip install urllib3==1.25.11

data = yf.download("BABA", period="10d")   #下载最近10天的数据
# data = yf.download("BABA", period="max") #下载阿里巴巴的全部数据
# data = yf.download("AAPL", start="2024-11-11", end="2025-11-11") #下载苹果的指定日期数据
data.columns = ['Close','High','Low','Open','Volume']  #修改列名，YF默认得到的是一个复杂格式的列名，这里统一改为Close,High,Low,Open,Volume，索引是Date(日期)
print(data.tail())
print(data.describe())
outputfile = './data/stockdata_BABA_10d.csv'
data.to_csv(outputfile)
# 选择需要的列保存, 如果不保存日期，可指定index=False, 不需要指定 header=False
# data.to_csv(outputfile, header=False) # 如果前面没有修改列名，可以去掉列头保存下载的数据，读取的时候再强制添加列名即可。
# 对应的列分别为 ['Date','Close','High','Low','Open','Volume']

  data = yf.download("BABA", period="10d")   #下载最近10天的数据
[*********************100%***********************]  1 of 1 completed

                 Close        High         Low        Open    Volume
Date                                                                
2025-11-21  152.929993  155.880005  148.639999  151.979996  16240800
2025-11-24  160.729996  161.500000  158.699997  160.000000  21796600
2025-11-25  157.009995  166.369995  156.149994  165.199997  27097500
2025-11-26  157.600006  161.460007  150.000000  159.095001  21453100
2025-11-28  157.300003  158.690002  155.679993  156.160004   7185500
            Close        High         Low        Open        Volume
count   10.000000   10.000000   10.000000   10.000000  1.000000e+01
mean   156.897000  161.118500  154.559097  158.298999  1.785316e+07
std      2.715692    2.657586    3.481643    3.335445  8.421610e+06
min    152.929993  155.880005  148.639999  151.979996  7.185500e+06
25%    154.602501  160.983749  152.084999  157.032501  1.269590e+07
50%    157.450005  161.334999  155.914993  158.489998  1.657610e+07
75%    158.595001  161.490002  156.849995




In [None]:
#%%

# 下载中国股市数据

# 股票代码的写法: 'GOOG','IBM','FB','AAPL','BABA','BIDU','600030.ss','300481.sz'
# 港股输入代码+对应股市，如腾讯:0700.hk
# 韩股: 三星:005930.KS
# 上证综指 000001.ss, 深证成指 399001.sz, 沪深300指数代码 000300.ss
data_000300ss = yf.download("000300.ss", period="3d")
print(data_000300ss.head(3))

  data_000300ss = yf.download("000300.ss", period="3d")
[*********************100%***********************]  1 of 1 completed

Price             Close         High          Low         Open    Volume
Ticker        000300.SS    000300.SS    000300.SS    000300.SS 000300.SS
Date                                                                    
2025-11-26  4517.629883  4538.140137  4485.700195  4490.200195    156200
2025-11-27  4515.399902  4559.220215  4509.859863  4520.009766    150300
2025-11-28  4526.660156  4531.720215  4492.430176  4511.500000    142900





In [None]:
#%%

# # 下载美股阿里巴巴股票的全部历史数据（已备后用）
data = yf.download("BABA", period="max")
data.columns = ['Close','High','Low','Open','Volume']
outputfile = './data/stockdata_BABA.csv'
data.to_csv(outputfile)

# outputfile 为字符串变量，指定了输出的文件名和路径, ./data 表示在当前目录下的data子目录
# tocsv 函数常见的参数包括：columns, index, header, sep, na_rep, encoding等 
# 如果不保存日期，可指定index=False, 如果不想保存表头可指定 header=False
# 可通过columns指定保存的列
# data.to_csv(outputfile, columns=['Close','High','Low','Open'], index=False, header=False)

  data = yf.download("BABA", period="max")
[*********************100%***********************]  1 of 1 completed


In [None]:
#%%

# 获取股票数据（读取已保存的CSV文件）
import pandas as pd

# 假设我们有一个包含日期和股票价格的CSV文件，我们可以使用Pandas库来读取和处理数据。
df = pd.read_csv("./data/stockdata_BABA.csv", encoding = "gbk") #从csv读取数据

# 设置列名（如果使用header=False保存的数据需要手动设置列名，如果使用header=True保存的数据则不需要） 
# df.columns = ['Date','Close','High','Low','Open','Volume']

# 将日期列转换为日期时间类型，并设置为索引(如果不处理成日期型，后续使用mpl绘图时会报错)
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)

print(df.head())
print(df.tail())

                Close       High        Low       Open     Volume
Date                                                             
2014-09-19  89.166862  94.684588  85.425062  88.036723  271879400
2014-09-22  85.368088  88.274152  84.997707  88.036729   66657800
2014-09-23  82.784912  85.928408  82.262584  84.465876   39009800
2014-09-24  86.013870  86.013870  82.832394  84.019512   32088000
2014-09-25  84.446884  86.897099  84.048014  86.507721   28598000
                 Close        High         Low        Open    Volume
Date                                                                
2025-11-21  152.929993  155.880005  148.639999  151.979996  16240800
2025-11-24  160.729996  161.500000  158.699997  160.000000  21796600
2025-11-25  157.009995  166.369995  156.149994  165.199997  27097500
2025-11-26  157.600006  161.460007  150.000000  159.095001  21453100
2025-11-28  157.300003  158.690002  155.679993  156.160004   7185500


In [None]:
#%%

### 3.3 使用tushare获取金融数据(tushare包, 国内)
#################################################
# https://tushare.pro/document/2

"""
重要的事情说三遍: 注意注意注意
一定要注意tushare获取的数据与yfinance获取数据的差异, 
一定要掌握具体的处理方法。
主要差异有如下几点：
1. 数据列的名称不同, 可通过列选择的方式将数据强行整理成我们约定(熟悉)的顺序和名称
    ['Date','Close','High','Low','Open','Volume']
2. 写入csv的参数不同
    因为 yfinance 获取数据的列索引时一个复合索引, 为了处理方to_csv() 时就需要强行指定列名或设置header=False。
    但tushare 的列索引时正常的, 不需要添加header=False, 否则会导致读取的时候少掉第一行数据, 但tushare数据已经建立了1,2,3...的序号索引, 保存时需要自定义索引再保存或者去掉索引保存, 不然会多出一列。
    index=False
3. 日期的格式不同
    雅虎财经的日期数据时标准的年/月/日数据, python中转为datetime类型时直接使用to_datetime()即可
    而tushare的日期数据时年月日组成的字符串, to_datetime()函数需要添加format参数
    df['Date'] = pd.to_datetime(df['Date'], format="%Y%m%d")
5. 数据的顺序不同
    雅虎财经时从旧到新, tushare时从新到旧, 可使用iloc[::-1]将其反转过来。
    data = data.iloc[::-1]
"""

import tushare as ts # 导入tushare
# 新版本tushare接口使用(最简示例)

## 初始化pro接口
pro = ts.pro_api('aac3815814723db39100bf3cecbb0b2b73144da433d708d77d1f4c5e')
# 免费token资源有限
# 请同学们个人去tushare官网免费申请自用的token并替换

In [None]:
#%%

## 获取指定股票指定日期的日线数据（默认最近30天）
# 注意股指代码可能需要额外权限

stock_code = "000630.SZ"
start_date = "20241111"
end_date = "20251111"

stock_data = pro.daily(ts_code=stock_code, start_date=start_date, end_date=end_date).rename(columns={'trade_date':'Date'})
stock_data['Date'] = pd.to_datetime(stock_data['Date'], format='%Y%m%d') # 转换成标准的日期数据格式2025-01-01并设置成索引
stock_data.set_index('Date', inplace=True)
stock_data = stock_data[['close','high','low','open','vol']] # 抽取常见的5列数据
stock_data.columns = ['Close','High','Low','Open','Volume']  #修改列名，方便后续分析（与yf的统一）
stock_data = stock_data.iloc[::-1]  # tushare数据是从新到旧的，需要颠倒过来

print(stock_data.head())
print(stock_data.tail())
print(stock_data.describe())

stock_data.to_csv('./data/stockdata_000630SZ_20241111-20251111.csv') 

            Close  High   Low  Open      Volume
Date                                           
2024-11-11   3.55  3.58  3.50  3.56  2972160.11
2024-11-12   3.47  3.58  3.44  3.53  3257029.77
2024-11-13   3.47  3.51  3.42  3.43  1942463.07
2024-11-14   3.36  3.46  3.36  3.44  2401585.70
2024-11-15   3.35  3.41  3.35  3.37  1876270.01
            Close  High   Low  Open      Volume
Date                                           
2025-11-05   5.11  5.15  4.93  4.96  2422107.35
2025-11-06   5.28  5.28  5.13  5.15  2850453.66
2025-11-07   5.21  5.27  5.17  5.23  1922163.84
2025-11-10   5.25  5.33  5.21  5.28  2306024.73
2025-11-11   5.17  5.37  5.15  5.32  2275572.92
            Close        High         Low        Open        Volume
count  244.000000  244.000000  244.000000  244.000000  2.440000e+02
mean     3.705943    3.759918    3.650574    3.701885  2.451881e+06
std      0.719128    0.752595    0.683147    0.716260  1.526790e+06
min      2.950000    2.970000    2.810000    2.900000  5

In [None]:
#%%

import pandas as pd

df_000630SZ = pd.read_csv("./data/stockdata_000630SZ_20241111-20251111.csv", encoding = "gbk") #从csv读取数据

# 设置列名(如果保存的时候有列名这里可省略)
# df_000630SZ.columns = ['Date','Close','High','Low','Open','Volume']

# 将日期列转换为日期时间类型，并设置为索引
df_000630SZ['Date'] = pd.to_datetime(df_000630SZ['Date'])
# df_000630SZ['Date'] = pd.to_datetime(df_000630SZ['Date'], format="%Y%m%d") # 如果保存的时候未处理这里就要加上格式
df_000630SZ.set_index('Date', inplace=True)

# 显示数据前后5行
print(df_000630SZ.head())
print(df_000630SZ.tail())

            Close  High   Low  Open      Volume
Date                                           
2024-11-11   3.55  3.58  3.50  3.56  2972160.11
2024-11-12   3.47  3.58  3.44  3.53  3257029.77
2024-11-13   3.47  3.51  3.42  3.43  1942463.07
2024-11-14   3.36  3.46  3.36  3.44  2401585.70
2024-11-15   3.35  3.41  3.35  3.37  1876270.01
            Close  High   Low  Open      Volume
Date                                           
2025-11-05   5.11  5.15  4.93  4.96  2422107.35
2025-11-06   5.28  5.28  5.13  5.15  2850453.66
2025-11-07   5.21  5.27  5.17  5.23  1922163.84
2025-11-10   5.25  5.33  5.21  5.28  2306024.73
2025-11-11   5.17  5.37  5.15  5.32  2275572.92


In [None]:
#%%

# 日线数据完全版（示例）
# 拉取日线数据(PRO版), 可以设置完整参数，也可以只设置ts_code和日期区间。
df = pro.daily(**{
    "ts_code": '600030.SH',
    "trade_date": "",
    "start_date": "20250101",
    "end_date": "20251130",
    "offset": "",
    "limit": ""
}, fields=[
    "ts_code",
    "trade_date",
    "open",
    "high",
    "low",
    "close",
    "pre_close",
    "change",
    "pct_chg",
    "vol",
    "amount"
])
print(df)
df.to_csv('./data/stockdata_600030SH_2025_ts.csv') # 直接保存
#df.to_csv('./data/stockdata-tushare-600030.SH-2024.csv',columns=['open','high','low','close','vol']) #选择保存

       ts_code trade_date   open   high    low  close  pre_close  change  \
0    600030.SH   20251128  27.61  27.64  27.41  27.59      27.58    0.01   
1    600030.SH   20251127  27.53  27.81  27.52  27.58      27.60   -0.02   
2    600030.SH   20251126  27.52  27.72  27.44  27.60      27.47    0.13   
3    600030.SH   20251125  27.47  27.65  27.40  27.47      27.39    0.08   
4    600030.SH   20251124  27.40  27.50  27.26  27.39      27.30    0.09   
..         ...        ...    ...    ...    ...    ...        ...     ...   
215  600030.SH   20250108  27.12  27.28  26.50  26.98      27.16   -0.18   
216  600030.SH   20250107  27.10  27.32  26.81  27.16      27.06    0.10   
217  600030.SH   20250106  26.80  27.11  26.52  27.06      26.97    0.09   
218  600030.SH   20250103  27.34  27.57  26.84  26.97      27.45   -0.48   
219  600030.SH   20250102  28.98  29.00  27.17  27.45      29.17   -1.72   

     pct_chg         vol       amount  
0     0.0363   746598.23  2055903.546  
1    -0

In [None]:
#%%

# 拉取公司基本信息数据
df = pro.stock_company(**{
    "ts_code": "600030.SH",
    "exchange": "",
    "status": "",
    "limit": "",
    "offset": ""
}, fields=[
    "ts_code",
    "exchange",
    "chairman",
    "manager",
    "secretary",
    "reg_capital",
    "setup_date",
    "province",
    "city",
    "website",
    "email",
    "employees",
    "introduction",
    "office",
    "ann_date",
    "business_scope",
    "main_business"
])
print(df)

     ts_code exchange chairman manager secretary   reg_capital setup_date  \
0  600030.SH      SSE      张佑君     邹迎光       王俊锋  1.482055e+06   19951025   

  province city         website          email  employees  \
0       广东  深圳市  www.citics.com  ir@citics.com      26083   

                                        introduction  \
0  公司是国内规模最大的证券公司。主营业务范围为：证券经纪；证券投资咨询；与证券交易、证券投资活...   

                                      office  ann_date  \
0  广东省深圳市福田区中心三路8号中信证券大厦,北京市朝阳区亮马桥路48号中信证券大厦  20250829   

                                      business_scope  \
0  证券经纪(限山东省,河南省,浙江省天台县,浙江省苍南县以外区域);证券投资咨询;与证券交易,...   

                                       main_business  
0  1,投资银行:股权融资业务,债券及结构化融资业务,财务顾问业务.2,经纪业务.3,交易4,资...  



In [None]:
#%%

### 3.4 使用wb获取经济数据(pandas_datareader包, 国外)
####################################################

# 世界银行经济数据
# pandas users can easily access thousands of panel data series from the World Bank’s World Development Indicators by using the wb I/O functions.

import pandas_datareader.wb as wb  #可用于获取世界银行数据
import pandas as pd

In [None]:
#%%

#获取四国GDP数据并分析
dat = wb.download(indicator='NY.GDP.PCAP.KD', country=['US', 'CA', 'MX', 'CN'], start=1900, end=2025)
print(dat['NY.GDP.PCAP.KD'].groupby(level=0).mean())
outputfile = './data/WDdata_4g_2025.csv'
dat.to_csv(outputfile) #保存下载的数据

print('四国GDP数据分析')
data5b = pd.read_csv("./data/WDdata_4g_2025.csv",encoding = "gbk")
print(data5b)
data5b=data5b.groupby('country')
print(data5b['NY.GDP.PCAP.KD'].mean())

country
Canada           32352.257978
China             3094.626606
Mexico            8072.963832
United States    40929.983640
Name: NY.GDP.PCAP.KD, dtype: float64
四国GDP数据分析
           country  year  NY.GDP.PCAP.KD
0           Canada  2024    44401.715391
1           Canada  2023    45048.284241
2           Canada  2022    45677.686579
3           Canada  2021    44639.193269
4           Canada  2020    42366.128538
..             ...   ...             ...
255  United States  1964    21326.926688
256  United States  1963    20446.929732
257  United States  1962    19877.215293
258  United States  1961    19019.465246
259  United States  1960    18853.721751

[260 rows x 3 columns]
country
Canada           32352.257978
China             3094.626606
Mexico            8072.963832
United States    40929.983640
Name: NY.GDP.PCAP.KD, dtype: float64


  dat = wb.download(indicator='NY.GDP.PCAP.KD', country=['US', 'CA', 'MX', 'CN'], start=1900, end=2025)


In [None]:
#%%

#获取2024年各国GDP，投资和汇率数据
#ind = ['NY.GDP.PCAP.KD', 'IT.MOB.COV.ZS']#手机数无法获取
ind = ["NY.GDP.MKTP.CN","NE.GDI.FTOT.CN","PX.REX.REER"]  #从世界银行WDI数据库下载GDP、投资、实际有效汇率数据
dat = wb.download(indicator=ind, country='all', start=2024, end=2024).dropna()
dat.columns = ['gdp', 'tz','hl']
print(dat.tail())
outputfile = './data/WDdata_GDP_TZ_HL_2024.csv'
dat.to_csv(outputfile) #保存下载的数据, 这个数据会用于后续的线性回归分析

                              gdp            tz          hl
country        year                                        
Uganda         2024  2.027252e+14  4.368639e+13  110.145213
Ukraine        2024  7.658659e+12  1.445971e+12   87.227898
United Kingdom 2024  2.850989e+12  4.961460e+11  108.336739
United States  2024  2.918489e+13  6.293963e+12  130.565443
Uruguay        2024  3.255688e+12  5.286570e+11  128.751119


  dat = wb.download(indicator=ind, country='all', start=2024, end=2024).dropna()


In [None]:
#%%

### 3.5 量化平台API接口（jqdatasdk包, 付费）
#############################################

# 现在有很多现成的量化交易平台，不但有大量已经整理好的数据， 并且可以在平台上直接编写策略并进行回测。
# Quantopian 的开源回测工具zipline可以说在业内是无人不知，无人不晓，但zipline 在本地的配置有点麻烦，而Quantopian平台上面的中国股市数据包还需 要单独付费。
# 国内的量化平台也有几个比较有名的，如聚宽（JoinQuant）、米筐 （RiceQuan）、BigQuant等。

#JoinQuant聚宽量化投研平台 [https://www.joinquant.com/]
# pip install jqdatasdk
import jqdatasdk as jq
# jq.auth('账号','密码') #账号是申请时所填写的手机号；密码为聚宽官网登录密码
# jq.get_price(security, start_date=None, end_date=None, frequency='daily', fields=['open','close','low','high','volume','money','factor',
#         'high_limit','low_limit','avg','pre_close','paused'], skip_paused=False, fq='pre', count=None,round=True)
# jq.get_ticks(security, start_dt, end_dt, count, fields, skip=True,df=True)

print('免费使用日期用完了, 没法玩了：）')

免费使用日期用完了, 没法玩了：）


In [None]:
#%%

#############END################"