In [2]:
import requests
import time
import pandas as pd
import numpy as np
import threading
import os
import random
import csv
import json
import math
import re
import statistics
import urllib.request
from datetime import datetime,timedelta
from concurrent.futures import ThreadPoolExecutor,as_completed
from bs4 import BeautifulSoup

In [2]:
def crawl_info(code,page,file_path):
    if page%10 == 0:
        print(f"正在爬取:{code}....已爬取{page}页")
    
    #数据获取
    params = {
    'industryCode': code,
    'pageSize': 50,
    'industry': '*',
    'rating': '*',
    'ratingChange': '*',
    'beginTime': '2022-01-01',
    'endTime': '2022-12-31',
    'pageNo': page,
    'fields': '',
    'qType': 0,
    'orgCode': '',
    'code':'*',
    'rcode': ''
    }
    response = requests.get('https://reportapi.eastmoney.com/report/list?',params=params).json()
    data = response['data']
    pageNum = response['TotalPage']
    
    if pageNum != 0:
        #数据解析
        df = pd.DataFrame(data)
        #筛选列
        columns = ['publishDate','stockName','stockCode','indvInduName','title','orgSName','orgCode','emRatingName','researcher','infoCode']
        df = df[columns]
        df['publishDate'] = pd.to_datetime(df['publishDate'])
        df['infoCode'] = df['infoCode'].apply(lambda x:f'https://data.eastmoney.com/report/info/{x}.html')
        df.to_csv(file_path,mode='a',header=False,index=False,encoding='utf-8-sig')
        #递归爬取下一页
        if(pageNum>1 and page<pageNum):
            crawl_info(code,page+1,file_path)

def crawl_content(index,info,file_path):
    global start
    if index%100 == 0:
        point = time.time()
        print(f'正在爬取第{index}条研报，用时{point - start:.2f}秒')
    url = info['研报网址']
    html = requests.get(url).text
    #解析数据
    soup = BeautifulSoup(html,'html.parser')
    content = soup.find('div',class_ = 'newsContent').text
    pdf_link = soup.find('a',class_ = 'rightlab').get('href')
    #去除特殊符号
    content = content.replace('\n','')
    #保存记录
    record = info.drop('研报网址')
    record['content'] = content
    record['pdf_link'] = pdf_link
    df = pd.DataFrame(record).T
    df.to_csv(file_path,mode='a',header=False,index=False,encoding='utf-8-sig')

def multi_thread(infos,file_path):
    with ThreadPoolExecutor(max_workers=10) as pool:
        futures = [pool.submit(crawl_content,index+1,info,file_path) for index,info in infos.iterrows()]

In [3]:
if __name__ == '__main__':
    folder_path = os.path.join(os.path.dirname(os.getcwd()),'个股\\数据')
    if not os.path.exists(folder_path):
        os.makedirs(folder_path)
    
    #研报基本信息爬取
    industry_data = pd.read_csv("../行业数据/基本数据/行业板块数据.csv",encoding='gbk')
    industry_code = industry_data['板块代码'].apply(lambda x:re.search(r'[1-9]\d*',x).group())
    file_name = '个股研报基本信息.csv'
    file_path = os.path.join(folder_path,file_name)
    info_columns=['发布日期','股票名称','股票代码','所属行业','标题','机构名称','机构代码','东财评级','作者','研报网址']
    with open(file_path, 'w', newline='', encoding='utf-8-sig') as f:
        writer = csv.writer(f)
        writer.writerow(info_columns) 
    start = time.time()
    print('开始爬取个股研报基本信息')
    for code in industry_code:
        crawl_info(code,1,file_path)
    end = time.time()
    print(f'个股研报基本信息爬取成功，用时{end-start:.2f}秒')

FileNotFoundError: [Errno 2] No such file or directory: '../行业数据/基本数据/行业板块数据.csv'

In [7]:
if __name__ == '__main__':
    folder_path = os.path.join(os.path.dirname(os.getcwd()),'数据')
    if not os.path.exists(folder_path):
        os.makedirs(folder_path)
    #研报内容爬取
    file_name = '个股研报摘要.csv'
    file_path = os.path.join(folder_path,file_name)
    content_columns=['发布日期','股票名称','股票代码','所属行业','标题','研报内容','PDF原文链接']
    with open(file_path, 'w', newline='', encoding='utf-8-sig') as f:
        writer = csv.writer(f)
        writer.writerow(content_columns)
    
    stock_info = pd.read_csv("数据/个股研报基本信息.csv",encoding='utf-8-sig')
    stock_info = stock_info[['发布日期','股票名称','股票代码','所属行业','标题','研报网址']]
    start = time.time()
    print('开始爬取个股研报摘要')
    multi_thread(stock_info,file_path)
    end = time.time()
    print(f'个股研报摘要爬取成功，用时{end-start:.2f}秒')

开始爬取个股研报摘要
正在爬取第100条研报，用时11.35秒
正在爬取第200条研报，用时20.63秒
正在爬取第300条研报，用时28.31秒
正在爬取第400条研报，用时36.45秒
正在爬取第500条研报，用时44.07秒
正在爬取第600条研报，用时52.53秒
正在爬取第700条研报，用时60.09秒
正在爬取第800条研报，用时67.52秒
正在爬取第900条研报，用时75.23秒
正在爬取第1000条研报，用时82.49秒
正在爬取第1100条研报，用时90.99秒
正在爬取第1200条研报，用时98.36秒
正在爬取第1300条研报，用时105.53秒
正在爬取第1400条研报，用时113.33秒
正在爬取第1500条研报，用时121.05秒
正在爬取第1600条研报，用时128.56秒
正在爬取第1700条研报，用时136.12秒
正在爬取第1800条研报，用时144.22秒
正在爬取第1900条研报，用时151.61秒
正在爬取第2000条研报，用时159.63秒
正在爬取第2100条研报，用时167.42秒
正在爬取第2200条研报，用时175.44秒
正在爬取第2300条研报，用时182.89秒
正在爬取第2400条研报，用时190.12秒
正在爬取第2500条研报，用时198.09秒
正在爬取第2600条研报，用时205.40秒
正在爬取第2700条研报，用时212.68秒
正在爬取第2800条研报，用时221.00秒
正在爬取第2900条研报，用时228.88秒
正在爬取第3000条研报，用时236.56秒
正在爬取第3100条研报，用时244.30秒
正在爬取第3200条研报，用时251.74秒
正在爬取第3300条研报，用时259.83秒
正在爬取第3400条研报，用时267.12秒
正在爬取第3500条研报，用时274.84秒
正在爬取第3600条研报，用时282.18秒
正在爬取第3700条研报，用时289.14秒
正在爬取第3800条研报，用时296.66秒
正在爬取第3900条研报，用时303.69秒
正在爬取第4000条研报，用时311.14秒
正在爬取第4100条研报，用时318.10秒
正在爬取第4200条研报，用时325.77秒
正在爬取第4300条研报，用时333.27秒
正在爬取第4400条研报，用时340.78

In [8]:
if __name__ == '__main__':
    #pdf下载
    pdf_df = pd.read_csv('数据/个股研报摘要.csv')
    stock_data = pd.read_csv("数据/沪深京A股数据.csv",encoding='utf-8-sig',dtype={'股票代码':str})
    stock_name = stock_data['股票名称']
    stock_code = stock_data['股票代码']
    print('开始下载研报原文')
    start = time.time()
    for index,(name,code) in enumerate(zip(stock_name,stock_code)):
        if (index+1)%100 ==0:
            point = time.time()
            print(f"------------已下载{index+1}支股票，用时{point - start:.2f}秒---------------")
        report_list = pdf_df[pdf_df['股票名称'] == name]['PDF原文链接']
        title_list = pdf_df[pdf_df['股票名称'] == name]['标题']
        if len(report_list)!=0:
            with ThreadPoolExecutor(max_workers=5) as pool:
                for url,title in zip(report_list,title_list):
                    title = title.replace(':','-')
                    folder_path = os.path.join(os.path.dirname(os.getcwd()),f'个股\\数据\\研报原文\\{name}{code}')
                    if not os.path.exists(folder_path):
                        os.makedirs(folder_path)
                    file_path = os.path.join(folder_path,f'{title}.pdf')
                    future = pool.submit(urllib.request.urlretrieve,url,file_path)
            point = time.time()
        print(f'{name}{code}研报下载成功')
        
    end = time.time()
    print(f'个股研报下载成功，用时{end-start:.2f}秒')

ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.


In [23]:
import requests
import re
from tqdm import tqdm 
import csv 
import json
import os
with open('数据/沪深京A股数据.csv', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)
    # 跳过表头行
    next(reader)
    # 将每一行数据转换为列表
    data = [row for row in reader]


In [27]:
code='300614'
code = 'SZ'+code if code[:2] == '00' or code[:2] == '30' else 'SH'+ code
url = f'https://emweb.securities.eastmoney.com/PC_HSF10/ShareholderResearch/PageAjax?code={code}'
response = requests.get(url)


In [28]:
response.text

'{"gdrs":[{"SECUCODE":"300614.SZ","SECURITY_CODE":"300614","END_DATE":"2023-03-31 00:00:00","HOLDER_TOTAL_NUM":11665,"TOTAL_NUM_RATIO":-7.5454,"AVG_FREE_SHARES":7630,"AVG_FREESHARES_RATIO":8.16116588084,"HOLD_FOCUS":"非常集中","PRICE":25.48186338,"AVG_HOLD_AMT":194426.868803655,"HOLD_RATIO_TOTAL":55.33381421,"FREEHOLD_RATIO_TOTAL":26.97953852},{"SECUCODE":"300614.SZ","SECURITY_CODE":"300614","END_DATE":"2023-02-28 00:00:00","HOLDER_TOTAL_NUM":12617,"TOTAL_NUM_RATIO":10.2981,"AVG_FREE_SHARES":7054,"AVG_FREESHARES_RATIO":-9.336609336609,"HOLD_FOCUS":"较集中","PRICE":27.6603128768,"AVG_HOLD_AMT":195124.061599988,"HOLD_RATIO_TOTAL":null,"FREEHOLD_RATIO_TOTAL":null},{"SECUCODE":"300614.SZ","SECURITY_CODE":"300614","END_DATE":"2022-12-31 00:00:00","HOLDER_TOTAL_NUM":11439,"TOTAL_NUM_RATIO":-6.5212,"AVG_FREE_SHARES":7780,"AVG_FREESHARES_RATIO":6.976134277472,"HOLD_FOCUS":"非常集中","PRICE":22.5539473132,"AVG_HOLD_AMT":175486.755194565,"HOLD_RATIO_TOTAL":57.29056329,"FREEHOLD_RATIO_TOTAL":30.63183575},{"

In [29]:
json.loads(response.text)['sdgdcgbd']

[]

In [21]:
json.loads(response.text)['sjkzr']

[{'SECUCODE': '300614.SZ',
  'SECURITY_CODE': '300614',
  'HOLDER_NAME': '陈功海,李娜',
  'HOLD_RATIO': 3.71}]

In [25]:
file_name = '数据/实际控制人.csv'
file_path = os.path.join(file_name)
content_columns=['个股', '代码', '实际控制人','持股比例']
with open(file_path, 'w', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    writer.writerow(content_columns)

for stuck, code in tqdm(data): 
    code = 'SZ'+code if code[:2] == '00' or code[:2] == '30' else 'SH'+ code
    url = f'https://emweb.securities.eastmoney.com/PC_HSF10/ShareholderResearch/PageAjax?code={code}'
    response = requests.get(url)
    try:
        data = json.loads(response.text)['sjkzr'][0]
        name, ratio = data['HOLDER_NAME'], data['HOLD_RATIO']
    except:
        continue
    with open(file_path, 'a', newline='', encoding='utf-8-sig') as f:
        writer = csv.writer(f)
        writer.writerow([stuck, code, name, ratio])


100%|██████████| 5465/5465 [17:51<00:00,  5.10it/s]


In [2]:
a = '''
存在板块关系：由个股指向行业\n存在板块关系：由个股指向地域\n存在板块关系：由个股指向概念\n存在行业如下表所示\n|属性|值|\n|--|--|\n|name|化学制药|\n|code|BK0465|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|济民医疗|\n|code|603222|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|吉贝尔|\n|code|688566|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|东亚药业|\n|code|605177|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|海森药业|\n|code|001367|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|森萱医药|\n|code|830946|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|东诚药业|\n|code|002675|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|普利制药|\n|code|300630|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|海欣股份|\n|code|600851|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|艾力斯|\n|code|688578|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|赤天化|\n|code|600227|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|新 和 成|\n|code|002001|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|江苏吴中|\n|code|600200|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|中 关 村|\n|code|000931|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|圣诺生物|\n|code|688117|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|长江健康|\n|code|002435|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|N赛维|\n|code|301381|\n存在地域如下表所示\n|属性|值|\n|--|--|\n|name|广东板块|\n|code|BK0153|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|海普瑞|\n|code|002399|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|健康元|\n|code|600380|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|丽珠集团|\n|code|000513|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|润都股份|\n|code|002923|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|易瑞生物|\n|code|300942|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|信立泰|\n|code|002294|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|一品红|\n|code|300723|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|赛隆药业|\n|code|002898|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|溢多利|\n|code|300381|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|微芯生物|\n|code|688321|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|翰宇药业|\n|code|300199|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|N国科恒|\n|code|301370|\n存在地域如下表所示\n|属性|值|\n|--|--|\n|name|北京板块|\n|code|BK0150|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|星昊医药|\n|code|430017|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|华润双鹤|\n|code|600062|\n存在个股如下表所示\n|属性|值|\n|--|--|\n|name|奥赛康|\n|code|002755|\n
'''

In [1]:
import openai
import os
os.environ["OPENAI_API_KEY"] = "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"
os.environ["http_proxy"] = "127.0.0.1:11080"
os.environ["https_proxy"] = "127.0.0.1:11080"
openai.api_key = os.getenv('OPENAI_API_KEY')

In [3]:
def get_completion(prompt, model="gpt-3.5-turbo"):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=0.1,
    )
    return response.choices[0].message["content"]

In [4]:
get_completion(a + '请回答化学制药这个行业板块的成分股有哪些')

'化学制药行业板块的成分股有：\n1. 济民医疗 (603222)\n2. 吉贝尔 (688566)\n3. 东亚药业 (605177)\n4. 海森药业 (001367)\n5. 森萱医药 (830946)\n6. 东诚药业 (002675)\n7. 普利制药 (300630)\n8. 海欣股份 (600851)\n9. 艾力斯 (688578)\n10. 赤天化 (600227)\n11. 新和成 (002001)\n12. 圣诺生物 (688117)\n13. 长江健康 (002435)\n14. N赛维 (301381)'