# DSAA 5002 - Data Mining and Knowledge Discovery in Data Science

# Task 1 (50 marks) Data Preprocessing and Analysis

**Background: 
Assuming you are a sentiment analyst at a securities firm, your task is to assess the impact of each news article on the A-share listed companies explicitly mentioned. For instance, on October 14, 2022, the China Securities Journal(中国证券报) reported the following:**

## Q2. Data Analysis - Text Knowledge Mining
### 1. News Characteristic Observation Experiment

In [None]:
import pandas as pd

# 读取原始Excel文件
input_file = 'D:\\ProjectHub\\Jupyter Notebook\\DSAA 5002 DM\\DM-Project\\News_output\\News_training_domain_set_withCompany.xlsx'
df_training_domain_company = pd.read_excel(input_file)

# 创建两个新的DataFrame，一个保存无逗号的行，一个保存有逗号的行
df_SingleCompany = df_training_domain_company[df_training_domain_company['Explicit_Company'].str.find(',') == -1]
df_MultiCompany = df_training_domain_company[df_training_domain_company['Explicit_Company'].str.find(',') != -1]

# 保存这两个新的DataFrame到不同的Excel文件
output_file_SingleCompany = 'D:\\ProjectHub\\Jupyter Notebook\\DSAA 5002 DM\\DM-Project\\News_output\\News_training_domain_set_withSingleCompany.xlsx'
output_file_MultiCompany = 'D:\\ProjectHub\\Jupyter Notebook\\DSAA 5002 DM\\DM-Project\\News_output\\News_training_domain_set_withMultiCompany.xlsx'

df_SingleCompany.to_excel(output_file_SingleCompany, index=False)
df_MultiCompany.to_excel(output_file_MultiCompany, index=False)

#统计单一公司主体的新闻数量
news_num_in_training_domain_with_SingleCompany = df_SingleCompany.shape[0]
#统计多公司主体的新闻数量
news_num_in_training_domain_with_MultiCompany = df_MultiCompany.shape[0]

In [None]:
print(news_num_in_training_domain_with_SingleCompany)
print(news_num_in_training_domain_with_MultiCompany)
print(news_num_in_training_domain_with_SingleCompany/news_num_in_training_domain_with_MultiCompany)

### 2. Training Sample Selection

In [None]:
#按照单公司新闻和多公司新闻的比例进行数据集采样
# 确定训练集的总样本数量
total_samples = 100000  # 你可以根据需要修改这个数量

# 计算两个DataFrame的行数比例
num_samples_SingleCompany = int(total_samples * len(df_SingleCompany) / len(df_training_domain_company))
num_samples_MultiCompany = total_samples - num_samples_SingleCompany

print(num_samples_SingleCompany)
print(num_samples_MultiCompany)

In [None]:
# 从每个DataFrame中抽取相应数量的样本
sample_df_SingleCompany = df_SingleCompany.sample(n=num_samples_SingleCompany, random_state=42)
sample_df_MultiCompany = df_MultiCompany.sample(n=num_samples_MultiCompany, random_state=42)

# 合并抽样后的DataFrame成一个训练集
training_set = pd.concat([sample_df_SingleCompany, sample_df_MultiCompany])
# 重新打乱训练集的顺序
training_set = training_set.sample(frac=1, random_state=42).reset_index(drop=True)


In [None]:
#训练数据重组：去掉数据来源
# 删除NewsSource列
training_set.drop(columns=['NewsSource'], inplace=True)

# 拼接Title和NewsContent列内容成一列
training_set['News'] = training_set['Title'] + ' ' + training_set['NewsContent']

# 删除Title和NewsContent列
training_set.drop(columns=['Title', 'NewsContent'], inplace=True)

# 可以将training_set保存到文件
output_training_file = 'D:\\ProjectHub\\Jupyter Notebook\\DSAA 5002 DM\\DM-Project\\Trainset\\Training_set_comprihensive.xlsx'
training_set.to_excel(output_training_file, index=False)

In [None]:
training_set

### 3. Training Sample Annotation

In [3]:
import pandas as pd

training_file = 'D:\\ProjectHub\\Jupyter Notebook\\DSAA 5002 DM\\DM-Project\\Trainset\\Training_set_comprihensive.xlsx'
training_set = pd.read_excel(training_file)

In [4]:
training_set

Unnamed: 0,NewsID,Explicit_Company,News
0,908514,"天健集团, 西南证券",西南证券给予天健集团买入评级 各业务板块稳步发展 营收逆势提升 西南证券08月23日发布研报...
1,813403,"汇纳科技, 亚太药业, 国睿科技, 楚江新材, 宸展光电, 华阳集团, 金禾实业, 利亚德,...",公司互动丨这些公司披露在3D打印、医药等领域最新情况 7月17日，多家上市公司通过互动平台、...
2,706089,粤水电,粤水电：子公司为邵阳市洞口县分散式风电项目排名第二的中标候选人单位 粤水电（SZ 00206...
3,774347,"美年健康, 明德生物",明德生物：公司暂无设立体检机构计划 每经AI快讯，有投资者在投资者互动平台提问：董秘，您好，...
4,317166,"荃银高科, 福瑞股份, 广弘控股",市场结构分化 中小盘股继续活跃 周四，A股各大指数普遍高开之后，走出明显的分化形势...
...,...,...,...
99995,775099,金沃股份,金沃股份：第二季度“金沃转债”转股290股 金沃股份（SZ 300984，收盘价：25.92...
99996,119329,京东方,简报数据显示本制糖期我国食糖产量同比增长24% 中国糖业协会昨天发布的简报显示，2007...
99997,947425,"中迪投资, 新大正, 云煤能源, 广汇物流, 世联行, 三湘印象, 四川路桥, 我乐家居, ...",午间涨跌停股分析：41只涨停股，1只跌停股，我乐家居6连板，中迪投资7天5板 9月4日午间，...
99998,678753,西南证券,西南证券给予王府井持有评级 有税业态稳步复苏 免税增量逐步落地 西南证券04月29日发布研报...


In [27]:
# 计算每个部分的大小
chunk_size = 5000

# 将训练集拆分成多个部分
split_training_sets = []
for i in range(0, len(training_set), chunk_size):
    chunk = training_set[i:i + chunk_size]
    split_training_sets.append(chunk)

# split_training_sets 现在包含了拆分后的每份数据

# 可以遍历 split_training_sets 来处理每个部分，或将它们保存到不同的文件中
for i, chunk in enumerate(split_training_sets):
    chunk.to_excel(f'D:\\ProjectHub\\Jupyter Notebook\\DSAA 5002 DM\\DM-Project\\Trainset\\Training_set_part_{i + 1}.xlsx', index=False)

In [8]:
# 计算每个部分的大小
chunk_size = 5000

# 将训练集拆分成多个部分
split_training_sets = []

for i in range(0, int(len(training_set)/chunk_size)):
    chunk = pd.read_excel(f'D:\\ProjectHub\\Jupyter Notebook\\DSAA 5002 DM\\DM-Project\\Trainset\\Training_set_part_{i + 1}.xlsx')
    split_training_sets.append(chunk)

In [14]:
split_training_sets[2]

Unnamed: 0,NewsID,Explicit_Company,News
0,590064,中国交建,中国交建拟建滨海旅游度假区 2月8日，世界500强企业之一的中国交通建设股份有限公司(下称“...
1,77708,"兴业证券, 东方证券, 西南证券",发行价买中石油？8成研究员说“NO” 在6个交易日内，两市第一大权重股中石油连破6个整数关口...
2,1012440,中国电信,上海首批20处工业遗产公布，上海船厂、上海造币厂、“远望1号”均入选 上海的工业遗产，凝结了...
3,171910,"海通证券, 中国铁建, 雅戈尔, 大秦铁路, 中信证券, 交通银行, 大智慧","雅戈尔炒股炒成高增长 机构也买账 今日，雅戈尔（600177,收盘价9.51元）公布2008..."
4,327431,中国医药,利润增幅下降医药业或再遇发展低点 证券时报记者 尹振茂 2011年医药行业或将重现过...
...,...,...,...
4995,604355,中天科技,中天科技：2022年年报的首次预约披露日期为2023年3月17日 每经AI快讯，有投资者在投...
4996,501701,"中国银行, 中信证券",福建省首单民营房企“第二支箭”落地 12月5日，福建省内金辉集团在银行间市场成功发行12亿元...
4997,559479,宝明科技,宝明科技：拟62亿元马鞍山市投建复合铜箔生产基地 宝明科技1月16日晚间公告，为实现在新能源...
4998,624747,长源电力,长源电力：公司主营电力热力生产 电源种类主要为火电、水电、风电、光伏和生物质发电 每经AI快...


In [16]:
import requests
import json
import re
from queue import Queue
KEY_list = [["twnNehaDitFkkhyFteaYWyDh", "1GrVi74Q9c4Py6oMRB0stjSHszrOuZbu"],
            ["BZ71tU3PgRXW2nNLanvroSXb", "ON1mnkbky9cRA3Rwipismfq5gVlY7IzP"],   
            ["h59D6sXFYrnbRn9SSN4lr5EI","4AIR7HSWDho8ALYnGgPWLW4B6Lkz84yx"],
            ["Q7s4yWzKpo75iXxTq4cmIA3v", "GARxTGLONmhFPL94YRuUdBAIGzLTex1w"]]#4

# 设定Key池队列
def set_key(keylist: list) -> None:
    qKey.queue.clear()
    for key in keylist:
        qKey.put(key)
 
 
# 删除当前Key
def drop_key(key):
    for _ in range(qKey.qsize()):
        t = qKey.get()
        if t != key:
            qKey.put(t)

In [17]:
qKey=Queue()

In [18]:
import time as t
def LLM_Label_result(news):
    if qKey.empty():
        #print("key队列长度为空，重置队列")
        set_key(KEY_list)
    tkey = qKey.get() # 拿出一个Key
    
    url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/eb-instant?access_token=" + get_access_token(tkey)
    
    prompt_qeustion = "后面这条新闻对新闻中的公司来说是正面新闻还是负面新闻，正面请只回复“正面新闻”，负面请只回复“负面新闻”，不用说理由："
    prompt_target = news
    prompt = prompt_qeustion + prompt_target
    payload = json.dumps({
        "messages": [
            {
                "role": "user",
                "content": prompt     
            }
        ]
    })
    headers = {
        'Content-Type': 'application/json'
    }
    
    requests.adapters.DEFAULT_RETRIES = 10
    
    while True:
        try:
            response = requests.request("POST", url, headers=headers, data=payload)
            break
        except:
            print("Connection refused by the server..")
            print("Let me sleep for 5 seconds")
            print("ZZzzzz...")
            t.sleep(10)
            print("Was a nice sleep, now let me continue...")
            continue

    qKey.put(tkey)# 将该key放回队尾
    if "正面新闻" in response.text:
        return 1
    elif "负面新闻" in response.text:
        return 0
    else:
        return response.text
    

def get_access_token(key):
    """
    使用 AK，SK 生成鉴权签名（Access Token）
    :return: access_token，或是None(如果错误)
    """
    url = "https://aip.baidubce.com/oauth/2.0/token"
    params = {"grant_type": "client_credentials", "client_id": key[0], "client_secret": key[1]}
    return str(requests.post(url, params=params).json().get("access_token"))

print(LLM_Label_result("　　在新基金快速发行以及申购资金回流的情况下，市场总体上呈现资金流动性过剩格局，考虑到现阶段权重股股价高位运行的风险，目前主力资金主要针对价值低估的二线展开了挖掘，使得近期上演二线蓝筹轮番上涨行情，建议投资者对该品种重点关注，如（600270）外运发展，该股拥有显著的盈利能力，除权后缺口对股价具有较强的牵引作用，目前涨幅滞后，后市可重点关注。    　　外运龙头国际市场高占有率  　　公司核心业务包括航空货运代理、国际快件及综合物流，在全国拥有35家分公司，80个市级物流中心及近200个物流网点，运营网络辐射全国，同时，在国际上与50多家海外货运代理公司有着通力合作，目前在国际航空快件领域和国际航空货运代理领域分别拥有约40%和10%的市场占有率，公司力争发展成为既有航空运力保障，又有地面网络通道的国内一流的快速物流供应商。该公司主要利润来源是与DHL(德国敦豪)合资的中外运敦豪(双方各持50%)，中外运敦豪的资产规模为13亿元，06年上半年实现净利润32217万元(05年实现净利润42634万元、04年净利润39514万元)，中外运敦豪是DHL全球服务网络的重要组成部分，在中国主要城市设立了56家分公司(其中04年新增6家分公司)。根据DHL的规划，未来3年合资公司的利润复合增长率有望达到14%以上，有能力保证未来业绩增长。  　　货运航空将成新的利润增长点  　　公司参与四川航空集团公司整体改制重组，公司将占新设的四川航空集团有限责任公司注册资本的49%。参股新公司后，可为公司的航空货运代理业务以及航空快递业务提供运力支持，从而大大提高公司的竞争优势，此外06年9月，公司与大韩航空、韩亚投资和新韩投资在京签署了合资组建货运航空公司的正式协议，新组建公司注册资本为6500万美元，外运发展占股权的51%。合资公司将以全货机运营，主要经营国际定期与非定期航空货物运输服务，同时兼营自用飞行器租赁和维修服务、包机业务、航空公司间代理服务、进出口贸易服务及相关地面服务等，货运航空业务有望成为公司未来的业绩增长点。  　　资产增值概念后市强势上行  　　二级市场上，该股三季度业绩平稳增长每股受益高达0.42元，属于典型的高收益高分红的价值型蓝筹股，该股同时还具有资产增值概念，其购买的中国国航目前为公司带来亿元以上的帐面收益，技术上该股除权后留下巨大缺口对股价有一定的牵引作用，作为业绩优秀的二线蓝筹，后市有强烈补涨要求。"))

1


In [37]:
import pandas as pd

# 假设您有一个包含新闻数据的 DataFrame，其中包含一列名为 "news_content" 存储新闻内容
# 创建一个新列 "sentiment" 来存储情感标签
result_df = split_training_sets[3]
default_value = -1  # 或者您可以设置为其他默认值
result_df['Sentiment'] = default_value
sentiment_df = result_df

In [38]:
#将十万行的训练样本切分成一百个一千行的dataframe

In [39]:
import concurrent.futures
import pandas as pd

# 假设您有一个包含新闻数据的 DataFrame，其中包含一列名为 "Title" 存储新闻标题，一列名为 "NewsContent" 存储新闻内容
# 创建一个新列 "sentiment" 来存储情感标签


# 使用多线程处理数据
def process_news(index, row):
    news_combine_content = row['News']
    cleaned_text = re.sub(r'\u3000', '', news_combine_content)
    sentiment = LLM_Label_result(cleaned_text)
    
    time = 0
    while sentiment != 1 and sentiment != 0 and time < 20:
        time+=1
        sentiment = LLM_Label_result(cleaned_text)
    if(index%100 == 0):
        print(f"--Index: {index},Lable: {sentiment}--")
    return index, sentiment

# 设置线程池
with concurrent.futures.ThreadPoolExecutor(max_workers=20) as executor:
    results = list(executor.map(lambda x: process_news(*x), sentiment_df.iterrows()))

--Index: 0,Lable: 1--
--Index: 100,Lable: 1--
--Index: 200,Lable: 1--
--Index: 300,Lable: 1--
--Index: 400,Lable: 1--
--Index: 500,Lable: 0--
--Index: 600,Lable: 1--
--Index: 700,Lable: 1--
--Index: 800,Lable: 1--
--Index: 900,Lable: 1--
--Index: 1000,Lable: 1--
--Index: 1100,Lable: 1--
--Index: 1200,Lable: 1--
--Index: 1300,Lable: 1--
--Index: 1400,Lable: 1--
--Index: 1500,Lable: 1--
--Index: 1600,Lable: 1--
--Index: 1700,Lable: 1--
--Index: 1800,Lable: 1--
--Index: 1900,Lable: 1--
--Index: 2000,Lable: 1--
--Index: 2100,Lable: 1--
--Index: 2200,Lable: 1--
--Index: 2300,Lable: 1--
--Index: 2400,Lable: 1--
--Index: 2500,Lable: 1--
--Index: 2600,Lable: 0--
--Index: 2700,Lable: 1--
--Index: 2800,Lable: 1--
--Index: 2900,Lable: 1--
--Index: 3000,Lable: 1--
--Index: 3100,Lable: 1--
--Index: 3200,Lable: 1--
--Index: 3300,Lable: 1--
--Index: 3400,Lable: 1--
--Index: 3500,Lable: 1--
--Index: 3600,Lable: 1--
--Index: 3700,Lable: 1--
--Index: 3800,Lable: 1--
--Index: 3900,Lable: 1--
--Index: 400

In [40]:
# 将结果写入 DataFrame
for index, sentiment in results:
    sentiment_df.at[index, 'Sentiment'] = sentiment

In [41]:
sentiment_df.to_excel(f'D:\\ProjectHub\\Jupyter Notebook\\DSAA 5002 DM\\DM-Project\\Trainset\\Training_set_part_3.xlsx', index=False)

In [None]:
``