# Find emerging topics for Year 2023

In [1]:
import pandas as pd
from collections import Counter

## Load data with topics

In [2]:
df = pd.read_csv('data/id_topics_all.csv', encoding='utf_8_sig')

In [3]:
df.head()

Unnamed: 0,ID,RAW_CONTENT,MEETING_NAME,TITLE,PUBLISH_DATE,Year,TOPICS_ALL
0,m-1608357555-1682084460,中共中央总书记、国家主席、中央军委主席、中央全面深化改革委员会主任习近平4月21日下午主...,中央全面深化改革会议,会议审议通过了关于强化企业科技创新主体地位的意见关于加强和改进国有经济管理有力支持中国式现代...,2023-04-21T21:41:00Z,2023,宏观 企业发展
1,m-158629831-1682664300,中共中央政治局4月28日召开会议，分析研究当前经济形势和经济工作。中共中央总书记习近平主...,政治局会议,分析研究当前经济形势和经济工作,2023-04-28T14:45:00Z,2023,企业发展 就业
2,m-704972677-1680162720,中共中央政治局3月30日召开会议，决定从今年4月开始，在全党自上而下分两批开展学习贯彻习...,政治局会议,决定从2023年4月开始在全党自上而下分两批开展学习贯彻习近平新时代中国特色社会主义思想主题...,2023-03-30T15:52:00Z,2023,宏观 企业发展 教育
3,m-248496144-1366366560,中共中央政治局4月19日召开会议，决定从今年下半年开始，用一年左右时间，在全党自上而下分...,政治局会议,研究部署在全党深入开展党的群众路线教育实践活动,2013-04-19T18:16:00Z,2013,教育 民生扶贫
4,m-1020277137-1469618520,李克强主持召开国务院常务会议\n听取关于地方和部门推进重大项目落地审计情况汇报 完善奖惩机制...,国务院常委会,李克强主持召开国务院常务会议通过十三五国家科技创新专项规划 以创新型国家建设引领和支撑升级发...,2016-07-27T19:22:00Z,2016,能源 宏观 科技


In [4]:
df['Year'] = df.apply({lambda row: row['PUBLISH_DATE'][:4]}, axis = 1)

In [5]:
df['Year'].value_counts()

2016    69
2020    65
2019    63
2018    60
2021    59
2017    58
2022    50
2015    32
2014    21
2013    14
2023     9
2012     5
2011     3
2010     3
2009     3
2008     3
2006     3
2003     3
2007     2
2005     2
2004     2
2002     1
Name: Year, dtype: int64

## Count the topics for Year 2022 and Year 2023

In [6]:
def count_topics(df, year):
    topics = df[df['Year'] == str(year)]['TOPICS_ALL'].tolist()
    topic_list = []
    for x in topics:
        topic_list.extend(x.split(' '))
    return Counter(topic_list)

In [7]:
topics_2023 = count_topics(df, 2023)
topics_2022 = count_topics(df, 2022)

## Compute the percentage of each topic and sort by the increase

In [8]:
notes_2023 = df[df['Year'] == '2023'].shape[0]

In [9]:
notes_2022 = df[df['Year'] == '2022'].shape[0]

In [10]:
notes_2022, notes_2023

(50, 9)

In [11]:
emerging_topics_diff = {topic:freq/notes_2023 - (topics_2022.get(topic, 0)/notes_2022) for topic, freq in topics_2023.items() if freq/notes_2023 > topics_2022.get(topic, 0)/notes_2022}

In [12]:
emerging_topics_sorted = dict(sorted(emerging_topics_diff.items(), key=lambda item: item[1], reverse=True))

In [13]:
emerging_topics_sorted

{'企业发展': 0.47555555555555556,
 '就业': 0.15333333333333332,
 '区域发展': 0.11333333333333331,
 '出口贸易': 0.1111111111111111,
 '教育': 0.0711111111111111}

In [14]:
sorted(emerging_topics_sorted, key=lambda k: emerging_topics_sorted[k], reverse=True)[:3]

['企业发展', '就业', '区域发展']