new_knowledge

crawl_cnn.py 用于爬取原始网页数据

analysis.py 用于使用GPT总结网页内容及过滤

show.html 用于展示图片及网页内容

CNN_Data_Collection/download_EUQA_img.py 用于下载图像数据，可以设置下载数量

CNN_Data_Collection/clip_k_means_filter_img.py 用于clip+k-means过滤离群点图像

CNN Data Collection Pipeline

用得到的url，去解析下载得到news data [使用CNN_Data_Collection/extract_cnn.py]
clean news data，例如：content中有CNN - 和content为空的情况 [使用CNN_Data_Collection/clean_content.py]
clean imgs，把图像数量=0和>5的数据删除 [使用CNN_Data_Collection/delete_img.py]
每条数据的imgs，根据url，把图像下载到本地 [使用CNN_Data_Collection/download_img.py]
每条数据的imgs，选取第一张img，作为training img [使用CNN_Data_Collection/extract_1_img.py]
给每条数据增加index [使用CNN_Data_Collection/add_index.py]
使用title和content，生成summary和entity（使用api） [使用CNN_Data_Collection/summary.py]
给summary的开头，加上timestamp [使用CNN_Data_Collection/time.py + add_time.py]
使用entity和summary，生成QA（使用api） [使用CNN_Data_Collection/question_generation.py]
根据生成的QA中的entity和upper word下载图像 [使用CNN_Data_Collection/download_EUQA_img.py]
使用clip和k-means去剔除离群点图像 [使用CNN_Data_Collection/clip_k_means_filter_img.py]

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
CNN_Data_Collection		CNN_Data_Collection
data		data
README.md		README.md
analysis.py		analysis.py
crawl_cnn.py		crawl_cnn.py
prompt.py		prompt.py
show_all.html		show_all.html

Provide feedback