Skip to content

okbeginning/company-info-crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

公司信息获取

这是一个用于爬取胜宏科技(股票代码:300476)财务报告的Python爬虫程序。

功能特点

  • 自动下载近三年的财务报告(年报、半年报、季报)
  • 支持下载报告全文和摘要
  • 生成财务报告清单(Excel格式)
  • 自动创建存储目录
  • 包含请求延时和错误处理

安装依赖

pip install -r requirements.txt

使用方法

  1. 确保已安装所有依赖包
  2. 运行爬虫程序:
python crawler.py

命令行使用方法

基本用法

# 下载指定股票的报告
python cli.py -s 平安银行

# 下载指定年份的报告
python cli.py -s 平安银行 -y 2022 2023

# 下载指定类型的报告
python cli.py -s 平安银行 -t "年度报告" "第一季度报告"

# 指定下载目录
python cli.py -s 平安银行 -o ./reports

# 组合使用
python cli.py -s 平安银行 -y 2023 -t "年度报告" "第一季度报告" -o ./reports

参数说明

  • -s, --stock: 股票名称或代码(必需)
  • -y, --year: 年份,可以指定多个
  • -t, --type: 报告类型,可选值:年度报告、半年度报告、第一季度报告、第三季度报告
  • -o, --output: 下载文件保存目录,默认为 downloaded_reports

输出说明

  • 所有下载的PDF文件将保存在 financial_reports 目录下
  • 文件命名格式:标题_发布日期.pdf
  • 程序会生成一个 财务报告清单.xlsx 文件,包含所有下载报告的信息:
    • 报告标题
    • 发布日期
    • 文件路径

文件说明

  • crawler.py: 爬虫主程序
  • requirements.txt: 项目依赖文件
  • README.md: 项目说明文档

注意事项

  • 请确保网络连接正常
  • 下载过程中会有随机延时,避免请求过于频繁
  • 如遇到网络问题,可以重新运行程序

项目说明

项目简介

这是一个用于爬取胜宏科技财务报告的Python爬虫程序,支持自动下载近三年的财务报告,生成财务报告清单,并包含请求延时和错误处理。

项目特点

  • 多接口支持:支持图形界面(GUI)操作、命令行(CLI)操作和程序化调用接口
  • 下载功能:支持批量下载多个公司报告,支持多种报告类型,具有并行下载、断点续传和文件完整性校验功能
  • 数据分析:支持PDF报告解析、财务数据提取、财务比率计算和数据可视化图表
  • 用户体验:具有简单易用的图形界面、下载进度显示、下载历史记录和报告搜索功能
  • 安全性:支持代理服务器、请求频率限制和配置文件加密

系统要求

  • macOS 10.12+
  • Python 3.8+
  • 网络连接

安装说明

  1. 下载最新版本的安装包
  2. 解压安装包
  3. 双击"启动股票报告下载器.command"运行程序

使用说明

图形界面使用

  1. 搜索股票

    • 输入股票代码或名称
    • 选择匹配的股票
  2. 选择报告

    • 选择年份
    • 选择报告类型(年报/半年报/季报)
  3. 下载报告

    • 点击下载按钮
    • 查看下载进度
    • 完成后自动打开下载目录

数据分析

  1. 查看财务数据

    • 自动解析PDF报告
    • 提取关键财务数据
    • 计算财务比率
  2. 数据可视化

    • 生成趋势图表
    • 导出分析报告

配置说明

编辑 config.yaml 文件可以自定义以下设置:

  • 下载目录
  • 代理服务器
  • 并发下载数
  • 更新检查间隔
  • 日志级别
  • 等等

常见问题

  1. 启动失败

    • 检查 Python 版本
    • 确认依赖包安装完整
    • 查看日志文件
  2. 下载失败

    • 检查网络连接
    • 确认代理设置
    • 尝试降低并发数
  3. 解析失败

    • 确认PDF文件完整
    • 检查报告格式是否支持
    • 查看错误日志

更新历史

v1.0.0 (2024-02-11)

  • 初始版本发布
  • 实现基本下载功能
  • 添加数据分析功能
  • 支持自动更新

开发计划

  • 支持更多数据源
  • 添加数据导出功能
  • 优化解析算法
  • 添加批量分析功能

技术支持

如有问题,请提交 Issue 或联系开发团队。

许可证

MIT License

公司信息获取

一个用于下载和管理 A 股上市公司财务报告的爬虫工具。

功能特点

  • 📊 支持多种报告类型(年报、半年报、季报等)
  • 🔍 智能报告搜索和过滤
  • 📂 自动文件命名和目录管理
  • 📈 实时下载进度显示
  • 🖥️ 用户友好的图形界面
  • 🚀 多线程下载支持

安装说明

环境要求

  • Python 3.8+
  • pip (Python 包管理器)

安装步骤

  1. 克隆仓库
git clone https://github.com/okbeginning/company-info-crawler.git
cd company-info-crawler
  1. 创建虚拟环境(推荐)
python -m venv venv
source venv/bin/activate  # macOS/Linux
#
.\venv\Scripts\activate  # Windows
  1. 安装依赖
pip install -r requirements.txt

使用说明

  1. 启动程序
python gui.py
  1. 在界面中:

    • 输入股票代码或选择已有股票
    • 选择要下载的报告类型
    • 设置时间范围
    • 点击"开始爬取"
  2. 下载完成后:

    • 在文件列表中查看和筛选报告
    • 选择要下载的报告
    • 点击下载按钮
    • 可以选择打开下载目录

项目结构

company-info-crawler/
├── gui.py              # 图形界面
├── crawler.py          # 爬虫核心逻辑
├── stock_codes.json    # 股票代码数据
├── requirements.txt    # 项目依赖
└── utils/             # 工具函数
    ├── __init__.py
    ├── config_manager.py
    ├── download_manager.py
    └── logger.py

版本历史

查看 VERSION_CONTROL_GUIDE.md 了解详细的版本历史。

贡献指南

欢迎贡献代码!请遵循以下步骤:

  1. Fork 本仓库
  2. 创建你的特性分支 (git checkout -b feature/AmazingFeature)
  3. 提交你的更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 开启一个 Pull Request

开源协议

本项目采用 MIT 协议 - 查看 LICENSE 文件了解详情

致谢

感谢所有贡献者对本项目的支持!

About

一个用于下载和管理 A 股上市公司财务报告的爬虫工具

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors