Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

整数智能《高级爬虫工程师》招聘 #180

Closed
ABAKA-AI opened this issue Mar 19, 2024 · 16 comments
Closed

整数智能《高级爬虫工程师》招聘 #180

ABAKA-AI opened this issue Mar 19, 2024 · 16 comments

Comments

@ABAKA-AI
Copy link

【你需要参与】
● 负责设计和开发网络爬虫系统,进行多平台的信息抓取和分析
● 根据网页特性设计独特的爬虫策略和防屏蔽规则,不断优化提升数据抓取的效率和质量
● 完成并管理数据的清洗、结构化、入库、统计分析等全流程
● 能够独当一面的完成数据聚合项目解决方案的制定,并完成方案的沉淀,以便后续复用
● 具有分布式爬取和运维经验,能够保证项目的正常运行,实时解决出现的问题,确保项目的平稳、高质量运行

【我们对你的要求】
● 责任心较强,做事细致耐心(此项有一票否决权)
● 良好的沟通能力和团队领导力,能有效组织和引导团队完成任务
● 根据需求制定爬取方案并执行,并有良好的代码习惯及汇报习惯,抽象能力强
● 精通至少一个爬虫框架(如Scrapy)或有相关实现,熟悉多线程,分布式爬虫的设计和实现,能处理大规模数据获取和处理的技术挑战
● 熟练掌握基于正则表达式、XPath、CSS等网页信息抽取技术
● 熟悉了解HTML、CSS、JavaScript,熟练掌握JS逆向、断点调试、HOOK等技能
● 熟悉常见的反爬机制,验证码识别
● 掌握熟练至少一种SQL语言,了解数据库优化策略,设计过千万级的表结构为加分项
● 熟悉Linux及Docker、K8S,有K8S集群使用经验为加分项
● 熟悉应用Selenium+PhantomJS实施动态HTML抓取
● 熟悉应用IP池、Headers认证和Cookie等,提高爬取效率和质量
● 熟练使用HTTP代理工具Charles、Fiddler等,掌握移动端爬取
● 线性代数 / 高等数学 / 概率论基础好,熟悉numpy / pandas,能够通过公式描述现象
● 热爱编程,喜欢折腾各类工具,热衷于探寻技术背后的原理

【我们在做什么】
● 分布式爬虫框架搭建
● 数据中心级基础设施建设
● 多个LLM领域的PB级数据集构建

【关于我们】
● 工作地点:杭州市萧山区浙江大学计算机创新技术研究院(地铁2 / 6号线钱江世纪城站)
● 工作时间:双休,工作日9:30-18:30(午休12:00-13:30),有团建、双休、法定节假日
● 入职试用期缴纳五险一金
● 年终奖与期权激励
● 法定年假
● 不定期团建
● 整数智能信息技术(杭州)有限责任公司(www.molardata.com),起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据领航员。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员。

【薪资】
16k-20k/月,视具体能力水平可突破此范围

【联系我们】
cyj0103@molardata.com

@ABAKA-AI ABAKA-AI changed the title 《高级爬虫工程师》招聘 整数智能《高级爬虫工程师》招聘 Mar 19, 2024
@shaooping
Copy link

你可真是个小机灵鬼

@hanjiajiade
Copy link

that sounds great! 那听起来可太有趣了

@everydoc
Copy link

不给力啊老铁,我才来,发现什么都没有了!
Oh shit, there is nothing here!

@chengducloud
Copy link

haha

Repository owner deleted a comment from super-crayfish Mar 21, 2024
@azwhale
Copy link

azwhale commented Mar 21, 2024

can you delete this issue?

@wang1024it
Copy link

我盯了这个项目几天了,发现什么都没有呀

@SWHL
Copy link

SWHL commented Mar 21, 2024

刚在Github精选上看到这个项目,竟然没了。

@LonelyFellas
Copy link

我盯了这个项目几天了,发现什么都没有呀

可以从以前forked过的人clone源代码

@everydoc
Copy link

其实我第一时间就想到了去找fork,所以我用项目名称去搜了一下,点了前几个,都不是fork项目,所以就更失望了。
I thought I could find a fork repo, but I was wrong, there are hundreds of projects named the same name of this one, but none of them is from this repo, God damn it~

@chunpat
Copy link
Contributor

chunpat commented Mar 21, 2024

前排有偿出售源码~狗头

@SWHL
Copy link

SWHL commented Mar 21, 2024

https://github.com/lewis-007/MediaCrawler
这个看着像是源码

@everydoc

@everydoc
Copy link

https://github.com/lewis-007/MediaCrawler 这个看着像是源码

@everydoc

I've already checked this one and star it, but still not sure this is the same one, thanks anyway!

@vanichocola
Copy link

vanichocola/MediaCrawler最新源码

@NanmiCoder
Copy link
Owner

vanichocola/MediaCrawler最新源码

你咋这么优秀呢,fork我的仓库,然后自己commit,修改收款二维码吗,属实6,咱们能好好的做点事好么?

@everydoc
Copy link

vanichocola/MediaCrawler最新源码

你咋这么优秀呢,fork我的仓库,然后自己commit,修改收款二维码吗,属实6,咱们能好好的做点事好么?

上面还有个更嚣张的,直接明着喊出售源码🤣原来还能这么玩,真的涨见识了

@JiuKL
Copy link

JiuKL commented Mar 23, 2024

vanichocola/MediaCrawler最新源码

什么表子和丫子混合拉出的史,糊不上墙糊这来了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests