Skip to content

haoawesome/hao

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 

Repository files navigation

好东西传送门

http://www.weibo.com/haoawesome

简介

好东西传送门 支持微博上的知识传播,集成微博好人好东西,帮您快速解决问题,为您精选专业知识

问答服务

  1. 微博用户 访问微博
  • 发一条微博提问,里面加上 @好东西传送门
  • 发私信给 好东西传送门
  1. github用户:

订阅服务

  1. 订阅微信公众号: 好东西传送门 (发送好东西传送门的一些推荐和<机器学习日报>)

  1. 订阅好东西周报 (邮件列表,每周的问答与资源推荐合集,大约每周五发)

使用许可

本站内容许可证:Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License Creative Commons License

问答与传送档案

2014-10-23 感谢 @网路冷眼 @张颖峰 @龙星镖局 @梁斌penny @王威廉 今天继续做了版式的调整,以平衡不同读者对短版和长版需求的差异。以前的短版现在作为今日焦点放在最前面。没有时间的读者可以只看这5条。如果对目前的长版有更多建议,欢迎大家回信hao@memect.com, 谢谢! [ 微博 ]

2014-10-23 @好东西传送门: 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ 微博 ]

2014-10-23 今天@连城404 推荐了q,一个用SQL处理文本数据的残暴工具。小门再推荐一个同样残暴的OrientDB,可以用SQL查询JSON。安装很简单,下载zip后解压就可以起服务器。可以从python/java/ruby等各种语言调用。http://t.cn/R7f6XJ9 有REST接口,和jq/httpie等综合使用可以实现命令行上更复杂的数据查询 [ 微博 ]

2014-10-23 好东西,转给搞生物信息学的伙伴们 [ 微博 ]

2014-10-22 @bitslife: 从2014美国人类遗传学学会的介绍中了解到了NextCODE, (1)、 Big Data及其Knowledge Base: 350,000 全基因组,40M变异注释。 (2)、 平台服务了 350 多篇高质量论文 (3)、 合作、共享基因组信息全球实时系统。(4)、 基因组数据分析流程(Alignment, Mapping, SNP/INDEL Calling) [ 微博 ]

2014-10-23 Python头条 2014-10-22 http://t.cn/R7fMgzf 1)慕课网Python入门课程 2)Python状况:为什么PyPy是Python的未来? 3)一行代码伪装成浏览器 4)Python程序的Learning to Execute 加长版9条 http://t.cn/R7fMFzg 感谢 @慕课网 @Python开发者 @王威廉 [ 微博 ]

2014-10-23 问:哪里有每日新闻联播要点总结? 答:新闻联播文字版在CNTV官网上就有 http://t.cn/R7fIsnP 每条新闻下面都有文本。CNTV之前CCTV上也有 例如 http://t.cn/R7fIsnv 时事一点通的《时事新闻日报道》》有每日总结, http://t.cn/a8fwZM 分国内国际,都有简短的摘要。这些都是很好的语料库。 [ 微博 ]

2014-10-23 感谢 @网路冷眼 @张颖峰 @龙星镖局 @梁斌penny @王威廉 今天继续做了版式的调整,以平衡不同读者对短版和长版需求的差异。以前的短版现在作为今日焦点放在最前面。没有时间的读者可以只看这5条。如果对目前的长版有更多建议,欢迎大家回信hao@memect.com, 谢谢! [ 微博 ]

2014-10-23 @好东西传送门: 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ 微博 ]

2014-10-23 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ 微博 ]

2014-10-23 一个Python的从文本学习模板的小工具 templatemaker http://t.cn/R7fyt3x 可以从一堆输入样板句子中提取他们的不变部分,然后利用模板可以做匹配检查,成分提取等。对清理Web数据,简单的模式学习超级有用 [ 微博 ]

2014-10-23 爬虫相关资料(Java ).pdf 一组挺有用的链接 [ 微博 ]

2014-10-22 @睡眼惺忪的小叶先森: 这几天很多筒子不约而同让我提供几个编写爬虫的资料[doge]。我把我过去参考过的,整理了一下,包含了开源框架以及自己手动编写爬虫所需工具,还包括了信息抽取等。Java版本的。http://t.cn/R7VVttV @好东西传送门 @囧囧有神的小杜霉女 @whiteath [ 微博 ]

2014-10-23 好文章,为什么svm在文本上应该用线性核。思考:那用与它等价的感知器是不是也可以?//@神经元NL:中心:文本大部分线性可分;文本本身特征多,映射到太高维度也没用;线性核快;线性核更好优化 [ 微博 ]

2014-10-22 @星空下的巫师: Linear Kernel: Why is it recommended for text classification ? http://t.cn/R7V3WUA [ 微博 ]

2014-10-23 Python写的内存数据处理工具,很适合做小文本的命令行查询。//@黄涧石:好东西 [ 微博 ]

2014-10-22 @连城404: 这个叫q的工具太残暴了,在Shell下用SQL查询各种表格状的文本文件 http://t.cn/R7VntHd q "SELECT COUNT(*) FROM ./clicks_file.csv WHERE c3 > 32.3" [ 微博 ]

2014-10-23 右边一般不夸人的,被他表扬的肯定不错 →_→//@phunter_lau:涵盖的很全面啊还比一般介绍的有一定深度 //@网路冷眼:作者John Hopcroft,康奈尔大学计算机科学系教授,1986年由于在算法及数据结构设计和分析方面的基础性成就,被授予图灵奖: http://t.cn/R7VnfUX [ 微博 ]

2014-10-22 @网路冷眼: 微软发布<数据科学基础(Foundations of Data Science)>电子书,PDF格式,下载地址:http://t.cn/R7cdbab 转需!@52nlp @好东西传送门 [ 微博 ]

2014-10-23 //@网路冷眼:作者John Hopcroft,康奈尔大学计算机科学系教授,1986年由于在算法及数据结构设计和分析方面的基础性成就,被授予图灵奖:http://t.cn/R7VnfUX [ 微博 ]

2014-10-22 @网路冷眼: 微软发布<数据科学基础(Foundations of Data Science)>电子书,PDF格式,下载地址:http://t.cn/R7cdbab 转需!@52nlp @好东西传送门 [ 微博 ]

2014-10-22 @老齐Py @中国云计算论坛 @Python开发者 @朝花夕拾录 为我们提供了好资源。昨天有人反映太长,所以今天加上了5条摘要,和用长微博发布的短版。欢迎大家继续提建议 [ 微博 ]

2014-10-22 @好东西传送门: Python头条 2014-10-21 http://t.cn/R7V2o2a 1)[零基础学python]使用tornado表单和模板 2)clint:Python命令行工具 3)用python + hadoop编写分布式程序 4)matplotlib: 使用Python进行图表绘图 5)Writing C in Cython 加长版12条 http://t.cn/R7V2o2X [ 微博 ]

2014-10-22 Python头条 2014-10-21 http://t.cn/R7V2o2a 1)[零基础学python]使用tornado表单和模板 2)clint:Python命令行工具 3)用python + hadoop编写分布式程序 4)matplotlib: 使用Python进行图表绘图 5)Writing C in Cython 加长版12条 http://t.cn/R7V2o2X [ 微博 ]

2014-10-22 用python Requests爬网页的常用技巧: 一行代码伪装成浏览器 r = requests.post(url, headers={'user-agent: 'Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0'} ) 其他user-agent字符串 http://t.cn/hGTZFY requests库的用法 http://t.cn/R7VZfcY @Serena_pancakes [ 微博 ]

2014-10-22 车牌数据集(二)果然有好人Andrew McGill 整理上传2012年数据 有篇博文 http://t.cn/R7Vz75l 也有数据Github CSV 70M http://t.cn/R7Vz75j //@核桃街魔女: 一度想找匹兹堡的类似数据 //@美国中部大平原的胖胖:有意思。 [ 微博 ]

2014-10-21 @好东西传送门: 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ 微博 ]

2014-10-22 非常炫。原文的程序是用docx发布的,不方便,现在发布在gist上 http://t.cn/R7V794U [ 微博 ]

2014-10-14 @Arduinos: 【arduino与人脑连接】荷兰arduinos爱好者Kayleigh Beard演示人脑控制led灯。她示范了自己制作的人脑交互作品,视频http://t.cn/R7ZgW4o,用意念控制一排led按顺序亮灭。教程http://t.cn/R7ZgW4X,源代码http://t.cn/R7ZgW4S。用到了arduino uno, MindWave Mobile脑电仪。 [ 微博 ]

2014-10-22 问答297 除了直接爬网站,也可以下载数据集 以前推荐过 common crawl 数据集,http://t.cn/R7cs7Nv 还有一个GoogleNews 数据集 1.2G http://t.cn/R7cs7Cs 更多相关数据集参见 http://t.cn/R7cs7Nm [ 微博 ]

2014-10-22 @Serena_pancakes: 在国外想用python抓news website用来分析词频的,可是crawling会被封IP,还没有api的话怎么办?@网路冷眼 @好东西传送门 @Python开发者 [ 微博 ]

2014-10-22 一般就是降低频率,还有上Amazon EC2用spot instance,不断换IP。如果只是分析词频,不需要最新的内容,建议提取一部分Common Crawl语料库,别人已经都帮你抓好了,那里应有尽有。http://t.cn/R77RbnD [ 微博 ]

2014-10-22 @Serena_pancakes: 在国外想用python抓news website用来分析词频的,可是crawling会被封IP,还没有api的话怎么办?@网路冷眼 @好东西传送门 @Python开发者 [ 微博 ]

2014-10-22 感谢 @NLPJob @龙星镖局 @AixinSG @伯乐在线官方微博 。今天的邮件试着发了一期长版(上次投票的结果70%的读者希望收到长版),因为内容长了,在摘要,版式上可能还需要新的改进,欢迎大家继续提意见。5条短版还继续以长微博发送。 [ 微博 ]

2014-10-22 @好东西传送门: 机器学习头条2014-10-21 http://t.cn/R7cKd4c 1)哥伦比亚大学Michael Collins的NLP 14年秋季课程 2)王益《分布式机器学习的故事》 3)Michael Jordan: Why Big Data Could Be a Big Fail 4)深度学习、自然语言处理和表征方法 5)计算机科学会议的顶级会议最佳论文列表 加长版42条 http://t.cn/R7cKd42 [ 微博 ]

2014-10-22 机器学习头条2014-10-21 http://t.cn/R7cKd4c 1)哥伦比亚大学Michael Collins的NLP 14年秋季课程 2)王益《分布式机器学习的故事》 3)Michael Jordan: Why Big Data Could Be a Big Fail 4)深度学习、自然语言处理和表征方法 5)计算机科学会议的顶级会议最佳论文列表 加长版42条 http://t.cn/R7cKd42 [ 微博 ]

2014-10-22 我正在使用"花栗鼠"#封面图#,好漂亮,你们都快来试试! http://t.cn/zRVa3ar [ 微博 ]

2014-10-22 《Deep Learning(深度学习)资料整理》 作者zouxy09@qq.com 36页的好的入门介绍 感谢@一尘不染zzz 整理成pdf [ 微博 ]

2014-10-05 @一尘不染zzz: #深度学习#知识资料。最初是一个网友整理发布在他的BLOG上的。我不过是整理成PDF版 http://t.cn/Rhr3w3h 。#机器学习#几乎已经引发了一场信息处理的革命(搜索引擎、语音识别,图像识别,内容过滤、分类等的)相信机器学习接下来几年会在机器人领域引发另外一场让人惊奇革命。 [ 微博 ]

2014-10-22 转发微博 [ 微博 ]

2014-10-21 @2gua: 几个不错的前端技术资源:「20 More Docs and Guides for Front-End Developers」http://t.cn/R7t8rDv,「Why I Love AngularJS and You Should Too」http://t.cn/R7t8rDh,「7 JS Libraries for Specific Visualizations」http://t.cn/R7t8rDP。@网路冷眼 @好东西传送门 @极客头条 @Linux中国 [ 微博 ]

2014-10-21 LIVAC汉语共时语料库(Linguistic Variation in Chinese Speech Communities) http://t.cn/R7chgF2 “直至2013年,LIVAC已处理逾5亿字,累积并持续提炼出约两百万词条。” 19年积累,7个特征语料收集地:香港,台湾,北京,上海, 澳门,新加坡,广州 。可惜是公司维护未开源,我辈只能望知识兴叹了 [ 微博 ]

2014-10-21 Pycoder's Weekly 搜罗Py万物的蟒周刊 英文版http://t.cn/zOzpHxB 中文版 http://t.cn/8FIrxNN [ 微博 ]

2014-10-21 @ZoomQuiet: Issue 137: RPython #蠎周刊# 汇集全球蠎事儿 !-) http://t.cn/R7tLoB7 [ 微博 ]

2014-10-21 根据过去两个月的数据,我们这个技术圈子(大体就是机器学习,自然语言处理,信息检索,计算机视觉,语义网等)最受欢迎(根据发言在圈子里的分享次数)的个人有@AixinSG @KissDev @丕子 @刘鑫Mars @梁斌penny @王威廉 @网路冷眼 @西瓜大丸子汤 @陈利人 @龙星镖局 (排名不分先后) [ 微博 ]

2014-10-21 非常有用的全美按街区人口数,种族构成地图,纽约时报出品。数据来源是2010人口普查http://t.cn/hboaoT [ 微博 ]

2014-07-26 @JadeM104: 分享一个我觉得很有用的地图,distribution of racial and ethnic groups: http://t.cn/hboaoT 出门在外小心,一切尽在不言中了 [ 微博 ]

2014-10-21 右边是中国最好的机器视觉公司之一。你们也对车牌感兴趣么?嗯,每个城市都有上万个交通摄像头,识别车牌可是个大买卖 //@格灵深瞳: 马!随手,不谢。 [ 微博 ]

2014-10-21 @好东西传送门: 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ 微博 ]

2014-10-21 CUHK-SEEM=香港中文大学系统工程与工程管理学系 http://t.cn/zlzfIjQ 系里的教授列表http://t.cn/R7t5DMa 与博文提到的领域接近的有林伟教授的 Text Mining Group http://t.cn/zQvzXhZ [ 微博 ]

2014-10-21 @李菁求能毕业: 有木有人感兴趣来CUHK-SEEM做研究助理、工程师或者博士后,需要有计算机或者数学背景,有NLP、Data Mining、Machine learning、Social Computing相关经验优先薪水非常可观感兴趣的话可以发送邮件到wise.cuhk@gmail.com 我们会安排一个小的interview,具体事宜可以到时相商~求扩散求转发~~~ [ 微博 ]

2014-10-21 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ 微博 ]

2014-10-21 找到一个相关问答 http://t.cn/R7t4LTm [ 微博 ]

2014-10-18 @丕子: 帮求一个车牌数据集 [ 微博 ]

2014-10-21 帮转,有没有人知道线索呢? 进展整理在issue 293 http://t.cn/R7tU2dw [ 微博 ]

2014-10-18 @丕子: 帮求一个车牌数据集 [ 微博 ]

2014-10-21 有朋友感觉比较长,没法很快看完;另一方面,有没有漏掉的好东西呢? [ 微博 ]

2014-10-21 @好东西传送门: 刚刚发出了Python日报的第一期测试(也见长微博)。在线版:http://t.cn/R75uDpD 订阅办法见py.memect.com http://t.cn/R7UjD75 也可以给 hao@memect.com 发封邮件,标题是 "订阅Python"。Python日报没有长短版之分,每天大约会有10-20条。欢迎大家提建议 [ 微博 ]

2014-10-21 刚刚发出了Python日报的第一期测试(也见长微博)。在线版:http://t.cn/R75uDpD 订阅办法见py.memect.com http://t.cn/R7UjD75 也可以给 hao@memect.com 发封邮件,标题是 "订阅Python"。Python日报没有长短版之分,每天大约会有10-20条。欢迎大家提建议 [ 微博 ]

2014-10-21 还有,万维网联盟 (World Wide Web Consortium,W3C), 于 1994年10月在麻省理工学院(MIT)。它联合工业界制定了一大堆开放性的全球规范(Web码农的简历上的常见关键词), 例如 URI, HTML,CSS,XML,DOM, XQuery, WSDL, SVG, PNG, RDF, SPARQL ... [ 微博 ]

2014-10-21 @好东西传送门: W3C 20周年纪念大会 “万维网的未来” (The Future of the Web) http://t.cn/R75Euba 将于本月29日(当地时间下午3点至6点)在硅谷举行, 门票$150 (机票自负;-), 有在线直播。压轴戏是万维网之父Tim Berners-Lee于5:40–6:00的总结陈词, 也期待MIT media lab的 Alex 'Sandy' Pentland 教授的报告 [ 微博 ]

2014-10-21 W3C 20周年纪念大会 “万维网的未来” (The Future of the Web) http://t.cn/R75Euba 将于本月29日(当地时间下午3点至6点)在硅谷举行, 门票$150 (机票自负;-), 有在线直播。压轴戏是万维网之父Tim Berners-Lee于5:40–6:00的总结陈词, 也期待MIT media lab的 Alex 'Sandy' Pentland 教授的报告 [ 微博 ]

2014-10-21 最全的计算机科学会议的顶级会议最佳论文(Best Paper Award)列表,详列1996年以来获奖论文和下载链接!包括人工智能(AAAI CIKM KDD ICML IJCAI) 自然语言处理(ACL) 人机交互(CHI) 软件工程(FSE ICSE) 数据库(SIGMOD VLDB) 网络(WWW)等领域29个会议http://t.cn/R75EOUC 整理者是布朗大学的Jeff Huang [ 微博 ]

2014-10-21 感谢 @王威廉 @研究者July @干二微博 @网路冷眼 长版里继续有更多全国计算语言学会议(CCL)的讨论,值得围观 http://t.cn/R758sQj [ 微博 ]

2014-10-21 @好东西传送门: 机器学习头条 2014-10-20 http://t.cn/R758sQl 1)微电影Behind the Mic科普语音识别的历史 2)邹博之凸优化PPT 3)IBM开放Watson的API 4)CVPR2014视频分割的教程 5)Bloom filters(布隆过滤器)简介 加长版50条 http://t.cn/R758sQj [ 微博 ]

2014-10-21 机器学习头条 2014-10-20 http://t.cn/R758sQl 1)微电影Behind the Mic科普语音识别的历史 2)邹博之凸优化PPT 3)IBM开放Watson的API 4)CVPR2014视频分割的教程 5)Bloom filters(布隆过滤器)简介 加长版50条 http://t.cn/R758sQj [ 微博 ]

2014-10-21 #计算机视觉# 图一、 Flickr视觉团队官网上有一个很酷的在线演示 http://t.cn/R75H5KT 1秒钟能判断选定的图中 “有鸟吗?”、“在公园吗?” 图二、技术路线用深度学习在Hadoop和Storm平台上识别图片中的事物 http://t.cn/R75lK3J 图三、一张漫画展示研究动机; 相关论文 http://t.cn/R75H5KY [ 微博 ]

2014-10-21 Jupyter是一个从IPython衍生出来的交互式计算平台,改名的原因是IPython已经不仅支持Python计算,也支持Julia, R, Ruby等。项目主页和Scipy14上的演讲 http://t.cn/R7hRare PPT http://t.cn/R75YxA3 Github http://t.cn/R75YxAu [ 微博 ]

2014-10-21 微软印度研究院的R2 Probabilistic Programming Tool项目 http://t.cn/R75WD0C 最近核心文章 R2: An Efficient MCMC Sampler for Probabilistic Programs 发表于AAAI'14 http://t.cn/R75jJId 平台代码库(C#)下载, 基于.NET Framework 4.5. 相关项目是剑桥组的 infer.net http://t.cn/SvEGTl [ 微博 ]

2014-10-20 与有荣焉 //@陆浑戎: 多谢推荐,都是爱发资源的盆友吧 [ 微博 ]

2014-10-20 @传媒老跟班: 推荐几个账号:@陆浑戎 @设定控 @万事风过耳 @殆知阁 @好东西传送门 @次家神受 @电影贩 @蓝影屋 @一只傲骄 @电影的力量 至于原因,大家点开这些账号就知道了。 [ 微博 ]

2014-10-20 有人反映有墙.不知这两个能不能访问 pdf http://t.cn/R7qQcbc 代码 http://t.cn/R7qQcbf //@好东西传送门: Gaussian Mixture Models Tutorial and MATLAB Code [ 微博 ]

2014-10-20 @赶路人林文: @好东西传送门 一篇关于GMM的文章,讲的很清晰,内有Matlab代码示范以及相关例子的代码。http://t.cn/R7q9dDT [ 微博 ]

2014-10-20 Gaussian Mixture Models Tutorial and MATLAB Code [ 微博 ]

2014-10-20 @赶路人林文: @好东西传送门 一篇关于GMM的文章,讲的很清晰,内有Matlab代码示范以及相关例子的代码。http://t.cn/R7q9dDT [ 微博 ]

2014-10-20 感谢 @网路冷眼 @慕知网 @西瓜大丸子汤 @龙星镖局 @CCL-2014 今天还有非常多的好内容在长版的"温故知新"中,主要是昨天CCL2014分享出来的各种干货和精彩的讨论:周志华教授和李明院士的两个特邀报告,知识图谱研讨会的PPT http://t.cn/R7qMPcd [ 微博 ]

2014-10-20 @好东西传送门: 机器学习头条 2014-10-19 http://t.cn/R7qMPcr 1)Datumbox开源它们自己的机器学习框架 2)@神经元NL 的Learning From Data学习笔记 3)Boosting和香农信道编码定理 4)Bengio组(蒙特利尔大学LISA组)深度学习教程 5)知识图谱:大数据语义链接的基石-李涓子 加长版39条 http://t.cn/R7qMPcd [ 微博 ]

2014-10-20 机器学习头条 2014-10-19 http://t.cn/R7qMPcr 1)Datumbox开源它们自己的机器学习框架 2)@神经元NL 的Learning From Data学习笔记 3)Boosting和香农信道编码定理 4)Bengio组(蒙特利尔大学LISA组)深度学习教程 5)知识图谱:大数据语义链接的基石-李涓子 加长版39条 http://t.cn/R7qMPcd [ 微博 ]

2014-10-20 非常感谢!对大家有用让我们很开心 [ 微博 ]

2014-10-20 @VikingMew: 給@好东西传送门 捐了20塊錢。在意識到可以節省我多少刷微博的時間之後。 [ 微博 ]

2014-10-20 @廖雪峰 的Python教程,"这是小白的Python新手教程",以前推荐过,再推荐一次 [ 微博 ]

2014-10-19 @KissDev: 机器学习的书籍为何大都爱使用Python语言 ? 首先是因为python简单易用,更主要的原因是第三方模块/库太丰富了,信手拈来,这一点目前 php/go/nodejs还比不上 推荐这个教程,大概一个小时就能学会py: http://t.cn/zQXcs9S [ 微博 ]

2014-10-20 Michael S. Brown是新加坡国立大学的教授 http://t.cn/heVofJ 他专门研究消费者电子产品中的计算机视觉问题,如相机, Xbox,投影仪等.去年的ICIP上他还做了个类似的教程From RAW to sRGB and Back: Modeling the Onboard Camera Processing Pipeline http://t.cn/R7qLUXL [ 微博 ]

2014-10-19 @cvnote计算机视觉笔记: 拍照时相机对图像进行了那些处理?| ECCV'14 Tutorial《Understanding the In-Camera Image Processing Pipeline for Computer Vision》,详细介绍了相机算法中颜色变换算法的细节,可以作为了解颜色空间理论和应用的参考,搜搜资料啥的。http://t.cn/Rhc4ydF [ 微博 ]

2014-10-19 还有, http://t.cn/R7qPSnI Twitter Does Not Actually Predict Box Office Sales [STUDY] 提到一篇论文, 研究了Twitter和IMDB等影评网站的预测有效性 http://t.cn/zjYAeDY Why Watching Movie Tweets Won't Tell the Whole Story? //@phunter [ 微博 ]

2014-10-19 @冷姿君: #冷知#发现一个网站,叫做The Internet Movie Script Database(IMSDB),上面有大量好莱坞经典电影的剧本,感兴趣的同学不要错过哦。[阴险] [ 微博 ]

2014-10-19 不传paper了,传个有趣的字体 [ 微博 ]

2014-10-19 @alim0x: 添加ubuntu对emoji表情的显示支持 sudo apt-get install ttf-ancient-fonts [ 微博 ]

2014-10-19 IMSDB 链接直达http://t.cn/Gy8xd 搭售我们以前推过的电影评价数据MovieTweetings http://t.cn/R7GX32X 和电影海报数据库MoviePosterDB http://t.cn/R7GX326 //@phunter_lau: NLP素材,比如从剧本预测卖座与否 [ 微博 ]

2014-10-19 @冷姿君: #冷知#发现一个网站,叫做The Internet Movie Script Database(IMSDB),上面有大量好莱坞经典电影的剧本,感兴趣的同学不要错过哦。[阴险] [ 微博 ]

2014-10-19 //@velvel2: 1)Margin本身旨在降低分类器的方差(对比感知机)。2)而Gao-Zhou的工作指出Margin自身的方差也要关注,可谓是方差之方差。3)除了margin理论和统计视角,没有别的解释了?//@孙茂松: 现场报告时很多精彩之处,PPT还没有完全反映出来。那是到现场听报告者的额外bonus。 [ 微博 ]

2014-10-18 @孙茂松: 南京大学周志华教授在CCL上做大会特邀报告“Boosting 25 Years”。这是我近年来听到的最精彩的学术报告之一。400多位与会代表普遍反映报告内容深入浅出,令人耳目一新,收获很大。 @南大周志华 [ 微博 ]

2014-10-19 清华大学李涓子教授所在的知识工程研究室,是国内重要的语义网和知识工程研究小组之一.他们很早就开始了知识图谱相关研究.这个报告里李涓子从语义网延革的角度剖析了知识图谱的来龙去脉 @唐杰THU [ 微博 ]

2014-10-17 @CCL-2014: 大量干货来袭(知识图谱研讨会 PPT), 知识图谱:大数据语义链接的基石-李涓子 http://t.cn/R7U4t3V [ 微博 ]

2014-10-19 @讯飞胡国平 (@科大讯飞 ) 分享了在音乐领域和客服领域的知识图谱应用 [ 微博 ]

2014-10-17 @CCL-2014: 知识图谱研讨会 PPT:从应用的角度看知识图谱的价值和挑战-胡国平 http://t.cn/R7U4XAM [ 微博 ]

2014-10-19 @沈李斌NLP 在 @出门问问 从事自然语言处理.他以前在BBN,Akamai, IBM等公司从事研究工作,在机器翻译与句法分析等领域有很多贡献 [ 微博 ]

2014-10-17 @CCL-2014: 知识图谱研讨会 PPT: 问答系统中的知识图谱-沈李斌 http://t.cn/R7U49Vt [ 微博 ]

2014-10-19 刚刚推荐到头条 http://t.cn/R7bDGPA [ 微博 ]

2014-10-18 @CCL-2014: 周志华教授特邀报告PPT: BOOSTING 25年 http://t.cn/R7bMKaA [ 微博 ]

2014-10-19 感谢@南大周志华 @孙茂松 @丕子 @bitslife @cswhjiang . 这几天重要活动是第十三届全国计算语言学会议CCL2014在华中师范大学召开,加长版里有更多汇报http://t.cn/R7bDGPA .欢迎参与会议的同仁多在微博上分享,我们会及时总结在日报里 [ 微博 ]

2014-10-19 @好东西传送门: 机器学习头条2014-10-18 http://t.cn/R7bDPUz 1)周志华在CCL大会做特邀报告Boosting 25 Years 2)EMNLP上两篇关于股票趋势的应用论文 3)DeepLearning University更新了162篇新文章 4)UCLA 统计软件学习资源网站 5)Vowpal Wabbit,Liblinear/SBM和StreamSVM性能比较 加长版44条 http://t.cn/R7bDPU7 [ 微博 ]

2014-10-19 机器学习头条2014-10-18 http://t.cn/R7bDPUz 1)周志华在CCL大会做特邀报告Boosting 25 Years 2)EMNLP上两篇关于股票趋势的应用论文 3)DeepLearning University更新了162篇新文章 4)UCLA 统计软件学习资源网站 5)Vowpal Wabbit,Liblinear/SBM和StreamSVM性能比较 加长版44条 http://t.cn/R7bDPU7 [ 微博 ]

2014-10-19 Python数据分析基础教程:Numpy学习指南 http://t.cn/zRCEjvM 英文原版NumPy Beginner's Guide http://t.cn/R7brKdm [ 微博 ]

2014-10-19 @2gua: 平板上看电子书就是舒适满满…… [ 微博 ]

2014-10-19 //@尘绳聋-SYSU:这个其实是Theano搞DL的tutorial,教如何用Theano实现常用的几个模型。其实Release 1.0去年9月已经出来了,瞄了一眼这个,是Oct. 18 2014的,不过基本内容好像没改动。有空再仔细看看。 [ 微博 ]

2014-10-19 @龙星镖局: 这可能是今年关于深度学习最好的材料了,深度学习一线大牛Bengio组写的教程,算法深入显出,还有实现代码,一步步展开。读完之后也可以说是搞过深度学习了呢。[good]@好东西传送门 @蒋涛CSDN @developerWorks 『』http://t.cn/zT2M85O [ 微博 ]

2014-10-18 还有,补充一个3年多前在hackernews上对该文的讨论 http://t.cn/R7b0g98 不少人也讨论了其他语言(matlab, ruby, perl, java, R .... ) 的特点以及不转到python的原因 [ 微博 ]

2014-10-18 @好东西传送门: Why Python Rocks for Research http://t.cn/R74Duja 这篇文章里Hoyt Koepke总结了Python作为研究语言的十大优势:通用性(相对Matlab/R),可读性,高层抽象与底层操作的平衡,作为胶水语言的互操作性,文档,层次模块系统,灵活的数据结构,丰富的包,测试框架. [ 微博 ]

2014-10-18 Why Python Rocks for Research http://t.cn/R74Duja 这篇文章里Hoyt Koepke总结了Python作为研究语言的十大优势:通用性(相对Matlab/R),可读性,高层抽象与底层操作的平衡,作为胶水语言的互操作性,文档,层次模块系统,灵活的数据结构,丰富的包,测试框架. [ 微博 ]

2014-10-18 http://t.cn/Rh9Tsnt Science杂志和中国航天员中心人因工程重点实验室推出67页的专刊Human Performance in Space,发表了31篇中国载人航天的研究成果,如太空生理,太空中的认知行为和人机交互HCI,人体建模与绩效评估等.特别是其中HCI和认知部分对计算机科学研究也很有启发.这条新闻你想at谁? [ 微博 ]

2014-10-18 Li Ming是经典著作An Introduction to Kolmogorov Complexity and Its Applications的作者.他最近对Information Distance的研究对自然语言处理,问答系统都提供了新颖视角 http://t.cn/R740ao2 [ 微博 ]

2014-10-13 @孙茂松: CCL特邀报告:加拿大皇家学会院士李明“Approximating Semantics”,微软亚洲研究院首席研究员Junichi Tsujii“Linking Text with Data & Knowledge Bases”,长江学者周晓林“Processing Construction-based Pragmatic Constraints during Sentence Comprehension”和长江学者周志华“Boosting 25年” [ 微博 ]

2014-10-18 非常棒!//@bitslife: 刚刚更新了162篇新文章 http://t.cn/R74K9sg [ 微博 ]

2014-10-18 @bitslife: 看到下面一个页面,深感深度学习(Deep Learning)的应用太广了,从硬件、图像到健康、生物、大数据、生物信息再到量子计算等,Amund Tveit等维护了一个DeepLearning.University小项目:收集从2014年开始深度学习文献,相信可以作为深度学习的起点。http://t.cn/RhoE0gh Github:http://t.cn/R74KS5j [ 微博 ]

2014-10-18 国内也有很好的论坛, 例如人大经济论坛 http://t.cn/hrPJFc 新界面大约是2013五六月推出的 http://t.cn/R74SKcd //@司马左右: 真是越做越漂亮,后悔没有把之前的样子截图。国内为什么没有类似的网站呢?反而是一些统计软件使用基础的商业培训和一些要什么金币的资源网站大行其道。//@沈浩老师:保留 [ 微博 ]

2014-10-18 @好东西传送门: 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ 微博 ]

2014-10-18 回复@phunter_lau: 我们就是松鼠银行。小松鼠们不看没关系,在我们这里永远保存的。 //@phunter_lau:似乎是松鼠症总结,肯定很多只转不看留着过冬结果来年就忘记了 [ 微博 ]

2014-10-18 @好东西传送门: 好东西周报刚刚发出 http://t.cn/R74iqHY 如果过去一周有错过的好东西,看这个周报就好了 [呵呵] [ 微博 ]

2014-10-18 //@一刹春: 这篇报告可以放在更大的背景下来看——结构主义者与实验主义者之争,例如 http://t.cn/zQtdejz Pearl曾经很不客气地说:因果推断的计量模型受到了两股势力的绑架,一个是回归主义者,另一个是准实验主义者,例如Angrist and Pischke。顺便说,Pearl获得了2011年的图灵奖。 [ 微博 ]

2014-04-22 @一刹春: Judea Pearl写过一篇挺有意思的报告,比较了六本流行的本科计量教材,看它们对结构方程中因果性概念的阐述是否到位。根据他的吹毛求疵,比较接近理想标准的是Stock & Watson和Wooldridge这两本——似乎与市场的反响一致……WP出来有两年了,没想到发在一个奇怪的杂志上:http://t.cn/8sToYJA [ 微博 ]

2014-10-18 好东西周报刚刚发出 http://t.cn/R74iqHY 如果过去一周有错过的好东西,看这个周报就好了 [呵呵] [ 微博 ]

2014-10-18 还有,这个网站维护了一个数据集列表 http://t.cn/R74J1vT 索引了一大堆用于统计分析数据集,覆盖社会科学,公众健康,人口普查,国际政治,地理信息等领域 大家一起来挖这个网站上的好东西吧! [ 微博 ]

2014-10-18 @好东西传送门: 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ 微博 ]

2014-10-18 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ 微博 ]

2014-10-18 在加长版里,我们还看到几家相关领域的创业公司的新闻:@FacePlusPlus (人脸识别) @格灵深瞳 (视觉) Nara(推荐餐馆) Idibon(舆情追踪) 机器学习现在也是投资与创业热点 [ 微博 ]

2014-10-18 @好东西传送门: 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ 微博 ]

2014-10-18 今天的头条来自 @西瓜大丸子汤 @赵家平USC @AixinSG @王威廉 [ 微博 ]

2014-10-18 @好东西传送门: 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ 微博 ]

2014-10-18 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ 微博 ]

2014-10-18 http://t.cn/8sQnHYm “Better predictions. Faster.” R和Python都支持,看起来很有趣 //@ofsky: datarobot有木有,Jeremy你又要高兴了 [ 微博 ]

2014-10-18 @医学统计分析精粹: 除了Scipy和Numpy,Python通往数据科学还有一个极为强大的接口,Pandas。本网页整理了Pandas入门的几个经典资源,隆重推介。http://t.cn/R74qqAO @西瓜大丸子汤 @医学统计分析精粹 [ 微博 ]

2014-10-18 问: @战术核显英伟达 关于stata有什么好的书籍? 答: 资源整理 http://t.cn/R74tSJA 推荐人大经济论坛 “stata专版” 。很喜欢 hopenothing 2011年写的书单和建议 http://t.cn/R74tSJw : "要应用它,前提是要懂计量理论", "先从中文基本书籍入门,简单操作上手之后直接看英文", "不要被方法统治了思想" [ 微博 ]

2014-10-18 pandas最早是从金融数据处理开始的,现在已经演变成数据科学家必备了,不可不知 [ 微博 ]

2014-10-18 @医学统计分析精粹: 除了Scipy和Numpy,Python通往数据科学还有一个极为强大的接口,Pandas。本网页整理了Pandas入门的几个经典资源,隆重推介。http://t.cn/R74qqAO @西瓜大丸子汤 @医学统计分析精粹 [ 微博 ]

2014-10-17 @ShangguanRPI @朝花夕拾录 @陈涛sean @黄亮-算法时代 @老齐Py @StephanieYR @左耳朵耗子 @郑昀 @张俊林say @算文解字 @易度-潘俊勇 特别问问你们,有没有更多的python牛人应该关注? [ 微博 ]

2014-10-17 @好东西传送门: 现在问题来了,微博上Python技术谁家最强?欢迎大家推荐Python牛人们 [ 微博 ]

2014-10-17 现在问题来了,微博上Python技术谁家最强?欢迎大家推荐Python牛人们 [ 微博 ]

2014-10-17 Python是人类的救星 //@phunter_lau: Pig的救星,Pig这玩意语法太反人类了 [ 微博 ]

2014-10-17 @王威廉: Pig是管理Hadoop任务的一个高级程序语言,在Amazon的Elastic MapReduce平台上也有支持。上学期我们大数据机器学习课程介绍了Pig,不过Pig的语法有点诡异,学生普遍反映不好调试。针对此问题,William Cohen发明了一个叫Guinea Pig(荷兰猪)的轻量级语言,基于Python,非常有意思:http://t.cn/R7yRpKp [ 微博 ]

2014-10-17 //@西瓜大丸子汤: Doug是一位思想家,更是一位实践者,他发明了鼠标,超文本,计算机联网,最早的图形用户界面,远程电视会议,远程实时合作等等...见The Mother of All Demos http://t.cn/zQ7gpBt 他可以说是Web之父之父,TBL的很多思想是从他那来的, BTW,也是图灵奖得主. [ 微博 ]

2014-10-17 @西瓜大丸子汤: 向大家推荐Douglas Engelbart的书,最短的Boosting Our Collective IQ http://t.cn/R7UZhIU 只有三十多页,但我觉得比<失控>好十倍.另外两本<Bootstrapping><The Engelbart Hypothesis>不是他写的(他才没空写),不过都是对他的采访,也比较好.Doug对人类的影响极为深远,虽然大多数人不知道 [ 微博 ]

2014-10-17 推荐一篇ACM Computing Surveys 2010年综述,讲关于时间的数理模型 http://t.cn/R7yFUYT 1. 时间模型的考量维度,例如 离散/连续,顺序/分支,并发/组合,... 2. 数理模型发展史, 3. 常见时间模型分类, 例如 Petri网, 时间逻辑(Temporal Logic), 进程代数(process calculi) ... 抛砖引玉,欢迎指正 [ 微博 ]

2014-10-17 推荐系统必读.会议论文集.http://t.cn/RhFPLGl [ 微博 ]

2014-10-17 @AixinSG: RecSys 2014 完整报告视频, 包括每篇文章的报告 YouTube 链接 http://t.cn/R7y34x0 [ 微博 ]

2014-10-17 这两个东东当然好, Leetcode 前些时候才推过 http://t.cn/R7ymOb8 "crack the coding interview" 这个PDF版行吗 http://t.cn/R7ymObQ //@睡眼惺忪的小叶先森: 让大神@whiteath @靖难 也推荐一下。我估计推荐leetcode和砸死代码面试 [ 微博 ]

2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ 微博 ]

2014-10-17 补充一下: 要斗败烙印,还得提高情商。“The Algorithm Design Manual” 有很多人推荐过 年初是@velvel2 。而现在各公司都搞精准广告投放, Xavier Amatriain讲义自然对口, 可以先看KDD2014版(135页), 再看MLSS2014版(248页) , 所有资料都汇总到问答274了 http://t.cn/R7yEf6b 。 [ 微博 ]

2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ 微博 ]

2014-10-17 问: 关于进程代数研究的paper? 答: 资料汇总 http://t.cn/R7LN18n 进程代数process calculi用于为并发系统形式化建模,包括: π-calculus, ambient calculus, PEPA, fusion calculus, join-calculus。有本书 "Process algebra: equational theories of communicating processes" [ 微博 ]

2014-10-17 "Introduction To Algorithms" vs "The Algorithm Design Manual" 两本算法神作的进一步讨论: 前者是算法课的常客,概念清晰偏重理论(也是门主买过的为数不多的几本原价纸书), 而后者是编程实战利器(代码随用随抄),尤其适合准备白板面试。码农不妨看看stackoverflow的讨论 http://t.cn/R7yQ5a5 [ 微博 ]

2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ 微博 ]

2014-10-17 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ 微博 ]

2014-10-17 感谢@Arber @邱锡鹏 @CSDN_CODE @Jay_GraphLab 为我们分享了这些好东西.Fudan NLP和Graphlab都能不断推陈出新,产品越来越容易使用,无论是单机还是云,现在应用NLP越来越容易了. [ 微博 ]

2014-10-17 @好东西传送门: 机器学习头条 2014-10-16 http://t.cn/R7y09uG 1)Gerhard Weikum在VLDB'14的关于大数据分析的教程 2)垃圾邮件分类数据集 3)吴立德讲概率主题模型和数据科学基础 4)复旦大学推出基于云的FudanNLP 5)GraphLab Create正式发布,单机处理海量数据 加长版50条 http://t.cn/R7y09ub [ 微博 ]

2014-10-17 机器学习头条 2014-10-16 http://t.cn/R7y09uG 1)Gerhard Weikum在VLDB'14的关于大数据分析的教程 2)垃圾邮件分类数据集 3)吴立德讲概率主题模型和数据科学基础 4)复旦大学推出基于云的FudanNLP 5)GraphLab Create正式发布,单机处理海量数据 加长版50条 http://t.cn/R7y09ub [ 微博 ]

2014-10-17 RGB+Depth 深度感知计算机视觉 structure.io上有很酷的demo http://t.cn/z8rCSiR [ 微博 ]

2014-10-16 @cvnote计算机视觉笔记: CVPR'14 OpenCV 3.0 RGBD Tutorial | 由当年Kickstarter火爆的RGBD传感器 初创公司Occipital Sensor提供,今天扫了一眼Github还有源代码,使用的RGBD算法已经加入了OpenCV的contrib模块。http://t.cn/R7yyrMM [ 微博 ]

2014-10-17 Weikum是数据库,信息检索语义网领域的一位重要研究者,他在Max-Planc研究所。主页http://t.cn/R7yX6Je [ 微博 ]

2014-10-16 @Arber: Gerhard Weikum在VLDB'14的关于Big Data Anlytics的tutorial,非常好的总结了大数据知识库和语义这块的主要问题和技术体系。强烈建议做数据的人看看。他在下个月CIKM'14还有一个talk,估计类似。 http://t.cn/RhftLDi p.s. 看完也就知道一找的整体技术路线了~ [ 微博 ]

2014-10-16 http://t.cn/RPqUcVL graphlab create主页直达 [ 微博 ]

2014-10-16 @Jay_GraphLab: 经过一年多努力,GraphLab Create正式发布1.0:单机轻松处理海量图表/图(graph)/文本/图像(image)数据;机器学习模块包括推荐系统/社交网络/文本分析/最近邻搜索,还有前沿的BoostedTrees/DeepLearning/FactorizationMachine/LDA等模型;模型可以简单地被推送到云端,作为网站/App后台的智能预测服务 [ 微博 ]

2014-10-16 转发微博 [ 微博 ]

2014-10-16 @睡眼惺忪的小叶先森: 自己做的一个Introduction to Redis,给几个需要的同学看过,反响还行 [嘻嘻] http://t.cn/R7LmBxF @好东西传送门 @whiteath @囧囧有神的小杜霉女 [ 微博 ]

2014-10-16 Anaconda是一个Python科学计算库的集合.与之前介绍过的Sage之重分析和数学不同,Anaconda重数据和效率,提供了诸多大数据分析工具,如Blaze(分布式数据分析), Bokeh(可视化), Numba(更快的Python代码编译) 最新的版本打包了195个科学计算包,极大方便 http://t.cn/zHsZMWW [ 微博 ]

2014-10-16 问:@执手共看云归醉晚汐 垃圾邮件分类有什么数据集么? 答:资料汇总 http://t.cn/R7L0GJZ 垃圾邮件数据集常见的有 UCI, enron, SpamAssassin, TREC。注意 Spam Archive dataset 有1997-2014的1个多G压缩过的垃圾邮件。尚未找到专门对垃圾邮件进一步标注分类的公开数据集 敬请指正 [ 微博 ]

2014-10-16 找了一些 http://t.cn/R7L0GJZ 你看是你需要的吗? [ 微博 ]

2014-10-09 @执手共看云归醉晚汐: 垃圾邮件分类有什么数据集么@好东西传送门 @西瓜大丸子汤 [ 微博 ]

2014-10-16 相关 2014-08-02 @理想主义de患者 问:有没有垃圾邮件检测的项目啊。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。 http://t.cn/R7L0iI7 [ 微博 ]

2014-10-09 @执手共看云归醉晚汐: 垃圾邮件分类有什么数据集么@好东西传送门 @西瓜大丸子汤 [ 微博 ]

2014-10-16 感谢 @Copper_PKU @MOOC学院 @规勒个划 @BigData大数据 提供或帮我们发现了这些好资源 [ 微博 ]

2014-10-16 @好东西传送门: 机器学习头条 2014-10-15 http://t.cn/R72BEMB 1)125页的免费电子书,Boyd的ADMM综述 2)机器学习入门资源不完全汇总 3)好课推荐:斯坦福大学《博弈论》 4)BCL发布一亿Flickr照片数据集的中国部分 5)Andrew Ng公开演讲深度学习:用大规模大脑实现机器学习 加长版50条 http://t.cn/R72BEMd [ 微博 ]

2014-10-16 机器学习头条 2014-10-15 http://t.cn/R72BEMB 1)125页的免费电子书,Boyd的ADMM综述 2)机器学习入门资源不完全汇总 3)好课推荐:斯坦福大学《博弈论》 4)BCL发布一亿Flickr照片数据集的中国部分 5)Andrew Ng公开演讲深度学习:用大规模大脑实现机器学习 加长版50条 http://t.cn/R72BEMd [ 微博 ]

2014-10-16 恭喜中国卫生政策与管理学会(海外)成立.我们的朋友里也有好多卫生经济学和统计的同仁 @陈茁博士_Adam @医学统计分析精粹 @美国中部大平原的胖胖 //@史律: 轉發微博 [ 微博 ]

2014-10-15 @romanxu: 在@行走江湖张大水 的不懈努力下,@CHPAMS 终于在共和国国庆那天正式注册成功。祝贺大水当选第一任主席。CHPAMS从2008在波士顿的第一次酝酿到如今已六年,我有幸见证了它发展的每一个瞬间。风风雨雨,茁壮成长。有大家一片赤情,CHPAMS会越办越好。作为其首任理事,我也愿为大家服好务。www.chpams.org [ 微博 ]

2014-10-16 125页的免费电子书,Boyd的ADMM综述 pdf直达http://t.cn/R721y3V [ 微博 ]

2014-10-15 @Copper_PKU: Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers http://t.cn/R72zKr9 有paper有survey 有code 简直.... [ 微博 ]

2014-10-16 //@刘挺: LTP是@哈工大SCIR 历时十余年研制的一套中文处理基础工具平台,开源且提供云服务,很多开发者在用。这次我们在京召开一个LTP用户的交流会,请大家提意见和建议。LTP的研制者@车万翔 等师生会介绍LTP的原理、功能和使用方法,也会有老用户介绍使用经验,欢迎大家一起来交流! [ 微博 ]

2014-10-15 @哈工大SCIR: 第一届语言技术平台用户大会(LTP-2014)将于2014年10月31日上午在京举行,届时将邀请LTP的技术团队介绍技术原理和应用、LTP用户介绍使用经验,还将组织针对LTP的研讨。本次研讨会自由报名,竭诚欢迎学术界与企业界的朋友参加。会议安排及报名方式请访问会议主页:http://t.cn/R7AgbAZ @刘挺 @车万翔 [ 微博 ]

2014-10-15 谢了,已经更新。书前段时间推荐过,正打算改天补充一个书单;林老师的机器学习基石课加上了; 最后一门课已包括 //@tang_Kaka_back: 再加上李航博士的《统计学习方法》。如果觉得数学功底还过得去,还可以试试就是台大林轩田老师的“Machine Learning Foundation” or Caltech的“Learning from Data” [ 微博 ]

2014-10-15 @好东西传送门: 问: 本科生想学机器学习, 求推荐一个学习路线图 答: 整理了《机器学习入门资源不完全汇总》 http://t.cn/R7AkewK 推荐先看基本概念与几个路线图,参考小伙伴的进修攻略 (包括此前推的 学霸的学习笔记), 选修一门网上公开课(Tom Mitchell, Andrew Ng)系统地打好基础,理解算法实战要点。欢迎补充指正 [ 微博 ]

2014-10-15 问: 本科生想学机器学习, 求推荐一个学习路线图 答: 整理了《机器学习入门资源不完全汇总》 http://t.cn/R7AkewK 推荐先看基本概念与几个路线图,参考小伙伴的进修攻略 (包括此前推的 学霸的学习笔记), 选修一门网上公开课(Tom Mitchell, Andrew Ng)系统地打好基础,理解算法实战要点。欢迎补充指正 [ 微博 ]

2014-10-15 Yaha"哑哈"中文分词(作者余争) 优点:可以自定义分词方法,有正则表达式插件,人名前缀插件,地名后缀插件,新词学习功能.还有关键字提取,文本摘要,词语纠错功能,不仅是分词.Python的,使用非常简单 Github http://t.cn/R7AQyPt 在线演示 http://t.cn/R7AQyPc [ 微博 ]

2014-10-15 规划控,GIS控,图片控,赶快来围观,200万张照片哦 [ 微博 ]

2014-10-15 @规勒个划: BCL发布Yahoo! 提供一亿Flickr照片数据集的中国部分(下载+裁剪),下载猛戳:http://t.cn/R7ATWph @北京城市实验室BCL [ 微博 ]

2014-10-15 UIUC黄嘉斌(Jia-Bin Huang)的奇妙工作:图像补全.从图像里抹掉或切掉一部分,可以根据背景补上相近的建筑,物体纹理等.http://t.cn/R7AWFqg Matlab代码已经开源 http://t.cn/R7AWFqd [ 微博 ]

2014-10-15 黄嘉斌用特殊的“主成分分析法”PCA和奇异值分解法(singular value decomposition)SVD做韩国小姐脸部特征的分析,验证了那个著名的观点“大众脸很吸引人,但最吸引人的却不是大众脸”. 英文原文http://t.cn/zTYkQB0 [ 微博 ]

2013-05-07 @果壳网: 【“韩国小姐”的脸到底有多相似?】2013年“韩国小姐”选美大赛开始后,曝光的20位佳丽面容惊人的相似。那么,这些姑娘的脸到底有多么像呢?能否用科学的方法量化这种相似性?伊利诺伊大学香槟分校搞计算机视觉的博士生黄嘉斌写了篇文章,用科学的方法揭开了这个谜团:http://t.cn/zTYBfsN [ 微博 ]

2014-10-15 转发微博 [ 微博 ]

2014-10-15 @BigData大数据: 【Andrew Ng加盟百度后第一公开演讲】吴恩达加盟百度后第一公开演讲,演讲题目:Deep Learning: Machine Learning via Large-scale Brain http://t.cn/R7ASfYu 有兴趣的可以看看 @杨静Lillian @龙星镖局 @云泉微博 @好东西传送门 @李元超Osiris @异步步 [ 微博 ]

2014-10-15 感谢 @马超Terminal @李沐M @梁斌penny @cswhjiang @许扬逸Dijkstra 等讨论和推荐 parameter server那条还有一个@老师木 起的相关讨论 http://t.cn/R7ALYi5 可以一起看 [ 微博 ]

2014-10-15 @好东西传送门: 机器学习头条 2014-10-14 http://t.cn/R7ALbiR 1)spark和parameter server的讨论 2)Think系列免费电子书 3)@梁斌penny 的电商词库 4)Rob Tibshirani的15小时机器学习教程 5)用计算机视觉分析“韩国小姐”的脸到底有多相似 加长版49条 http://t.cn/R7ALbi8 [ 微博 ]

2014-10-15 机器学习头条 2014-10-14 http://t.cn/R7ALbiR 1)spark和parameter server的讨论 2)Think系列免费电子书 3)@梁斌penny 的电商词库 4)Rob Tibshirani的15小时机器学习教程 5)用计算机视觉分析“韩国小姐”的脸到底有多相似 加长版49条 http://t.cn/R7ALbi8 [ 微博 ]

2014-10-15 补充一下: 网易的公开课指Ng在斯坦福CS229的课程视频,有中文字幕 http://t.cn/arei5O 而Ng在Coursera 的课是简化版 http://t.cn/RPZBPZL //@好东西传送门: Ng机器学习课的网易公开课网址 http://t.cn/h5n6lh [ 微博 ]

2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ 微博 ]

2014-10-15 Ng机器学习课的网易公开课网址 http://t.cn/h5n6lh //@phunter_lau: 这不是这两位大爷的在线公开课么,这个基于统计角度的机器学习课倒是不太适合无基础的初学者也不是速成,学过Andrew Ng的机器学习课程想深入一些的可以看看 [ 微博 ]

2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ 微博 ]

2014-10-15 //@phunter_lau: 这不是这两位大爷的在线公开课么,这个基于统计角度的机器学习课倒是不太适合无基础的初学者也不是速成,学过Andrew Ng的机器学习课程想深入一些的可以看看//@好东西传送门: 15小时学习机器学习.Tibshirani是经典Elements of Statistical Learning的作者 [ 微博 ]

2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ 微博 ]

2014-10-15 15小时学习机器学习.Tibshirani是经典Elements of Statistical Learning的作者.这个教程是基于他们的新书An Introduction to Statistical Learning with Applications in R (ISLR). [ 微博 ]

2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ 微博 ]

2014-10-14 //@聪老师ZJU永远马屁精:这个讨论非常有意思。第一个人问的问题也是我一直以来的问题。ELM在learning领域太非主流了,发明人把它搞成了一个极小的圈子,供大家一起水文章。除了MSR的邓力,没听任何在learning界有所建树的牛人提过ELM。 [ 微博 ]

2014-10-14 @好东西传送门: 问: 有没有仔细介绍极限学习机ELM和S变换的文章,最好是中文的 答: 资料汇总 http://t.cn/R7wPJYa 网上社区 http://t.cn/R7wPJYS 有代码教程及年会信息。matlabsky 有两个中文资源列表。注意到reddit上学术争议 http://t.cn/R7wPJYK 猜测“ELM是 SVM with a random inflationary kernel" 敬请指点 [ 微博 ]

2014-10-14 转发微博 [ 微博 ]

2014-10-14 @冯志伟文化博客: 回复@泛黄的鹿 对博文【关于斯坦福句法剖析器 -- 答网友】的评论:"Stanford Parser使用了SPSG(统计短语结构语法),没有考虑单词的特征,所以,不是词汇化的SPSG模型(Lixicalized SPSG)。 v 冯志伟"查看原文:http://t.cn/aoig2Z [ 微博 ]

2014-10-14 不错的起步教程。传送门直达 http://t.cn/R7wfRwD [ 微博 ]

2014-10-14 @cnodejs: Redis快速入门教程 http://t.cn/R7Z0WNO [ 微博 ]

2014-10-14 自然语言处理的靠谱公司,帮转 //@李志飞AI:跪求Android,iOS以及其他工程师,请大家帮忙转发扩散。简历可直接发我邮箱zfli@mobvoi.com,优先处理! [ 微博 ]

2014-10-14 @出门问问: #出门问问招聘啦#几十年前,如果你说要改变世界,得到的答复很可能是“呵呵”;但今天,如果你说你要改变世界,没有人敢嘲笑你。让“改变世界”变得可信的,是一群叫做“工程师”的人。如果你也有同样的梦想,快快加入我们的队伍吧![来]http://t.cn/R7whlVj [ 微博 ]

2014-10-14 问: 有没有仔细介绍极限学习机ELM和S变换的文章,最好是中文的 答: 资料汇总 http://t.cn/R7wPJYa 网上社区 http://t.cn/R7wPJYS 有代码教程及年会信息。matlabsky 有两个中文资源列表。注意到reddit上学术争议 http://t.cn/R7wPJYK 猜测“ELM是 SVM with a random inflationary kernel" 敬请指点 [ 微博 ]

2014-10-14 是这本书吧 http://t.cn/R7ZFBQe 2012 年 @高哲遠_StonyBrook_CS 同学曾经尝试翻译了一些章节, http://t.cn/RvHjRLs //@MOJUN: 话说,就没人翻译那本经典《Pattern Recognition And Machine Learning》吗? [ 微博 ]

2014-10-14 @好东西传送门: [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ 微博 ]

2014-10-14 期待梁总的分享链接 [ 微博 ]

2014-10-14 @梁斌penny: 最近有不少科研机构找我要电商词库,用于科学研究,我们曾经做过30万个细分的小类的电商词(合计8.6亿词汇),包括类号,词,和词频,如下图。 这样吧,一会我们在pennyjob中拿1万个小类(500万词)分享下,写论文肯定是够了。 [ 微博 ]

2014-10-14 很多人问到怎么订阅<机器学习日报>.为方便大家,做了个订阅按钮在主页上,域名 ml.memect.com http://t.cn/R7ZepFz .或给 hao@memect.com 发封空信,标题是 " 订阅机器学习日报 " 即可.另外,过去几期长短版的链接都加到主页上了. [ 微博 ]

2014-10-14 //@星空下的巫师: 去年ImageNet的第一名Zeiler&Fergus的论文有提到,今年VGG的论文Very Deep Convolutional Networks for Large-Scale Image Recognition的Part 5也有较详细的描述,可以去看看。 [ 微博 ]

2014-10-14 @姜文晖061: 有一个很弱的问题,ImageNet竞赛中,分类和定位是一个Task,可为什么大家的论文里为啥都只说分类,没说怎么用那个网络做定位。是因为太简单了,只有我不知道么?请指教[泪] @星空下的巫师 @ICT秦磊 @丕子 @欢乐的陈奇 @JOSHUA的时间轴 @孙炜晨 @木乱人先生 @好东西传送门 [ 微博 ]

2014-10-14 [good] 期待!//@许扬逸Dijkstra: ThinkBayes中译版已经完成翻译,译者不才正是在下[黑线]。应该最近就会由人民邮电社出版。敬请期待! [ 微博 ]

2014-10-14 @好东西传送门: [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ 微博 ]

2014-10-14 [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ 微博 ]

2014-10-14 感谢@火光摇曳Flickering @孙茂松 @机器学习讲座 @丕子 @任远AI 的推荐和精彩评论 [ 微博 ]

2014-10-14 @好东西传送门: 机器学习头条 2014-10-13 http://t.cn/R7ZSYyw 1)转化率预估-2 逻辑回归技术 2)全国计算语言学学术会议10月18—19日在华中师大召开 3)A*搜索算法的可视化短教程 4)caffestudy(2)关于forward和backward-backward 5)natural language generation经典工作和方法 加长版46条 http://t.cn/R7ZSYy4 [ 微博 ]

2014-10-14 机器学习头条 2014-10-13 http://t.cn/R7ZSYyw 1)转化率预估-2 逻辑回归技术 2)全国计算语言学学术会议10月18—19日在华中师大召开 3)A*搜索算法的可视化短教程 4)caffestudy(2)关于forward和backward-backward 5)natural language generation经典工作和方法 加长版46条 http://t.cn/R7ZSYy4 [ 微博 ]

2014-10-14 回复@星轨1202110: ml.memect.com http://t.cn/R7ZiLYP 那里可以订阅 //@星轨1202110:新人 想知道 在哪里看机器学习 日报 [ 微博 ]

2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ 微博 ]

2014-10-14 回复@IT教师: 给 hao@memect.com 发封空信,标题 订阅机器学习日报 //@IT教师:怎么加入邮件列表? //@好东西传送门:52:20 长版领先.这个投票再保留一天,同时我们也在邮件列表里咨询大家意见了.如果需要切换,我们会先征求一些用户测试,看看长版的实际效果如何.谢谢已经投过票的朋友们! [ 微博 ]

2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ 微博 ]

2014-10-14 52:20 长版领先.这个投票再保留一天,同时我们也在邮件列表里咨询大家意见了.如果需要切换,我们会先征求一些用户测试,看看长版的实际效果如何.谢谢已经投过票的朋友们! [ 微博 ]

2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ 微博 ]

2014-10-14 回复@lp_挖掘机:给hao@memect.com发封空信,标题是 订阅机器学习日报 就可以了//@lp_挖掘机:回复@好东西传送门:怎么订阅这个? [ 微博 ]

2014-10-13 @lp_挖掘机: 我参与了@好东西传送门 发起的投票【你希望机器学习日报邮件发短版还是长版?】,我投给了“长版,所有的东西都在邮件里,踏实,好找”这个选项。你也快来表态吧:http://t.cn/R7zcJJm [ 微博 ]

2014-10-13 //@王威廉:[good] 主题演讲和知识图谱研讨会的内容都很有意思,有条件的同学争取去学习一下。 //@刘知远THU: NLP全国年度盛会。:) @王威廉 @丕子 @龙星镖局 @好东西传送门 [ 微博 ]

2014-10-13 @孙茂松: “第十三届全国计算语言学学术会议”(CCL 2014)和 “第二届基于自然标注大数据的自然语言处理国际学术研讨会”(NLP-NABD 2014)将于今年10月18—19日在华中师大召开。大会特邀报告汇聚了四位国内外大牌学者,涵盖自然语言处理、认知及机器学习多个深刻话题。欢迎注册参加! http://t.cn/8sMoDdb [ 微博 ]

2014-10-13 推荐A搜索算法的可视化短教程 http://t.cn/R7zO4To A搜索是人工智能基本算法,用于高效地搜索图中两点的最佳路径, 核心是 g(n)+h(n): g(n)是从起点到顶点n的实际代价,h(n)是顶点n到目标顶点的估算代价。下图看优点: 选择最佳路径,同时降低搜索代价(不遍历所有格子) 合集 http://t.cn/R7zO4TK [ 微博 ]

2014-10-13 大家可以到issue254围观讨论精华区 http://t.cn/R7zomOr //@青圩小康: 转发微博 [ 微博 ]

2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ 微博 ]

2014-10-13 //@任远AI: 我校的NLG组号称世界最大,两位教授Ehud和Yaji创建了很成功的NLG公司 http://t.cn/R7zocR9 。在我校的NLP课程 http://t.cn/R7zocRC 后半有Ehud讲授的NLG内容。爱丁堡有专门的NLG课程 http://t.cn/R7zocRK ,里面有完整的讲义和大量延伸阅读材料。会议的话看INLG( http://t.cn/R7zocRo [ 微博 ]

2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ 微博 ]

2014-10-13 @丕子 问:natural language generation 经典工作和方法?答:BBN的David D. McDonald在NLP Handbook里有一章Natural Language Generation(自然语言生成),有20多页,讲得很全面.文后附了很多参考文献,经典的工作应该都涵盖了 http://t.cn/R7zaBVI [ 微博 ]

2014-10-13 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ 微博 ]

2014-10-13 在手机上可以看世行数据了:MacroStats to Go(世行宏观统计数据).另外搭车推一遍我们整理的数据集目录,一共20个http://t.cn/R7z5ErQ 世行数据也在其中 [ 微博 ]

2014-10-12 @世界银行: #世界银行2014年秋季年会# 如果您下次访问苹果商店,请考虑下载一个既可供您娱乐又给您提供信息的应用程序吧[哈哈]。世行在年会召开之际推出MacroStats to Go(世行宏观统计数据)应用程序,将世界上最大的经济数据库之一的数据置于您手掌之中,快去下载吧,好处你知道哈[阴险]。http://t.cn/R7hLqRi [ 微博 ]

2014-10-13 这本书也不错,推荐一下.英文原版R in a Nutsbell http://t.cn/R7zGAhJ [ 微博 ]

2014-08-26 @互动出版网china-pub: #新书到货#《R语言核心技术手册(第2版)》面向统计计算与数据可视化 业界公认R语言最佳入门 覆盖领域最全实战案例最多 数据从业者案头必备工具书。内容新增了R高性能计算、基于ggplot2的数据可视化和利用Hadoop做并行运算。本书详情:http://t.cn/RPg4urU @电子工业出版社 @刘思喆 [ 微博 ]

2014-10-13 好东西.更多关于ipython的资料 http://t.cn/R77F8w7 [ 微博 ]

2014-10-13 @squirrel_d: ipython notebook格式的一本书,讲述如何用python进行统计分析,内容包括mcmc,hanmiltonian MC,高斯过程,狄利克莱过程等 http://t.cn/R77ulSW [ 微博 ]

2014-10-13 感谢最右.欢迎更多建议,我会帮着整理讨论合集和增补 //@Copper_PKU: http://t.cn/R77gFV4 给你推荐一个 我曾经参加过summer school 这个人讲了NLG的一些技术 [ 微博 ]

2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ 微博 ]

2014-10-13 CommonCrawl简介.把以前几条和CommonCrawl这个巨大的数据集相关的微博汇总了一下.这个数据集对各行各业的人应该都有用,和Wikipedia类似.文字版 http://t.cn/R77RbnD [ 微博 ]

2014-10-13 是一个有50亿网页的搜索索引 http://t.cn/RPIJ8V9 //@李立辉lilihui: Commoncrawl是什么?见我们以前的推荐 http://t.cn/R77QeUA http://t.cn/R77QeUw [ 微博 ]

2014-08-30 @好东西传送门: 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ 微博 ]

2014-10-13 感谢@蒋涛CSDN @cvnote计算机视觉笔记 @极度视界 @breezedeus 的推荐 开源版数据科学教程 尤其赞,收集了各方向近20门课程,在家就可以自学数据科学硕士 [ 微博 ]

2014-10-13 @好东西传送门: 机器学习头条 2014-10-12 http://t.cn/R77YEFk 1)开源版数据科学教程 2)usaddress解析自然语言描述的美国地址字符串 3)NEIL: Never Ending Image Learning 4)ASR corpus开放语音语料库 5)特征选择要点清单 加长版50条 http://t.cn/R77YEFF [ 微博 ]

2014-10-13 机器学习头条 2014-10-12 http://t.cn/R77YEFk 1)开源版数据科学教程 2)usaddress解析自然语言描述的美国地址字符串 3)NEIL: Never Ending Image Learning 4)ASR corpus开放语音语料库 5)特征选择要点清单 加长版50条 http://t.cn/R77YEFF [ 微博 ]

2014-10-12 [开源软件] usaddress 利用机器学习将自然语言描述的美国地址字符串解析为结构化数据, python 包, github 近200星。分词用正则表达式, 机器学习用 Conditional Random Fields (pyCRFsuite) 源码: http://t.cn/R7hCJbY 相关资料 http://t.cn/R7hCJbj [ 微博 ]

2014-10-12 作者 Scott Krig http://t.cn/R7hiMF2 [ 微博 ]

2014-10-11 @cvnote计算机视觉笔记: 好书推荐 | Computer Vision Metrics, Survey, Taxonomy and Analysis | Scott Krigs 2014最新作品,对目前流行的计算机视觉算法进行了深入浅出的讲解,包括各种图像特征描述方法、图像成像原理、距离度量、视觉算法开发的整体优化等等。最重要的是:电子版是免!费!的!http://t.cn/R7Ppb1k [ 微博 ]

2014-10-12 好东西周报+一周的机器学习头条 总结已经发出了 http://t.cn/R7hJWhZ 过去一周我们推荐的好东西统统在这里.和以前一样Github已经同步更新 http://t.cn/RPfAgNg [ 微博 ]

2014-10-12 把这条单独拿出来推一下,看看搞spark的和multiboost的朋友们有什么建议? [ 微博 ]

2014-10-11 @BaiGang-: 十一之后对Spark MultiBoost做了些调整 http://t.cn/R7Pp3K3, 现在支持用mllib中的SVM和LR作为general base learner,比之前的decision stump model在训练效率上和效果上都提高了很多。欢迎fork&star http://t.cn/RhI1RB3 [熊猫] [ 微博 ]

2014-10-12 感谢推荐者@eeyangc @上微博的猫V @Python开发者 @网路冷眼 今天的5条之外还有不错的前沿新闻,如@velvel2 推荐的Not All Neural Embeddings are Born Equal结合语言模型和翻译模型 @BaiGang- 开源的Spark MultiBoost 都在加长版中 http://t.cn/R7hy8gY [ 微博 ]

2014-10-12 @好东西传送门: 机器学习头条 2014-10-11 http://t.cn/R7hy8gT 1)好书Freedman的statistical models theory and practice 2)Netflix技术分享的资源17条 3)一张图的故事概率分布之间的关系(下) 4)scikit-learn用于机器学习的Python模块 5) Spark打破了MapReduce排序世界记录 加长版69条 http://t.cn/R7hy8gY [ 微博 ]

2014-10-12 推荐这篇!可结合读@AixinSG 推荐的如何选择最适合的推荐模型 http://t.cn/R7hU5co @xccds 推荐的特征工程的方方面面 http://t.cn/RhdVoZT [ 微博 ]

2014-10-11 @breezedeus: 特征工程在具体项目里的作用其实比算法大的多,换个角度说,算法可以认为是用来提取特征的。强烈推荐这篇讲特征选择的博文,进去后你会发现,文章论及的远不止特征选择。而且附带了丰富的参考文献,甚至处理具体问题的详细步骤。http://t.cn/R7PEiL5 [ 微博 ]

2014-10-12 机器学习头条 2014-10-11 http://t.cn/R7hy8gT 1)好书Freedman的statistical models theory and practice 2)Netflix技术分享的资源17条 3)一张图的故事概率分布之间的关系(下) 4)scikit-learn用于机器学习的Python模块 5) Spark打破了MapReduce排序世界记录 加长版69条 http://t.cn/R7hy8gY [ 微博 ]

2014-10-11 fuxi是一个很不错的推理引擎。 [ 微博 ]

2014-10-11 @潘越_: FuXi http://t.cn/R7Pfso7 很不错,可惜没有人维护了,不支持rdflib 4.x和Python 3.x [ 微博 ]

2014-10-11 昨天 @龙星镖局 推荐了Netflix个性化和推荐系统架构。这里我们收集了Memect的用户们分享的更多的关于Netflix技术分享的资源,一共17条,涉及推荐系统方法,大数据平台,开源系统等。特别推荐《Netflix视频推荐的背后:算法知道你想看什么》《Big Data Lessons From Netflix》http://t.cn/R7Pqfw3 [ 微博 ]

2014-10-11 http://t.cn/h4PrxS 斯坦福哲学百科全书。虽然听起来有点玄,其实里面有很多和数学、计算机科学相关的内容,例如和逻辑相关的有近百条,还有语言学、概率论、脑与认知等很多精彩条目,有益开拓眼界。(另附一张西方哲学系谱图) [ 微博 ]

2014-10-11 LISP里有强大的宏,用MacroPy在Python里也可以实现。例如LINQ风格的数据查询语言。用宏可以自己来发明语言了。人生苦短... [ 微博 ]

2014-10-11 @好东西传送门: 接上面的Python函数式编程的讨论.已经发明的轮子主要有这几个:标准库里的functools http://t.cn/R7Pw9ne fn.py 见@InfoQ 的这篇文章 http://t.cn/zY1VzLx gf定义通用函数 http://t.cn/R7Pw9nD MacroPy宏语言http://t.cn/R7Pw9nk 此外还有 pyfunctor funcy toolz [ 微博 ]

2014-10-11 接上面的Python函数式编程的讨论.已经发明的轮子主要有这几个:标准库里的functools http://t.cn/R7Pw9ne fn.py 见@InfoQ 的这篇文章 http://t.cn/zY1VzLx gf定义通用函数 http://t.cn/R7Pw9nD MacroPy宏语言http://t.cn/R7Pw9nk 此外还有 pyfunctor funcy toolz [ 微博 ]

2014-10-11 谁来写写萝莉分布(Rayleigh distribution) [哈哈] //@we1559: 原po好腐。。。正态分布能打成正太分布 //@好东西传送门: 博主的(下)来了[good]. (上) 的微博: http://t.cn/R7vkfIY [ 微博 ]

2014-10-11 @上微博的猫V: 【一张图的故事——概率分布之间的关系(下)】 图中概率分布之间的转化关系大致可以分成三种:1.近似关系,如正太分布可以用来近似泊松分布、二项分布和伽马分布。2.变量变换关系,如随机变量X服从均匀分布U(0,1), 则−θlnX服从指数分布。 3.特例关系,如卡方分布是伽马分布...http://t.cn/R7vmBGH [ 微博 ]

2014-10-11 赞.搭车推荐一个python函数式编程的报fn http://t.cn/zTHOud5 可以非常简明又易懂地实现很多函数式编程,如简化的lambda定义,序列流,尾递归,很多高级的数据遍历操作(几乎可以理解为Python上定义的一个数据查询语言),强大[威武] [ 微博 ]

2014-10-11 @申导: 拙作 《Python函数式编程》,记录了自己一点学习心得。 http://t.cn/R7vgeUp [ 微博 ]

2014-10-11 博主的(下)来了[good]. (上) 的微博:http://t.cn/R7vkfIY 另外再感谢一次@散沙_民工智能 最早发现和分享了这张图 [ 微博 ]

2014-10-11 @上微博的猫V: 【一张图的故事——概率分布之间的关系(下)】 图中概率分布之间的转化关系大致可以分成三种:1.近似关系,如正太分布可以用来近似泊松分布、二项分布和伽马分布。2.变量变换关系,如随机变量X服从均匀分布U(0,1), 则−θlnX服从指数分布。 3.特例关系,如卡方分布是伽马分布...http://t.cn/R7vmBGH [ 微博 ]

2014-10-11 感谢头条的作者和推荐者们 @龙星镖局 @InfoQ @zhujiangmail @网路冷眼 .今天Netflix的案例可以结合前天Josh Wills讲工业界和学术界机器学习的异同那条看,系统优先于算法 http://t.cn/R7vOofL [ 微博 ]

2014-10-11 @好东西传送门: 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 2)Android上的相似图像推荐 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 5)Michael Jordan解析领域中各类模型 加长版62条 [ 微博 ]

2014-10-11 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 2)Android上的相似图像推荐 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 5)Michael Jordan解析领域中各类模型 加长版62条 [ 微博 ]

2014-10-11 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 @龙星镖局 2)Android上的相似图像推荐 @zhujiangmail 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 @好东西传送门 5)Michael Jordan解析领域中各类模型 @网路冷眼 加长版62条 http://t.cn/R7vNur3 [ 微博 ]

2014-10-11 感谢大家@张俊林say @昊奋 @东北大学自然语言处理实验室 @AixinSG 讨论合集已经整理到这里了 http://t.cn/R7vNvt4 [ 微博 ]

2014-10-10 @yuxyang: @好东西传送门 求推荐识别歧义词的方法和文章。比如: 苹果 有苹果手机和苹果这两个意思。金六福有金六福珠宝和金六福酒业这些意思。 如何识别这样的词 并做区分呢? [ 微博 ]

2014-10-11 //@侠女无敌-曾佩玲: 补充一个很好的 reading list: http://t.cn/8FqFegC //@AixinSG: @LCL-WHU 做过Word Sense Disambiguation (WSD)方面的尝试。判断哪些词可 能有歧义需要一个知识库支持,我们用的是基于Wikipedia建立的语料库;然后根据歧义词语义判断区分 http://t.cn/R7v7tl0 [ 微博 ]

2014-10-10 @yuxyang: @好东西传送门 求推荐识别歧义词的方法和文章。比如: 苹果 有苹果手机和苹果这两个意思。金六福有金六福珠宝和金六福酒业这些意思。 如何识别这样的词 并做区分呢? [ 微博 ]

2014-10-11 期待王斌老师的中文版! //@马少平THU:又让我们掏银子了//@王斌_IIEIR: 翻译完了校对中,勿喷//@AixinSG [ 微博 ]

2014-10-10 @好东西传送门: Taming Text是一本从实用的角度基于Java处理文本的好书.它包括了文本搜索的原理和用Solr的实现,字符串匹配.实体(如人名地名)识别和OpenNLP实现,文本聚类及工具Carrot//Mahout,文本分类的工具Lucene/Mahout/OpenNLP等 http://t.cn/htf5rQ 源代码http://t.cn/RhsDOce [ 微博 ]

2014-10-11 Awesome C/C++不错.统计了一下Github上的原文 http://t.cn/R7vSNTo ,大约列了350个资源 [ 微博 ]

2014-10-10 @伯乐头条: 《Github干货系列:C++资源集合》这又是一个 Awesome XXX 系列的资源整理,由 fffaraz 发起和维护。内容包括:标准库、Web应用框架、人工智能、数据库、数据可视化、图片处理、机器学习、日志、代码分析等。http://t.cn/R7vhj7w [ 微博 ]

2014-10-10 赞好奇猫团队的杰出翻译,主译者是美女Billie Zhang http://t.cn/Rhsksfv [ 微博 ]

2014-10-10 @Easy: 一直不会shell编程,mark下来回头读。《Linux命令行》中文版,http://t.cn/zQG7kxb 目录见大图 PDF @微盘 下载 http://t.cn/RhskyeL [ 微博 ]

2014-10-10 约翰霍普金斯大学JHU作为自然语言处理的一个重镇,其CLSP Seminars广邀重要学者讲学.例如近三期是Isidoros Doxa讲LSA, Jackie CK Cheung讲分布式语义,Yoshua Bengio讲生成模型的深度学习.多年来400多个讲座都在这里.关键学者和话题,在此一目了然 http://t.cn/RhskULw [ 微博 ]

2014-10-10 Taming Text是一本从实用的角度基于Java处理文本的好书.它包括了文本搜索的原理和用Solr的实现,字符串匹配.实体(如人名地名)识别和OpenNLP实现,文本聚类及工具Carrot//Mahout,文本分类的工具Lucene/Mahout/OpenNLP等 http://t.cn/htf5rQ 源代码http://t.cn/RhsDOce [ 微博 ]

2014-10-10 用Python实现逻辑回归Logistic Regression。LR是一种强大而简单的机器学习模型,例如Gmail的收件箱分类就使用了LR算法。这篇文章里Kevin Markham介绍了用scikit-learn实现LR的步骤,综合运用statsmodels pandas matplotlib patsy和scikit-learn,一步步教你如何分析数据与建模 http://t.cn/RhsNbFA [ 微博 ]

2014-10-10 名字显然是在向《Parallel Distributed Processing》这本经典致敬 http://t.cn/RhsLEzv 那是McClelland自己28年前的书了 [ 微博 ]

2014-06-13 @王晓伟alex: 分享一本关于分布式并行处理的数据《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的James L. McClelland。着重介绍了各种神级网络算法的分布式实现,做Distributed Deep Learning 的童鞋可以参考下。网址:http://t.cn/8kltYYT [ 微博 ]

2014-10-10 总结:@陈佳威_有荷有兰要发光 @哇噻大魔王 推荐ODPS; @陈天奇怪 @范涛_中科大 推荐xgboost http://t.cn/8sVIdCB @irwenqiang 推荐pGBRT http://t.cn/zjaDoYX [ 微博 ]

2014-10-09 @龙星镖局: 求助:有没支持大规模训练的开源GBDT? [ 微博 ]


2014-10-09 @Mindey 君对SageMath云平台计算环境的介绍更赞,有优酷视频 http://t.cn/RhF9Ma8 //@Mindey: It is awesome tool indeed! [ 微博 ]

2014-10-09 @好东西传送门: Sage是一个Python的强大的数学工具箱合集,基本上常见数学计算都有支持:代数方程,微积分,微分方程,多项式,线性代数,群论,数论,拓扑学代数几何,椭圆曲线,可视化....详细列表见长微博。相比某其他软件要上万块才能有的专业包,Sage是个不错的选择。手册 http://t.cn/RhFK6tr [ 微博 ]

2014-10-09 机器学习头条 2014-10-08 http://t.cn/RhFwt4M 亚马逊提供的海量公共数据集等5条,见长微博。感谢@52cs @Geffory_ima @lidingpku @黄小非 [ 微博 ]

2014-10-09 2)广告系统工程师谈工业界与学术界机器学习的异同 @52cs [ 微博 ]

2014-10-09 LingPipe非常值得考虑。项目主页 http://t.cn/RhF7H2U 而且有一本很不错的307页的免费电子书 http://t.cn/RhF7H24 [ 微博 ]

2014-10-08 @ImportNew: 《计算语言工具包LingPipe》LingPipe是一个开源的NLP计算语言工具包,采用Java书写,支持多语言,多领域,多类型的语言处理功能(包括中文分词),并提供Eclipse插件。http://t.cn/Rh37RdQ @黄小非 分享 [ 微博 ]

2014-10-09 过去多年的Web上的知识管理的文章尽在其中。想了解知识图谱,语义搜索等的来龙去脉,不能不过目。而且有完整的元数据!很容易开发出新的有趣的应用。可参考ISWC 2010的应用 http://t.cn/zjau1FF [ 微博 ]

2014-10-08 @lidingpku: International Semantic Web Conference - ISWC 2014 (10月18至23) 的全部论文(公开访问preprint PDF) 已经上传到github上了,http://t.cn/RhDmjvw 历年(2001-2014)相关的元数据(RDF,JSON, CSV格式) 也整理好了,可以下载 http://t.cn/RhDmjvA 大家有空挑挑错吧 [ 微博 ]

2014-10-09 推荐系统前沿必读。DBLP的列表页更好用 http://t.cn/RhFPLGl 每篇文章都有pdf下载 [ 微博 ]

2014-10-09 @疯狂的雪SDU: Proceedings of the 8th ACM Conference on Recommender Systems #RecSys2014# is available. http://t.cn/Rhkkqqc [ 微博 ]

2014-10-09 //@星空下的巫师: 原话是:kind of going against what people in research have been finding, but that’s what makes it interesting @董力at北航 @鲁东东胖 [ 微博 ]

2014-10-09 @BigData大数据: #OSDI2014#第一篇DL 微软的ADAM系统 彻底把Lecun 革命了 这个Imagine Net准确率提高的有猛 系统的力量真是无限 亮点在最后一张图 Deep Learning Guys 怎么想?@好东西传送门 @深度学习研究院IDL @云泉微博 @中国计算机学会CCF @杨静Lillian @百度技术沙龙 @chengangcs @CCF技术动态 [ 微博 ]

2014-10-09 CppCon2014,C++最重要的年度会议PPT一览 http://t.cn/RhksQxB 中文导读请看@顾露-Gu_Lu 的http://t.cn/RhksQx3 [ 微博 ]

2014-10-09 几个要点:系统优先于算法;并不存在清晰的优化目标函数;系统常变人员常变(所以简单可理解非常非常重要);各种折衷,而要产生这些折衷也需要容易理解的方法和结果。 [ 微博 ]

2014-10-08 @52cs: 前Google广告系统工程师Josh Wills 讲述工业界和学术界机器学习的异同,总结的真的好!http://t.cn/RhkU1Sj [ 微博 ]

2014-10-09 摘要:逻辑回归的并行化最主要的就是对目标函数梯度计算的并行化,可以很容易将每个迭代过程拆分,由不同的节点进行独立计算,然后归并。MPI_L-BFGS实验效果最佳 http://t.cn/SAJ2SN http://t.cn/RhkN3x3 //@孙明明_SmarterChina: @Memect [ 微博 ]

2014-02-12 @fengyoung: 并行逻辑回归: 逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃...文字版>> http://t.cn/8FpoAyz (新浪长微博>> http://t.cn/zOXAaic) [ 微博 ]


2014-10-08 今年的OSDI内容很丰富 [ 微博 ]

2014-10-08 @BigData大数据: #OSDI2014#重磅Session来了 做深度学习的 做系统的都不能错过 深度学习的Session 这也是OSDI第一加上深度学习的DL ML的Guy也不能错过 这次的Session Chair 是Rezimi @云泉微博 @云泉微博 @中国计算机学会CCF @Hadoop中国 @好东西传送门 @hashjoin [ 微博 ]

2014-10-08 其他主要是科学类:儿童人体测量, 80年的按日全球天气,23万种材料安全,NASA的地球卫星地图,OpenStreetMap,石油数据, 2000多种稀疏矩阵,SDSS( @斯隆数字化巡天 ) [ 微博 ]

2014-10-08 社会与经济类的有:美国1980/1990/2000年人口普查,美国2003-2006经济,美国工商业,美联储经济数据时间序列2万个,日本人口统计,美国劳工部统计,美国交通部各种统计,完整的美国街道名与地址 [ 微博 ]

2014-10-08 计算机类的有:Apache基金会邮件列表,Common Crawl50亿网页(以前推荐过),DBpedia结构化知识库,Freebase知识图谱(这三个以前推荐过),安然电子邮件, 4万多个USENET新闻组数,M-Lab的互联网性能诊断,谷歌图书的ngram语言模型 @昊奋 @Gary南京 [ 微博 ]

2014-10-08 生物类的数据有:人体基因组,千人基因组计划,老鼠杂交数据,丹尼索瓦人基因组, Ensembl真核生物基因组,50个物种的基因序列,GenBank基因银行,Unigene转录组,PubSem有机小分子生物活性,等 [ 微博 ]

2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ 微博 ]

2014-10-08 补充:MovieTweetings包含12万条电影的观众评价,收集自7个月的Twitter流,平均每天有500多。项目介绍PPT http://t.cn/RhDgH81 [ 微博 ]

2014-10-07 @AixinSG: 这个数据集看着挺有意思的 MovieTweetings:A Movie Rating Dataset Collected From Twitter http://t.cn/zRqz834 [ 微博 ]

2014-10-08 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ 微博 ]

2014-10-08 C++好东西. 博主非常用心,整理了 教程和介绍 (beginner) 思维和理念 (intermediate) 工程实践 (intermediate) 专题 (general) 工具和库 (general) 几大类,篇篇都做了中文导读. [ 微博 ]

2014-09-23 @顾露-Gu_Lu: (Gu Lu's Blog) CppCon2014 分类合辑 & 十大推荐阅读列表 - http://t.cn/RhOPqAu [ 微博 ]

2014-10-08 刚才忘了链接 http://t.cn/RhD0OAz http://t.cn/RhD0OAZ //@好东西传送门: 说的是.Amazon Public Dataset里有两个气象数据集:NASA NEX遥感与卫星数据,和全球(9000多气象站)1929-2009逐日天气数据,直接挂载EC2就能用,连下载都不用 //@大脸撑在小胸: 值得收藏。PS: 麻烦的是下载读取和处理 [ 微博 ]

2014-10-07 @好东西传送门: @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ 微博 ]

2014-10-08 说的是.Amazon Public Dataset里有两个气象数据集:NASA NEX遥感与卫星数据,和全球(9000多气象站)1929-2009逐日天气数据,直接挂载EC2就能用,连下载都不用 //@大脸撑在小胸: 值得收藏。PS:气象资料一般来说获取途径并不是大问题,麻烦的是下载读取和处理[doge] [ 微博 ]

2014-10-07 @好东西传送门: @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ 微博 ]

2014-10-08 @吴楚东南坼乾坤日夜浮 补充了Hunspell http://t.cn/RhDXuOs @西瓜大丸子汤 补充了Enchant和PyEnchant http://t.cn/RhDXuOF 都是比Aspell更进步的拼写检查开源软件 [ 微博 ]

2014-10-07 @好东西传送门: 问:英文语法检测,拼写错误有开源引擎吗?答:拼写检查推荐Aspell http://t.cn/zjfqk4q 语法检查工具这里有列表http://t.cn/RheHWdP 推荐试试Link Grammar http://t.cn/h47cEM 它可检查是不是合乎语法.如果需要自定义的规则,可以把它的结果再过滤一下 [ 微博 ]


2014-10-07 python好工具 [ 微博 ]

2014-10-07 @Python开发者: 《Online Python Tutor:Python 初学者的好帮手》一个免费教育工具,可帮助学生攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。通过这个工具,教师或学生可以直接在 Web 浏览器中编写 Python 代码,并一步一步可视化地执行程序……http://t.cn/8kp54hk [ 微博 ]

2014-10-07 增强现实Augmented Reality对物流企业有什么价值?DHL研发中心最近发布28页的报告,描述了增强现实对快递与后勤产业各环节可能起到的作用:仓储,运输,递送,增值服务等.值得传统企业参考 http://t.cn/Rhe8wMx [ 微博 ]

2014-10-07 问:英文语法检测,拼写错误有开源引擎吗?答:拼写检查推荐Aspell http://t.cn/zjfqk4q 语法检查工具这里有列表http://t.cn/RheHWdP 推荐试试Link Grammar http://t.cn/h47cEM 它可检查是不是合乎语法.如果需要自定义的规则,可以把它的结果再过滤一下 [ 微博 ]

2014-10-07 按年绘制了各政权的领土变迁,可以弥补谭其骧版的《中国历史地图集》一个朝代只有一个时间点,不能反映变迁的不足.五千年的历程浓缩为72分钟的视频 http://t.cn/RheVuga (刚才发的链接错了) [ 微博 ]

2014-10-01 @推遍天下: #推遍阅读#中国历史地图详细版version2.0。作者布哈林,是A站的一位up主。他把每个朝代精确成一个个大事件,将各个时间点做成地图,标注十分细致,中国和外国的考证都很充分。同时配上了如章回体目录一样的对联,非常带感。简直是历史地图控的最爱。http://t.cn/8kmDxfN @贫铀穿甲普拉斯 [ 微博 ]

2014-10-07 @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ 微博 ]

2014-10-07 按年绘制了各政权的领土变迁,可以弥补谭其骧版的《中国历史地图集》一个朝代只有一个时间点,不能反映变迁的不足 五千年的历程浓缩为72分钟的视频 http://t.cn/Rhe9xeN [ 微博 ]

2014-10-01 @推遍天下: #推遍阅读#中国历史地图详细版version2.0。作者布哈林,是A站的一位up主。他把每个朝代精确成一个个大事件,将各个时间点做成地图,标注十分细致,中国和外国的考证都很充分。同时配上了如章回体目录一样的对联,非常带感。简直是历史地图控的最爱。http://t.cn/8kmDxfN @贫铀穿甲普拉斯 [ 微博 ]

2014-10-07 来自最好的学术网络搜索ArnetMiner @唐杰THU [ 微博 ]

2014-10-07 @蔡学镛: 过去十八年,计算机科学领域,最好的论文,以及最常被引用的论文,通通在这里 [good]: http://t.cn/zYPysop [ 微博 ]

2014-10-07 关注 //@郑思遥:Arrikis 这篇的作者在这条路上已经走了好多年了,最早从08年开始就有文章要革操作系统的命,09年在sosp上发布barrelfish多内核操作系统。这帮人一直在做工作去支撑当时的多内核设计,这篇也是在barrelfish基础上做的,更完善更实际了,很值得学习 //@网路冷眼:转发微博 [ 微博 ]

2014-10-06 @BigData大数据: #OSDI2014#第一时间快报。OSDI金球奖 最佳三篇论文出来了 这次热门GraphX落选 爆出大冷门 两篇来自底层OS 底层要革命了!还有一篇来自微软@微软亚洲研究院 Cloud 调度 Maven @chengangcs @龙星镖局 @李元超Osiris @好东西传送门 @chengangcs [ 微博 ]


2014-10-06 会议主页 http://t.cn/RhItLb6 不熟悉这个会的 见@李沐M 前几天的科普http://t.cn/Rhg6IL3 欢迎大家来科普这届的潜在亮点和看点 @hashjoin @包云岗 [ 微博 ]

2014-10-06 @BigData大数据: #OSDI2014#起飞了 期望能赶上晚上盛大的欢迎晚宴 OSDI是系统领域的风向标 无数老的大数据技术都是通过这个舞台介绍给全世界 比如MapReduce Spanner等 对于新的重要大数据技术 比如GraphX 微软的Adam 还有GPUNet都会在明天后天推荐给全学界业界 让我们一起期待 @好东西传送门 http://t.cn/z810m9f [ 微博 ]

2014-10-06 感谢作者 Liqizhou http://t.cn/zjf6Z67 同时推荐作者的另一篇文章 机器学习概要 http://t.cn/Rhgib8l,列举了各种方法的提纲 [ 微博 ]

2014-10-06 @格灵深瞳: AdaBoost 算法的主要思想之一就是在训练集上维护一套权重分布,初始化时 ,Adaboost 为训练集的每个训练例指定相同的权重 1/m。接着调用弱学习算法进行迭代学习。每次迭代后更新训练集上不同样本的权值,对训练失败的样本赋以较大的权重。【AdaBoosting和online Boosting】http://t.cn/RhgIlYM [ 微博 ]

2014-10-06 城市规划,社交媒体分析与自然语言处理的交叉研究 [ 微博 ]

2014-10-05 @宋彦-规划: 分享下我的高富帅博士生@waholulu-陈炎 的高大上研究。话说他刚抓取了几天的Chicago的40万个twitter点如图。接下来开始分析阶段了,例如可以看看城市活动的热点,还可以用text sentiment analysis分析twitter的态度(积极/消极)和感情(愤怒惊喜啥的)并与城市场所对接,大家有什么好主意我们来实现! [ 微博 ]

2014-10-05 强烈推荐!Github上完整目录: http://t.cn/RP75CfG 现在已经完成语言的基本介绍,在写第三部分网站构建 [ 微博 ]

2014-10-04 @老齐Py: @Jayin_Ton 推荐到我的网站上看完整的《零基础学python》,目前正在写tornado做网站部分。地址:http://t.cn/Rh6wm17 [ 微博 ]

2014-10-05 感谢刘知远老师! //@刘知远THU: 整理得很好啊,分享!研究生的时候曾在水木上整理了一些资源,转眼几年NLP已经关版被微博取代了。技术大势,浩浩汤汤,不进则退,大家努力。:) [ 微博 ]

2014-10-04 @好东西传送门: 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ 微博 ]

2014-10-05 很不错的文章。再补充一个技巧:用书名的isbn来搜往往会有惊喜 [ 微博 ]

2014-10-04 @武汉大学: 【我是怎么找电子书的】目前主页君所见最为齐全的搜索电子书的方法和软件汇总——中文、外文、学术资源、古典文籍,甚至竖版图书!直接网页格式,方便复制链接。别问我挖掘技术谁最强,各有所长,试过就知道[偷笑]http://t.cn/RhBT4av [ 微博 ]

2014-10-05 昨天推荐的文章《线性回归,偏差、方差权衡》,很抱歉没有及时发现原作者@LeftNotEasy 出处是http://t.cn/hrvcPf 他的博客里还有很多经典文章:机器学习中的数学系列:回归、梯度下降、线性回归、模型组合、LDA、PCA、SVD; 机器学习中的算法系列: 决策树 - 随机森林与GBDT(我们以前推荐过) SVM基础 [ 微博 ]

2014-10-05 //@算文解字:赞!最应该感谢的是 @刘知远THU 哈,不解释 :) 另外书里边,很多NLPer还很推崇宗成庆老师的《统计自然语言处理》,已经出第2版了,内容很新。 [ 微博 ]

2014-10-04 @好东西传送门: 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ 微博 ]


2014-10-04 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ 微博 ]

2014-10-04 //@十月伤感wb: 【进段广告】我们今年SIGIR文章 Your Neighbors Affect Your Ratings 算是推荐系统里的特征工程,利用商家跟邻近商家的相互影响来提高rating prediction效果。主页 http://t.cn/RhBSY0S ACM http://t.cn/RhBSY0a [ 微博 ]

2014-10-03 @AixinSG: 如何选择最适合的推荐模型 Choosing a Recommender Model 转自 GraphLab Blog http://t.cn/RhWlFCg [ 微博 ]

2014-10-04 在加长版里还有个“触类旁通”栏目,列举了有趣的其他话题。比如@GK同人于野 发起的机器人书写的图灵测试的话题 http://t.cn/RhBmK6x 提到机器故意犯错误伪装自己是人的例子 http://t.cn/Rh1eJ0z (Youtube) [哈哈] [ 微博 ]

2014-10-04 @好东西传送门: 机器学习头条2014-10-03 http://t.cn/RhBRuRz 1) 选择最适合的推荐模型 @AixinSG 2) 线性回归,偏差、方差权衡 @AustinCody 3) 决策树模型组合之随机森林与GBDT @格灵深瞳 4) 谷歌的线性规划工具glop和运筹学工具集or-tools @王威廉 5) 神经网络黑客指南 @安人心智 加长版21条 http://t.cn/RhBRuRZ [ 微博 ]

2014-10-04 原文有不错的Python讲解 //@AixinSG: 讲根据数据的特性选择最适合的模型。再往后退一步,从最原始数据得到针对具体推荐问题的最佳表述就有点特征工程的意思了。几年前有个比赛,我同事是评审,说收到的报告有3种:1. 做实验,解释结果 2. 分析数据,选择模型,解释结果 3. 分析数据,实验,然后解释 [ 微博 ]

2014-10-03 @AixinSG: 如何选择最适合的推荐模型 Choosing a Recommender Model 转自 GraphLab Blog http://t.cn/RhWlFCg [ 微博 ]

2014-10-04 机器学习头条2014-10-03 http://t.cn/RhBRuRz 1) 选择最适合的推荐模型 @AixinSG 2) 线性回归,偏差、方差权衡 @AustinCody 3) 决策树模型组合之随机森林与GBDT @格灵深瞳 4) 谷歌的线性规划工具glop和运筹学工具集or-tools @王威廉 5) 神经网络黑客指南 @安人心智 加长版21条 http://t.cn/RhBRuRZ [ 微博 ]

2014-10-04 一篇不错的介绍线性回归的文章 [ 微博 ]

2014-10-03 @AustinCody: 真正的线性回归,不仅会考虑使得曲线与给定点集的拟合程度最好,还会考虑模型最简单,这个话题我们将在本章后面的偏差、方差的权衡中深入的说。概率分布是一个可爱又可恨的东西,当我们能够准确的预知某些数据的分布时。。。。。。 http://t.cn/RhBy6ym [ 微博 ]


2014-10-03 经典文章 Greedy function approximation : A Gradient Boosting Machine http://t.cn/Rh1dW44 并行实现推荐 @陈天奇怪 的xgboost,实际例子见@phunter_lau 最近的文章 http://t.cn/RhKAWac 更多GBDT http://t.cn/Rh1dW4y [ 微博 ]

2014-10-03 @格灵深瞳: 模型组合与决策树相关的算法比较多,这些算法最终的结果是生成N棵树,这样可以大大的减少单决策树带来的毛病,有点类似于三个臭皮匠等于一个诸葛亮的做法,虽然这几百棵决策树中的每一棵都很简单,但是他们组合起来确是很强大。【决策树模型组合之随机森林与GBDT】http://t.cn/Rh1uZ1Y [ 微博 ]

2014-10-03 Hacker's guide to Neural Networks 教程是用Javascript写的神经网络. 同一作者以前写的convnetjs http://t.cn/Rh1dfKB [ 微博 ]

2014-10-03 @安人心智: #脑技术# 【神经网络黑客指南】现在,最火莫过于深度学习(Deep Learning),怎样更好学习它?可以让你在浏览器中,跑起深度学习效果的超酷开源项目convnetjs作者karpathy告诉你,最佳技巧是,当你开始写代码,一切将变得清晰。他刚发布了一本图书,不断在线更新:http://t.cn/RhSJkOz [ 微博 ]

2014-10-03 补充一个线性规划的Python包 PuLP http://t.cn/Rh1d4hV 是GLPK的一个外壳。 非常简单好用 [ 微博 ]

2014-10-03 @王威廉: 线性规划是在优化、机器学习以及自然语言处理中经常遇到的重要问题。谷歌近日开源了他们的线性规划工具glop。另外,谷歌的开源运筹学工具集or-tools中还包括有各种约束优化问题,线性优化问题,背包问题以及图算法的工具。Google Code下载: http://t.cn/Rh1Wwze [ 微博 ]

2014-10-03 和@DonaldErvinKnuth 这条参照着看 [呵呵] http://t.cn/Rh1rdx8 还有@李沐M 的这条 http://t.cn/Rh1rdxQ [ 微博 ]

2014-10-03 @晨曦Stephen: Hinton祖师爷来talk, 讲他被nips rejected的paper~问他如何评价最近imagenet challenge的趋势,他说going deeper just work, but that's boring and rubbish, computer vision不应该走这个方向..... [ 微博 ]

2014-10-03 nolearn十分的Pythonic, 非常简单,和scikit-learn一样好用。项目文档http://t.cn/Rh1rpyM 目前实现了convnet和dbn [ 微博 ]

2014-10-03 @xccds: 两个很好的deep leaning实例示范,用python的nolearn包来实施http://t.cn/Rh11bsl 用R的H2O包来做 http://t.cn/Rh0RNZS [ 微博 ]

2014-10-03 //@张俊林say: 我个人还是首推《统计自然语言处理》,尽管从内容角度讲有点旧因为毕竟出版了10年了,但是可以很好地培养成利用统计思路解决NLP实际问题的思维框架,这一点其它教材都比不上这本。//@好东西传送门: 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z [ 微博 ]

2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ 微博 ]

2014-10-03 机器学习头条 2014-10-02 http://t.cn/Rh1WlIL 1)自然语言处理怎么最快入门 by吴俣 @gerrylin 2) 公开课 “矩阵与线性方程组” by马辉 @清华MOOCs 3) String Re-writing Kernel @李航博士 4) Google用深度学习做反垃圾 @我爱机器学习 5)免费电子书Math for CS @velvel2 加长版 http://t.cn/Rh1WlIy [ 微博 ]

2014-10-03 //@赶路人林文: Coursera上面有两门NLP的课程,个人比较喜欢哥伦比亚大学的Michael Collins。随课程有相关的阅读材料。NLP with python 只要懂一点python就基本没问题,英文版最佳,入门必备。//@好东西传送门: 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z [ 微博 ]

2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ 微博 ]


2014-10-02 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z 同推荐, 讲得非常好, 适合入门 Python的包列了pattern scikit-learn 小门再补充NLTK gensim和textblob [ 微博 ]

2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ 微博 ]

2014-10-02 @传媒老跟班 最近整理了一个<论文检测> http://t.cn/Rh3nerp 列举了9个中英文系统 PaperPass Copycheck 维普通达 万方数据 Viper 中国搜 Turnitin Dustball PPVS 值得参考 [ 微博 ]

2014-08-20 @好东西传送门: 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ 微博 ]

2014-10-02 Finlay-Liu @ Github 推荐了冈萨雷斯的<数字图像处理>, 其中第4章频域处理,第5章图像复原都与图像增强相关 http://t.cn/Rh3nUXI [ 微博 ]

2014-10-01 @好东西传送门: @小白_小可乐 问:有没有图像增强方面的学习资料啊? 答:图像增强主要分为空域方法和频域方法两大类.这里收集了几篇综述文章 http://t.cn/Rhua1eo 讨论页 http://t.cn/RPlPCU5 欢迎CV领域的专家增补 [ 微博 ]

2014-10-02 强烈推荐!另外再推一次李航博士的新书《Semantic Matching in Search》阐述了搜索中语义匹配的基本方法. 预览与目录 http://t.cn/RPiq2hc [ 微博 ]

2014-10-02 @李航博士: 最近在台湾做报告时讲 Semantic Matching,回来后把其中介绍 String Re-writing Kernel的部分整理成了短文。http://t.cn/Rh3Kt0z 这个工作曾获得ACL 2012 Best Student Paper Award。与@布凡THU @朱小燕THU 合作的工作。 [ 微博 ]

2014-10-02 机器学习头条2014-10-01 http://t.cn/Rh36jCa 1)ACM COSN社交网络会议文章下载 @AixinSG 2) 特征工程的方方面面 @xccds 3) semdom英语常用词和词组语义归类 @莫水田 4) Spark MLlib分布式决策树性能提升了2-5倍 @hashjoin 5) Chris Adolph的最大似然课程 @romanxu 加长版23条 http://t.cn/Rh36jCX [ 微博 ]


2014-10-01 不错。没列什么公式,但很有insights//@Copper_PKU:转发微博 [ 微博 ]

2014-10-01 @xccds: http://t.cn/RhumtBN 这篇综述了特征工程的方方面面,值得一读。 [ 微博 ]

2014-10-01 semdom,一个很不错的分类树,也可以算本体ontology或者常识知识库,含1800语义类.很友好的Creative Commons授权证 [ 微博 ]

2014-10-01 @莫水田: 我曾想按照语义来给英语常用词和词组归类,不过缺乏能力和行动力,昨晚上发现原来有人已经做了 http://t.cn/RhuOrs3,这个“语义” 网上各种词类都有,较神奇。 多写描绘叙事短文,写时参阅语义网、Oxford Pictorial English Dictionary 和Dictionary of Phrasal Verbs, 那写出生动的英语几年可待~ [ 微博 ]

2014-10-01 赞MLlib http://t.cn/Rhuofir 补充一个PPT MLlib Decision Trees at SF Scala-BAML Meetup http://t.cn/Rhuofid [ 微博 ]

2014-10-01 @hashjoin: 决策树是数据挖掘中常用的一个算法。在社区和Databricks的合作下,Spark MLlib 1.1对分布式决策树进行了大量的优化,最新版本比上一个版本性能提升了2 - 5倍。这篇博客介绍了几个重要的优化和具体的性能提升 http://t.cn/RhuSxCX [ 微博 ]

2014-10-01 运维必须知道的15个项目:docker轻量级容器 vagrant部署应用 statsd统计汇总 ansible自动化部署 capistrano远程自动化 salt基础组件通信 sentry处理错误日志 fabric远程调用 chef配置管理 logstash日志处理 peppet服务器自动化 essay 项目部署 等,他们的Github信息一览:http://t.cn/RhuSEzM [ 微博 ]

2014-10-01 @小白_小可乐 问:有没有图像增强方面的学习资料啊? 答:图像增强主要分为空域方法和频域方法两大类.这里收集了几篇综述文章 http://t.cn/Rhua1eo 讨论页 http://t.cn/RPlPCU5 欢迎CV领域的专家增补 [ 微博 ]

2014-10-01 //@Noodles-Xu:/@road2stat:各位HR看过来![太开心]//@统计之都: 作者是统计之都主站编辑之一高涛@三水成海 ,目前研三正在找工作中,欢迎勾搭//@xebro:博主另外几篇很不错的总结:PKU暑期高维统计学习心得 http://t.cn/RhmR6OA ,以及作者收集的当时PKU暑期讲座的相当全的材料 http://t.cn/RhmR6Ow [ 微博 ]

2014-09-30 @张磊-机器学习: 一篇对ADMM原理及并行化方法总结的很棒的文章,大家耐着性子看完吧:http://t.cn/RPoPFOm [ 微博 ]

2014-10-01 文名 <从HTML Components的衰落看Web Components的危机>下面有好多大牛在参与讨论,大家快去[围观] [ 微博 ]

2014-10-01 @民工精髓V: 看到大家对Angular,React和Polymer的讨论,我写了一些对Web Components的看法,欢迎大家探讨:http://t.cn/RhmdVXZ [ 微博 ]

2014-10-01 机器学习头条2014-09-30 http://t.cn/RhubqP6 1)天猫推荐算法大赛Top 9团队访谈 @万物皆三NLP 2) Radim Řehůřek: Multicore LDA in Python @星空下的巫师 3)正文抽取的开源代码 @KissDev 4) 量子机器学习 @尹璋琦THU 5) 通过机器学习算法找到真爱 @王威廉 加长版32条 http://t.cn/RhubqPX [ 微博 ]

2014-10-01 @romanxu 刚才推荐了华盛顿大学统计课Chris Adolph教授的课程Maximum Likelihood Methods for the Social Sciences 为方便浏览,把他的课件都做了预览卡片这这里 http://t.cn/Rhu4DdQ 这门课比较理论联系实际,适合非统计或计算机专业来学. [ 微博 ]

2014-10-01 转发理由:涵盖各种模型,如二进制数据,有序数据,称名数据(有名字但无顺序),可数数据,缺失数据,等,都可由最大似然方法处理 [ 微博 ]

2014-10-01 @romanxu: 隆重推荐:统计课maximum likelihood的教授Chris Adolph,哈佛血统,年轻有为。完全的共享派:编程用R,不用STATA;文字处理用LaTex不用Office;课件完全公开http://t.cn/RP1QErM。还不遗余力给学生写了牛文:Social Science Computing for the Mac in 15 Steps and $29 (http://t.cn/RhuPgl2 [ 微博 ]

2014-10-01 对前几天推荐过的概率分布关系图的详细解释来了[good] //@许扬逸Dijkstra [ 微博 ]

2014-09-28 @上微博的猫V: 【一张图的故事——概率分布之间的关系(上)】 概率分布之间的关系是个有趣的话题。若要一张图简要概述概率分布之间的关系,下图是经典。本文将从上到下,从左到右解释这张图。本来要全部写完才发布的。不过考虑到明天就回家了,家里没有网肯定写不了,所以先发布… http://t.cn/RhEZ2HJ [ 微博 ]


2014-09-30 @杜威Dewey 问:互联网应用的分布式数据库存储使用网络存储有什么好方案吗 答:讨论总结现在在issue 62 http://t.cn/RhmtmqT Nexenta、OpenFiler这些开源软件能否上生产环境有几篇近几年的文章. tildelingu老师给了更精华的总结.见长微博 [ 微博 ]

2014-09-30 推荐.加入我们Python资源区的正文提取专题.那里还列举了十多种其他工具 http://t.cn/Rhm2qhw [ 微博 ]

2014-09-30 @KissDev: 正文抽取的开源代码,基于文本密度的html2article: http://t.cn/8FvHNOY 基于标签比例的机器学习Dragnet: http://t.cn/RhnDNg0 专注新闻类网页提取的Newspaper: http://t.cn/RhnDNgW 集成goose等三种算法的readbilitybundle http://t.cn/RhnDNgO 我觉得最好的方法还可能是视觉系方法 [ 微博 ]

2014-09-30 机器学习头条2014-09-29 http://t.cn/RhnECPX 1 机器学习视频课程 @雅虎北京全球研发中心 2 麻省理工Gilbert Strang的《线性代数》课程 @王威廉 3 大数据处理资源、工具 @bitslife 4 R语言抓取实时股票数据的API (作者 @Jincheng9 ) 5 推荐书《语言本能》@西瓜大丸子汤 加长版http://t.cn/RhnECPS [ 微博 ]

2014-09-30 跨平台的优秀编辑器。非常好的中文介绍 [ 微博 ]

2014-09-28 @慕课网: #IT技术分享#【Sublime Text 全程指引】本文系统全面的介绍了Sublime Text,旨在成为最优秀的Sublime Text中文教程,分享给大家。绝对干货,一般人我不告诉。[推荐]原文地址:http://t.cn/Rh8uSA2 [ 微博 ]

2014-09-30 转发理由:awesome-bigdata 600多个数据存储、分析相关项目。Github 地址: http://t.cn/RhE6VaJ 作者Onur Akpolat [ 微博 ]

2014-09-29 @bitslife: 大数据数据处理资源、工具不完备列表, 从框架、分布式编程、分布式文件系统、键值数据模型、图数据模型、数据可视化、列存储、机器学习等。很赞的资源汇总。 http://t.cn/8FwSiyK [ 微博 ]


2014-09-29 讨论242 不完全整理贴 http://t.cn/RhE8U44 补充了一篇论文 When Stopword Lists Make the Difference 一个很好玩的发现,英文里9个词的stopword list 与500多词的单子效果差异不大,法语类似。至于中文 ...还希望专家多讲讲 [ 微博 ]

2014-09-28 @AixinSG: 相对于常规网页或新闻,我觉得停用词在用户生成内容里面会更重要一些,现在更倾向于在索引中保留每个词。Stop stopping stop words: a look at Common Terms Query http://t.cn/Rh8DFRh [ 微博 ]

2014-09-29 Python的可穿透防火墙的轻量代理 主页 http://t.cn/Rvc8VZG 使用说明 http://t.cn/zQZIZMd //@Easy: 和Goagent比起来,除了可以自建服务器更稳定外,SS是全局代理,所以Dropbox等客户端也可以用了 [ 微博 ]

2014-09-29 @Easy: 最近换用Shadowsocks科学上网,非常爽,推荐一把。Mac有客户端,全局代理,自动绕过国内网站,还能手工加名单。谷歌Play市场有应用可用。如果不爱用公用服务器,可以自己搭,一条命令:「 pip install shadowsocks 」顺便放个DO的10美刀优惠 http://t.cn/RP1OvQK [ 微博 ]

2014-09-29 问: 大数据安全或隐私的现状综述? 答: 资料整理 http://t.cn/RhETCi9 推荐一篇2014年综述 Security Issues in Cloud Environments, A Survey 很新很全面: 对比此前10篇相关综述, 覆盖工业界话题, 引用315篇论文。粗分8大类: 软件, 存储与计算, 虚拟化, 互联网与服务, 网络, 访问控制, 信任, 法律 [ 微博 ]

2014-09-29 mysql数据库进化图 [ 微博 ]

2014-09-29 @MySQL_DBA: 分享图片 [ 微博 ]

2014-09-29 推荐一个基于R语言的API (作者 @Jincheng9 ) 从新浪财经上抓取实时股票和指数数据,包括前收盘价,开盘价,当前价格,今日最高价,今日最低价,成交额等 http://t.cn/RhRahT6 [ 微博 ]


2014-09-28 求指点//@Nick蓝色风暴:接着上一话题,对于随机游走,比如是基于Uniform分布的游走,就是在[current-x1,current+x2]这个区间均匀随机一个数(x1和x2是常量)。而当x1=x2时,是对称随机游走,也就是M算法;当x1不等于x2时,是不对称游走,也就是MH算法。请问我的理解对吗?请大牛们指教@研究者July [ 微博 ]

2014-09-28 @Nick蓝色风暴: 最近学习MCMC的经典MH算法,被几个不同版本的代码实现给搞糊涂了,关键步骤在于如何得到下一个状态,好像大概分为Independent MCMC和Random Walk MCMC这两种。我现在的理解:独立MCMC是给定一个固定分布,要得到下一个状态就从这个分布里随机一个数;随机游走就是根据当前状态值来随机得到下一个状态。 [ 微博 ]

2014-09-28 这个讨论很有意义,明天小门会帮着整理合集,请各位专家继续 //@章成志: 是的,要看具体场合,实际上,“停用词”这个概念来源于信息检索、文本分类这样的任务,通常那些区分性较低(idf低)的词很多就是停用词,如果做情感分类等任务,有些词不但不能停用反而很重要。 [ 微博 ]

2014-09-28 @AixinSG: 相对于常规网页或新闻,我觉得停用词在用户生成内容里面会更重要一些,现在更倾向于在索引中保留每个词。Stop stopping stop words: a look at Common Terms Query http://t.cn/Rh8DFRh [ 微博 ]

2014-09-28 传送理由:Rob Fergus的用深度学习做计算机是觉的NIPS 2013教程。有mp4, mp3, pdf各种下载 pdf传送门 http://t.cn/RhRXlO1 他是纽约大学教授,目前也在Facebook工作,他2014年的8篇论文 http://t.cn/RhRXlO3 [ 微博 ]

2014-09-28 @老淘: Tutorials Session A - Deep Learning for Computer Vision - Microsoft Research http://t.cn/RhR7Jhg [ 微博 ]

2014-09-28 传送门的小伙伴们应该会喜欢这本书,非常有趣的视角,非常重要的话题。 [ 微博 ]

2014-09-28 @GK同人于野: 我的书《万万没想到:用理工科思维理解世界》出版了,现已开始在京东预售 http://t.cn/RhRxvhy 此书按三个主题 - 反常识思维、成功学的解药、霍金的答案 - 精选并完善了我的文章,其中重点篇目做了很大程度的补充和改写,加入不少新内容,使其达到2014年最新知识。赵南元老师(@荒川围脖 )慷慨作序! [ 微博 ]

2014-09-28 //@海中的沙粒:回复@ComplexLY:我有一本R数据可视化手册的书,就是教你如何用ggplot2来做数据可视化,说实话跟Tableau做的图,没法比,很多感觉需要用adobe illustrator 来修正下才拿的出手,嘿嘿,真的有点渣 //@ComplexLY:ggplot2 //@海中的沙粒:竟然忘记Python这个跟R差不多的软件了,这个更强悍 [ 微博 ]

2014-09-28 @海中的沙粒: STATA ,SPSS的学术性意义比较强,STATA的几类回归分析上是最经典的,SPSS在方差分析上非常厉害,SAS适合数据库数据量更大等量级的分析,R比较综合性,编程性上属于难度中等,matlab更倾向于学计算机语言的,编程性更强,数据分析性机器计算更多,总得来说,R是最关键的,因为综合性 [ 微博 ]


2014-09-27 R工具包的分类汇总 (CRAN Task Views, 34种常见任务,每个任务又各自分类列举若干常用相关工具包) http://t.cn/RhQy8o5 例如: 机器学习,自然语言处理,时间序列分析,空间信息分析,多重变量分析,计量经济学,心理统计学,社会学统计,化学计量学,环境科学,药物代谢动力学 等 [ 微博 ]

2014-09-27 问: 请问用于复杂网络分析R软件包? 答: 资料汇总 http://t.cn/RhQwuXT 推荐两个经典包 statnet, igraph 。 R社区有个很全的分类列表覆盖几十个包; 还有几个不错的在线入门课程与学习资料 例如 Stanford的“R for Social Network Analysis” [ 微博 ]


2014-09-26 赞Search Formula-1 !//@张颖峰: 如果说常规搜索已经是个解决了的问题(比如elasticsearch等等),为什么还要重新造这个轮子,答案是,更好的可定制性以及更快速的性能。尽管代码质量有待提高,但做为经过高压环境验证的完整解决方案,必将给开发者以更充足的空间来按需补充和裁剪。Apache License [ 微博 ]

2014-09-26 @张颖峰: 也许现在有些早,但苦于没有更多的成员和时间来完善文档,所以还是赶在这个周末之前把我们之前一直完善的引擎对外宣布了,这就是C++编写的高性能分布式搜索存储一体化引擎,主要面向开发者。http://t.cn/RhT3I3B @好东西传送门 [ 微博 ]

2014-09-26 回复@民工_李江: 非常感谢补充 课程链接 http://t.cn/zYsV43a //@民工_李江:Mattew Jackson在Coursera上有门相关的课: social and economic networks,好像这期刚开始不久 [ 微博 ]

2014-09-26 @好东西传送门: 问: 求经济学方向社会网络资料? 答: 文献汇总 http://t.cn/RhTlXMC 社会网络(social network)基础知识先看维基百科和在线教材"Introduction to social network methods". 四篇经济学方向文章, 推荐斯坦福教授Matthew Jackson (2010) "An Overview of Social Networks and Economic Applications" 96页 [ 微博 ]

2014-09-26 问:有没有最新的讲述人工智能发展史,现状,展望的资料? 答:人工智能(Artificial Intelligence) 领域综述有一个很好玩的图 "AI Landscape" (2008年AI Magazine附送的海报), 再配上一个AI历史大事件的时间轴demo “ Companion Timeline of Artificial Intelligence History” http://t.cn/RhTXnDF [ 微博 ]

2014-09-26 不错,这个应该是第二版 @Vamei 2013年的第一版还有些有趣的图片 http://t.cn/zYtMBGK //@西瓜大丸子汤: 推荐给@好东西传送门 //@Vamei:原作者来认领 [ 微博 ]

2014-09-25 @Linux中国: #Python 语言的发展简史# Python是我喜欢的语言,简洁,优美,容易使用。前两天,我很激昂的向朋友宣传Python的好处。 好吧,我承认Python不错,但它为什么叫Python呢? 呃,似乎是一个电视剧的名字。 那你说的Guido是美国人么? 他从Google换到Dropb…http://t.cn/RhYgiGm [ 微博 ]

2014-09-25 这个scrum guide是个经典,对scrum困惑的同学可以看看。同时推荐好文 "The 2013 Scrum Guide changes" http://t.cn/RhjdQ1W 1. Artefact Transparency strengthened 2. Sprint Planning 3. Definition of Ready 4. Time boxes relaxed for most meetings 5. Daily Scrum purpose clarified [ 微博 ]

2014-09-25 @朱少民: 当Scrum 的应用爆炸式增长时,形形色色的Scrum变种就出现了,不少公司已经忘记了Scrum 的价值和原则,为此,Scrum Alliance、scrum.org等联合发布了对Scrum的指导文件: http://t.cn/Rhjrrbs [ 微博 ]

2014-09-25 问: 求计算神经科学资料? 答: 1. 资源门户网站(学者,论文,课程一网打尽) "Computational Neuroscience on the Web" http://t.cn/RhjQAgV 2. 暑期学校(2010至2014共5期) http://t.cn/RhjQAgc 3. 还有华盛顿大学公开课 "Computational Neuroscience" 谢 @苏梦Neuro-Gatsby @课程图谱 @要有光LTBL 推荐 [ 微博 ]

2014-09-25 [计算机视觉数据集不完全汇总] http://t.cn/Rhj0T9K 经典热点数据集: ImageNet,Flickr,MNIST 数据集目录: YACVID(200+),ComputerVisionOnline(100+),CVpapers(100+),CVOnline(100+),UIUC,UCSD,NICTA... 感谢 @丕子 @邹宇华 @李岩ICT人脸识别 @网路冷眼 @王威廉 @金连文 @数据堂 zhubenfulovepoem 推荐 [ 微博 ]

2014-09-24 搞数据挖掘的同仁怎么看? 气象学专业呢? //@复旦陈硕frank: 转发微博 [ 微博 ]

2014-09-24 @中国社会科学院金融评论: Journal of Economic Literature最新一期的文章http://t.cn/RhlbJno 对近年来采用高频面板数据研究天气(相对于以往低频数据刻画的“气候”)经济效应的文献进行了评述。作为这一领域的外行,感觉这篇有趣的综述除了有助于找各种IV之外,在某些具体事实和技巧上也很有启发。 [ 微博 ]

2014-09-24 可以看看教学录像,这个课可为两种目标服务:第一、了解计算生物学中的挑战性问题,寻求更好的计算方法,应用前沿的机器学习方法(很好奇深度学习的应用)第二、理解可以使用计算方法,尤其是现成的机器学习工具,把它们应用到生物学、医学前沿问题中 Bioinformatics, Health informatics //@医学统计 [ 微博 ]

2014-09-24 @好东西传送门: 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ 微博 ]

2014-09-24 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ 微博 ]

2014-09-24 推荐 @tornadomeet 整理的 《本人常用资源整理(ing...)》 http://t.cn/zO1YaAE #深度学习#, #机器学习#,#数据挖掘#, #计算机视觉#,优化,数学,Linux,领域牛人,课程 ... ;-) 此人的博客可以归类为 #学霸的学习笔记# [ 微博 ]

2014-09-24 回复@尘绳聋-SYSU: 补上 @tornadomeet 原作 “机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)” http://t.cn/zRoZPzP 现在已经写了25个笔记! //@尘绳聋-SYSU:数盟的链接里没有标明原作:@tornadomeet [ 微博 ]

2014-09-24 @陈利人: 好文!常见面试之机器学习算法思想简单梳理 http://t.cn/RhWuNHg [ 微博 ]

2014-09-24 感谢! 附09年MLSS主页 http://t.cn/zl1sHfi 09年MLSS 所有还幻灯片打包下载 51M ZIP http://t.cn/RhWBmXr //@bigiceberg: mark,其中09年UK的mlss最经典。 [ 微博 ]

2014-09-24 @好东西传送门: 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ 微博 ]

2014-09-24 //@AixinSG: 我们做过hashtag扩散的研究 http://t.cn/RhWmsw8 Google Scholar上也有了一些相关的引用文章 http://t.cn/RhWmswE 相对来说扩散要比溯源容易做,溯源很不容易验证 [ 微博 ]

2014-09-24 @好东西传送门: 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ 微博 ]

2014-09-24 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ 微博 ]

2014-09-24 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ 微博 ]

2014-09-23 [资料合集] http://t.cn/RhOz6bQ 情感分析(sentiment analysis) 两本经典综述PDF下载: A Survey of Opinion Mining and Sentiment Analysis (2012) by Bing Liu; Opinion mining and sentiment analysis (2008) by Bo Pang, Lillian Lee, 另附Richard Socher等深度学习用于情感分析的论文 欢迎补充 [ 微博 ]

2014-09-23 回复@禅系一之花: 谢谢提示。《傅立叶变换的简易指南》 http://t.cn/8srbg2x 译者:Taurelasse //@禅系一之花:译言上有翻译版 //@好东西传送门:感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到 [ 微博 ]

2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ 微博 ]

2014-09-23 //@AllAboutStorage: Freebase小介绍(目标结构化internet)。母公司2010年被Google收购,其技术应该被用到了Google Knowledge Graph这个项目中。感兴趣的同学还可以看一看Google的图数据库Cayley http://t.cn/RvHuYpL 。其介绍就清楚写明:Cayley是受Google知识图谱以及Freebase背后的图数据库启发。 [ 微博 ]

2014-09-23 @好东西传送门: @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ 微博 ]

2014-09-23 问: @神经明亮的人 求perl教程呀? 答: 资料合集 http://t.cn/RhOvrpN Randal Schwartz 的learning Perl(小骆驼)是公认的入门教程, 浅显短小, 建议看英文版。更短有Learn Perl in about 2 hours 30 minutes. 更多看perlmonks.org和perl-tutorial.org的教程合集. 进阶看大骆驼Programming Perl 欢迎补充 [ 微博 ]

2014-09-23 @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ 微博 ]

2014-09-23 感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到的最棒的,无比生动。特别适合文科生,八年没碰过物理,五年没碰过数学的我都看懂了。有时间一定把这个翻译成中文。 [ 微博 ]

2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ 微博 ]

2014-09-22 Yar, Yac, Yaf 都是 @Laruence 直接在GITHUB上开源的 http://t.cn/zWiKwkj , Zend Optimizer 也有他 http://t.cn/Rh0h8RZ [ 微博 ]

2014-09-22 @Laruence: 又要写总结报告了, 这是目前微博俩年来达成的LNMP的技术结构图..... 也就这么些东西, 大部分都是开源的, 欢迎借鉴. [ 微博 ]

2014-09-22 问: 增强现实近几年的文章或者相关资料特别是关于PTAM的资料? 答: 资料汇总 http://t.cn/Rh0v03Y PTAM是"即时定位与地图构建" (Simultaneous localization and mapping, SLAM, 机器人视觉的研究方向)的重要进展, 概念于2007年ISMAR最佳论文中提出。2014 CVPR 有一组段教程涉及相关研究 欢迎补充指正 [ 微博 ]

2014-09-22 传送好东西 #自然语言处理# 论文“Distributed Representations of Sentences and Documents ” Quoc V. Le, Tomas Mikolov, ICML 2014 链接 http://t.cn/RhpdQqv PV = Paragraph Vector [ 微博 ]

2014-09-22 @ustczen: “Distributed Representations of Sentences and Documents ”中提到的句子向量化算法PV-DM在github上已经有了基于gensim的python实现:http://t.cn/RPDxH82,word2vec论坛有人用它在IMDB数据集上尝试做情感分类,效果没有论文声称的那么牛,但可以参考下实现。@好东西传送门 [ 微博 ]

2014-09-22 感谢@hnlyjzh 搬运! Large Scale Visual Recognition Challenge视频免梯子下载 [ 微博 ]

2014-09-21 @hnlyjzh: ILSVRC2014的视频在这里http://t.cn/RhNBfX6 @好东西传送门 [ 微博 ]

2014-09-21 继续传送 //@ICT秦磊: 转了GoogLeNet,放在优酷上。 http://t.cn/RhN58TY 好东西传送门: 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ 微博 ]

2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ 微博 ]

2014-09-21 转发理论:一张图简明扼要总结了各种概率分布的关系,对机器学习和统计都极具参考价值。另补充维基百科上无版权的图 http://t.cn/zjyvP9q 并有对各种分布的详细解释 [ 微博 ]

2014-09-21 @散沙_民工智能: 基础中的基础,各路大数据科学家首先忽略的东西。晚安 http://t.cn/z8AJfHW [ 微博 ]

2014-09-20 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ 微博 ]

2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ 微博 ]

2014-09-20 问: @情非得已小屋 推荐点关于推荐系统的综述么? 答: 问答207 http://t.cn/RhCt7lc 强推KDD2014讲义 "the recommender problem revisited": 第一部分Xavier Amatriain的综述(135页, 2014机器学习夏季学校版有248页), 第二部分"Context Aware Recommendation" (64页) 谢 @小飞鱼_露 @明风Andy 推荐 [ 微博 ]

2014-09-20 问: @水月小和尚 求隐私保护的资料 答: http://t.cn/Rh9egwV 隐私保护是大数据时代的重要问题。先推荐一篇2010年综述privacy-preserving data publishing 讲数据发布中的攻击模型, 隐私模型和匿名算法(看附图) 1.3节还列了一些综述, 讲"数据挖掘、数据查询、统计数据发布"中实现隐私保护 欢迎补充指正 [ 微博 ]

2014-09-20 过去一周新增的问答和推荐资源都整理到Github上了http://t.cn/Rh9NSVm 到目前为止有360条主题。要找以前推荐过的资源直接可以在页面上Ctrl+F搜索。BTW,如果你想订阅每周更新,发邮箱给我的私信吧 [ 微博 ]

2014-09-19 Large-Scale Distributed Computer Vision As A Cloud Service [ 微博 ]

2014-09-19 @Rachel____Zhang: 发现了一个好东西,cloudcv http://t.cn/RhKuArr . 基于GraphLab with GPU支持在线object detection, classification和feature extraction(用的是Caffe),提供了MATLAB和Python的API。http://t.cn/8FItstH 还有提供ILSVRC2014 的各种feature... [ 微博 ]

2014-09-19 推荐Cyrille Rossant博士新书 “IPython cookbook” http://t.cn/RhKH1qp 所有例子在Github上以IPython Notebook方式开源 http://t.cn/RhKH1q0 此书覆盖挺广:基础知识( IPython交互式计算环境,性能分析与优化,高性能计算,数据可视化); 实战短例子(例如统计,机器学习,信号处理,视频与音频等) [ 微博 ]

2014-09-19 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ 微博 ]

2014-09-19 [有趣的数据] 一个新推出的可交互地图应用把英国(United Kingdom)的河流的水文数据(river level) 放在网上 http://t.cn/RhK9AoB 。地图每一点对应一个水文观测站,好玩的是大家可以在Twitter上当这个观测站的粉丝:牛津附近的 gauge 2100 http://t.cn/RhK9Aor 居然有12粉 [ 微博 ]

2014-09-19 好东西! [ 微博 ]

2014-09-19 @设定控: 一篇在各大社交网站上广为转载的电子图书馆列表,来自译言网,《最好的免费电子图书馆指南(上)》http://t.cn/zYcbH8t 《最好的免费电子图书馆指南(下)》http://t.cn/z84nsDZ 事实我发的很多电子书网站就来自这里,这贴几乎无所不包,学术政治经济资源都有,楼主还没翻译完,有时间多刷新一下吧。 [ 微博 ]

2014-09-19 赞!Gradient Boosting Tree也参我们以前收集的专题 http://t.cn/RhKc1F5 有Python Go C++多种语言的实现 [ 微博 ]

2014-09-19 @phunter_lau: 我的 Kaggle Higgs Challenge单个模型获胜解答,公开排行榜3.75最终排行榜得分3.73,排名25th/1792,差不多前几十里唯一一个非组合模型的解答。至于为什么不用组合模型,因为我不会。。。 链接 http://t.cn/RhKAWac 附图方便不能上wordpress的同学观看。至于英语描述,不要在意这些细节。 [ 微博 ]

2014-09-19 推荐一篇综述,将Context Aware Computing 在物联网里的应用 《Context aware computing for the internet of things: A survey》 http://t.cn/RhKqJTg 分析了过去十年50个相关项目,覆盖Context生命周期的四个阶段 Acquisition(获取), Modeling(建模), Reasoning(推理), Distribution(发布) [ 微博 ]

2014-09-19 回复@tang_Kaka_back: 大致看了一下pypi,4万多库里只有5千多的python3库 //@tang_Kaka_back:回复@好东西传送门:[good]Python3的一些库跟进还是太慢了。从unicode的角度我个人还是喜欢3 //@tang_Kaka_back:我记得我一年前在找python3的爬虫都没有太好的,于是自己就着自己的项目写了个。现在已经有支持 [ 微博 ]

2014-09-18 @好东西传送门: 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ 微博 ]

2014-09-19 回复@小粗腿正在减肥中: 你是指这个吗? http://t.cn/RhosnXP Information Hiding conference (1996-2014) 点链接可以看每一届会议的论文目录。要下载论文通常可以 1. 祭出搜索引擎 标题+PDF 2. 通过图书馆查期刊 3.联系通信作者 ... //@小粗腿正在减肥中: [ 微博 ]

2014-09-18 @好东西传送门: 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ 微博 ]

2014-09-18 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ 微博 ]

2014-09-18 [数据集] 美国各政府部门2000至2014财年的支出记录, 每条记录包括 哪个部门拨发的,什么时间,干什么用,多少钱,获得拨款的地址 等字段。可以直接查询数据 http://t.cn/RhotbLK 也可以下载数据 http://t.cn/RhotbLo (点 archives 标签, 按月下载) [ 微博 ]

2014-09-18 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ 微博 ]

2014-09-18 传送好东西并传送问题 @左耳朵耗子 //@文艺复兴记: 我遇到过一类典型的有问题的编写可测试代码的方法,例:实现一个Stack类。有人这样做:把Stack内部的数据结构(比如动态数组)暴露出来,然后分别写两个测试用例test_push和test_pop,每个测试用例都去检查Stack内部数据结构的状态。问题在哪里? [ 微博 ]

2014-09-18 @reeze: Google员工写的:《编写可测的代码》 http://t.cn/RhSENMV 代码可测性非常重要,规模越大越重要,可测的程序可以更容易的编写更多的测试来保证代码的质量。 [ 微博 ]

2014-09-18 好东西 回复@blue_tracks: 论文PDF 链接有问题. 是否考虑放到 arxiv.org 这样方便别人引用,源代码是这个(不在master上)吗? http://t.cn/RhoADCF [ 微博 ]

2014-09-18 @blue_tracks: NIPS投稿得到887高分,但是最后因为一个math typo被干掉,郁闷过后现在paper和实验配置都已公开。 idea极其简洁, 在中间层加入监督信息的架构可以适用于任何网络结构, 我们有理论和多个数据集的实验证明这种策略能够有效防止梯度发散,据说GoogLeNet今年也用了类似的想法 http://t.cn/Rhoz0BO @winsty [ 微博 ]

2014-09-18 特别推荐一本免费电子书: 微软研究院邓力和俞栋合写的“Deep Learning Methods and Applications” (2014) http://t.cn/RhoPwll 近200页篇幅对深度学习的方法和应用做了比较全面地综述。还有 @高杰_Speech 推荐 微软研究院出品C++开源Computational networks工具包 CNTK http://t.cn/Rhy4u3l [ 微博 ]

2014-09-18 哈哈, 原来是微软研究院出品 Computational Network Toolkit (CNTK) 俞栋 Dong Yu etc. "An Introduction to Computational Networks and the Computational Network Toolkit", Microsoft Technical Report, 2014. http://t.cn/RhSscXz //@liushengbing: 只支持windows的ML包真是第一次见 [ 微博 ]

2014-09-12 @高杰_Speech: 推荐新的Deep learning工具包 CNTK, http://t.cn/Rhy4u3l C++实现,CPU/GPU支持,DNN/CNN/RNN/LSTM,目前只支持windows [ 微博 ]

2014-09-18 不错 补充一下 ILSVRC2014 的日程上包括了各大参赛队15分钟报告幻灯片下载链接,还有各种讨论的东东 http://t.cn/RhSF13U //@潘炎_SYSU: 相应的论文链接在: http://t.cn/RhSdt1V [ 微博 ]

2014-09-18 @潘炎_SYSU: GoogleLeNet放出他们在ILSVRC 2014的slides了:http://t.cn/RhSdCVa [ 微博 ]

2014-09-18 问: @微热闹 请教是否有MAPREDUCE实现的PLSI算法 答: http://t.cn/RhSnzB7 先来三篇相关文章: UIUC “Parallel PLSI on Spark”, 清华“Parallel PLSA ...” 南大“P2LSA and P2LSA+: Two Paralleled Probabilistic Latent Semantic Analysis Algorithms Based on the MapReduce Model” 欢迎补充指正 [ 微博 ]

2014-09-18 关于数据清理(Data Cleaning) 有一篇2000年的经典文章 "Data Cleaning: Problems and Current Approaches" http://t.cn/RhSE7LZ 该文综述了结构化数据中质量问题的分类和来源,并给出了相应例子。该文对了解当前大数据中"噪音”有一定指导意义。#抛砖引玉# 欢迎补充推荐好东西 [ 微博 ]

2014-09-18 问: 关于挖掘话题层级结构(topic hierarchy)的研究和应用? 答: http://t.cn/RhSTd26 早期有CAM模型(IJCAI'99), 近来有Blei基于"bayesian nonparametric inference"的工作, Berant的"entailment graph", 微软ProBase. Twitter用它分类(kdd'14). 认知科学看"How to Grow a Mind"(science'11) 欢迎指正 [ 微博 ]

2014-09-17 #温故而知新# Gary Anthes (科普作家)的 Deep Learning Comes of Age 算是科普文章了,短短几页谈了深度学习过去与现状的要点,还推荐了一个不错的参考论文书单。正好 🚪 正在传送 深度学习入门资料 http://t.cn/RhaTq9c 该文应该被”录用“ 又 @自觉自愿来看老婆微博 也推荐该文 [ 微博 ]

2013-05-30 @星空下的巫师: "A wave of excitement today comes from the application of unsupervised learning to deep neural nets." Deep Learning Comes of Age | June 2013 | Communications of the ACM http://t.cn/zH5EdjT [ 微博 ]

2014-09-17 问:@聪Hit 有没有关于深度学习的。特别是针对初学者的一些文章。 答: 深度学习综述不乏大部头,如微软邓力等写的“Deep Learning Methods and Applications”。推些短文:"A Primer on Deep Learning" 科普入门, 基于python theano范例学习, 邓侃Deep Learning系列 资料 http://t.cn/RhaISCG 欢迎指正 [ 微博 ]

2014-09-17 问:@vincent是正能量 有没有synonym mining的survy paper,以及比较核心的一些paper? 答: 问答资料 http://t.cn/Rha5DJE Wordnet synset 人工构造了同义词(synonym)集合, 自动方法通常依靠语义相关分析(semantic similarity) 微软有相关项目, 我们有技术资料整理贴 http://t.cn/Rha5DJR [ 微博 ]

2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@Copper_PKU 的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ 微博 ]

2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@@Copper_PKU的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ 微博 ]

2014-09-16 Luke现在是Google Product Director 关心手机平台Ux设计地同学们可以下载资料了,PDF有78页 http://t.cn/zQan8tv //@DataMooc: //@developerWorks: 这个很不错,LukeW 大神的 Blog 是长期订阅的,推荐。PDF 下载地址: http://t.cn/RhXST8L [ 微博 ]

2014-09-16 @英特尔XDK: Luke Wroblewski 大神正式的把他从 2012-2014年写的关于 #Mobile Design# 的文章整理成了 iBook 和 PDF 发布了,大家可以从他的网站上得到下载链接 http://t.cn/RhXVIlD。您也可以从 @英特尔开发人员专区 来了解他的文章和视频 http://t.cn/RhXVIlk [ 微博 ]

2014-09-16 转发理由:深度学习在分词等领域的应用。论文PDF http://t.cn/RhX2U9t HTML版 http://t.cn/RhX2U95 [ 微博 ]

2014-09-15 @裴文哲: 终于找到了 http://t.cn/Rh6GFMi 我在ACL2014的oral presentation: Max Margin Tensor Neural Network for Chinese Word Segmentation 介绍了Deep Learning在序列标注任务中的新模型 slides做的略挫 希望大牛们轻喷 [ 微博 ]

2014-09-16 转发理由:依存文法分析对于关系提取,问答系统和知识图谱建设都有突出价值,而且速度较快。 [ 微博 ]

2014-09-16 @李正华NLP: 我们这次在coling 2014上做的题为“Dependency Parsing: Past, Present, and Future”的tutorial slides已经整理好并放在我的主页上:http://t.cn/RhXvXVn,请大家多提宝贵意见,欢迎讨论交流。 [ 微博 ]

2014-09-16 回复@海中的沙粒: 发这个好东西时有点纠结,很多人见过,也有很多人没见过。但是作为数据,它的价值的确高,第一省得去翻统计年鉴,第二 CSV很容易导入Excel,python,matlab, R, 省了不少数据清理时间 (转就是收藏,不论你是不是 @ 谁的印象笔记 ) //@海中的沙粒:好像转过,再转一次吧,嘿嘿,反正 [ 微博 ]

2014-09-16 @好东西传送门: 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ 微博 ]

2014-09-16 读综述帮助了解领域,写综述展示对领域的掌握程度。找文献时要聚焦在目标课题下,避免贪多求全或者枝蔓。 高质量的例子可以参考计算机领域的综述期刊(ACM Computing Survey) 附DBLP的每期链接 http://t.cn/Rh6rH83 //@陆浑戎: 转发微博 [ 微博 ]

2014-09-15 @传媒老跟班: 【文献综述】文献综述的写法http://t.cn/Rh6onsx;本科毕业论文如何撰写文献综述?http://t.cn/zHKQB8G;如何写文献综述?http://t.cn/zHKQB8b;克雷斯威尔五步文献综述法http://t.cn/Rh6onsa;社会科学研究中的文献综述:原则、结构和问题http://t.cn/zHKQB8q,供大家参考。 [ 微博 ]

2014-09-16 转发理由:包括n-gram,带Freebase标注的8亿文档, Wikilinks 4000万页面链接标注,人工标注的wikipedia公众人物到Freebase映射, 3900万Wikipedia Infobox编辑历史,词与实体的映射 [ 微博 ]

2014-09-15 @龙星镖局: Google近年来发布的有关文本挖掘、自然语言处理的数据集。http://t.cn/z8sMlZv [ 微博 ]

2014-09-16 问: @海中的沙粒 点餐,介绍Matlab的入门级编程语言的书,电子文献,或者网页类 答: 任选一个套餐用最快速度翻完掌握全局,具体细节使用时再读。资料汇总 http://t.cn/Rh63woo 有18页的短教程,MIT的5节课讲义,Rutgus经济系博士的讲义。此外大餐看官方手册"Matlab Primer" [ 微博 ]

2014-09-16 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ 微博 ]

2014-09-16 问: @国产_小翁:能不能帮我找到HMAX模型的matlab源码? 答: 资料汇总 http://t.cn/Rh69oet HMAX ("Hierarchical Model and X") 是Poggio于1999年提出的概念, 用于解决(Object recognition)的多层次神经网络。Poggio的MIT实验室CBCL在Google code有纯matlab源码 欢迎指正 [ 微博 ]

2014-09-16 要不搜索一下,用这个关键词 win7 library-ms fix 找到相关的问答 http://t.cn/Rh6juZn http://t.cn/Rh6juZm 更多相关结果看这里 http://t.cn/Rh6juZE 此外可以直接问微软 @微软中国 [ 微博 ]

2014-09-15 @举头三尺有大神: 求助各位大神@好东西传送门 @破破的桥 @林楚方 。win7库出现这种情况。不能打开,不能新建,还原默认还是无法解决。 [ 微博 ]

2014-09-16 如果你注了NIPS ,这个workshop就不另外收费了,看注册页 http://t.cn/Rh696S3 //@duinduin:要另外注册么? //@好东西传送门:Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待! //@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这 [ 微博 ]

2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ 微博 ]

2014-09-15 //@算文解字:5. 这哥们很能掰,而很多章节分别阐述了他对人工智能、医疗科技、清洁能源、90年代互联网历史、融资甚至帝王之术的独特看法。很多地方只是略略扫了一眼,总感觉是可读性很强。原始Note: http://t.cn/zYvtV0F 最近已经整理成书“Zero to One” @好东西传送门 前两天推荐过 [ 微博 ]

2014-09-15 @算文解字: 1 昨天读了Peter Theil CS183的笔记。他认为从0到1的过程是一个发现只有少数人才掌握的真相,即#秘密#的过程。简单的早被发现,变为常识应用在从1到n的复制阶段,而无解的秘密则毫无价值,因此需要找中等难度但可解的秘密。他提到的秘密有垄断、幂律、渠道的重要性以及元秘密:世界上仍有很多秘密。 [ 微博 ]

2014-09-15 Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待!//@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这个paper算是一个比较有指导性意见的文章,推荐! [ 微博 ]

2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ 微博 ]

2014-09-15 这个和昨天推荐的entity linking的两个教程结合看最佳 http://t.cn/RhiS9gW 。RPI Heng Ji出品 //@Copper_PKU: 我推荐一个reading list: http://t.cn/8FqFegC 不知道有人推荐过没有 这个主页很不错//@好东西传送门: 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi [ 微博 ]

2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ 微博 ]

2014-09-15 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi 有不少以前的问题了。专家推荐 @昊奋 @孙明明_SmarterChina @Gary南京 @李志飞AI 还有去年第一届全国中文知识图谱研讨会的嘉宾 http://t.cn/8k2VD2H 该网页还有很多PPT [ 微博 ]

2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ 微博 ]

2014-09-15 问: @秦彦霞_HIT 求教,哪里有大规模Twitter数据(只包含tweet即可,最好billion级别)可在文章中引用或致谢。 答:资料汇总 http://t.cn/RhiIgsl Archiveteam 2012至2014每月都有几十G的tweet JSON数据。此外 数据堂、snap和nist也有数据 @kite1988 @齐浩亮 提供了资料, 参考twitter专家 @AixinSG [ 微博 ]

2014-09-14 谢谢补充,ACL2014 A tutorial on Wikification and Entity Linking http://t.cn/RhJHk2Q 是个203页的PPT //@唐都钰HIT-SCIR: 还有今年ACL. Dan Roth. Heng ji 的tutorial [ 微博 ]

2014-09-14 @好东西传送门: @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ 微博 ]

2014-09-14 @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ 微博 ]

2014-09-14 问: @Joyce-Yuan- 对于拼写错误(real-word error) 求中文类似资料? 答: 详见 http://t.cn/RhJSrlc 拼写错误分non-word和real-word, 中英文难点不同。SIGHAN7的Bake-off 2013: Chinese Spelling Check 有很多论文(十月CLP14在武汉开), 英文spelling correction看Peter Novig 07年文章(21行python实现) [ 微博 ]

2014-09-13 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法? 答: 资料整理 http://t.cn/Rhx4dAf 考虑statistical topic model, 推荐UIUC翟成祥短教程 http://weibo.com/5220650532/BhWo26Y93 ,软件包Gensim,Mallet,Stanford; kdd14有twitter分类好文 欢迎补充 [ 微博 ]

2014-09-13 问: @钱知易 帮我找找Berkeley detector(边缘检测)的代码(C++,Matlab) 答:资料整理 http://t.cn/RhMkEbD 是Michael Maire的工作 “Contour Detection and Image Segmentation"(CVPR2011) , 找到他们组的原始代码(gPb),还有Hyunho Lee的改进算法(gPb-junctions) 卡片盒子 http://t.cn/RhMkEbe [ 微博 ]

2014-09-13 问: 求助关于统计学方面的入门知识,主要是写企业上报数据,我们收集整理完数据之后以样本信息推断总体情况,并分析和推测总体的特征和规律 答: 相关资料 http://t.cn/RhMDApx * http://t.cn/hrmAiI 中国统计网, 从excel开始 * http://t.cn/hbvjNH 统计学知识社区, 侧重R @统计之都 @陈茁博士_Adam [ 微博 ]

2014-09-13 回复@波多野丽猪: 多谢补充 http://t.cn/RhMe2Pp Fuseki: serving RDF data over HTTP //@波多野丽猪:一般python的话用sparql wrapper是ivan herman他们弄的,比较靠谱;其实假如有了一个endpoint,用fuseki里面sparql on http调用也可以,当然需要关联上fuseki的jar, [ 微博 ]

2014-09-13 @好东西传送门: 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ 微博 ]

2014-09-13 常见的语音算法phonetic algorithm就是设定一组规则,将文字映射到某种音标符号系统。例如最原始的Soundex算法 扔掉所有元音,映射 b, f, p, v → 1 然后通过比较映射后符号串的差异来计算发音相似度。原帖中的脑图列举了常见英语(及德语)映射算法以及相关开源代码(python, java, go, ruby, perl) [ 微博 ]

2014-09-11 @好东西传送门: 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ 微博 ]

2014-09-13 可以结合以前推荐的图数据库专题看 http://t.cn/RhMgVCF [ 微博 ]

2014-09-13 @西瓜大丸子汤: 赞OrientDB,超级方便灵活,JSON进,SQL出,随时可以改数据结构,即使不做图计算也有用。MySQL, ElasticSearch, MongoDB, Neo4j, Redis一圈下来,还是OrientDB最符合我的需要,表达力最好,学习成本最低。速度OK不算最好,不过机器速度根本不是系统瓶颈,而且有很多优化的办法。 http://t.cn/RhMgLvG [ 微博 ]

2014-09-13 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ 微博 ]

2014-09-13 推荐一个很惊艳的免费图库列表(来自wikimedia):很多public domain图片库完全免费没有版权问题,还有不少基于知识共享许可(creative commons)的免费图片库 http://t.cn/RhMu3GQ 内容包罗万象:生物,科学,历史,天文,地图,各国风情,艺术,体育... 有的图库有上千万张图片。附图为长微博级目录 [ 微博 ]

2014-09-13 传送理由:人工智能资源库 3000+资源,12个分类,根据喜好,点击率排序 //@王海勋haixun: 转发微博 [ 微博 ]

2014-09-12 @BoxingChen: 开源工具和开放的数据越来越多,口碑如何?怎么选择呢?open AI Resource http://t.cn/RhMCIKC 收集了AI领域的很多工具和数据,分类让大家点赞和评论。机器学习领域暂时获赞领先的工具是libsvm,NLP领域的是斯坦福POS tagger。去那找你需要的open source,也去那为你喜欢的,或自己的工具点个赞吧。 [ 微博 ]

2014-09-13 传送: Searchable full-text transcripts of WWDC sessions (2010-2014)音频转字幕,全文检索所有录像发言 [ 微博 ]

2014-09-12 @容芳志: 每年Apple WWDC大会的keynote和课程文字版都在这里,整理的太好了,忍不住分享: http://t.cn/z8exsaz [ 微博 ]

2014-09-12 讨论得很热闹, github几十楼整理了相关资料: entity linking/extraction/resolution, relation extraction; 咱还时光逆流传送了几个去年相关微博到评论里,尤其是李志飞那条里有不少高人评论,千万别错过。有没有人讲讲 michael jordan 'full merger of "data" and "knowledge"' http://t.cn/RhMwimZ [ 微博 ]

2014-09-12 @好东西传送门: 代人请教: #语义识别包含哪些关键技术# ? 咱先推荐 @白硕SH 老师近日的访谈《语义技术探索》阐述了相关基本概念 http://t.cn/RvWEZdm 请各位专家帮忙梳理思路、推荐入门资料 @刘群MT-to-Death @刘知远THU @52nlp @孙明明_SmarterChina @昊奋 @波多野丽猪 我们会把相关资料更新到 http://t.cn/RhICLfS [ 微博 ]

2014-09-12 一点拙见,计算机在一些领域已经做得比人好了;而人对自然语言处理期望更高一些, 图灵测试 和 人脸识别 哪个难度更大?顺路给个文字版传送门 http://t.cn/RhMZVIV //@xierqi: 没想到Jordan对text一直这么有兴趣。抛开Deep Learning不讲,当前计算机对text的理解能力是否比image、vision要好不少? [ 微博 ]

2014-09-11 @王海勋haixun: Someone asked Michael Jordan if he's to lead a research project with 1 billion dollar funding, what will he do? Here is his answer. [ 微博 ]

2014-09-12 这本书还没上市呢,还没有电子书。着急的同学可以先看Blake Masters 的笔记 http://t.cn/zYvtV0F Notes Essays—Peter Thiel’s CS183: Startup—Stanford, 2012 顺路科普一下 Peter Thiel, Paypal 的联合创始人,facebook的天使投资人 http://t.cn/RhMhPTs [ 微博 ]

2014-09-12 @好东西传送门: 推荐Peter Thiel新书《Zero to One: Notes on Startups, or How to Build the Future》(9月16日才出版) http://t.cn/RhMPClT 基于他2012年CS183课的讲义。有人预读后赞了他的三个观点: 创始人要追求垄断, 用破坏性创新参加市场竞争不如开发新市场, 对精益创业的反思。咱做了个脑图(水平有限,欢迎指正) [ 微博 ]

2014-09-12 推荐Peter Thiel新书《Zero to One: Notes on Startups, or How to Build the Future》(9月16日才出版) http://t.cn/RhMPClT 基于他2012年CS183课的讲义。有人预读后赞了他的三个观点: 创始人要追求垄断, 用破坏性创新参加市场竞争不如开发新市场, 对精益创业的反思。咱做了个脑图(水平有限,欢迎指正) [ 微博 ]

2014-09-12 问: @波多野丽猪 有没有人了解建立partial order lattice的算法? 应该是Formal Concept Analysis(FCA)的东西。我有一堆logical term set, 想要建立一个关于set subsumption的lattice 答: FCA很相关 http://t.cn/RhIE0Sy 推荐Poelmans等的综述(分析了一千多论文) 并参考association rule 欢迎补充指正 [ 微博 ]

2014-09-12 要专注、要市场驱动 “an eighth waste was... manufacturing goods or services that do not meet customer demand or specifications.” http://t.cn/RhIjiTc //@张颖峰: 我倒是觉得这本书更容易给一些没头脑的创业者以快速迭代为借口连续不断试错,最后反而忘了自己要做什么,从而导致更大的浪费。 [ 微博 ]

2014-09-12 @好东西传送门: 从 #精益生产# 到 #精益创业# 《精益创业》是近年很火的创业手册, 其核心理念是:快速迭代,减少浪费,避免不必要的开发。作者Eric Ries的观点来自#工业工程#书籍。他吸收了丰田lean manufacturing的成功经验:用最少工作创造价值, 尽可能降低浪费 - 例如著名的零库存思想. 书单 http://t.cn/RhICRq5 [ 微博 ]

2014-09-12 从 #精益生产# 到 #精益创业# 《精益创业》是近年很火的创业手册, 其核心理念是:快速迭代,减少浪费,避免不必要的开发。作者Eric Ries的观点来自#工业工程#书籍。他吸收了丰田lean manufacturing的成功经验:用最少工作创造价值, 尽可能降低浪费 - 例如著名的零库存思想. 书单 http://t.cn/RhICRq5 [ 微博 ]

2014-09-12 代人请教: #语义识别包含哪些关键技术# ? 咱先推荐 @白硕SH 老师近日的访谈《语义技术探索》阐述了相关基本概念 http://t.cn/RvWEZdm 请各位专家帮忙梳理思路、推荐入门资料 @刘群MT-to-Death @刘知远THU @52nlp @孙明明_SmarterChina @昊奋 @波多野丽猪 我们会把相关资料更新到 http://t.cn/RhICLfS [ 微博 ]

2014-09-12 问:求Morden Japanese Society Study资料文献, 最好economy相关 答:http://t.cn/RhIoU0o《菊与刀》(The Chrysanthemum and the Sword)和《纵式社会的人际关系》(タテ社会の人間関係)都是研究日本近代社会(自明治维新起)的经典著作。《A Short Economic History of Modern Japan》300+学术引用 [ 微博 ]

2014-09-12 [赞]补充《GPU高性能编程CUDA实战》豆瓣书评 http://t.cn/htUpV0 pdf网上有 [ 微博 ]

2014-09-12 @Rachel____Zhang: 感谢某童鞋推荐CUDA Application Design and Development,看了目录和开头一章,感觉和《GPU高性能编程CUDA实战》结合起来看会收获更快[嘻嘻]代码在这里http://t.cn/RhIt1JA [ 微博 ]

2014-09-11 谢谢指正,是我们理解有误。那四本也是博士级的,向大家道歉🙇 //@王树森CS: 同意右边。除了第1本,其余根本不是入门的,我不知道微博上的人有几个能看得懂而且会去看。发这个东西的人要么不懂,要么骗粉。//@梁斌penny: 书看了,再把试验做一遍,我估计怎么也得需要4-5年。 [ 微博 ]

2014-09-11 @好东西传送门: #机器学习# 大牛Michael Jordan教授(Andrew Ng的博士导师) 近日在Reddit上推荐的书单。以前的书单12本针对有志于在机器学习领域奉献青春的博士生,这次新推荐了4本覆盖基础概念图书,帮助工业界读者在几个月内理解概念然后出活 。书单看这里 http://t.cn/RhfxqAz 卡片盒子 http://t.cn/RhfxqA7 [ 微博 ]

2014-09-11 赞王益的博客 注意未公开的“Google Rephil"//@丕子: 嗯,王益之前一blog分析了这个: http://t.cn/RhfXqBu , 另外Google PLDA+有10K topics, Rephil有100K,Peacock有1000K topics..//@lib_ustc: 对,训练出来的topic中的概率主要还是集中在高频信息上,对长尾描述较弱//@丕子: 长尾信息丢失太多了 [ 微博 ]

2014-09-11 @大山坡的春: 今天Jimmy Lin表示他在twitter的时候把topic models都试过了,没有一个work的~然后说,我告诉你个只有ir圈子里的人才晓得的topic model的毛病。。。#强迫症都没救了 @仙人掌不浇水 @丕子 [ 微博 ]

2014-09-11 [笔记]Michael Jordan论#深度学习# http://t.cn/RhfoAhi 1. layer,parallel,ensemble有用,不能限于模拟人脑思维 2. backpropagation是关键, 本质是supervised learning 3. 很多成功案例是大规模样本+监督学习 4. 很少用在工业界咨询,不少其它问题(7个例子) 5. 机器学习要接近system与数据库, 远离AI [ 微博 ]

2014-09-11 #机器学习# 大牛Michael Jordan教授(Andrew Ng的博士导师) 近日在Reddit上推荐的书单。以前的书单12本针对有志于在机器学习领域奉献青春的博士生,这次新推荐了4本覆盖基础概念图书,帮助工业界读者在几个月内理解概念然后出活 。书单看这里 http://t.cn/RhfxqAz 卡片盒子 http://t.cn/RhfxqA7 [ 微博 ]

2014-09-11 择日不如今日: Statistics With Ruby: Time Series and General Linear Models http://t.cn/RhffVQ3 问答166 http://t.cn/RhffVQu [ 微博 ]

2014-09-11 @2gua: 其实,我一直希望哪一天能用Ruby进行数据分析,stats with Ruby......哪一天,哪一天......[doge] [ 微博 ]

2014-09-11 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ 微博 ]

2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWlhttp://t.cn/zOMb9mJ [ 微博 ]

2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ 微博 ]

2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ 微博 ]

2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ 微博 ]

2014-09-10 张天雷 《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz [ 微博 ]

2014-09-10 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 Bayesian Reasoning and Machine Learning 真是不开心,这比 Koller 的 PGM 好读,好处是图多,我就喜欢看图说话的小二班 [ 微博 ]

2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ 微博 ]

2014-09-10 US News 全美大学排名数据集: 新鲜出炉2015年排名前150的综合大学(national university)和文理学院(national liberal art college) . 资源列表 http://t.cn/RhcYKC2 包括1983-2007, 2008, 2009, 2010, 2011-2015 数据,应该比较全了. 欢迎补充 [ 微博 ]

2014-09-10 DBPedia 2014: 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ 微博 ]

2014-09-09 http://t.cn/zOpIrjJ 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC, 有少数民族语言,方言数据 //@龙星镖局:有专门放入方言的nlp研究 吗?@白硕SH 老师 //@殆知阁:转发微博 [ 微博 ]

2014-09-09 好东西 ,向 迷渡 justjavac (索引的作者)致敬! 顺路推荐一下他的另一个工作 "Google 全球 IP 地址库" , http://t.cn/RvabGv5 //@justjavac: 我说今天怎么收到好多私信呢,原来根源在这儿啊。//@CSDN_CODE:Mark! [ 微博 ]

2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ 微博 ]

2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ 微博 ]

2014-09-09 问:@绝影 求助 刚开始做图像融合相关领域研究,请问有哪些大牛? 答:进展 http://t.cn/RhqD63F 图像融合(Image Fusion)在计算机视觉(computer vision), 遥感(remote sensing)和医学图像(Medical Image)上都有应用,可追踪会议IPCV,ICIFE, 期刊IJCV 及综述。大牛欢迎专家传送 [ 微博 ]

2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ 微博 ]

2014-09-09 #夜读春秋# 最近JWT(JSON Web Token,是一种基于JSON的认证安全协议)势头很火,这里找了一个48页的幻灯片,帮你快速了解这些概念的含义,并提供一定全局观 http://t.cn/Rht40uL 该作者(Brian Campbell)还有一个更新的幻灯片讲JWT和JOSE http://t.cn/Rht40uw [ 微博 ]

2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 http://t.cn/Rh5H2za [good] [ 微博 ]

2014-09-08 黄昌宁 赵海 《中文分词十年回顾 》http://t.cn/Rh5Xe3S //@龙星镖局: 有个 中文分词十年 孙老师搜一下 [ 微博 ]

2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ 微博 ]

2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ 微博 ]

2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ 微博 ]

2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ 微博 ]

2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ 微博 ]

2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ 微博 ]

2014-09-06 [开放数据]印尼政府开放数据 data.ukp.go.id http://t.cn/Rhbrjfv 于2014-09-05上线,有700 多数据集。要使用数据恐怕先要能读懂印尼语(拼写属于拉丁语系,最早源于荷兰语)。此外,2014统计数据表明印尼有2.5亿人,是排名世界人口第四大国。 [ 微博 ]

2014-09-06 监控页面变化的开源项目page-monitor 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ 微博 ]

2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ 微博 ]

2014-09-06 传送理由:右边的链接真是好东西 -- 不止配色工具,还有大量字体,图片、纹理,壁纸等众多素材资源网站一网打尽。 //@设定控: 配色工具网站汇总 http://t.cn/RPbMz7M [ 微博 ]

2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ 微博 ]

2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ 微博 ]

2014-09-05 转发理由:非常酷的星系生死大片!本超星系团呈羽毛形状,因为有个巨大的吸引子(就是羽毛的中心),不断吞噬星系。这些“羽毛”的绒线就是星系赴死即将遵循的轨迹。在图中银河系只是微不足道的一个小点 [ 微博 ]

2014-09-05 //@ShangguanRPI: 在前东家也做过一样的数据分析,结论也几乎一致。用的数据集来自usps登记的过去10年所有地址更换记录,不确定census的数据是否也来自这个源。 [ 微博 ]

2014-09-05 转发理由:世界基本经济数据的可视化,地图均给出了数据出处 [ 微博 ]

2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ 微博 ]

2014-09-05 http://t.cn/Rh4W25z 今年欧洲python大会的一个35页在线讲义幻灯片,用实例介绍如何用python实现概率编程,尤其是pymc3 阅读时间大约半小时 [ 微博 ]

2014-09-05 [问题求传送] 问:@开机就好ing 有没有比较好的Gbrank的相关的开源实现 答:就是 Zhaohui Zheng SIGIR '07 文章“A regression framework for learning ranking ...” 里提到的GBRank (guardian boosted) 问答进展看 http://t.cn/Rh4C8hd 初步好像有一个C++ 开源代码 http://t.cn/Rh4C8hg 欢迎补充 [ 微博 ]

2014-09-04 [资料整理] PDF版 http://t.cn/RhUOt6p 《智能问答系统:心得点评与文献列表》覆盖几个知名的问答系统:Halo (Aura); Siri;IBM Watson (DeepQA); True Knowledge;Facebook Graph Search 重点评论了知识图谱和语义web技术在自动智能问答系统中的应用与前景 [ 微博 ]

2014-09-04 旧闻回顾: Siri开发者成立人工智能公司Viv Labs (注意 网址是 viv.ai ), 花两年时间开发了能自动学习的智能个人助理系统Viv:将自然语言表达的复杂问题与搜索结合 相关Wired报导( http://t.cn/RhUtTwq 8月12日) 有微博原发评论 @网路冷眼 @新浪科技 (看 @张栋_机器学习 评论) http://t.cn/RhUtTw5 [ 微博 ]

2014-09-04 问: @simba0626 请问现今有哪些成功的智能问答系统? 答: 问答进展 http://t.cn/RhUq00L 成功不好定义,基本用了知识图谱, 例如 IBM DeepQA (watson), wolfram alpha, Apple Siri, Google now。当然学术界也有一群人在做开放领域的图灵测试,如Eugen http://t.cn/RhUq00y 相关文献待会整理个资源合集 [ 微博 ]

2014-09-03 回复@统计之都: 非常感谢 这可是今年7月新鲜出炉的文章,Gilles Louppe http://t.cn/RhyvpGz //@统计之都:Gilles Louppe的博士论文《随机森林:从理论到实践》,PDF下载地址http://t.cn/RP8JQyC。 [ 微博 ]

2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ 微博 ]

2014-09-03 问:@子_相 求推荐一个PHP上的内存cache 的mod 答: http://t.cn/RhLeSxQ APC曾是首选(towser451@github 也推荐), 但php5.5用opcache作bytecode cache后, APC user data cache就被删改成APCu。@Laruence (APC, opcache的lead)2013博文指出APC效率问题,并因此开发YAC。卡片盒子: http://t.cn/RhLeSx8 [ 微博 ]

2014-09-03 在Neural Networks and Deep Learning第四章有对这个定理的可视化阐述,简洁易懂 http://t.cn/RhL8X74 该书我们以前在深度学习系列里也推荐过 http://t.cn/RhLmjtj [ 微博 ]

2014-09-01 转发理由:Larochelle是加拿大Université de Sherbrooke的教授。他是蒙特利尔大学Yoshua Bengio的博士,多伦多大学Geoffrey Hinton的博士后,师承深度学习的两大重镇 [ 微博 ]

2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ 微博 ]

2014-08-31 传送理由:开源的推荐系统,从各种语言调用都方便 [ 微博 ]

2014-08-31 @Copper_PKU 的讲义前段时间推荐过,这个也很赞。 [ 微博 ]

2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ 微博 ]

2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ 微博 ]

2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ 微博 ]

2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ 微博 ]

2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ 微博 ]

2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ 微博 ]

2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ 微博 ]

2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ 微博 ]

2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ 微博 ]

2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ 微博 ]

2014-08-29 [好文略读|机器学习] Big data opportunities and challenges: Discussions from data analytics perspectives (综述,@南大周志华 等著)http://t.cn/Rh7IH66 感谢推荐人 @刘知远THU @RAYMOND__WU 等 [ 微博 ]

2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ 微博 ]

2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ 微博 ]

2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ 微博 ]

2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ 微博 ]

2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ 微博 ]

2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ 微博 ]

2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2http://t.cn/bln2a [ 微博 ]

2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ 微博 ]

2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ 微博 ]

2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ 微博 ]

2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ 微博 ]

2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ 微博 ]

2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ 微博 ]

2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ 微博 ]

2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ 微博 ]

2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ 微博 ]

2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ 微博 ]

2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ 微博 ]

2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ 微博 ]

2014-08-24 传送理由:清晰的解题思路。补充一下,Haijie Gu 是GraphLab的联合创始人,现在CMU读博士。GraphLab 2013年融资6百多万美元。 (原文格式更好看一些,http://t.cn/RPBR5pm) [ 微博 ]

2014-08-24 转发理由: 你懂的 //@何_登成: //@传媒老跟班:@设定控 做过一个谷歌专题 http://t.cn/RvnDzSG ,提供了多种访问谷歌的方式,大家可以看看。尤其推荐其中提到的#美国在线# http://t.cn/hVO8E ,该站搜索结果就是谷歌的结果,速度很快。 [ 微博 ]

2014-08-24 回复@MD_1stUP锐之翼: 全是野生的,所有物种活动活动观察记录网上都有,这是一条荷兰阿姆斯特丹的观察记录: http://t.cn/RPB5AWt 超市里只卖养殖的,野生的恐怕只能依律就地销毁 //@MD_1stUP锐之翼:是入侵华人超市吧[哼] [ 微博 ]

2014-08-24 问: @十月伤感wb 可否推荐些基于社交网络的推荐算法的资料,以及数据集,特别是数据集的下载地址谢谢了做推荐的很多都需要 答: [初步传送] 关于数据集: 斯坦福大规模网络数据集大全 (SNAP) http://t.cn/RPBqrcJ 关于推荐系统:看这里 http://t.cn/RPBqrci 问答进展: http://t.cn/RPBqrc6 求指点 [ 微博 ]

2014-08-24 @斯库里 传送理由:为广泛传播的社交媒体消息提供严谨的科学依据 http://weibo.com/1820578701/Be7W6AouY [ 微博 ]

2014-08-24 大闸蟹来了。近年来全国满街都是阳澄湖大闸蟹的招牌,可你知道吗,大闸蟹也正在入侵欧美呢! 早上查了全球生物多样性信息库(GBIF, 5亿条带GPS定位的物种活动记录), Eriocheir sinensis (Chinese mitten crab)找到3400+记录: 分布在欧洲沿海,北美东部与五大湖区。当然, 阳澄湖不算 http://t.cn/RPBGJ8y [ 微博 ]

2014-08-24 网站上的数据早已分门别类整理好了,生物学者都可以直接查询使用。待会整个关于大闸蟹的 //@珏黛佳人GenderIT: WOW //@玛酷嘟纳噜多昕之张: 怎麼處理這些數據..? //@黠之大者://@浙大陈为: //@好东西传送门: 在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键 [ 微博 ]

2014-08-23 说起松鼠,就想起著名的 @科学松鼠会 这里的松鼠其实只是一个引子,在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键,用到数据的800篇论文证明了数据的重要价值,值得传播 //@Coder_Chenzhi: 还是红松鼠好看,一直对云大的灰松鼠无感,总感觉灰松鼠的尾巴像锅刷。。 [ 微博 ]

2014-08-23 问:@七哥爱吃山楂片 能帮忙收集一下,国内外机器学习领域大牛的主页吗? 答:这是一个不完整的名单,仅限于美国 http://t.cn/RP1Pp3s (资料卡片:http://t.cn/RP1Pp1v )有不少资深院士级大拿,也有冉冉升起的助理教授。一家之言,欢迎补充指正。 图推中国教授 [ 微博 ]

2014-08-23 可爱的灰松鼠竟然是入侵者, 占领了土著红松鼠的家园!如何估测外来物种与土著物种的分布范围呢?全球生物多样性信息库(GBIF)已为1百多万物种建立了5亿条活动记录, 此开放数据被800余专业论文使用。某论文用大量松鼠活动记录, 分析出气候因素与分布范围的相关性。GBIF资料: http://t.cn/RP3FuVI [ 微博 ]

2014-08-22 问: @蓝莲斯基:有没有关于uplift建模的资料? 最好先是具体案例,然后是论文讲解,希望能看到近来综述总结的论文 答:增量建模(uplift)可用来寻找“可说服”的人群,属于市场推广。找到 一些关于美国的银行的用例,还有保险业中的应用论文。初步问答进展 http://t.cn/RP3A4IC ,欢迎补充指正 [ 微博 ]

2014-08-22 问: @AOzil 计算广告学的基本问题,如何以最小的代价,去评估一个媒体或是交易所的流量是否有价值?现在做法是各种投放,发现成本较高。 答: riverliu81 "以最小的代价去评估一个广告渠道为投放者带来的价值", copy成熟竞争对手; 小成本投放, 比较转化率; 电子邮件为王。问答进展 http://t.cn/RP3wGuN [ 微博 ]

2014-08-22 [资料整理] 分段线性模型资料与软件 -- 入门篇 http://t.cn/RP3zJLu (cardbox http://t.cn/RP3zJL1 两个基本教程,一个进阶教程;各种编程语言的例子Mathematica, SAS, Matlab, R, python, RapidMinder 关键词: Piecewise linear regression 贡献者: @视觉动物晴木明川 @heavenfireray @禅系一之花 [ 微博 ]

2014-08-22 基于维基百科的统计:用一张地图把各国家/地区同与其相关的英文单词关联起来 http://t.cn/RPuKQqo 中国是dynasty和china。有好几个国家都是“World”: 英国,法国、德国还有日本。 越南倒是和French连上了,很有喜感。 [ 微博 ]

2014-08-21 [求传送] @isnowfy 问一下有没有免费的能用的中文的分词,标注,树库的数据呢,好多数据一个是不能免费获取,做为爱好者不知道哪里能得到数据自己来搞搞呢。初步线索:分词参@ansj 的推荐 http://t.cn/RPmMfFk 和@刘邵博 的词库 http://t.cn/RPmMfFD 免费中文树库求推荐 [ 微博 ]

2014-08-21 小知识:电影海报里最常用的颜色是橙色和蓝色 。MoviePosterDB里有最全的电影海报数据库 http://t.cn/hqtlge 想想拿它能做什么有趣的应用吧? [ 微博 ]

2014-08-21 问:@chico2011 @leo_lq 求推荐金融交易风险评估方面的paper 答: 找到 Financial Engineering and Risk Management Part I (Columbia University on Coursera),但风险评估相关的只简单的介绍了一下VaR。还找到bitcoin和real estate相关论文 问答进展: http://t.cn/RPn8foN 求进一步传送 [ 微博 ]

2014-08-21 [资源整理] MultiTask Learning资源合集 http://t.cn/RPnTjps 2014KDD最佳博士论文提名, WSDM2014最佳论文, 及与深度学习的结合。传送来自微博的优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 http://t.cn/RPnTj0v [ 微博 ]

2014-08-21 [资源整理]MultiTask Learning 资源合集。传送:#SIGKDD#2014最佳博士论文提名,#WSDM2014# 最佳论文,#ICML#2008 经典论文,以及如何与深度学习的结合。并传送大量优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 [ 微博 ]

2014-08-21 问:@理想主义de患者 有没有音视频流媒体方面的资料啊? 例如g729, g726 答:找到博达(broadcom)的对比贴(Codec Comparision) 问答进展: http://t.cn/RPnYhXO ....... 传送第一站完成,求大家帮忙继续传送,门也会继续帮助把问题澄清。 [ 微博 ]

2014-08-21 问: (微信用户) 谁能推荐一个免费的网上会议系统(国内也能连的)? webex什么都要收费 答: 朋友推荐: uberconference, freeconferencecall,Moxtra。hackernews 推荐五个。看看开源 BigBlueButton http://t.cn/RPnWKl6。此外 bluejeans视频会议很牛但很贵。问答记录:http://t.cn/RPnWKlX 欢迎补充指正 [ 微博 ]

2014-08-20 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ 微博 ]

2014-08-20 http://t.cn/RPEIus6 "Brewing Deep Networks With Caffe" 补一个他前段时间在CVPR关于Caffe的讲座 //@我爱机器学习: Caffe作者,学习 [ 微博 ]

2014-08-20 图片一向是知识产权斗争中的一个重要领域,英国的GettyImage 提供免费图片引用服务 http://t.cn/RPELwwS "You can embed a Getty Images photo on a website, social media site or blog for free and without having to buy a licence, as long as the photo is not used for commercial purposes" [ 微博 ]

2014-08-20 谢谢补充 The repository has been designed in 2009 by Reza Zafarani and Huan Liu. Huan Liu 是ASU的资深教授,各种院士 AAAI, ACM (Distinguished Scientist), AAAS, ASEE, IEEE (Fellow), SIAM; http://t.cn/zHsb5qk 回复 @唐小sin:http://t.cn/zjBLh8P ASU的一些数据,貌似还有豆瓣的 //@好东西 [ 微博 ]

2014-08-20 这是一个学术讨论贴,@郑梓豪爱文艺 在这里 http://t.cn/RPRegxF 更详细地描述了他遇到的研究问题,和初步想法,很希望能得到指点,并且与同学们讨论研究。先代他谢过了。 [ 微博 ]

2014-08-20 回复@CodeColorist: 非常感谢,这个数据集非常好 http://t.cn/RPEhoMR “Collection and sharing of data for scientific analysis of Internet traffic, topology, routing, performance, and security-related events” 适合科研 //@CodeColorist:这个项目里自治系统(ASN)的数据是20 [ 微博 ]

2014-08-20 问: @andeguangshaqianwanjian 传送门啊,有python做神经网络(时间序列预测方面)的资料没 答: 准备一些入门知识 http://t.cn/RPRFdBG 基于神经网络的方案:试试Pandas; Github上有 theano-rnn 开源演示; 常规python时间序列分析 可以用scikit timeseries; 此外还有一些背景知识供你参考。 [ 微博 ]

2014-08-20 [求指点] @郑梓豪爱文艺 网络媒体上发现热门话题的方法,如何在一个小「话题」,比如「机器学习」中发现新动态。 我想改进现有的热度函数heat算法,例如采用新参数(讨论者属性的混乱程度), 或分析用户行为在时间轴上的异常分布。 问题进展: http://t.cn/RPRegxF 找到的一些相关文献, 但都比较旧 [ 微博 ]

2014-08-20 斯坦福大规模网络数据集大全(Stanford Large Network Dataset Collection, SNAP) http://t.cn/RPRgvZQ 由斯坦福教授Jure Leskovec整理。免费,清理过,可下载。十多种不同类型的网络数据集(社交;在线社区;电子邮件;引用;Web, ...)。 Friendster数据集有6千5百万节点,18亿条边。 [ 微博 ]

2014-08-20 [资源整理] 提高网站页面响应速度的解决方案 http://t.cn/RPRrPLn : 最简单用DNS A-Record, 反向代理及负载均衡 可以先考虑ngix, 进一步可用proxy分流 感谢贡献者: mahak(github), @BUPTGuo , @情非得已小屋, @新世界_玉兔 , @52cs [ 微博 ]

2014-08-20 [推荐] Google研究员贾扬清 @fs_Yangqing 分享GoogLeNet在2014大规模视觉识别挑战赛的经验(Large Scale Visual Recognition Challenge 2014)。"个人觉得,更有意思的是 how to get the number 而不是 what the number is。我从classification和detection两个track分别聊一下" http://t.cn/RPR1pLX [ 微博 ]

2014-08-20 [续求助] 问: @杜威Dewey 比较 nextenta、nutanix? 答: 讨论与进展 http://t.cn/RPRunNs 有一篇不错的谷歌话题热度分析: http://t.cn/RPR3wtD 1.nutanix 与nextenta分类不同, 前者是 Boxed Storage, 后者是 Software-only Storage; 2.nutanix在增长,也有很多对手, nextenta 在下降, 仍占绝对优势 [ 微博 ]

2014-08-20 [求助] 问: @杜威Dewey 互联网应用的分布式数据库存储使用网络存储有什么好方案吗?相对于昂贵的FC-SAN,性能一般的NAS,IP-SAN是不是比较好的选择。Nexenta、OpenFiler这些开源软件能上生产环境吗?有人说nextenta不合适用于互联网架构,说nutanix不错, 怎么看? 讨论与进展: http://t.cn/RPRunNs [ 微博 ]

2014-08-20 [知识]"星系动物园"(GalaxyZoo, http://t.cn/RPRnHTO )是邀请公众协助在网络上为上百万个星系在线上进行分类的天文学计划。2007年上线, 第一版两年分类了90万星系,免费数据下载 http://t.cn/RPRnHTl ; 2014 Kaggle Galaxy Zoo challenge头名用深度学习自动分类(RMSE 0.07467) http://t.cn/RPRnHTW [ 微博 ]

2014-08-20 罗马帝国的40张地图 http://t.cn/RPRnTsJ 罗马的兴起,罗马的对外战争,罗马内战,罗马与中国和印度的贸易,罗马的衰落与遗产,尽在图中。 [ 微博 ]

2014-08-20 原来GIF小动画也这么有用又好玩,果然是数据结构入门利器。 里面的例子里给的代码不熟悉,貌似伪码。 [ 微博 ]

2014-08-20 http://t.cn/RPRHgdY 补充树木计划链接 [good]//@复旦大学星空讲坛: 几天前星空还转过港中大的树木计划,希望旦旦也可以有自己的植物库[可怜] [ 微博 ]

2014-08-19 生物百科全书 Encyclopedia of Life(EOL) 是一个免费在线全球物种档案馆。它自2008年上线就涵盖了3万物种,到2011年九月已经达到70万物种, 目标是在10年内为1百90万余已知的物种建立档案。http://t.cn/RP8mYWn @陆浑戎 推荐的《中国植物志》在线版、台湾生命大百科 都可以算是全球EOL联盟的一部分 [ 微博 ]

2014-08-19 问: @jimmy_000 卷积神经网络CNN的“卷积”是一个什么样的过程? 它是怎样将图像的编码从像素level 上升到NxN区块的 答: 初步答案 http://t.cn/RP8QjNH 看看Andrew Ng 写的短教程Convolutional Neural Network, 中文有bzjia的Deep Learning学习随记。@赵家平USC 讲了不少深度学习在图像处理的前沿成果 [ 微博 ]

2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton)。 [ 微博 ]

2014-08-19 [资源整理] 不平衡数据分类(Imbalanced data classification): http://t.cn/RP8NM2s 经典文献 MetaCost (Domingo, 1999), SMOTE(2002 Chawla), 以及2004 CMU Yanjun Qi 的综述(现UVA教授);工具与数据集(WEKA,NLTK), GITHUB SMOTE的实现。感谢 @AixinSG @刘知远THU @xierqi @eacl_newsmth [ 微博 ]

2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ 微博 ]

2014-08-19 [资源整理 ] 中文词汇语义相似度计算方法与工具 http://t.cn/RP8IYvH 包括:python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片: http://t.cn/RP8IYvT 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU [ 微博 ]

2014-08-18 搭车推荐 @赵家平USC 的微博 "Sebastian Seung 用CNN重建了老鼠视网膜里的plexiform layer;UCI的学者在nature上撰文说DL用于发现 希格斯玻色子"; Jeff Hinton组deep CNN(CovNets)在ImageNet; Fei-Fei组的 video classification with CNN 看问答进展:http://t.cn/RPQxZNF [ 微博 ]

2014-08-18 非常感谢,身边的图像拼接/全景图应用:谷歌街景, iphone拍照, 汽车摄像头//@图像视觉研究: Lowe的Automatic Panoramic Image Stitching using Invariant Features绝对经典,OpenCV的拼接就是基于这个框架。另外沈向洋的Construction of Panoramic Image Mosaics with Global and Local Alignment也经典 [ 微博 ]

2014-08-18 问: @思考中的芦苇 有没有视频图像配准相关的资料呢?比如说卫星拍了一段地面上的遥感视频,如何从这段视频中提取出许多帧图像,然后进行图像配准,组成一幅地图呢? 答: 关键词Image Alignment and Stitching, remote sensing, 问答进展见http://t.cn/RPQ63GQ 求交流指点 [ 微博 ]

2014-08-18 阶段小结: 感谢热心专家 @唐小sin @善良的右行 推荐的好东西, 现在问答追踪 ( http://t.cn/RPQXlim )里已经有十几条相关文献了. 整理了一个总结, http://t.cn/RPQXliQ 看看行不行,欢迎参与编辑 [ 微博 ]

2014-08-18 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . //@善良的右行:@好东西传送门 惭愧,我也是菜鸟,当然很乐意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De [ 微博 ]

2014-08-18 回复@唐小sin: 这篇文章很不错哦, 还对比了TunkRank, Topic-sensitive PageRank (TSPR) //@唐小sin:任何influence的文章都可以哪来读读,而至于意见领袖不妨看看twitterrank [ 微博 ]

2014-08-18 发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW [ 微博 ]

2014-08-18 感谢指正, 能不能推荐几个好东西, 咱也找找 social network analysis 的文献 回复@善良的右行: 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘 [ 微博 ]

2014-08-18 问: @马辰The_answer:主页君能否推荐一些用深度学习做推荐的文章资料 答: 问答进展 http://t.cn/RPQMg7Q 找到一篇今年8月新鲜出炉, Spotify的实习生博文: Recommending music on Spotify with deep learning .今年2月有人讲Netflix的电影推荐. 欢迎补充指正 [ 微博 ]

2014-08-18 问: @山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐? 答: 问答进展 http://t.cn/RPQfWRW . 初步推荐: 意见领袖 (opinion leader), user influence, twitter, 有几篇引用率很高的论文分析了Twitter用户影响力. 还有, 社交媒体信息传播综述. 欢迎补充指正. [ 微博 ]

2014-08-17 //@见习烟酒生:出轨检测。。居然还有这么实用的案例//@西瓜大丸子汤:里面有一篇“女人是如何发现另一半出轨的” [哈哈] [ 微博 ]

2014-08-16 [求指点] @小白_小可乐:能帮忙找点"背景建模"的资料么?就是图像前景提取的方法. 关键词: 图像前景提取(Foreground Extraction), 视频分析, 背景建模(background object detection) 问答进展看这里: http://t.cn/RPTWX7w [ 微博 ]

2014-08-16 大家一定要看韩家伟老师的异常检测讲义(是他数据挖掘教材第三版的第12章),就56页. 简明扼要! 直接给个讲义PPT 下载传送门 http://t.cn/RPTLh7M [ 微博 ]

2014-08-16 问:@ai_东沂 异常检测应用在文本挖掘 答: 异常检测(outlier/anomaly detection)和文本挖掘(text mining)都是大课题。几篇异常检测综述(如韩家伟的讲义) 与应用(如发现金融欺诈); 几个异常检测用在文本挖掘的综述(如在对话流中发现新话题),以及话题模型的文献(如翟成祥的讲义) http://t.cn/RPYnZD8 [ 微博 ]

2014-08-16 @维尔茨 问:有木有关于循环神经网络在segmented sequence labeling方面的papers? 答:多伦多大学Alex Graves有专著. 基于recurrent neural networks(RNN)研究, @ICT_朱亚东 推荐Herbert Jaeger的短教程. Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院用RNN做自然语言处理 http://t.cn/RPYQVsY [ 微博 ]

2014-08-15 [实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 [ 微博 ]

2014-08-15 [good]//@孙明明_SmarterChina:这些资料都没有提到manifold Learning中的一篇非常重要的文献:Yoshua Bengio 的 Non-Local Estimation of Manifold Structure http://t.cn/RPj5iYv。 这个文章揭示了LLE/ISOMap代表的一类流形学习方法无法直接广泛应用的宿命。 [ 微博 ]

2014-08-15 Apex出品 [good]//@zwner:个人觉得最普适有效的经典算法是SVD++ http://t.cn/RPjLPjx,在推荐模型本身上最有深度的是MF-GBRT http://t.cn/RPjLPjM。如果你想用一个code快速实现不少推荐算法,那请毫不犹豫使用我们的SVDFeature http://t.cn/zYRnUMA [ 微博 ]

2014-08-14 这个例子很合适送给@oyyNyanCat “机器学习数据挖掘方面的简单有趣应用” http://t.cn/RPlYDZx [ 微博 ]

2014-08-14 特别推荐。最优化,逻辑回归,最大熵,主题模型,深度学习,相似度,搜索,一脉下来,整理的深入浅出,非常清晰。传送门君以前读过前一半,现在终于写全了! [ 微博 ]

2014-08-13 最新数据显示: 美国Snapchat的用户渗透率稳步上升,在18-34岁的消费者市场首次超过Twitter。主要动力来自18-24岁人群的追捧。 http://t.cn/RPWBC1c [ 微博 ]

2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 [ 微博 ]

2014-08-13 http://t.cn/RPW6muz ACL2014 Semantic Parsing Workshop的slides 感谢@老淘 @波多野丽猪 推荐 [ 微博 ]

2014-08-13 //@ansj: @52nlp @好东西传送门 @v_小峰_v 墙裂推荐.应该是史上公开的最大最完整的中文词库了 [ 微博 ]

2014-08-13 回复@Liufool: 非常感谢,这个补充太专业了,果然是windows高手。话说微软的语音识别还是很牛的,你看这个当入门文档行吗? http://t.cn/RPWwj0A 顺带说一句, 曾经亲眼看见一个盲人科学家用语音操控windows笔记本。 //@Liufool:microsoft speech platform是服务器版windows可免费应用的语音识别, [ 微博 ]

2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 [ 微博 ]

2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA [ 微博 ]

2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon [ 微博 ]

2014-08-13 [问题求领养] @不非否nonono:请问有没有关于causality与Bayesian Network有关的资料?http://t.cn/RPOR7Iv。除了Judea Pearl的书,大家有什么推荐?有没有你觉得比较好的教程?BTW, 以前在Python站上有过不少和贝叶斯相关的推荐资源 http://t.cn/RPOrpGD [ 微博 ]

2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 [ 微博 ]

2014-08-12 [NLP讲义下载,125页,PDF] 翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题。http://t.cn/RPO7vtW [ 微博 ]

2014-08-12 //@昊奋: 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 [ 微博 ]

2014-08-12 这个问题还有很多其他选择方案,如知网。一些正在issue 67下讨论 http://t.cn/RP0pPIt 欢迎去那增补(留言请留下你的微博号) [ 讨论 ] [ 微博 ]

2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj [ 微博 ]

2014-08-12 问:@all_shuffle cassandra调优的资料 答:可以去datastax和cassandra wiki去找资料。优化点含数据建模、读写I/O、存储压缩、JVM。要注意cassandra版本。也可以看看Ebay, Netflix的应用案例。http://memect.co/ioPLBIK [ [微博](http://www.weibo.com/5220650532/BhTnSbw2s) ]

2014-08-10 @唐小sin 问:现在社交网络的研究焦点在哪? 答:感谢清华大学@唐杰THU 教授提供答案,在他与密歇根大学梅俏竹教授合写的综述《数据挖掘学科发展报告》第2.2 部分“社交网络分析和图挖掘研究”分析了诸多前沿方向,如网络结构分析、图模式挖掘、信息传播和影响力建模等,可供参考 http://t.cn/RPNVntW http://www.weibo.com/5220650532/BhCrZ8DO1?mod=weibotime

2014-08-10 http://t.cn/RPNLDbW 用Python打造图像分析应用你需要知道的15个软件包:计算基础Numpy Scipy 图像基础matoplotlib PIL/Pillow 图像进阶OpenCV SimpleCV mahotas scikit-learn ilastik 其他pprocess h5py scikit-image Medpy 完整列表 http://t.cn/RPNLDb0 http://www.weibo.com/5220650532/BhBkrkfWg?mod=weibotime

2014-08-09 如何用Python打造高可用性网站?这组来自highscalability的文章展示了如何利用Python服务以亿计用户的网站,包括耳熟能详的Youtube(视频)、Reddit和Digg(新闻分享)、Dropbox(云存储)、Instagram和Pinterest(图片分享)等。下次有人疑问Python的性能,和ta分享这组文章吧 http://t.cn/RPCutKS http://www.weibo.com/5220650532/BhxxQjtja?mod=weibotime

2014-08-09 @我爱机器学习 问: 判断两张图片是否是同一内容(只考虑光照、倾斜、模糊、偏移等因素)的资料有否?答:@CD--挨踢民工巍然 推荐了lire,OpenIMAJ @申砾 推荐了pHash。lire和OpenIMAJ都是java的,openimag可以处理视频,关键点匹配,人脸识别等。pHash是C++的图像哈希软件 http://t.cn/RP9aFVz http://www.weibo.com/5220650532/BhqBFulcq?mod=weibotime

2014-08-08 问: @ 红星照大龙 有没有机器学习对具体设备(比如四轴,双足机器人,运动控制)在控制性能方面提升(稳定性,响应速度)的工具或者资料? 答:是不是Robot Learning或Adaptive Control,请看综述,工具,研究组和学会。两篇维基的参考资料都挺好。http://memect.co/Ehc3uFo [ [微博](http://www.weibo.com/5220650532/Bhl75C7mP) ]

2014-08-08 问: @ai_东沂 木有关于社会化标签挖掘的相关资料? 答: 社会化标签(folksonomy)在十年前很热了一阵,相关研究也主要集中在那一段时间(印第安那的一个博士生整理了一个文献清单)。还有两个综述论文(KDD那篇来自韩家伟的学生,另一篇KER来自一个语义Web的研究组)。不太全面,欢迎指正。http://memect.co/eOcfnQA [ [微博](http://www.weibo.com/5220650532/Bhl1QAnEn) ]

2014-08-08 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ]

2014-08-08 问:@andeguangshaqianwanjian 求python做神经网络的资料 答:找到十个工具,pythonWiki5个,Github里2个,其他(好像比前两类常用)3个。http://memect.co/no0jyMY [ [微博](http://www.weibo.com/5220650532/BhkMjyL4g?mod=weibotime) ]



2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data360.org, R datasets Package, Google Public Data, Infochimps, datamob http://data.memect.com/?tag=publicdomain+hao60 [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第四组:SNAP斯坦福的网络数据集 http://t.cn/RPSkGc9 ,Time Series Data Library近800个时间序列数据(经济、水文、气象、农业各种)http://t.cn/RPSkGci 一些大学实验室的数据集,如OSU金融、CMU统计、UCLA SOCR概率 http://t.cn/RPSkGc6 [ [微博](http://www.weibo.com/5220650532/BhbfM2eN5?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第三组:政府数据,有美国的data.gov,英国的data.gov.uk、澳大利亚数据、加拿大数据、联合国数据、三藩市、纽约市、伦敦市数据。用DataMarket搜索和可视化数据 http://t.cn/RPSDceG [ [微博](http://www.weibo.com/5220650532/Bhbaxj6xo?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第二组:机器学习数据源20+,包括Amazon Public Data(一共56个超大数据,如人类基因组,Common Crawl全球网页, Freebase,Wikipedia等各种宝贝)、航空、天气、医疗、音乐、电影、社交网络,Web点击 http://t.cn/RPSev91 [ [微博](http://www.weibo.com/5220650532/Bhb3qqHUg?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第一组:经济数据4个http://t.cn/RPSgSkR 世界银行Indictors, EconData, AEA(美国经济协会)RFE, GapMinder 金融数据8个:CBOE Futures Exchange, St Louis Fed, NASDAQ, OANDA, Quandl,Google/Yahoo http://t.cn/RPSgSkE [ [微博](http://www.weibo.com/5220650532/Bhb0wrN4O?mod=weibotime) ]

2014-08-07 ansj分词的作者@ansj 为我们介绍中文分词。工具有Java的Ansj分词、结巴分词Python版与C++版。基础文章《中文分词的原理与实践》。常用的算法:条件随机场CRF, 隐马尔科夫模型HMM。常用数据结构:Trie树和双数组 http://t.cn/RPSQlCE @ansj发起了nlpcn.org开放自由的NLP平台,NLPer都该去瞅瞅 [ [微博](http://www.weibo.com/5220650532/Bh9WGeljD?mod=weibotime) ]

2014-08-07 美国疾病控制与预防中心卫生经济学家 @陈茁博士_Adam 提供:准确的**卫生统计数据**是卫生经济政策的基础。这里提供了一组最重要的数据站点,包括国际组织(WHO, OECD, Worldbank, UNICEF)、美国政府部门(CDC, CMS,AHRQ)、中国的卫生计生统计。更多参芝加哥大学卫生统计数据门户 http://t.cn/RPSa7hk [ [微博](http://www.weibo.com/5220650532/Bh8lRehxo?ref=) ]

2014-08-06 @uso小驴酱 问**sparse representation for computer vision** CV领域教授Lyu回答: ECCV2012有计算机视觉稀疏表示的教程 。主讲人Yi Ma, Allen Yang, John Wright均是该领域核心专家。讲座包括了理论基础与实践。合集中还包括相关的Fast l-1和Convex Optimization方法 http://t.cn/RPam664 [ [讨论](memect#25) ] [ [微博](http://www.weibo.com/5220650532/Bh2vHlUlG?mod=weibotime) ]

2014-08-06 W3C研究员@吴伟1st 推荐: **关系数据库RDB转RDF的工具**。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h [ [讨论](memect#52) ] [微博](http://www.weibo.com/5220650532/Bh173BPZf?mod=weibotime) ]

2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ]

2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ]
  • 2014-08-05 [公开课] 斯坦福的计算广告学入门。整个教程一共9讲,包括市场设计、文字广告、上下文广告、展示广告、广告定向、广告推荐、和新形式广告。这是网上为数不多的计算广告学公开教程,由两位Yahoo科学家Andrei Broder和Vanja Josifovski,主讲,乃多年实战经验总结。http://t.cn/RPX0423 [ 微博 ]

  • 2014-08-05 回答集编程(Answer Set Programming)是一种强大的规则推理语言。它可以用于解决那些困难(例如NP-hard)的问题。从数据库查询,自然语言理解,生物信息学,到石油勘探,ASP有非常广泛的应用。@Logician_wolfel 推荐了一组最新的ASP教程 http://t.cn/RP6kRm4 有逻辑的问题请教他没错 [ 微博 ]

  • 2014-08-04 @昊奋 关于知识图谱的第二组推荐:知识图谱的构建及其应用,介绍了probabilisic KB(Google) KnowledgeVault,Sonya, Satori/Probase (Microsoft),YAGO,LOD2等重要的知识图谱系统。知识库构建,实体抽取、实体链接,查询理解和扩展, 语义搜索,等基础技术汇集在10篇核心文献http://t.cn/RP6JCGn [ 微博 ]

  • 2014-08-04 @西瓜大丸子汤 问:识别水贴(微博,回复,留言)和有价值的贴。这个各路英雄有没有能指点一下的? @刘知远THU 答:刚看到 软件学报 上有篇研究综述:网络水军识别研究。 @QPCN 答:今年www有个tutorial,utah state的lee,关键词crowdturfing 汇总如下: http://t.cn/RP6MOOV 欢迎增补 [ 微博 ]

  • 2014-08-04 SSDB是一个高性能 NoSQL 数据库, 支持哈希表,集合,列表等数据结构。它作为redis的替代或补充,可以用很小的内存代价实现十亿级别数据的存储。工具与生态系统生长非常迅速,已为众多互联网企业所使用。核心推荐资源 http://t.cn/RPi1q47 所有资源http://t.cn/RPi1q4h 作者是@ideawu [ 讨论 ] [ 微博 ]

  • 2014-08-04 极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://t.cn/RPiRyYc [ 讨论 ] [ 微博 ]

  • 2014-08-04 @AOzil 问:可否推荐一些创意自适应的资料 答:Creative Optimization是一种面向用户自动优化广告内容与展示的技术。斯坦福大学计算广告学入门 http://t.cn/RPiQ6Zn 阐述了基本概念 10个相关厂家从不同侧面的介绍与宣传 http://t.cn/RPiQ6Zm 新闻 和国内专家@刘铁岩 的评论 http://t.cn/RPiQ6ZR [ 讨论 ] [ 微博 ]

  • 2014-08-04 @zbyufei 问:基于python开发的Code online系统有哪些。类似于Cloud9 IDE的。@登州知府 答:开源Online IDE的开发语言比较常见的是Node.js, Java和PHP,python的真没怎么见过。支持Python的IDE,@南京话zen好听 推荐 koding.com @康积华_绩点侠 推荐codeskulptor,所有IDE列表见 http://t.cn/RPxOOPE [ 讨论 ] [ 微博 ]

  • 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书**《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法**,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ 微博 ]

  • 2014-08-03 [微综述] 搜索专家 @孙明明_SmarterChina 在"知识图谱与搜索引擎"中推荐了建立知识图谱和利用知识图谱的12篇重要文献,涵盖利用百科数据,挖掘生成知识图谱,搜索引擎页面排序,利用实体标注、语义匹配,查询中的实体映射等前沿话题。导读 http://t.cn/RPiGS3l 文献列表 http://t.cn/RPiGS3O [ 微博 ]

  • 2014-08-02 产品设计的死循环(参见高尔定律第二原则)。附:高尔定律(Gall's law) 1、成功复杂系统是从已经成功的简单系统演进而来;2、凭空设计出来的复杂系统不会成功、再怎么打补丁也不行,只能推倒重来;3,简单系统未必成功。 [ 微博 ]

  • 2014-08-02 Sibyl是Google正在使用的分布式机器学习平台。它于2010年在大规模分布系统论坛(LADIS)就做过主题报告,今年又到DSN做了一次主题报告(视频林大原则讲得很清楚)。到底这四年有什么变化,看看下图(含四个关键幻灯片)就明白了。相关资料合集传送门: http://t.cn/RPxQZIN [ 微博 ]

  • 2014-08-02 @理想主义de患者 问:有没有垃圾邮件检测的项目啊。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ 讨论 ] [ 微博 ]

  • 2014-08-02 @羊_o羊o羊爱小破厂 问:需要tornado的资料。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ 讨论 ] [ 微博 ]

  • 2014-08-02 @钱知易 问有没有机器学习和深度学习在多媒体信息检索领域的资源?答:机器学习应用太广,本条只涉及深度学习。其中图像检索@姚鹏鹏YPP 已问过,见答案http://t.cn/RPxj0Y6 语音检索,Google语音组和微软邓力等是领先的,他们主页上的文章基本代表了前沿,一些教程在此 http://t.cn/RPxj0Yi [ 讨论 ] [ 微博 ]

  • 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的James Hendler (维基百科介绍 http://t.cn/RPxlN6p研究领域人工智能和Web科学,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ 微博 ]

  • 2014-08-02 [求援] @zbyufei 问:基于python开发的Code online系统有哪些。类似于Cloud9 IDE的。进展:主页君找到了9个支持Python的在线IDE,如ideone, repl.it, codepad http://t.cn/RPxOOPE 但没有发现基于python开发的开源系统。向社区达人求援!更新汇报 http://t.cn/RPxOOPn [ 讨论 ] [ 微博 ]

  • 2014-08-02 推荐一个emacs的很长长长长长长长长....的英文迷你教程,有无数小动画,非常容易懂,看得出是下了功夫的。进去看两眼您就赶紧藏转发吧,这还只是第一部。我怎么觉得这跟一口气看完某韩国连续剧一样一样的呀。http://t.cn/RPxLa51 同意它是有史以来最长的emacs教程请举手! [ 微博 ]

  • 2014-08-01 问:wechat:泡泡龙: 我想知道query意图分析(query分类)有哪些方法? 答:搜索关键词: query意图分析 ,query intent,query classification,user intent。 2009 年的一个综述(有幻灯片)。淘宝搜索Query的15个类型;本地搜索(微软专家);图像搜索(雅虎专家)。卡片合集:http://t.cn/RPxPp13 [ 讨论 ] [ 微博 ]

  • 2014-08-01 @小77you 问:关于graph DB有哪些开源的东东。@昊奋 答:Graph DB有两个分支,一个来自SW,以RDF triple store起家,括Jena, Virtuoso, AllegroGraph等 。另一个分支来自NoSQL,以Property Graph作为底层数据模型,包括Neo4J,Titan等,导读http://t.cn/RPxPAnt 15个数据库 http://t.cn/RPxPAn5 [ 讨论 ] [ 微博 ]

  • 2014-08-01 讲一下Facebook新的开源Javascript类库immutable.js http://t.cn/RPMDhro 此项目受David Nolen (ClojureScript大神)的Mori影响,支持多种Immutable数据结构(如哈希映射)并超出目前很火的react.js ,支持微软的TypeScript。immutable数据结构在javascript中利于降低存储代价,提高数据版本控制的效率 [ 微博 ]

  • 2014-08-01 社会机器Social Machine是Web发明人Berners-Lee和语义网领袖Hendler提出的概念:人与机器/人工智能如何协同工作,完成复杂问题?中国的人肉搜索是他们认为最好的例子,与中国学者合作做了大量研究。@QPCN 教授提供了该主题精炼导读 http://t.cn/RPMNDa5 并列出最重要的文献与讲义http://t.cn/RPMNDaq [ 微博 ]

  • 2014-08-01 @瀟灑小弟 问:有木有深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源? @panjf1987 提供答案:被推荐过最多是Richard Socher 的Deep Learning for Natural Language Processing (without Magic) 这个tutorial在NAACL 2013和ACL 2012都做过。讲稿,视频,参考文献整理如下http://t.cn/RPMSxHq [ 讨论 ] [ 微博 ]

  • 2014-07-31 知识图谱的构建离不开人的参与,众包作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ 微博 ]

  • 2014-07-31 @认知计算_Watson 推荐IBM Watson系统最新的介绍文章:Watson在医疗的应用,Watson中的关系提取,多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱 参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ 讨论 ] [ 微博 ]

  • 2014-07-30 @noavailableAccount 问:有没有KVM(kernel-based Virtual Machine)的学习资料 答:http://t.cn/RPfGM0H 有个cmu课程(24~27)覆盖了虚拟化的重要文献。最相关的有两篇经典论文;几个幻灯片与短教程;一个英文社区。几个中文博客的对比类概述。还有一本国内风评不错的教科书 [ 讨论 ] [ 微博 ]

  • 2014-07-30 感谢@北京-小武 推荐的云计算白皮书,已收录到大数据精华区 http://t.cn/RPfx7P7 为方便大家快速浏览,文中所有的图表已摘出来单列,更加节约略读时间 [ 微博 ]

  • 2014-07-29 @鱼片的小露宝 问:希望大数据分析和机器学习方向推荐一些书,最好是java而且比较基础容易上手的。答: Kirk Borne推荐过15本书 http://t.cn/RPcpSHG 用Java入门可以先学Weka Mahout和MLTK。这有一组入门资源 http://t.cn/RPcpSHb @朝花夕拾录 推荐过的CMU机器学习暑期班也非常好 http://t.cn/RPcpSHq [ 讨论 ] [ 微博 ]

  • 2014-07-29 问:@北冥渔翁 我要找windows服务器维护管理进阶的资料 答:服务器管理进阶通常是由新需求触发的,例如系统升级,效率优化,安全补丁,软件安装。这里 http://t.cn/RPcOYXo 罗列了一本免费书,几个博客与论坛, 希望微软专家(尤其是MVP)补充指正 @肥九叔 @曾经胖哥 @月光博客 @Edi_Wang [ 讨论 ] [ 微博 ]

  • 2014-07-29 @norvid 问:求数据仓库的元数据的相关综述资料。 答:数据仓库自2000年起逐渐从学术研究转到工业应用。热点是大数据挖掘,但元数据仍是数据链接聚合之关键。http://t.cn/RPV4wmy 罗列几个综述。推荐看uzh的幻灯片和Gartner分析报告。搜索词:logical data warehouse, Ontology-based Data Warehouse [ 讨论 ] [ 微博 ]

  • 2014-07-29 @娄琦天天刷围脖: 请问有没有Python集成Fortran项目的实例?答:历史上有F2Py作为Python的Fortran接口,现在已经集成到Numpy里了。numpy底层很多计算都是Fortran的,所以大量Python项目已经在间接用Fortran。具体的语法例子看这里 http://t.cn/RPVqpLo [ 讨论 ] [ 微博 ]

  • 2014-07-29 @心心xi 问:可否推荐一些关于recommendation的相关论文呢? 答:有三组不错的资源 @小飞鱼_露 推荐了20多篇论文 http://t.cn/RPcWrNz 其中有@唐杰THU 的工作。@清风运文 列举过推荐系统的19个开源工具 http://t.cn/RPcWrN7 @朝花夕拾录 刚分享了大数据上的推荐系统 http://t.cn/RPcWrNP [ 讨论 ] [ 微博 ]

  • 2014-07-29 @winsty 提到了梯度提升决策树Gradient Boost Decision Tree (GBDT) 这是一种模型组合的方法,利用简单模型的组合克服过拟合等问题。目前在推荐/Learn to Rank中广泛使用,如Yandex,也被称为MART/GBRT。这里列出几篇核心论文和R/Python/C++多种实现源码 http://t.cn/RPVUDs7 [ 微博 ]

  • 2014-07-29 @LDL_BIT 问:有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ 讨论 ] [ 微博 ]

    • @LDL_BIT 增补:最近就这个问题设计了个小实验,今天也看到一篇讲多项式学习问题的论文,见我的博客http://t.cn/RPSAXV0 注:文章是ICML 2014 “Learning Polynomials with Neural Networks” http://t.cn/RPSnyZi [ 微博 ]
  • 2014-07-27 [续http://t.cn/RP5WYnt ] @小飞鱼_露 问:能否推荐一些关于 Learning to Rank 的相关论文,教程,应用呢?答2:前次推荐了25篇文章,主要是相关算法。@刘知远THU 和 @老师木 进一步推荐了 @刘铁岩 和 @李航博士 的综述和专著,更适合入门 http://t.cn/RP5WYn5 全部LTR资源 http://t.cn/RP5WYnc [ 讨论 ] [ 微博 ]

  • 2014-07-27 @小飞鱼露 问:能否推荐一些关于 Learning to Rank 的相关论文,教程,以及一些应用呢?答:我们咨询了相关专家 @梁斌penny 并得到@白硕SH @熊辰炎 @ICT朱亚东 等精彩讨论,总结在这里 http://t.cn/RP50MiI 根据他们的推荐,我们收集了25篇重要论文 http://t.cn/RP50Mif 可根据专家推荐选读 [ 讨论 ] [ 微博 ]

  • 2014-07-26 @姚鹏鹏YPP 问:能不能推荐深度学习或者机器学习在图像检索中的应用的论文?答:最权威的索引可以说是最近CVPR 2014上的深度学习在计算机视觉上的教程,主讲人全是本领域的大拿,一共13个讲稿,基础/进阶/实践全有,顺着每个后面附的文献列表可以把领域内重要论文一网打尽了。http://t.cn/RPqzoPJ 这几个资料更具体,有百度和Facebook的图像搜索方法 http://t.cn/RPqUBaK [ 讨论 ] [ 微博 ]

  • 2014-07-26 David MacKay的Information Theory, Inference, and Learning Algorithms 以统计为纲,把经典信息论,机器学习,神经网络等领域统一阐述,深得好评,在微博上先后有@黄厝海滨 @陈利人 @算文解字 @陈晓鸣在硅谷 等专家推荐。这里总结该书的相关资料,讲稿,视频和PDF电子版都有 http://t.cn/RPqyzr0 [ 微博 ]

  • 2014-07-25 @shirleyChou1 问:请问有没有Python + machine learning 从入门到进阶的完整link list呢? 答: @52nlp 有个很好的总结,推荐去看 http://t.cn/RPboC0p 他提到的17个工具的开源代码按火爆程度列表在这里 http://t.cn/RPG2U0H。还有更多的机器学习包看这里 http://t.cn/RPGqlmf 入选的都是几百上千星的 [ 讨论 ] [ 微博 ]

  • 2014-07-25 [资源合集] 欧洲python大会(7月21到 27号)50多个视频与十多个幻灯片。最火话题:Python能从Haskell学到什么 http://t.cn/RPbBxX5 其他一些热点PPT:Pypy编译器进展, 图数据库,消息传递与并发,用pymc3和Scikit-learn做机器学习,OpenStack云计算平台。更多好东西见 http://t.cn/RPbBxXq [ 微博 ]

  • 2014-07-25 [资源合集] http://t.cn/RPb1ewQ Github上13个最热门的NoSQL数据库排名。第一的是键值数据库Redis,近万颗星。第二,三是RethinkDB和MongoDB,两大竞争的文档数据库。第四是pouchdb,2800星,一个Javascript的可以跑在浏览器的数据库。图数据库Titan第五。其他有flockdb couchdb riak ravendb orientdb等 [ 微博 ]

  • 2014-07-25 @AngelZywei 问:推荐一下图像模糊检测的一些开源项目和资料吧。答:图像失焦和清晰度检测,有梯度检测,边缘检测等原理,具体的实现有拉普拉斯变换,Hough变换,小波变换等方法。这一组推荐资源13个,分为5篇经典论文,5个开源项目 (bash, python,C,C++, Clojure)和3篇问答 http://t.cn/RPGfOkO [ 讨论 ] [ 微博 ]

  • 2014-07-24 前几天@52cs 推荐@52nlp 在52nlp.cn 上列一批计算机高质量书籍,可惜很多链接都失效了。当时承诺帮大家找到可下载的版本,今天终于有空先找了第一批“特别推荐系列”里的7篇,提供了免登录下载。原作者有@52nlp @朱鉴 @陈涛sean @rickjin 非常非常感谢他们!http://t.cn/RPbU1Lu (更多待续) [ 微博 ]

  • 2014-07-24 @国产哈利波特007 问:能帮我找下数据挖掘方面的算法吗?答:推荐从这几本免费的数据挖掘与数据分析书开始。其中A Programmer’s Guide to Data Mining简明扼要,适合入门。Data Mining Algorithms In R解释了基本概念。Mining of Massive Datasets 可以进阶阅读。 http://t.cn/RP4Wmhu [ 讨论 ] [ 微博 ]

  • 2014-07-24 去年2月Nature指出Google在流感预测上出现重大错误:过高估计发病几率。今年3月Science讲了两个原因:抛弃传统方法过度依赖大数据,算法难以有效过滤网络舆情。前段时间纽约时报也讨论了大数据的局限。这里我们汇总了6篇相关文章,从正反两方面提供参考 http://t.cn/RP4CnFU 感谢 @lidingpku 提供 [ 微博 ]

  • 2014-07-23 @tang_Kaka_back 问:有没有时间序列分析的相关资料?答:这里收集了一组时间序列分析入门资源。分为三组:第一组是三本电子书,都是经典,其中两本免费 http://t.cn/RPUHGWb 第二组是9个教程,来自博客和中外大学课件 http://t.cn/RPUHGWL 第三组是维基百科上的核心概念介绍 http://t.cn/RPUHGW2 [ 讨论 ] [ 微博 ]

    • 三本推荐教材是 《时间序列分析及应用(R语言) 》 《A little Book of R for Time Series》 《Forecasting: principles and practice》 后两本书是免费的,FPP是讲理论的,R的那本是实战。三本书基本上把时间序列分析基本的方方面面都覆盖到了 [ 微博 ]
    • 第二组教程里有两个PPT http://t.cn/RPUnWmz http://t.cn/RPUnWmh 一个讲理论一个讲实战。在几篇博客里,特别推荐@敲代码的张洋 的 “时间序列分析基础” http://t.cn/RPUnWmP 基本概念,ARIMA/Ar/MA模型,R的实现都有,非常适合入门 [ 微博 ]
    • 第三组基本概念,也推荐看这个博客上的图 http://t.cn/RPUmVGK , 简明扼要,要搞懂什么概念一目了然。基础概念有时域分析,频域分析,ARIMA模型和各种变种。英文维基介绍的很清楚 [ 微博 ]
    • 续时间序列分析入门24个资源 http://t.cn/RPUuHJU 再推荐更多进阶内容。Memect大数据精华区有很多Hadoop上的时间序列分析文章 http://t.cn/RPUmu9T Python精华区有统计实战和StatsModels等包的介绍 http://t.cn/RPUmu9H 最后推荐一个统计专家的专辑,有很多有趣的统计文章 http://t.cn/RPUmu9Q [完] [ 微博 ]
  • 2014-07-23 http://t.cn/RPUxwc6 万维网科学暑期学校的PPT上线了 Web Science Summer School 2014: Age of Data 院士级巨头Wendy Hall (ACM前主席),Nigel Shadbolt (英国政府公开数据领导者),Jim Hendler(语义网之父)等主讲。内容涉及链接数据,开放数据,数据分析等。共41个资源 感谢@lidingpku 推荐 [ 微博 ]

  • 2014-07-22 @呯呀么呯 问:识别交通标志,怎么确定图片里有交通标志,具体在哪里?答:这个应该算目标识别和物体识别,CV的经典教程都有object recognition的内容可以参考。具体到交通标志识别,Github上有些开源代码 Matlab C++ Java的都有http://t.cn/RPLR99i 计算机视觉@DeepGlint赵勇 是专家,推荐关注 [ 讨论 ] [ 微博 ]

    • @朝花夕拾录: 正好发现一篇学术界的综述文,An overview of traffic sign detection methods http://t.cn/RPLdXUw [ 微博 ]
  • 2014-07-22 问:@北冥渔翁:日常维护管理的有吗?dba方面? 答:oracle dba在学习官方文档外,可以跟踪大神的博客,篇幅都不长且能很快掌握很多有用的实战经验。此外面试问题也反映了dba的技术要点。合集传送门 http://t.cn/RPLRu9v 推荐资深dba微博 @yangtingkun 有很多好文摘 http://t.cn/RPLRu9P [ 讨论 ] [ 微博 ]

    • @老熊的三分地 (Jun Xiong) 也是Oracle DBA的资深专家,特别推荐他的同名的中文博客 laoxiong.net http://t.cn/a9OBev 很多干货 [ 微博 ]
  • 2014-07-21 @AixinSG 昨天推荐了CommonCrawl .这是Google Adsense之父Gil Elbaz离开Google后,为了实现开放数据的理想创立的(他另一个项目是Factual)项目理想是解决大搜索引擎对数据的垄断,鼓励中小企业利用Web数据创业.最新的数据有50亿页面,541T.这里搜集CC相关资源 http://t.cn/RP2Hwxp 待续 [ 微博 ]

    • 续1 这么大的数据显然没法下载处理 好在AWS提供了存储 http://t.cn/RP2Hn6t 可以直接跑Elastic MapReduce http://t.cn/RP2Hn6c 这里有示范代码 [ 微博 ]
    • http://t.cn/RP2D8XL 续2 CommonCrawl提供了MapReduce的示范教程 http://t.cn/RP2QGbz 更实战的例子来自Web Data Commons项目 http://t.cn/RP2QGbZ 综合使用了S3 EC2 SQS ElasticMapReduce 他们利用了100个EC2实例.在另一个例子里Lucky Oyster的工程师只用100美元,14个小时完成了4亿实体的索引 [ 微博 ]
    • 续3 为了从这么大的数据里找到有用的信息,CC也提供了搜索引擎.如果想自己构造搜索引擎,它的数据格式也是公开的 http://t.cn/RP2RC0c [ 微博 ]
    • 续4处理500T处理即使在AWS上也太贵,太耗时了.好在matpalm提供了过滤和部分利用CC数据集的方法.它也集成了一些简单的文本处理和自然语言理解: boilerpipe, tika和stanford parser http://t.cn/RP2Ebmu [ 微博 ]
    • 续5 CC更强大的应用在于提取结构化数据.正如Wikipedia培育了DBPedia和Freebase,CC在两个方向培养了更大的潜在市场:RDFa, Microdata等网页内嵌语义数据(至少30%的网页已经有这种数据),和网页链接结构图.Web Data Commons只是开始,工业应用前途无量 http://t.cn/RP2EXuC [ 微博 ]
    • 续6,最后提一下CC项目的关键人物Gil Elbaz,Nova Spivack等,他们都是用结构化数据改造现有的Web的传道士和战士,为此奋斗十年以上了.在学术界,这就是语义网的研究,如Jim Hendler也在CC顾问委员会里.http://t.cn/RP2n7vp CC的出现,可以说为语义网走向现实又提供了一个有力的武器 [ 微博 ]
  • 2014-07-21 18个最热深度学习Github项目逐一介绍(合集) http://t.cn/RPLwc9n 有 convnetjs, DeepLearnToolbox, Yusuke Sugomori's code, Lisa Lab's DeepLearningTutorials, deepnet, rbm-mnist 等。主流深度学习模型如DBN RBM CNN等都有,实现语言包括Python, C/C++, Matlab, Javascript, Java, Scala [ 微博 ]

    • 1)DeepLearningBenchmarks http://t.cn/RP2ZJi9 29星, 比较了Theano和其他几个实现的性能:eblearn, python numpy, torch5, torch 7。 不过列表有些老,都是2011年前的,新的项目没有加进去。 [ 微博 ]
    • 2) n42 ,21星,一个nodejs的实现,可以直接npm install n42。实现了4个算法:Newral Network,Logistics Regressio,Stacked denoised Autoencodern,Deep Belief Nets。代码不长,适合学习。 [ 微博 ]
    • 3)宗师Hinton的代码,23星,是Matlab的。实现了autoencoder,Restricted Boltzmann Machine(RBM) 。这个应用在图像领域。宗师出品,重要性不用解释。 [ 微博 ]
    • 4)UFLDL-tutorial ,作者Dan Luu,94星 ,这是斯坦福深度学习公开课和 Andrew Ng's UFLDL(无监督特征学习和深度学习)教程的所有练习的解答。代码是Matlab的,作者声称对Octave兼容,所以理论上甚至可以从python调用。非常适合入门。 [ 微博 ]
    • 5)kaggle-blackbox ,作者Zając,53星 ,这是2013年Kaggle无监督学习竞赛的一个实现 。它实现了一个随机森林算法和一个稀疏滤波算法。语言是Matlab,也可以用Octave跑。文档和说明参见 http://t.cn/RP2AUW6 [ 微博 ]
    • 6) stanford_dl_ex http://t.cn/RP2A0tn 这是另一个斯坦福深度学习公开课的习题解答,24星,作者Andrew Maas 和Sameep Tandon。语言是Matlab。同样适合入门学习。 [ 微博 ]
    • 7) Yusuke Sugomori(巣籠悠輔)的深度学习实现 http://t.cn/RP2As94 。这个有近600星,提供了5种语言的实现:Python, C/C++, Java, Scala,囊括了各种主流深度学习算法:DBN, CDBN,RBM, CRBM,dA, SdA, LR等。 [ 微博 ]
    • 8) convnetjs http://t.cn/RP22k0g 这个是目前最火的项目,有1300+颗星,实现了卷积神经网络,可以用来做分类,回归,强化学习等。可以直接npm install convnetjs。convnetjs上有很多很酷的可视化演示 [ 微博 ]
    • 9) libdeep 这是个C的实现,目前54星。在Linux上可以安装到系统库,然后就可以在其他项目里调用了。如果追求性能,这是个好选择。 [ 微博 ]
    • 10)rbm-mnist http://t.cn/RP2ySp8 这个是hinton matlab代码( http://t.cn/RP2ySpR )的C++改写,189星。它还实现了Rasmussen的共轭梯度Conjugate Gradient算法。 [ 微博 ]
    • 11) deepnet ,这个是GPU实现的深度学习算法,前向网络,RBM,DBN,Autoencoder, DBM, CNN包括了,底层用的CUDA 。目前282星。实现语言是Python,做到了简洁性与计算性能的良好结合,特别推荐。 [ 微博 ]
    • 12) neural-networks-and-deep-learning,243星 ,这是作者的书Neural Networks and Deep Learning的配套代码,语言是Python。这本书是免费的,不过还没有写完,可以预览前几章 http://t.cn/RP2Ur99 [ 微博 ]
    • 13)Lisa Lab的DeepLearningTutorials,也就是deeplearning.net上的教程和源代码。Python实现,是基于pylearn2和Theano的。目前500多星,非常火爆。他们的wiki上很不错的资源列表,如论文和数据集 http://t.cn/RP24oCB [ 微博 ]
    • 14)OpenDL http://t.cn/RP24mYU 这是个很新的实现, 是基于spark的。语言是Java。除了spark还用到了Mallet机器学习包和JBlas线性代数包。更多spark参考请看大数据精华区的专题 http://t.cn/RP24mYb 。 [ 微博 ]
    • 15)deeplearning-class-2011 这个也是 UFLDF课程的一个实现,31星,语言是Octave,Matlab和Python (NumPy) [ 微博 ]
    • 16) @丕子 的PG_DEEP 这是一个C++实现的Demo,目前有20星。代码相对简单,非常适合入门学习。 [ 微博 ]
    • 17) medal=Matlab Environment for Deep Architecture Learning,37星,是一个Matlab的示范库,也实现了RBM,DBN, CRNM等主流的模型。 [ 微博 ]
    • 18)DeepLearnToolbox ,Matlab实现中最热门的库,700多星,囊括了CNN, DBN, SAE, CAE等主流模型。非常简单好用。 [完] [ 微博 ]
  • 2014-07-21 问:@apple2811 我需要Linux的资料 答:不太清楚具体需要哪一类,先推荐些通用的:1)六篇入门导读,包括Linux的基本知识,学习Linux的攻略,以及在线学习资源列表 http://t.cn/RPLyqp0 2) 六个社区网站(中英文各半),包括官方网站,流量最大的社区,以及问答论坛 http://t.cn/RPLyqpO [ 讨论 ] [ 微博 ]

  • 2014-07-21 问:@如果起居录 语义网用于GIS、RS领域 答:OGC在2000年制定GML1.0时就有RDFS版(不过后来给放弃了)。目前有W3C的Geospatial Semantic Web Community Group,几个国际工作会议,很多项目都与开放政府数据有关;GeoSPARQL, LinkedGeoData;数据库空间索引。合集传送门:http://t.cn/RPLGgIh [ 讨论 ] [ 微博 ]

  • 2014-07-21 问: @北冥渔翁 oracle、 mysql 入门进阶 答:数据库入门进阶资料包括: 参考书、在线教程、以及社区论坛的问答、例程与博客。参考书基本能上网找到电子版。先各举四个重要资源,不断更新中。1.mysql资源:注意MariaDB http://t.cn/RPLyXyb 2.oracle资源:侧重性能优化 http://t.cn/RPLyXyG [ 讨论 ] [ 微博 ] ** 2014-07-22 学习数据库, @何_登成 的微博一定要追!他最近推荐的一些MySQL的资源整理在这里 http://t.cn/RPLg6Gd [ 微博 ]

  • 2014-07-18 @小77you 提问:java 进阶的课程主要学哪些? 回答:整理了一组资源,见 http://t.cn/RPZBw3D 。讲讲大原则,关键还是看你的兴趣与职业发展取向。 1. 读书学习:改善编程风格,加强团队合作能力;系统架构与设计;后台性能优化; 2. 浪迹江湖:跟踪最新技术;通过网络交流共同进步。 [ 讨论 ] [ 微博 ]

  • 2014-07-18 问:@曲线救己的fighter 求hive 答:正好有一组经大数据专家 @ShangguanRPI 整理的Hive资源(2012至今已经有27个帖子了) http://t.cn/RPwI2lO 在这个比较贴里,作者详细比较了Hive和其他的Hadoop上的SQL工具 http://www.weibo.com/1932835417/BaukhlfIT [ 讨论 ] [ 微博 ]

  • 2014-07-18 问: @apple2811 我需要找js的资料? 答:见 http://t.cn/RPwtZB0 进阶主题包括 jquery, node.js, pattern, functional, closures, 性能优化 、可视化等。 推荐进阶阅读: 1、90页例程覆盖JS技术要点。 2、纽约大学的JS进阶课 3、原Yahoo大牛 Douglas Crockford的书,被无数人推重 [ 讨论 ] [ 微博 ]

  • 2014-07-18 @lovesherlock 问:有没有可以保存自己微博信息的软件或者代码什么的? 答:我们现在小范围开放个人微博信息的保存, 例如此前推荐的大牛骆逸的微博合集收藏 http://t.cn/RPZdL42 我们也提供单条微博的收藏,把微博变成可引用的卡片,例如 http://t.cn/RPZdL4y 纯图片 http://t.cn/RPZdL4L 图文 [ 讨论 ] [ 微博 ]

  • 2014-07-16 @跛嘞盖儿蹭马路牙子上卡秃噜皮了 问:数据具有统计分析的价值么?请问能不能结合链数据的特点和R来谈谈。简答如下:Linked Data作为数据的一种,当然也可以做统计分析。可以看作Statistical relational learning的扩展。全文 http://t.cn/RP7oQxk 推荐资源的合集 http://t.cn/RP7oQxF [ 讨论 ] [ 微博 ]

文摘与点评

  • 2014-07-22 @龙星计划 计算机方面的经典资料可以参见这个博客。http://t.cn/Rv6rzrj 维护者@52cs [ 微博 ]

  • 2014-07-22 @AixinSG 推荐大数据综述文章 Toward Scalable Systems for Big Data Analytics: A Technology Tutorial 36页长文免费下载 http://t.cn/RPLDPNK 文章引用接近300篇文献,涵盖数据生成,获取,存储,及分析等主要技术综述 @云教授之云媒体 [ 微博 ]

  • 2014-07-21 @城市数据派-UDParty(城市规划) 【全球 55 个城市数据分享平台( Urban Observatory)】城市瞭望台( Urban Observatory)项目:全球 55 个大城市在此分享城市数据,这将是世界上第一个真正意义上的公共瞭望台。同步对比影响世界城市的重要因素,交通、人口、道路速度、开放空间、年轻人口、老年人口等。详见:http://t.cn/RPLqc8T [ 微博 ]

  • 2014-07-19 @LiLei-Berkeley Probabilistic Programming summer school 在Portland顺利结束 教学资料见 http://t.cn/RPAURgG 来自Berkeley,MIT, Stanford等大学企业的教授和研究员讲解了 BLOG, Church, Figaro, Venture 等概率程序语言。 @jxwuyi [ 微博 ]

  • 2014-07-19 @AixinSG 大牛给的信息检索方面综述文章列表,涵盖IR方向N多问题 http://t.cn/RPAL69M [ 微博 ]

  • 2014-07-18 @我爱机器学习 【Awesome Machine Learning】http://t.cn/RPZ80gD 一个超级完整的机器学习开源库总结,如果你认为这个碉堡了,那后面这个列表会更让你惊讶:【Awesome Awesomeness】http://t.cn/RPZ80gk 各种编程语言等都有汇总,值得收藏以备不时之需。 [ 微博 ]

  • 2014-07-17 @朝花夕拾录 [资源贴] cassendra 2.1 beta rc3新特性:1、 用户自定义数据类型(UDT):支持集合类型Set和Map,以及其上的二级索引; 2、读写速度提高超过50%;3、行数据的聚集(cluster)与缓存(cache);4、counter设计优化,提高安全和一致性;5、更好的压缩机制,用commit log绕过直接读写 http://t.cn/RPzKcaH [ 微博 ]

  • 2014-07-17 @唐杰THU 推荐密歇根的H V Jagadish、康奈尔及微软Partner Scientist JOHANNES GEHRKE, Fellow RAGHU RAMAKRISHNAN等数据库专家在Communication of ACM上关于《大数据技术挑战》,从数据获取、抽取、清洗、集成和建模几个过程阐述其中的数据不一致、不完整、动态、隐私等面临的挑战。http://t.cn/RPzk8wG [ 微博 ]

  • 2014-07-17 @hbyido 大量的专业书 数学书下载,推荐 万千合集站 一个专注于资源整理、分类和提供免费下载服务的网站 http://t.cn/RvUYeY7 http://t.cn/RvUYeY7 [ 微博 ]

  • 2014-07-16 @西瓜大丸子汤 Jim Hendler今天的视频和PPT: Semantic Web: The Inside Story 强烈推荐搞人工智能的同仁都看看 http://t.cn/RP7CLin 语义网作为符号主义走向应用的尝试,也曾获得与深度学习类似的投资与眼球。结合前两天关于AI winter的讨论,其在今天尤其有参考意义 http://t.cn/RP7CLim @王海勋haixun @Gary南京 [ 微博 ]

  • 2014-07-16 @西瓜大丸子汤 http://t.cn/RP7Q1pR 深度学习70+条学习资源。这70多条是从Memect用户过去两年的阅读列表里精选出来的,每一条都经过了人工的过滤。从入门到进阶,各大个公司的应用案例,各种软件包的介绍,实战汇报,基本都是实用内容,理论联系实际。随后我们还会特约专家加以导读和点评。[ 微博 ]

  • 2014-07-16 @52nlp "线性代数的学习及相关资源" http://t.cn/zOQBTSC , 这个里面汇集了资源,包括电子版教材, “找到一个不错的电子版,非扫描版并且是第4版:Introduction to Linear Algebra_4ED_Strang” ,昨天有同学私信说爱问的已经废了,刚才上传到百度网盘并做了私密分享,感兴趣的同学请在该文尾部找答案。 [ 微博 ]

  • 2014-07-16 @朝花夕拾录 [资源贴]续上文 http://t.cn/RP7N6AS 目前整理出了80多个大数据可视化工具:http://t.cn/RP7N6AK javascript类51个,地图类有21个 ,图表类34个,svg类15个;继续增补中,欢迎指正。 --题外话,大数据可视化也要用美女打广告。猜猜那个帅哥是哪个工具的“代言人”,期待大数据展会的“数模” [ 微博 ]

  • 2014-07-15 @朝花夕拾录 [资源帖]12个#大数据#可视化工具合集汇总,超过一半2014年新出炉。涵盖超过50个#可视化工具#(表格,地图,时间轴,动态图表,树,有向图等),大约80% #javascript#包,例如d3.js,timeline.js,Springy.js。如果说大数据分析是一场足球赛,那数据可视化就是临门一脚。 http://t.cn/RPh1qz5 [ 微博 ]

  • 2014-07-13 @西瓜大丸子汤 http://t.cn/RPvS3im 大数据书籍推荐新增 Cloudera Impala;Apache Sqoop Cookbook;Outlier Detection for Temporal Data;Big Data Now: 2013 Edition。免费pdf推荐:Social Media Mining ,另有9本免费的数据挖掘与数据分析 http://t.cn/RPvS3in [ 微博 ]

    • @西瓜大丸子汤 9本免费的数据挖掘书之1)Mining of Massive Datasets 斯坦福三大教授Leskovec Rajaraman Ullman 联手推出的免费书,500多页,不是简单的数据挖掘,而是大数据挖掘 http://t.cn/RPv8GTa 这本书的第三章相似分析,第五章链接分析,第九章广告系统当年在我工作中很有用 更多大数据书http://t.cn/RPvS3im [ 微博 ]
    • @西瓜大丸子汤 9本免费的数据挖掘书之2)Data Jujitsu(数据柔术)如何解剖复杂数据,利用替代分析技巧,利用人工分析如Mechanical Turk。我觉的这本书最好和Bad Data一起看 http://t.cn/RPvEhRz 数据挖掘的真实效果80%在数据清理和人工,不是算法。传送门 http://t.cn/RPvEhRZ 更多大数据书http://t.cn/RPvS3im [ 微博 ]
    • @西瓜大丸子汤 9本免费的数据挖掘书之3)Data Mining Algorithms In R http://t.cn/RPPm0Bk 这是一本Wiki书,也就是维基百科上有关的条目组织形成的书。覆盖了:降维方法,常见模式挖掘, 序列数据挖掘,聚类,分类,和R的数据挖掘包导航(RWeka gausspred optimsimplex 等)更多大数据书http://t.cn/RPvS3im [ 微博 ]
    • @西瓜大丸子汤 9本免费的数据挖掘书之3.1)续上http://t.cn/RPP33gn Data Mining Algorithms In R这书原始格式是网页,不易阅读下载,特制作pdf版,266页 http://t.cn/RPP33gR 。同时推荐Yanchang Zhao的R and Data Mining,160页,都是实战例子 http://t.cn/RPP33gE 如觉得好请支持作者 http://t.cn/RPP33gm [ 微博 ]
    • 9本免费的数据挖掘书之4) Theory and Applications for Advanced Text Mining http://t.cn/RPP10t2 这是本理论书,作者大都是学术界的。主题是高级的文本挖掘,如关系提取,时间关系提取,文章总结,本体学习,实体提取等各种高大上专题。了解前沿不可不看。更多大数据书http://t.cn/RPvS3im [ 微博 ]
  • 2014-07-13 @鲍捷AI http://t.cn/RPvxGHA OpenRefine是一个数据清理的优秀工具。它根源于MIT David Karger实验室的研究。该实验室在交互式数据处理的前沿。David Huynh把这个研究带到MetaWeb,也即Freebase团队。被Google收购后,工具改称Google Refine。后来开源成为OpenRefine。这组资源包括了9个必读博客和教程 [ 微博 ] ** @西瓜大丸子汤: Freebase是Google知识图谱的前身。从Wikipedia到Freebase再到知识图谱,不仅有机器的数据清理,也有海量的人工数据清理任务。Google Refine在其中的作用不容低估。具体数值不详,不过来自类似系统TrueKnowledge的报告说:0.1%的手工编辑就可以覆盖10%的用户查询 http://t.cn/RPvxjIF [ 微博 ]

  • 2014-07-13 @西瓜大丸子汤 http://t.cn/RPvoO88 Python免费书54本,都可以pdf下载。从入门到自然语言处理,科学计算,概率论,经济学,生物信息学,多媒体,密码学,计算机视觉,游戏,社交媒体分析...必有一本适合您 [ 微博 ]

  • 2014-07-12 @赵家平USC Jeff Hinton组把deep CNN(CovNets)在ImageNet上train好的模型放到网上了,试了下classification, retrieval, image2text的在线demo, amazing! http://t.cn/Rvs0Pvj 最重要的是他们的source code以及installation & documentation 也一并公布,超过Rob Fergus学生的Clarifai http://t.cn/8kL993u [ 微博 ]

  • 2014-07-12 @西瓜大丸子汤 http://t.cn/RvsoYMd @骆逸 的微博里提到很多Python干货。从过去两年的微博里选出一百多条,有适合入门的书籍和教程推荐,有机器学习,网络编程,推荐系统,各种实战总结(360, instgram),PyCon等等。http://t.cn/RvsQc5G 和机器学习有关的帖子质量也很高,不少也是和python有关的. 我当年学Python的时候就从@骆逸 的帖子里受益匪浅。大牛以前在雅虎,如今是毕肯互动的CEO [ 微博 ]

  • 2014-07-12 @西瓜大丸子汤 http://t.cn/Rvs9BBQ 语义网同仁的福利:本体映射Ontology Mapping项目汇总,一共20多个。入选的都是现在还在活跃的项目,很多都有开源代码。早年的一些项目现在不怎么维护的看这里 http://t.cn/Rvs9BBH @老淘 @潘越_ 徐涵W3China @白硕SH @顾进广 @胡安-格里斯 @昊奋 @唐杰THU @程龚_NJU @汪鹏_SEU [ 微博 ]

  • 2014-07-12 @朝花夕拾录 #Swift# 资源合集: 官方博客今日(7/11)上线,并两个相关博客。还有4个社区资源导航贴合集,包括 @SwiftLanguage 提供的中文版。最后是Swift PDF合集(包括 8个WWDC的演讲稿,两个官方iBook参考书的PDF版)http://t.cn/RvsJrLy [ 微博 ]

  • 2014-07-11 @网路冷眼 必须观看的Javascript视频!!!】GitHub网站上 http://t.cn/RvFF0AU 收录了2009年至今必须观看的Javascript视频,其作者Nicholas Zakas,Douglas Crockford...都是Javascript江湖响当当的人物,精彩不容错过! [ 微博 ]

  • 2014-07-11 @网路冷眼 Docker现在大火,http://t.cn/RvF7fxB 推出史上最全Docker中文资料集萃。真的狠赞![赞] [ 微博 ]

  • 2014-07-11 @西瓜大丸子汤 Python贝叶斯工具续 http://t.cn/RvFf2Q9 前面介绍过PyMC,Infer.net 此外@朝花夕拾录 还介绍过emcee和pystan。在实战中怎么用呢?bayesian-python这个系列收集了14篇相关文章。http://t.cn/RvFfwUy 这5篇总结了几个工具的实战例程。要节约时间就看系列第一篇总结的表,一目了然 http://t.cn/RvFfwUL [ 微博 ]

  • 2014-07-10 @西瓜大丸子汤 刚才说到python优化,举个具体的例子 Gensim的作者把word2vec(深度学习)做了几个经典优化:循环,numpy/BLAS,cython,多线程(真的可以)结果效率提高了上千倍,比Google开源出来的原始C版本还快3倍。他最近还写了个word2vec教程。无论是学习word2vec还是python优化,都不可不看 http://t.cn/Rvkt0Hk [ 微博 ]

  • 2014-07-10 @朝花夕拾录 白宫和麻省理工于今年三月举办了“大数据的个人隐私研讨会”。麻省理工校长主持,白宫大数据顾问、美国商业部部长作了主题演讲,还有一堆麻省理工和哈佛的教授研讨了关键技术,包括数据库,加密,匿名,日志分析,语义推理等。相关资源包括每个演讲的视频,以及八个可下载的PPT。http://t.cn/Rvk5BnL [ 微博 ] ** 刚刚整理出了4个大数据信息安全关键问题: *数据收集,如何签订合理的用户知情协议 *数据共享,如何保障透明度,控制使用权限,防止数据泄露 *数据使用,如何避免重新识别攻击,防止意外地侵犯个人权益 *数据监管:如何在不同的环境(国家、政府、组织、政策)中监管大数据的运营 [ 微博 ]

  • 2014-07-09 @西瓜大丸子汤 http://t.cn/RvDWJ20 23个python的机器学习包,从常见的scikit-learn, pylearn2,经典的matlab替代orange, 到最新最酷的Theano(深度学习)和torch 7 (well,其实lua,不过从ipython调用很容易),基本常用的通用python机器学习平台都有了。 [ 微博 ]

  • 2014-07-09 @西瓜大丸子汤 在推荐一本我最近正在看的书Probabilistic Programming and Bayesian Methods for Hackers 贝叶斯方法实战,用Python来解释各种概率推理方法,有代码有真相。基于PyMC 包,解剖了MCMC ,大数定律,金融分析等概念与应用。Github上已经有5000颗星。更多python统计方法资源 http://t.cn/RvDJLy6 [ 微博 ]

  • 2014-07-09 @朝花夕拾录 #大数据#产业化的一个重要指标:超过20家美国商学院(例如UVA,RPI,GWU)开设了大数据和数据分析硕士课程,而且有一半学校的课程只要一年就能毕业。这个可是转型成高富帅的绝佳机会呦。http://t.cn/RvDVtXm --我是分割线-- 呵呵,还有个IIT,这可不是印度学校,是伊利诺伊理工大学。 [ 微博 ]

  • 2014-07-09 @西瓜大丸子汤 Spark Summit 2013的PPT和教程合集整理在此 http://t.cn/RvDVO9I ,一共33个。和昨天放出了60个Spark Summit 2014的PPT一起,基本涵盖了近期spark的动态与产业布局。http://t.cn/RvewMsv 和去年比,今年峰会的内容无论数量还是应用的广度与深度,都大幅增长了。例如去年没有自然语言处理,今年有两个 [ 微博 ]

  • 2014-07-08 @何_登成 分享下最近看的几篇关于分布式KV/NoSQL的论文与资料:1. aerospike http://t.cn/RveVR9I 2. facebook memcache http://t.cn/RvjMGCj 3. redis cluster http://t.cn/zRPS3Q8 4. 腾讯CKV http://t.cn/8s7PSiN 5. 淘宝Tair http://t.cn/zjkhVoF 简单点评:架构大同小异,各有特色,可相互借鉴。[ 微博 ]

  • 2014-07-08 @西瓜大丸子汤 Spark Summit 2014全部PPT合集 http://t.cn/RvewMsv Spark是新一代大数据处理平台,基于内存的集群计算使它比MapReduce快一百倍,非常适合迭代计算和并行机器学习。合集包括了全部60个演讲的PPT(除了一个链接失效)预览和下载。AMP Lab, Databricks, Cloudera, MapR, Amazon等重量级厂家一网打尽 [ 微博 ]

  • 2014-07-07 @西瓜大丸子汤 继续推荐几个python NLP的资源。http://t.cn/RvgckyQ NLTK book是入门必读。 http://t.cn/RvgckyY @陈涛sean 做了中文翻译《用Python进行自然语言处理》可免费下载。http://t.cn/RvgckyH Jimmy Lin(前马里兰教授)有书和博客讲并行NLP http://t.cn/RvgckyT 基于Hadoop 和MR [ 微博 ]

  • 2014-07-07 @ansj 500w 的公司名录,只包含公司名称 , 用来做组织机构命名实体识别.链接: http://t.cn/Rvgy9sg 密码: 3a1q http://t.cn/Rvgy9oC [ 微博 ]

  • 2014-07-06 @西瓜大丸子汤 http://t.cn/RvdhLRA Text Processing in Python 一本讲python文本处理的小书,涵盖了基本字符串,正则表达式,状态机,和互联网文本处理的基本点。印刷版在亚马逊上卖41刀,文字电子版免费下载 [ 微博 ]

  • 2014-07-05 @王威廉 鉴于大家对Wasserman的统计笔记反响不错,我就再推荐一本他的经典统计入门教材All of Statistics: A Concise Course in Statistical Inference http://t.cn/RvrzVBw pdf: http://t.cn/RvrzVBA 这本书获得过国际贝叶斯分析协会的DeGroot奖。[ 微博 ]

  • 2014-07-04 @西瓜大丸子汤 把最近比较重要的关于Watson的资料分了类 十多个pdf http://t.cn/Rv1BOxx IBM自己的介绍 http://t.cn/Rv1BOxX 媒体报导 http://t.cn/Rv1BOx6 Watson在卫生领域的应用 http://t.cn/Rv1BOxJ 音频视频 http://t.cn/Rv1BOxi 其他应用 http://t.cn/Rv1BOxa [ 微博 ]

  • 2014-07-04 @朝花夕拾录 七月三日新鲜出炉 #大数据#资源帖。。。24个知名掌门级别(CxO)大数据专家及其推特账号。有来自于大企业的(例如Google, KDnuggets, TeraData,IBM,和Ford ),但更多的来自创新企业。咱不指望他们都会编Hadoop程序,但他们在业内的影响力那是刚刚嘀--全是推特万人大V。 http://t.cn/RvBJqDr [ 微博 ]

  • 2014-07-03 @西瓜大丸子汤 http://t.cn/Rv3gsW2 今天的一大新闻是IBM的BlueMix:基于Watson自然语言问答系统的云服务。以前的工作也和问题有关,这里先放几篇读过的Watson的文章和slides。AAAI Magzine 2010的文章有点老,不过作为提纲还是推荐一读。IBM Journal 2012专辑选了3篇文章,在语言解析与语义数据的应用 [ 微博 ]

  • 2014-06-24 @西瓜大丸子汤 http://t.cn/RvYTJ3r 《世界杯的大数据和小数据》这组专题汇集了2010和2014年世界杯的数据。2010年BBC利用语义数据做了动态新闻发布,降低记者写作和BBC的内容发布成本。OpenLink今天发布了2014世界杯数据的RDF版,包括各队,球员和分组的可查询数据。还有football.db历年的数据,和World Cup in JSON [ 微博 ]

  • 2014-06-24 @ShangguanRPI 作为看到整篇整篇java mapreduce代码就想吐的scala脑残粉,肯定不能放过scalding。放出平时积累的一点scalding的学习资料,http://t.cn/RvYmfSX。

  • 2014-06-21 @朝花夕拾录[资源帖]十几个图像处理中常用的python包。NumPy和SciPy必装,图像处理:PIL/PILLOW入门,SimpleCV进阶,OpenCV专业。还有Mahotas ,ilastik,MedPy多用于生物医学多维图像处理。辅助工具:scikit-learn机器学习,sh5py数值数据存储(numpy数组),pprocess并发处理。http://t.cn/RvWmogb [ 微博 ]

  • 2014-06-21 @朝花夕拾录 [资源帖] pypy3.2.1(Fulcrum,支点)于6月20日发布。http://t.cn/RvlC1JG 是第一个pypy3稳定版,支持python3.2.5,改进了unicode,JIT,GC。 参考:cpython, jython(java), ironpython (.net). 讨论:还不支持numpy,ctypes(但有numpypy);windows 64bit还不支持;有人测出了7倍加速(一般4~5倍)。[ 微博 ]

  • 2014-06-20 @朝花夕拾录 五篇python贝叶斯入门短文,以及三个常用工具: emcee , pymc, pystan, http://t.cn/RvOj4nM 顺路说说统计学两大门派: 频率派(Frequentists)和 贝叶斯派(Bayesians) *Frequentists的长远目标是只有5%的时间犯错误 *Bayesians隐约期待马,瞥见一头驴,坚信(95%的可能性)他看到了一头骡子 [ 微博 ]

  • 2014-06-20 @ShangguanRPI Pivotal是一家新兴的大数据和企业PaaS解决方案提供商,由EMC、Vmware和GE在2013年合资成立,将自家的大数据技术重新架构在Hadoop平台上。这个专题资源汇总了20多篇Pivotal产品的介绍和新闻,如MPP SQL on Hadoop,在Docker上部署Hadoop,如何用PivotalR做大数据分析等 http://t.cn/RvOBEIF。[ 微博 ]

  • 2014-06-19 @朝花夕拾录 #大数据专题# 12个与#2014世界杯#相关的在线资源:(1)总结如何预测冠军得主;(2)大数据应用例程(bing, sas, rapidminner); (3)免费在线数据库,可下载(football.io, json api)。 http://t.cn/Rv0OOd2 [ 微博 ]

  • 2013-09-20 @developerWorks 免费电子书《面向程序员的数据挖掘实战指南》,侧重实例,以 Python 语言讲解。目前已完成6章,仍在更新中,并且提供 PDF 下载。http://t.cn/zWQEQH8 作者:Ron Zacharski cc @ResysChina [ 微博 ]

  • 2013-01-28 @陈利人 【机器学习中的数学系列】回归、梯度下降 http://t.cn/hDoULu ;线性回归,偏差、方差权衡 http://t.cn/Sxppf2 ;模型组合之Boosting与Gradient Boosting http://t.cn/SP05f3 ;线性判别分析, 主成分分析 http://t.cn/SAeY2U ;强大的矩阵奇异值分解及其应用 http://t.cn/akJxgj [ 微博 ]

通知与声明

2014-09-10 @好东西传送门 的粉丝里谁转发好东西最多?前10名:1 @Noodles-Xu 2 @LR机器学习计算机视觉 3 @海中的沙粒 4 @hbyido 5 @-单世民- 6 @武文骁很忙也很胖 7 @侠女无敌-曾佩玲 8 @彤言彤趣 9 @yutho 10 @季波USTC [good] [ 微博 ]

2014-08-06 @好东西传送门 是开源的,任何人都可以贡献好的文献、代码或商业产品。你可以fork一份github库,并在awesome目录下建立一个文件,内容就是链接(文字描述可选)例 http://t.cn/RPal5fW 提交一个pull请求,剩下的就交给传送门了。您的贡献会被署名 [ [微博](http://www.weibo.com/5220650532/Bh2oIc33V?mod=weibotime) ]

2014-08-04 @好东西传送门 开源5天,已经有了88颗星。这里解释一下开源政策:为了鼓励好东西的传播,我们采用了Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证:Github上的内容可以被自由分享和改编,但需用同样的许可证发布,致谢@好东西传送门 并不得用于商用 http://t.cn/RPiYr2f [ [微博](http://www.weibo.com/5220650532/BgEucqeEz?ref=) ]
  • 2014-07-31 开源的好东西传送门:今天我们已经把所有的问答和文摘都整理到Github上了,查看别人已经问过的问题更加容易。你可以一键复制,拥有自己不会丢失的好东西列表。也可以关注项目获得更新通知。如果你关心大数据、机器学习、数据库、Web、Python(话题增长中)去加星收藏吧 http://t.cn/RPfAgNg [ 微博 ]

  • 2014-07-31 这样认领问题:去Github Issue列表下面 http://t.cn/RPI5jaZ 找一个感兴趣的问题,回复你想分享的资源链接,也可附简单评语。请留下你的微博帐号(或其他联系方式),好东西传送门会整理后贴出你的答案并注明贡献者是你 [ 微博 ]

  • 2014-07-30 传送门也有微信了,去扫描吧。或者按名字直接加“好东西传送门”。微信会更多承载每日精华整理的功能。如果错过了微博上的好东西,微信上还会看到。转发一下,让更多人看到最精彩的技术好东西! [ 微博 ]

  • 2014-07-30 http://t.cn/RPfAgNg 好东西传送门所有问答和推荐资源合集现在都放在Github上了!每个问题都有自己的讨论页,可讨论增补。目前还有十多条未完成问题,欢迎各位专家帮忙认领回答!8月5日前转发最多的两条答案将获赠 @TechCrunch中国 国际创新北京峰会双日VIP票,本来3200一张哦! [ 微博 ]

  • 2014-07-28 回复@silverhawk_ny:轻问答就是相对知乎这样的“重”问答工具而言,利用机器生成大量的知识卡片,问答时回答问题的人只要利用自己的知识,快速组织卡片。一般这个过程不需要写长文,几分钟就可以完成,所以叫“轻”//@silverhawk_ny:轻问答是什么意思? [ 微博 ]

  • 2014-07-28 《好东西传送门到底是什么?》 很多人问这个帐号到底是什么?答:它是一个网上资料的人肉搜索引擎。它集成了一群微博上的好人,以最简练的方式,帮大家找到最精华的资源。达到这个目的手段有三:知识卡片,人肉知识桥梁,轻问答。这是不是你想要的“好东西传送门”?欢迎讨论!http://t.cn/RPtMEmu [ 微博 ]

About

好东西传送门

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published