In [1]:
import pandas as pd


In [2]:
repos_df = pd.read_json('../data/github_repos_000000000000.json.gz', compression='gzip', lines=True)

In [3]:
repos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 272876 entries, 0 to 272875
Data columns (total 3 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   repo_name  272876 non-null  object
 1   content    272847 non-null  object
 2   language   272876 non-null  object
dtypes: object(3)
memory usage: 6.2+ MB


In [4]:
repos_df['content'][repos_df['content'].isna()] = ''

In [5]:
def merge_text_langs(langs):
    return ' '.join((lang['name'] for lang in langs))

In [6]:
repos_df['languages_str'] = repos_df['language'].apply(merge_text_langs)

In [7]:
repos_df['is_python_repo'] = repos_df['languages_str'].str.contains('Python')
python_repos_df = repos_df[repos_df['is_python_repo']]

In [8]:
python_repos_df

Unnamed: 0,repo_name,content,language,languages_str,is_python_repo
9,J-cztery/jenkins-inheritance-plugin,"This project contains the source code of the ""...","[{'name': 'CSS', 'bytes': '1174'}, {'name': 'G...",CSS Groovy HTML Java JavaScript Python,True
28,NilsJPWerner/scgbot,# scgbot\nBot for the UChicago senior class gi...,"[{'name': 'HTML', 'bytes': '3933'}, {'name': '...",HTML Python,True
29,FinnOD/text,# terrain\nprocedural terrain testing\n,"[{'name': 'HTML', 'bytes': '10477'}, {'name': ...",HTML JavaScript Python,True
38,niranjan-hanumegowda/chef-repo,Overview\n========\n\nEvery Chef installation ...,"[{'name': 'Perl', 'bytes': '847'}, {'name': 'P...",Perl Python Ruby Shell,True
42,Darmwind/FreeDMS,# FreeDMS\nA structured way to organize your d...,"[{'name': 'Groff', 'bytes': '1335'}, {'name': ...",Groff Python Shell,True
...,...,...,...,...,...
272204,apokellypse/shout-webapp,# shout-webapp\r\n\r\n# What is [sh]out?\r\n\r...,"[{'name': 'CSS', 'bytes': '112'}, {'name': 'HT...",CSS HTML JavaScript Python,True
272214,weidazh/lunchere,Lunchere is a web platform for users to pick w...,"[{'name': 'CSS', 'bytes': '33500'}, {'name': '...",CSS JavaScript PHP Python Shell,True
272215,joshuasnowball/INERT-dmp,dmp\n===\n\nDiscreet visual aggregator\n\nAugu...,"[{'name': 'CSS', 'bytes': '13618'}, {'name': '...",CSS JavaScript PHP Python Shell,True
272217,digitarald/d2g,Distribute to Gecko aka D2G\n=================...,"[{'name': 'CSS', 'bytes': '309795'}, {'name': ...",CSS JavaScript Python Scala Shell,True


In [10]:
repos_df_sample = repos_df.sample(1000)
repos_df_sample.shape

(1000, 5)

In [11]:
import dragnet
import markdown2

In [12]:
repos_df_sample

Unnamed: 0,repo_name,content,language,languages_str,is_python_repo
46368,Aylchen/framework,SwooleFramework: PHP的高级开发框架\n----\n与其他Web框架不同，...,"[{'name': 'ApacheConf', 'bytes': '13'}, {'name...",ApacheConf CSS HTML PHP Smarty,False
102220,santifa/haskellstuff,haskellstuff\n============\n\nSome things I wr...,"[{'name': 'Haskell', 'bytes': '60537'}]",Haskell,False
105361,sleepywang/checklist,checklist\n=========\n\nAn android app for che...,[],,False
181670,MrLW/activiti-sample,# 一、activiti 初识\n它是一项新的基于Apache许可的开源BPM平台，从基础开...,"[{'name': 'Java', 'bytes': '20960'}]",Java,False
249487,aimonb/puppet-glance,# PuppetLabs Glance module\n\nThis module can ...,"[{'name': 'Puppet', 'bytes': '18696'}, {'name'...",Puppet Ruby Shell,False
...,...,...,...,...,...
154701,spujadas/exposure,# Exposure #\n\n**Exposure** is a web applicat...,"[{'name': 'CSS', 'bytes': '136805'}, {'name': ...",CSS JavaScript PHP,False
108802,nelsongustavo/react-lab,# react-lab\n\n# Installing\n\n1. Clone the re...,"[{'name': 'CSS', 'bytes': '24957'}, {'name': '...",CSS HTML JavaScript,False
18150,tiimgreen/tabbit,# Tabbit [![Build Status](http://img.shields.i...,"[{'name': 'Ruby', 'bytes': '3098'}, {'name': '...",Ruby Shell,False
41722,ironxu/DevStack,# Accumulate\n\n本手册是平时学习时记录的笔记\n\n主要内容包括\n\n- ...,"[{'name': 'C', 'bytes': '10674'}, {'name': 'HT...",C HTML Lua PHP Python Ruby Shell,True


In [13]:
def convert_markdown(markdown_text):
    markdowner = markdown2.Markdown()
    return markdowner.convert(markdown_text)

In [14]:
from mlutil import parallel



In [15]:
%%time
repos_df_sample['html_content'] = list(parallel.mapp(convert_markdown, repos_df_sample['content'], chunksize=10))

CPU times: user 46.9 ms, sys: 187 ms, total: 234 ms
Wall time: 1.66 s


In [16]:
repos_df_sample['html_content'].iloc[0]

'<h2>SwooleFramework: PHP的高级开发框架</h2>\n\n<p>与其他Web框架不同，SwooleFramework是一个全功能的后端服务器框架。除了Web方面的应用之外，更广泛的后端程序中都可以使用。</p>\n\n<ul>\n<li>内置PHP应用服务器，可脱离nginx/fpm/apache独立运行</li>\n<li>配置化与资源自动工厂，可实现从配置中创建资源对象，完全无需new对象</li>\n<li>全面采用命名空间+autoload，代码中无需任何的include/require</li>\n<li>全局注册树，所有资源都挂载到全局树上，彻底实现资源的单例管理和懒加载</li>\n<li>全栈框架，提供了数据库操作，模板，Cache，日志，队列，上传管理，用户管理等几乎所有的功能</li>\n</ul>\n\n<blockquote>\n  <p>最新版本的代码已经彻底废弃非命名空间代码，升级框架之后，apps/controller/和apps/models中的代码需要按照命名空间的规范修改一次  </p>\n</blockquote>\n\n<h2>应用服务器</h2>\n\n<p>使用内置应用服务器，可节省每次请求代码来的额外消耗。连接池技术可以很好的帮助存储系统节省连接资源。</p>\n\n<h3>Swoole应用服务器支持的特性</h3>\n\n<ul>\n<li>热部署，代码更新后即刻生效。依赖runkit扩展（ <a href="https://github.com/zenovich/runkit">https://github.com/zenovich/runkit</a> ）</li>\n<li>MaxRequest进程回收机制，防止内存泄露</li>\n<li>支持使用Windows作为开发环境</li>\n<li>http KeepAlive，可节省tcp connect带来的开销</li>\n<li>静态文件缓存，节省流量</li>\n<li>支持Gzip压缩，节省流量</li>\n<li>支持MySQL重新连接</li>\n<li>支持文件上传</li>\n<li>支持POST大文本</li>\n<li>支持Session/Cookie</li>\n<li>支持Http/FastCGI两种协议</li>

In [17]:
html_text = repos_df_sample['html_content'].iloc[0]
dragnet.extract_content(html_text)



'SwooleFramework: PHP的高级开发框架\n与其他Web框架不同，SwooleFramework是一个全功能的后端服务器框架。除了Web方面的应用之外，更广泛的后端程序中都可以使用。 内置PHP应用服务器，可脱离nginx/fpm/apache独立运行 配置化与资源自动工厂，可实现从配置中创建资源对象，完全无需new对象 全面采用命名空间+autoload，代码中无需任何的include/require 全局注册树，所有资源都挂载到全局树上，彻底实现资源的单例管理和懒加载 全栈框架，提供了数据库操作，模板，Cache，日志，队列，上传管理，用户管理等几乎所有的功能\n最新版本的代码已经彻底废弃非命名空间代码，升级框架之后，apps/controller/和apps/models中的代码需要按照命名空间的规范修改一次\nSwoole应用服务器支持的特性 热部署，代码更新后即刻生效。依赖runkit扩展（ https://github.com/zenovich/runkit ） MaxRequest进程回收机制，防止内存泄露 支持使用Windows作为开发环境 http KeepAlive，可节省tcp connect带来的开销 静态文件缓存，节省流量 支持Gzip压缩，节省流量 支持MySQL重新连接 支持文件上传 支持POST大文本 支持Session/Cookie 支持Http/FastCGI两种协议\njs { "require": { "matyhtf/swoole_framework": "dev-master" } }\nSwooleFramework应用服务器，需要安装swoole扩展。 pecl install swoole 然后修改php.ini加入extension=swoole.so ```php DIR.\'/libs/lib_config.php\';\n$AppSvr = new Swoole\\Protocol\\AppServer(); $AppSvr->loadSetting( DIR ."/swoole.ini"); //加载配置文件 $AppSvr->setAppPath( DIR .\'/apps/\'); //设置应用所在的目录 $AppSvr->setLogger(new Swoole\\Log\\EchoL

In [161]:
import dragnet
import markdown2

def process_content(markdown_content):
    markdowner = markdown2.Markdown()
    html_text = markdowner.convert(markdown_content)
    return dragnet.extract_content(html_text).replace('\n', ' ')

In [174]:
def process_row(row_string):
    return process_content(json.loads(row_string)['content'])

In [175]:
import apache_beam as beam
from apache_beam.options import pipeline_options

In [176]:
import json

class ExtractDoFn(beam.DoFn):
    
    def process(self, element):
        record = json.loads(element)
        return process_content(record['content']).replace('\n', ' ')
    
class UselessDoFn(beam.DoFn):
    def process(self, element):
        return element

In [177]:
in_path = '/tmp/repos.json'
out_path = '/tmp/repos_out.json'
repos_df_sample.to_json(in_path, orient='records', lines=True)

In [178]:
p = beam.Pipeline(options=pipeline_options.PipelineOptions(['--direct_num_workers', '10']))
lines = p | 'read' >> beam.io.ReadFromText(in_path)
extracted = lines | 'extract' >> beam.Map(process_row)
extracted | 'write' >> beam.io.WriteToText(out_path)

<PCollection[Cell 178: write/Write/WriteImpl/FinalizeWrite.None] at 0x7fd08e15a110>

In [179]:
!wc -l /tmp/repos.json

999 /tmp/repos.json


In [180]:
!rm /tmp/repos_out.json-00000-of-00001

rm: cannot remove '/tmp/repos_out.json-00000-of-00001': No such file or directory


In [181]:
%%time
result = p.run()
result.wait_until_finish()

CPU times: user 9.14 s, sys: 24.1 ms, total: 9.16 s
Wall time: 9.37 s


'DONE'

In [182]:
!wc -l /tmp/repos_out.json-00000-of-00001

1000 /tmp/repos_out.json-00000-of-00001


In [183]:
!head /tmp/repos_out.json-00000-of-00001

SwooleFramework: PHP的高级开发框架 与其他Web框架不同，SwooleFramework是一个全功能的后端服务器框架。除了Web方面的应用之外，更广泛的后端程序中都可以使用。 内置PHP应用服务器，可脱离nginx/fpm/apache独立运行 配置化与资源自动工厂，可实现从配置中创建资源对象，完全无需new对象 全面采用命名空间+autoload，代码中无需任何的include/require 全局注册树，所有资源都挂载到全局树上，彻底实现资源的单例管理和懒加载 全栈框架，提供了数据库操作，模板，Cache，日志，队列，上传管理，用户管理等几乎所有的功能 最新版本的代码已经彻底废弃非命名空间代码，升级框架之后，apps/controller/和apps/models中的代码需要按照命名空间的规范修改一次 Swoole应用服务器支持的特性 热部署，代码更新后即刻生效。依赖runkit扩展（ https://github.com/zenovich/runkit ） MaxRequest进程回收机制，防止内存泄露 支持使用Windows作为开发环境 http KeepAlive，可节省tcp connect带来的开销 静态文件缓存，节省流量 支持Gzip压缩，节省流量 支持MySQL重新连接 支持文件上传 支持POST大文本 支持Session/Cookie 支持Http/FastCGI两种协议 js { "require": { "matyhtf/swoole_framework": "dev-master" } } SwooleFramework应用服务器，需要安装swoole扩展。 pecl install swoole 然后修改php.ini加入extension=swoole.so ```php DIR.'/libs/lib_config.php'; $AppSvr = new Swoole\Protocol\AppServer(); $AppSvr->loadSetting( DIR ."/swoole.ini"); //加载配置文件 $AppSvr->setAppPath( DIR .'/apps/'); //设置应用所在的目录 $AppSvr->setLogger(new Swoole\Log\EchoLog(false)); //L