GitHub

WebExtract

A fast and accurate algorithm to extract contents from diverse chinese web pages such as the main body of news or blogs pages. This methods used some significant features of useful texts which can locate the main content automatically in chinese pages.
It was written in 2009 as a homework project.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Debug		Debug
File.cpp		File.cpp
File.h		File.h
FileTidy.cpp		FileTidy.cpp
FileTidy.h		FileTidy.h
FileTiny.h		FileTiny.h
FileTinyXml.cpp		FileTinyXml.cpp
FileTinyXml.h		FileTinyXml.h
PIC_EXTRACT.dep		PIC_EXTRACT.dep
PIC_EXTRACT.mak		PIC_EXTRACT.mak
PIC_EXTRACT.ncb		PIC_EXTRACT.ncb
PIC_EXTRACT.opt		PIC_EXTRACT.opt
README.md		README.md
StructPage.dsp		StructPage.dsp
StructPage.dsw		StructPage.dsw
StructPage.ncb		StructPage.ncb
StructPage.opt		StructPage.opt
StructPage.plg		StructPage.plg
TE4C.cpp		TE4C.cpp
TE4C.h		TE4C.h
TidyFile.h		TidyFile.h
TitleExtract.cpp		TitleExtract.cpp
TitleExtract.h		TitleExtract.h
buffio.h		buffio.h
fileio.h		fileio.h
herf.txt		herf.txt
main.cpp		main.cpp
platform.h		platform.h
tidy.h		tidy.h
tidy.lib		tidy.lib
tidyenum.h		tidyenum.h
tinystr.cpp		tinystr.cpp
tinystr.h		tinystr.h
tinyxml.cpp		tinyxml.cpp
tinyxml.h		tinyxml.h
tinyxmlerror.cpp		tinyxmlerror.cpp
tinyxmlparser.cpp		tinyxmlparser.cpp

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WebExtract

About

Releases

Packages

shawcsn/WebExtract

Folders and files

Latest commit

History

Repository files navigation

WebExtract

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages