No description, website, or topics provided.
Python Java Shell
Switch branches/tags
Nothing to show
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
cspan_spider
csvdump
json
lexicalresources
model
regexes
resources
scripts
.DS_Store
README
__init__.py
experiments.py

README

#############################################################################################
#############################################################################################
#############################################################################################

AUTHOR: Alex Djalali 
COMPANY: Stanford University
EMAIL: alex.djalali@gmail.com
WEBSITE: http://www.stanford.edu/~djalali/

#############################################################################################
#############################################################################################
#############################################################################################

This python module is built to work with the House Proceedings Corpus (HPC), a highly 
structured corpus of complete congressional house proceedings that contains over 2,700 
transcripts, tagged for part-of-speech (POS) using the Stanford POS tagger. The HPC is 
comprised of individual .JSON files to avoid data-corruption and easily importable into 
a MongoDB.  The HPC has 181,648,994 tokens with a vocabulary of 314,031 words.  It is 
available upon request.   

#############################################################################################
#############################################################################################
#############################################################################################