Update scraper.py

seananaidu · Feb 16, 2017 · 1f40ce7 · 1f40ce7
1 parent 3614dd1
commit 1f40ce7
Showing 1 changed file with 8 additions and 0 deletions.
diff --git a/scraper.py b/scraper.py
@@ -4,13 +4,21 @@
 # import scraperwiki
 # import lxml.html
 #
+import scraperwiki
+import urllib2, lxml.etree
 # # Read in a page
 # html = scraperwiki.scrape("http://foo.com")
 #
+url = 'http://usda.mannlib.cornell.edu/usda/current/BeeColonies/BeeColonies-05-12-2016.pdf'
 # # Find something on the page using css selectors
 # root = lxml.html.fromstring(html)
 # root.cssselect("div[align='left']")
 #
+pdfdata = urllib2.urlopen(url).read()
+xmldata = scraperwiki.pdftoxml(pdfdata)
+root = lxml.etree.fromstring(xmldata)
+
+print etree.tostring(root, pretty_print=True)
 # # Write out to the sqlite database using scraperwiki library
 # scraperwiki.sqlite.save(unique_keys=['name'], data={"name": "susan", "occupation": "software developer"})
 #