Fork of code from ScraperWiki at https://classic.scraperwiki.com/scra…

…pers/linkedin_-_1/
backgroundcheck · Jun 27, 2016 · d0e3e58 · d0e3e58
commit d0e3e58
Show file tree

Hide file tree

Showing 2 changed files with 41 additions and 0 deletions.
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,2 @@
+# Ignore output of scraper
+data.sqlite
diff --git a/scraper.py b/scraper.py
@@ -0,0 +1,39 @@
+#! /usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from bs4 import BeautifulSoup
+import sys
+import requests
+
+results = {}
+
+companies = [ 'google', 'microsoft']
+
+for company in companies:
+    url = "http://www.linkedin.com/company/{}".format(company)  
+    raw = requests.get(url).content
+
+    soup = BeautifulSoup(raw)
+
+    node = soup.find(attrs = {"class" : "grid-f"})
+
+    if node!=None:
+        info = node.find(attrs = {"class" : "basic-info"})
+        titles = [item.get_text(strip=True) for item in info.findAll("dt")]
+        data = [item.get_text(strip=True) for item in info.findAll("dd")]    
+        output = dict(zip(titles,data))
+    else:
+        output = {}
+
+    output['company'] = company    
+    results[company] = output
+
+    import random, time
+    sleep_time = random.uniform(5,10)
+    time.sleep(sleep_time)
+
+import scraperwiki
+scraperwiki.sql.save(['company'], results.values())
+
+#import json
+#print json.dumps(results, indent=2)