scraper.py

import scraperwiki
import mechanize
import re
import csv
import time
from datetime import datetime, date
import datetime


#------------------------------------------------------------------------       
#Load Prices from shareprices.com
#------------------------------------------------------------------------
#

if 1==0:

    url = 'http://www.shareprices.com/ftseallshare'
    

    br = mechanize.Browser()
    
        # sometimes the server is sensitive to this information
    br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
    
    scraperwiki.sqlite.execute("drop table if exists company")  
    scraperwiki.sqlite.execute("create table company (`TIDM` string, `Company` string, `Price` real, `Volume` real, `Date` date NOT NULL)")

    #scraperwiki.sqlite.execute("delete from company")
    #scraperwiki.sqlite.commit()
    
    response = br.open(url)
    
    
    for pagenum in range(1):
        html = response.read()
        test1 = re.search(r'Day\'s Volume(.*?)<br \/><\/div>', html).group()
        tuples = re.findall(r'(\">|\'>)(.*?)<\/', str(test1.replace(" ", "")).replace("><", ""))
        count = 0
        tidm = ""
        company = ""
        price = 0
        poscnt = 0
        for tuple in tuples:
            if poscnt == 1:
                company = tuple[1].replace("amp;", "")
            if poscnt == 2:
                price = tuple[1].replace(",", "").replace("p", "")
            if poscnt == 4:
                scraperwiki.sqlite.save(["TIDM"], data={"TIDM":tidm+'.L', "Company":company, "Price":price, "Volume":tuple[1].replace(",", ""), "Date":datetime.date.today()}, table_name='company')
                scraperwiki.sqlite.commit()
            if len(tuple[1]) <= 4 and tuple[1][-1:].isalpha() and tuple[1][-1:].isupper() and tuple[1]!=tidm and poscnt!=1:
                count = count+1
                tidm = tuple[1]
                poscnt = 1
            else:
                poscnt = poscnt + 1    
            
        print "%s ftseallshare records were loaded" % (count)


#------------------------------------------------
#Load Signal History from British Bulls
#------------------------------------------------

if 1==1:

    url = 'https://www.britishbulls.com/SignalPage.aspx?lang=en&Ticker='
    
    
    #scraperwiki.sqlite.execute("drop table if exists Signal_History")  
    #scraperwiki.sqlite.execute("create table Signal_History (`TIDM` varchar2(8) NOT NULL, `Date` date NOT NULL, `Price` real NOT NULL, `Signal` varchar2(15) NOT NULL, `Confirmation` char(1) NOT NULL, `GBP 100` real NOT NULL, UNIQUE (`TIDM`, `Date`))")
    
    
    lselist = scraperwiki.sqlite.execute("select `TIDM` from company where TIDM = 'FOUR.L'")
    
    for x in lselist["data"]:
        lsecode = str(x)[3:-2] #+ '.L'

        br = mechanize.Browser()
    
        # sometimes the server is sensitive to this information
        br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

        response = br.open(url + lsecode)
    
        for pagenum in range(1):
            html = response.read()

            test1 = re.search(r'MainContent_signalpagehistory_PatternHistory24_DXDataRow0((.|\n)+)MainContent_signalpagehistory_PatternHistory24_IADD', html)
    
            if test1:
                test1 = test1.group(0)

                test3 = re.findall('(\">|img\/)(.*?)(<\/|\.gif)', test1.replace("\B", ""))

                while len(test3) >= 5:
        
                    sh_Date = re.search("(\w|\d)(.*)(\w|\d)", str(test3.pop(0)).replace(" ", "")).group(0)
                    sh_Date = date(int(sh_Date[6:10]),int(sh_Date[3:5]),int(sh_Date[:2]))
                    sh_Price = re.search("(\w|\d)(.*)(\w|\d)", str(test3.pop(0)).replace(" ", "").replace(",", "")).group(0)
                    sh_Signal = re.search("(\w|\d)(.*)(\w|\d)", str(test3.pop(0)).replace(" ", "")).group(0)
                    #print str(test3.pop(0)).replace(" ", "")
                    sh_Confirmation = ((re.search("[Uncheck|Check]", str(test3.pop(0)).replace(" ", "")).group(0).lower()).replace("img/uncheck","N")).replace("img/check", "Y")
                    sh_GBP100 = re.search("(\w|\d)(.*)(\w|\d)", str(test3.pop(0)).replace(" ", "").replace(",", "")).group(0)

                    print sh_Confirmation
                    
                    #scraperwiki.sqlite.execute("insert or ignore into Signal_History values (?, ?, ?, ?, ?, ?)",  [lsecode, sh_Date, sh_Price, sh_Signal, sh_Confirmation, sh_GBP100]) 
    
                    #scraperwiki.sqlite.commit()    
                    
#--------------------------------------------------
# Calculate Signal Performance
#--------------------------------------------------

if 1==0: 
 
   complist = scraperwiki.sqlite.execute("select `TIDM`, `Price`, `Date` from company where TIDM in (select distinct TIDM from Signal_History)")
   #complist = scraperwiki.sqlite.execute("select `TIDM`, `Price`, `Date` from company where tidm = 'SIG.L'")

   for x in complist["data"]:
       tidm=x[0]
       print tidm
       nprice=x[1]
       tdate=datetime.datetime.strptime(x[2], "%Y-%m-%d").date()
       todaydate=datetime.date.today()
       
       Commission=0.994

# Find Today GDP100

       ldata = scraperwiki.sqlite.execute("select `Price` from Signal_History where tidm = '%s' and Date = '%s'" % (tidm, tdate))
       if len(ldata["data"]) != 0:
           for c in d1mindate["data"]:
               tprice = c[0]
           
       else:
        
           ldata = scraperwiki.sqlite.execute("select `Date`, `GBP 100`, `Price`, `Signal` from Signal_History where tidm = '%s' and Date in (select max(`Date`) from Signal_History where tidm = '%s')" % (tidm, tidm))
           if len(ldata["data"]) == 0:
               tprice = 0
    
           else: 
               for b in ldata["data"]:
                   LatestGDP100 = b[1]
                   LatestPrice = b[2]
                   LatestSignal = b[3]
       
                   ldiff = (nprice - LatestPrice) / LatestPrice
           
                   if LatestSignal == 'BUY':
                       tprice = (LatestGDP100 + (LatestGDP100*ldiff))*Commission
                   elif LatestSignal == 'SHORT':
                       tprice = (LatestGDP100 + (LatestGDP100*(ldiff*-1)))*Commission
                   #SELL etc
                   else:
                       tprice = LatestGDP100*.994
               print "Latest: %s: $%s" % (tdate, round(tprice,2))
#------------------------------------------------------------

#D-1   


       d1date=todaydate - datetime.timedelta(days=10)

       d1list = scraperwiki.sqlite.execute("select `GBP 100` from Signal_History where tidm = '%s' and Date = '%s'" % (tidm, d1date))
       
       if len(d1list["data"]) != 0:
           for a in d1list["data"]: 
               CalcPrice = a[0]

       else:        
           d1mindate = scraperwiki.sqlite.execute("select `Date`, `GBP 100` from Signal_History where tidm = '%s' and Date in (select max(`Date`) from Signal_History where tidm = '%s' and Date < '%s')" % (tidm, tidm, d1date))
           
           if len(d1mindate["data"]) == 0:
               MinDate = '1900-01-01' #datetime.datetime.strptime(y[0], "%Y-%m-%d").date()
               MinPrice = 0.0
           else: 
               for y in d1mindate["data"]:
                    MinDate = datetime.datetime.strptime(y[0], "%Y-%m-%d").date()
                    MinPrice = y[1]
           
               d1maxdate = scraperwiki.sqlite.execute("select `Date`, `GBP 100` from Signal_History where tidm = '%s' and Date in (select min(`Date`) from Signal_History where tidm = '%s' and Date > '%s')" % (tidm, tidm, d1date))
               
               if len(d1maxdate["data"]) == 0:
                   MaxDate=tdate
                   MaxPrice=tprice
               else:
                   for z in d1maxdate["data"]:
                        MaxDate = datetime.datetime.strptime(z[0], "%Y-%m-%d").date()
                        MaxPrice = z[1]
           Abovedelta = MaxDate - d1date
           Belowdelta = d1date - MinDate
           
           MinMaxDelta = MaxDate - MinDate
           PriceDelta = MaxPrice - MinPrice
           if PriceDelta == 0:
               PriceInterval=0
           else:
               PriceInterval = PriceDelta / MinMaxDelta.days
           
           if abs(Abovedelta.days) >= Belowdelta.days:
               CalcPrice = MinPrice+Belowdelta.days*PriceInterval
           else:
               CalcPrice = MaxPrice-Abovedelta.days*PriceInterval
               
       D1PC = (tprice - CalcPrice) / CalcPrice
           
       print "Latest - 10: %s: $%s %s" % (d1date, round(CalcPrice,2), round(D1PC*100,1))
       print " "