In [1]:
# (C) Kris - Simple Cognos Analytics Audit Log transformation in Python3
# for detecting which tables in datasources were read by whom and when.
import re
import time
start_time = time.time()

In [2]:
# Ogólna funkcja parsująca treści wykonanych zapytań w celu wyciągnięcia nazw czytanych tabel, uznaje # jako komentarz.
def tables_in_query1(sql_str):
    # make sure we have string
    sql_str = str(sql_str)
    # remove the /* */ comments
    q = re.sub(r"/\*[^*]*\*+(?:[^*/][^*]*\*+)*/", "", sql_str)
    # remove whole line -- and # comments
    lines = [line for line in q.splitlines() if not re.match("^\s*(--|#)", line)]
    # remove trailing -- and # comments
    q = " ".join([re.split("--|#", line)[0] for line in lines])
    # split on blanks, parens and semicolons
    tokens = re.split(r"[\s)(;]+", q)
    # scan the tokens. if we see a FROM or JOIN, we set the get_next
    # flag, and grab the next one (unless it's SELECT).
    result = set()
    get_next = False
    for tok in tokens:
        if get_next:
            if tok.lower() not in ["", "select"]:
                result.add(tok)
            get_next = False
        get_next = tok.lower() in ["from", "join"]
    return result

In [3]:
# Modyfikacja Karola do funkcji parsującej treści wykonanych zapytań w celu wyciągnięcia nazw czytanych tabel i widoków
# -> Znak '#' nie jest już traktowany jako komentarz a jedynie jako znak tabeli tymczasowej
# -> Dodano specjalny set 'temporary', który gromadzi tabele tymczasowe (stworzone przez WHERE)
#    następnie są one usuwane z ostatecznego wyniku
def tables_in_query2(sql_str):
    # make sure we have string
    sql_str = str(sql_str)
    # remove the /* */ comments
    q = re.sub(r"/\*[^*]*\*+(?:[^*/][^*]*\*+)*/", "", sql_str)
    # remove whole line -- comments
    lines = [line for line in q.splitlines() if not re.match("^\s*(--|#)", line)]
    q = " ".join(lines)
    # split on blanks, parens and semicolons
    tokens = re.split(r"[\s)(;]+", q)
    # scan the tokens. if we see a FROM or JOIN, we set the get_next
    # flag, and grab the next one (unless it's SELECT).
    # 'temporary' for keeping temporary tables created using WHERE clause
    # we don't want temprary tables in final result
    result = set()
    temporary = set()
    get_next = False
    get_next_temporary = False
    for tok in tokens:
        if get_next_temporary:
            temporary.add(tok)
            get_next_temporary = False
        if get_next:
            if tok.lower() not in ["", "select", '#']:
                result.add(tok)
            get_next = False        
        get_next_temporary = tok.lower() in ["with"]
        get_next = tok.lower() in ["from", "join"]     
    for temp in temporary:
        if temp in result: result.remove(temp)
    return result

In [4]:
# Podłączenie do bazy danych z logami auditowymi LIVE:
#import pymssql  
#conn = pymssql.connect(server='192.168.1.22', user='sa', password='PASSWORD', database='cog11audit')
import ibm_db
conn = ibm_db.connect("DATABASE=AUDIT11;HOSTNAME=192.168.1.22;PORT=50000;PROTOCOL=TCPIP;UID=cognos;PWD=PASSWORD;", "", "")

In [5]:
# Zapytanie wybierające dane ze szczegółami zapytań:
query = "SELECT COGIPF_USERLOGON.COGIPF_USERNAME AS UNAME, COGIPF_NATIVEQUERY.COGIPF_LOCALTIMESTAMP AS QTIME, \
                         COGIPF_RUNREPORT.COGIPF_REPORTNAME AS RNAME, COGIPF_NATIVEQUERY.COGIPF_SESSIONID AS SESID, \
                         COGIPF_NATIVEQUERY.COGIPF_REQUESTSTRING AS QRSTR \
FROM            COGIPF_RUNREPORT RIGHT OUTER JOIN \
                         COGIPF_NATIVEQUERY ON COGIPF_RUNREPORT.COGIPF_REQUESTID = COGIPF_NATIVEQUERY.COGIPF_REQUESTID LEFT OUTER JOIN \
                         COGIPF_USERLOGON ON COGIPF_NATIVEQUERY.COGIPF_SESSIONID = COGIPF_USERLOGON.COGIPF_SESSIONID \
WHERE        (NOT (COGIPF_NATIVEQUERY.COGIPF_SESSIONID IS NULL)) AND (NOT (COGIPF_USERLOGON.COGIPF_USERNAME IS NULL)) AND (NOT (COGIPF_NATIVEQUERY.COGIPF_REQUESTSTRING IS NULL)) \
ORDER BY QTIME DESC;"

In [6]:
## Wszystkie dane z SQLa do DataFrame Pandas - uwaga na lokalną pamięć w Pythonie...
import pandas as pd
df = pd.read_sql(query, conn)
df.count()

UNAME    596
QTIME    596
RNAME    596
SESID    596
QRSTR    596
dtype: int64

In [7]:
#df.head(5)

In [8]:
# Zostawiamy tylko unikalne rekordy w DataFrame:
df.drop_duplicates(inplace = True)
# Zapis do testów:
#df.to_csv('AuditTablesCognosMsSQL2.csv', index = False, header=True, encoding='utf-8')
# Czyszczenie kolumny z nazwą raportu z niepotrzebnych znaczków:
df['RNAME'] = df['RNAME'].map(lambda RNAME: str(RNAME).replace('report[@name=', '').replace(']', '').replace('\'', ''))
# Wyłuskanie nazw tabel poprzez zastosowanie funkcji na kolumnie z treściami SQLi = QRSTR:
#df['QRSTR'] = df['QRSTR'].map(lambda QRSTR: str(tables_in_query1(str(QRSTR))))
df['QRSTR'] = df['QRSTR'].map(lambda QRSTR: str(tables_in_query2(str(QRSTR))))
# Czyszczenie powyższej kolumny z nazwami table z pozostałych znaczków:
df['QRSTR'] = df['QRSTR'].map(lambda QRSTR: str(QRSTR).replace('{', '').replace('\'', '').replace('}', ''))
df.count()

UNAME    179
QTIME    179
RNAME    179
SESID    179
QRSTR    179
dtype: int64

In [9]:
#df.head(5)

In [10]:
# Zapis wyniku do nowej tabeli bazy danych z auditem za pomocą gotowca z sqlalchemy - trzeba dokładnie przetestować:
import sqlalchemy
#engine = sqlalchemy.create_engine('mssql+pymssql://sa:PASSWORD@192.168.1.22:1433/cog11audit')
engine = sqlalchemy.create_engine("db2+ibm_db://cognos:PASSWORD@192.168.1.22:50000/AUDIT11")
df.to_sql(name = 'AudiTab1', con = engine, if_exists = 'replace', index = False)
conn.commit()

In [11]:
# Utworzenie nowej struktury do drugiej tabelki pod raportowanie w innym układzie:
ndf = pd.DataFrame(df.QRSTR.str.split(',').tolist(), index=[df.UNAME, df.QTIME, df.RNAME, df.SESID]).stack()
ndf = ndf.reset_index()
ndf.columns = ['UNAME', 'QTIME', 'RNAME', 'SESID', 'LVL', 'TAB']
ndf = ndf.drop(['LVL'], axis=1)
ndf['TAB'] = ndf['TAB'].map(lambda TAB: str(TAB).replace('[', '').replace(']', '').replace('\"', ''))
ndf['TAB'] = ndf['TAB'].map(lambda TAB: str(TAB).strip())
#ndf.head(5)

In [12]:
ndf.to_sql(name = 'AudiTab2', con = engine, if_exists = 'replace', index = False)
conn.commit()
ndf.count()

UNAME    564
QTIME    564
RNAME    564
SESID    564
TAB      564
dtype: int64

In [13]:
# All Done:
conn.close()
print("--- Total execution time was %s seconds ---" % (time.time() - start_time))
# END # 

--- Total execution time was 3.253875970840454 seconds ---
