# Example: Load data, transform to Bag-of-words and fit Logistic regression

In [1]:
import pickle
import numpy as np

load_loc = '/home/jehi/Dropbox/DTU/DeepFactData/annotated/' #SPECIFY!
with open(load_loc+"data_matrix_sample_programs.pickle",'rb') as f:
        data = pickle.load(f)

In [2]:
features = data['features']
features

['start time',
 'end time',
 'program_id',
 'sentence_id',
 'sentence',
 'claim_idx',
 'claim']

The sentences are for the data matrix (X), while the claims is for the outcome vector y

In [3]:
X = data['data'][:,4]
y = data['data'][:,6]
N = len(X)

# Some examples
for i in [21, 23, 33, 40, 48, 49, 50]: #range(100):
    print('Sentence is:\n\t' + X[i])
    print('Claim is:\n\t' + str(y[i])+'\n')
       
# Now convert y to a binary indicator matrix (1 is claim, 0 no claim)
y = np.asarray([y[i] is not None for i in range(N)])

Sentence is:
	Det har været ubehageligt.
Claim is:
	None

Sentence is:
	jeg er meget fortvivlet ...
Claim is:
	None

Sentence is:
	Statsministeren må overveje, om man kan have tillid til at den samme minister, som har været årsag til noget kritisabelt restriktivt, svingende ... alle de ord, som lige er nævnt om det er den rigtige person til også at rette op på alt det her sådan at vi kan få den vejledning, som vi kan forvente. Er ombudsmandens kritik alvorlig? Der er en kritik. Helt klart.
Claim is:
	None

Sentence is:
	Selvfølgelig. DF vil have en stram udlændingepolitik.
Claim is:
	DF vil have en stram udlændingepolitik

Sentence is:
	Det er der meget, der tyder på. Man skal være meget godtroende for ikke at tænke, at der ligger andet bag.
Claim is:
	None

Sentence is:
	Det er ikke en enkelt svipser. Det er helt konsekvent at man har vejledt forkert. Det viser ombudsmandens undersøgelse.
Claim is:
	Det er helt konsekvent at man har vejledt forkert. Det viser ombudsmandens undersøgels

## Transform and fit

In [4]:
from sklearn.metrics import confusion_matrix
from sklearn import linear_model
from sklearn.feature_extraction.text import CountVectorizer
import matplotlib.pyplot as plt
%matplotlib inline


# Make a Bag-of-Words
vectorizer = CountVectorizer()
X_bow = vectorizer.fit_transform(X)
words = vectorizer.get_feature_names()

# Fit the logit model
logistic = linear_model.LogisticRegression()
logistic.fit(X=X_bow,y=y)
ypred = logistic.predict(X_bow) 

# CM on traning data
C = confusion_matrix(y, ypred)
C

array([[2346,    0],
       [  76,  123]])

Get the confusion matrix as probabilities.

In [5]:
C/np.sum(C[:])

array([[ 0.92180747,  0.        ],
       [ 0.02986248,  0.04833006]])