In [6]:
# Convert the csv of the translated narratives to an xml tree

from __future__ import unicode_literals, print_function, division
from io import open
import glob
import os
import torch
import sys
from lxml import etree
import argparse
import calendar
import csv
import re
import subprocess
import time
import math 

In [7]:
# -*- coding: UTF-8 -*-
data={}
seq_length = 0
all_categories = []
tree = etree.parse('../data/mds+rct/train_adult_cat.xml')
for e in tree.iter("cghr_cat"):
        if e.text not in data:
             data[e.text]=[]
             all_categories.append(e.text)
for e in tree.iter("hindi_narrative","cghr_cat"):
    if e.tag == "hindi_narrative":
        value= u''.join(e.text)
        if(seq_length) < len(value):
            seq_length = len(value)
        
    if e.tag == 'cghr_cat':
        data[e.text].append(value)


# for k,v in data.iteritems():
#     print (k)
#     print ((u"\n".join(v)))

n_categories= len(all_categories)


In [8]:
all_text = ''
for v in data.itervalues():
    all_text = all_text + u"-".join(v)

vocab = set(all_text)
n_letters = len(vocab)

def letterToIndex(letter):
    return list(vocab).index(letter)

def letterToTensor(letter):
    tensor = torch.zeros(1, n_letters)
    tensor[0][letterToIndex(letter)] = 1
    return tensor

# Turn a line into a <line_length x 1 x n_letters>,
# or an array of one-hot letter vectors
def lineToTensor(narrative):
    tensor = torch.zeros(seq_length,1)
    for li, letter in enumerate(narrative):
        tensor[li][0] = letterToIndex(letter)
    for i in range (1,seq_length-len(narrative)):
        tensor[len(narrative)+i][0]=0
    return tensor

narr = data['1'][0]



In [9]:
import torch.nn as nn

class CNN(nn.Module):
    def __init__(self,sequence_length,input_size, hidden_size, output_size):
        super(CNN, self).__init__()

        self.hidden_size = hidden_size
        self.seq_length = sequence_length
        self.encoder = nn.Embedding(input_size,20)
        self.conv2 = nn.Sequential(nn.Conv2d(1,3,kernel_size = (2,20),stride=1), nn.ReLU())
        self.conv3 = nn.Sequential(nn.Conv2d(1,3,kernel_size=(3,20),stride=1),nn.ReLU())
        self.conv4 = nn.Sequential(nn.Conv2d(1,3,kernel_size=(4,20),stride=1),nn.ReLU())
        self.conv5 = nn.Sequential(nn.Conv2d(1,3,kernel_size=(5,20),stride=1),nn.ReLU())
        self.conv6 = nn.Sequential(nn.Conv2d(1,3,kernel_size=(6,20),stride=1),nn.ReLU())
        self.conv7 = nn.Sequential(nn.Conv2d(1,3,kernel_size=(7,20),stride=1),nn.ReLU())
        self.conv8 = nn.Sequential(nn.Conv2d(1,3,kernel_size=(8,20),stride=1),nn.ReLU())
        self.linear = nn.Linear(21,output_size)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, input):
        input = self.encoder(input.long())
        input = input.squeeze(1)
#         print(input.unsqueeze(0).unsqueeze(0).size())
        output2 = self.conv2(input.unsqueeze(0).unsqueeze(0))
        self.maxpool = nn.MaxPool1d(kernel_size=(self.seq_length-2+1))
        output2 = self.maxpool(output2.squeeze(3))
#         print(output2.size())
        output3 = self.conv3(input.unsqueeze(0).unsqueeze(0))
        self.maxpool = nn.MaxPool1d(kernel_size=(self.seq_length-3+1))
        output3 = self.maxpool(output3.squeeze(3))
#         print(output3.size())
        output4 = self.conv4(input.unsqueeze(0).unsqueeze(0))
        self.maxpool = nn.MaxPool1d(kernel_size=(self.seq_length-4+1))
        output4 = self.maxpool(output4.squeeze(3))
#         print(output4.size())
        output5 = self.conv5(input.unsqueeze(0).unsqueeze(0))
        self.maxpool = nn.MaxPool1d(kernel_size=(self.seq_length-5+1))
        output5 = self.maxpool(output5.squeeze(3))
        
        output6 = self.conv6(input.unsqueeze(0).unsqueeze(0))
        self.maxpool = nn.MaxPool1d(kernel_size=(self.seq_length-6+1))
        output6 = self.maxpool(output6.squeeze(3))
        
        output7 = self.conv7(input.unsqueeze(0).unsqueeze(0))
        self.maxpool = nn.MaxPool1d(kernel_size=(self.seq_length-7+1))
        output7 = self.maxpool(output7.squeeze(3))
        
        output8 = self.conv8(input.unsqueeze(0).unsqueeze(0))
        self.maxpool = nn.MaxPool1d(kernel_size=(self.seq_length-8+1))
        output8 = self.maxpool(output8.squeeze(3))
        
        final_output = torch.cat((output2,output3,output4,output5,output6,output7,output8),1)
        final_output = self.linear(final_output.squeeze(2))
        final_output = self.softmax(final_output)
        return final_output

n_hidden = 64
cnn = CNN(seq_length,n_letters, n_hidden, n_categories)
    

In [10]:
input = lineToTensor(narr)
print(input.size())
hidden = torch.zeros(1,1,n_hidden)

output= cnn(input)
print(output)
print(output.size())


torch.Size([2077, 1])
tensor([[-4.4942, -1.9956, -2.5119, -4.1312, -1.7427, -4.1493, -5.2282,
         -3.9633, -2.6132, -3.3899, -4.7573, -2.3901, -3.9277, -3.4341,
         -3.4594, -2.4987, -1.8417, -4.6929]])
torch.Size([1, 18])


In [11]:
def categoryFromOutput(output):
    top_n, top_i = output.topk(1)
#     print(top_n)
#     print(top_i.size())
    category_i = top_i[0].item()
    return all_categories[category_i], category_i

print(categoryFromOutput(output))

('3', 4)


In [12]:
import random

def randomChoice(l):
    return l[random.randint(0, len(l) - 1)]

def randomTrainingExample():
    category = randomChoice(all_categories)
    line = randomChoice(data[category])
    category_tensor = torch.tensor([all_categories.index(category)], dtype=torch.long)
    line_tensor = lineToTensor(line)
    return category, line, category_tensor, line_tensor

def getTensors(category,line):
    category_tensor = torch.tensor([all_categories.index(category)], dtype=torch.long)
    line_tensor = lineToTensor(line)
    return category, line, category_tensor, line_tensor
    

for i in range(10):
    category, line, category_tensor, line_tensor = randomTrainingExample()
    print('category =', category,category_tensor, '/ line =', line)

category = 16 tensor([ 6]) / line = आत्महत्या करने के कारण 20 साल की महिला की मौत हो गई थी। कारण व्यक्तिगत था और इसलिए अधिक जानकारी नहीं दी गई थी। उसे कोई अन्य बीमारी या लक्षण नहीं था उत्तरदाता के अनुसार, वह नहीं जानता कि उसकी बेटी ने आत्महत्या की है। वह खेत से आया और अपनी बेटी को मृत पाया। उसका पोस्टमॉर्टम या चेक अप नहीं किया गया था। चूंकि यह आत्महत्या का मामला है, अधिक जानकारी नहीं दी गई थी। यह सिर्फ इतना ज्ञात है कि जब वह खेत में गया था और रोगग्रस्त स्कूल गया था और जब वह लौटा, तो वह बिस्तर में मृत पाया गया।
category = 7 tensor([ 9]) / line = 78 साल की उम्र XXX, स्वस्थ था। उन्होंने मानसिक रूप से शुरू किया और गंभीर अस्थमात्मक समस्या का सामना कर रहा था। वह अपने पूरे जीवन में अपने दोनों आहार के लिए दवाएं ले रहा था। उनका अस्थमा बहुत प्रभावशाली था। पूर्ण दोपहर और चंद्रमा के दिनों में गंभीर। उसके पास भी गंभीर उत्पादक खांसी थी और सांस लेने के दौरान छाती को तोड़ना पड़ा था। 28-11-02 को, मध्यरात्रि में 12 बजे, वह सांस लेने में कठिनाई के कारण समाप्त हो गया। उत्तरदायी यात्रा करते हैं कि मृत्यु उ

In [27]:
learning_rate = 0.005
criterion = nn.NLLLoss()
optimizer = torch.optim.Adam(cnn.parameters(),lr=learning_rate)

In [28]:
 # If you set this too high, it might explode. If too low, it might not learn

def train(category_tensor, line_tensor):
#     hidden = rnn.initHidden()

    cnn.zero_grad()
    output = cnn(line_tensor)

    loss = criterion(output, category_tensor)
    loss.backward()
    optimizer.step()

    return output, loss.item()

def save():
    save_filename = "./model_cnn.pt"
    torch.save(cnn, save_filename)
    print('Saved as %s' % save_filename)
    
def writeToFile(line):
    if os.path.exists("output.txt"):
            append_write = 'a' # append if already exists
    else:
            append_write = 'w' # make a new file if not

    f = open("output.txt",append_write)
    f.write(line + '\n')
    f.close()
    
def timeSince(since):
    now = time.time()
    s = now - since
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)

In [None]:
def trainIters(epochs):
    print_every = 5000
    counter = 0
    current_loss = 0
    start = time.time(
    for e in range(epochs):
        for k,v in data.iteritems():
            for i in range(len(v)):
                counter += 1
                category, line, category_tensor, line_tensor = getTensors(k,v[i])
                output, loss = train(category_tensor, line_tensor)
                current_loss += loss

        # Print iter number, loss, name and guess
                if counter % print_every == 0:
                    guess, guess_i = categoryFromOutput(output)
                    correct = '✓' if guess == category else '✗ (%s)' % category
                    line = '%d %d%% (%s) %.4f %s / %s %s' % (iter, iter / n_iters * 100, timeSince(start), current_loss, line, guess, correct)
                    print(line)
                    writeToFile(line)
        
    save()
                
                
            
     
    

In [92]:
if __name__ == '__main__':
    
    n_iters = 100000
    print_every = 5000
    plot_every = 1000

    # Keep track of losses for plotting
    current_loss = 0
    all_losses = []
    start = time.time()

    for iter in range(1, n_iters + 1):
        category, line, category_tensor, line_tensor = randomTrainingExample()
        output, loss = train(category_tensor, line_tensor)
        current_loss += loss

        # Print iter number, loss, name and guess
        if iter % print_every == 0:
            guess, guess_i = categoryFromOutput(output)
            correct = '✓' if guess == category else '✗ (%s)' % category
            print('%d %d%% (%s) %.4f %s / %s %s' % (iter, iter / n_iters * 100, timeSince(start), loss, line, guess, correct))

        # Add current loss avg to list of losses
        if iter % plot_every == 0:
            all_losses.append(current_loss / plot_every)
            current_loss = 0
    save()

tensor([[-2.1327]])
torch.Size([1, 1])
5000 5% (1m 14s) 2.9245  उत्तरदाता के अनुसार पूर्व मे उनको किसी प्रकार की बीमारी नही थी परंतु मृत्यु के  दिन पहले उनके दाहिने पैर मे दरद हुा दरद पांव की पिंडली से कमर तक होता था दवीयां भी दिया, आराम नही मिला, अधिक उमर हो गयी थी इसी कारण मृत्यु हो गयी / 15 ✗ (18)
tensor([[-2.1109]])
torch.Size([1, 1])
10000 10% (2m 27s) 2.9136  उत्तरदाता के अनुसार शाम करीब सात बजे का समय था उत्तरदाता घर के आअंगन से बढे थे मृतक बाहर से आये और चापाकल पर जाकर मुंह हांथ धोये उसके बाद अपने रूम मे जाने लगे लेकिन अचानक दरव पर ही वे गिर प सभी लोग मृतक को उठाकर देखा तो वे एकदम चित प हुये थे और उनका नबज़ चलना बंद हो गया था घरवाले पासके डौक्टर को बुलाये तो डौक्टर ने बताया कि वे अब इस दुनिया मे नही रहे / 15 ✗ (18)
tensor([[-2.0856]])
torch.Size([1, 1])
15000 15% (3m 39s) 2.7457  पहले से कोी बीमारी नहीं था उस रात को रम में बहुत दरद हुा दरद बरदास्त नहीं होता था ___ थोडा दरद ____ ____ ____ दिया गया लेकिन वो पेट में ____ हो उसकी मौत हो गयी / 15 ✗ (9)
tensor([[-2.0037]])
torch.Size

NameError: global name 'lstm' is not defined

In [30]:
evaluator = torch.load("./model_cnn_21x20.pt")
# -*- coding: UTF-8 -*-
test_data={}

tree = etree.parse('../data/mds+rct/dev_adult_cat_1312.xml')
for e in tree.iter("cghr_cat"):
        if e.text not in test_data:
             test_data[e.text]=[]
for e in tree.iter("hindi_narrative","cghr_cat"):
    if e.tag == "hindi_narrative":
        value= u''.join(e.text)
#         print(value)
        
    if e.tag == 'cghr_cat':
        test_data[e.text].append(value)

total_test = 0
total_correct = 0
for k,v in test_data.items():
    cat = k
    for line in v:
        narr = line
        narr_tensor = lineToTensor(line)
        output = evaluator(narr_tensor)
        guess, guess_i = categoryFromOutput(output)
        #print("correct cat: %s , predicted cat: %s"%(cat,guess))
        total_test +=1
        if cat == guess:
            total_correct +=1

print("total test: %d"%(total_test))
print("total correct: %d"%(total_correct))
print("prediction: %f"%((total_correct/total_test)*100))

total test: 1312
total correct: 251
prediction: 19.131098
