# Milestone II

Project groups will analyze this data to 
1) *identify inconsistencies and challenges in annotation* as well as to 
2) *identify groups of synonymous aspects*. 

The data can be analysed manually, or semi-automatically by calculating and analysing basic data statistics (e.g. label frequencies, aspect frequencies etc.).


# Milestone III: : automatic sentiment detection (mandatory)

Each project group will *create an automatic sentiment detection system* using the annotated data and a text classification method as taught on the course (for example a bag-of-words SVM, but you are free to choose any other classification method as well).

The task setting is as follows: given target texts and their right and left contexts, assign each context to one of the sentiment classes (positive, negative, etc.). For example:

Left context            Target       Right context                     Sentiment
“Minun mielestäni”     “Nordea”      “on ihan hyvä pankki.”            positive
“Siirryin”             “Op:sta”      “pois sössimisten vuoksi.”        negative

The sentiment detection systems will be evaluated on a held-out portion of the annotated data in terms of their accuracy.

We will provide each project group with data for training and evaluating the sentiment detection methods in a simple TSV format.


In [134]:
import csv
from pprint import pprint

data = []

with open("combined-sentiment-judgments.tsv", encoding= 'utf-8') as tsv:
    tsvreader = csv.reader(tsv, delimiter= '\t')   
    for line in tsvreader:
        # 0:id, 1=judgement, 2=aspects, 3=left, 4= target, 5=right
        #print (line)
        judg = line[1].split(",")
        #print(judg)
     #
        data.append({"id":line[0], "judgement":judg, "aspects":line[2].split(','), "left context":line[3], "target":line[4], "right context":line[5]})
#print(evals[:5])
print()
pprint(data[:3])
       
counts = []
for item in data:
    #print(eval)
    #count = {"positive":0, "neutral":0, "negative":0, "mixed":0, "unclear":0, "total" :0}
    count = {"positive":0, "neutral":0, "negative":0, "mixed":0, "unclear":0}
    for i in item.get('judgement'):
        #print(i) 
        #count["total"] += 1s
        if (i == "mixed"):
            count["mixed"] = count.get("mixed") +1
        elif (i == "unclear"):
            count["unclear"] = count.get("unclear") +1
        elif (i == "positive"):
             count["positive"] = count.get("positive") +1
        elif(i == "neutral"):
            count["neutral"] = count.get("neutral") + 1
        elif(i == "negative"):
             count["negative"] = count.get("negative") +1
    counts.append(count)
pprint(counts[:10])




[{'aspects': ['status'],
  'id': 'ajoneuvot00692',
  'judgement': ['positive', 'neutral'],
  'left context': 'Tämä . BMW provosoi tarpeettomiin ohituksiin . '
                  'Liikennevaloissa lähtiessäkin on usein yhden hengen '
                  'kiihdytyskisat pystyssä . ',
  'right context': ' ratissa ei tarvitse katsella tätä , vaikka ajotyyli ja '
                   'nopeus on samoja . Onko tämä sitä kateutta ?',
  'target': 'Fordin'},
 {'aspects': ['auto', 'merkki', 'ääni'],
  'id': 'ajoneuvot00697',
  'judgement': ['positive', 'positive', 'positive', 'positive'],
  'left context': '',
  'right context': ' on kyllä upeita . Hyväkuntoiset on vaan aikalailla viety '
                   'käsistä . Aika paljon noita myös laitellaan , mutta '
                   'hyvällä maulla mielestäni ( motorsport hengessä ) . Olen '
                   'ollut parin + 250hp vaparin kyydissä . Suorakutonen laulaa '
                   'nätisti 8000rpm .',
  'target': 'Zetat'},
 {'aspects': ['hinta'

In [135]:
for count in counts[:10]:
    #print(count)
    total = sum(count.values())
    #print(total) ##check
    
    for item in count:
        #print(item)
        pros = count.get(item)/total
        #print(pros)
        count[item] = pros
    #print(count)
pprint(counts[:3])

[{'mixed': 0.0,
  'negative': 0.0,
  'neutral': 0.5,
  'positive': 0.5,
  'unclear': 0.0},
 {'mixed': 0.0,
  'negative': 0.0,
  'neutral': 0.0,
  'positive': 1.0,
  'unclear': 0.0},
 {'mixed': 0.3333333333333333,
  'negative': 0.0,
  'neutral': 0.6666666666666666,
  'positive': 0.0,
  'unclear': 0.0}]


In [136]:
evals_with_clears = []
for count in counts:
    #print(count)
    max_key = max(count.items(), key = lambda x :x[1])
    #print(max_key)
    for value in count.values():
        if value == count.get(max_key):
            max_key = null
            evals_with_clears.append(count)
    if (max_key[1]>=1.00):
        final_eval = {max_key[0]:max_key[1]}
        #print("Final label: ",final_eval)
        evals_with_clears.append(final_eval)
    else:
        for key in count.keys():
            if count.get(key) > 0:
                count_cleaned[key] = count.get(key)
        evals_with_clears.append(count)
pprint(evals_with_clears[:5])

[{'mixed': 0.0,
  'negative': 0.0,
  'neutral': 0.5,
  'positive': 0.5,
  'unclear': 0.0},
 {'positive': 1.0},
 {'mixed': 0.3333333333333333,
  'negative': 0.0,
  'neutral': 0.6666666666666666,
  'positive': 0.0,
  'unclear': 0.0},
 {'mixed': 0.0,
  'negative': 0.0,
  'neutral': 0.25,
  'positive': 0.75,
  'unclear': 0.0},
 {'negative': 1.0}]


In [137]:
# Asetetaan enemmistö-labelit dataan
for i in range(len(data)):
    datapoint= data[i]
    if len(evals_with_clears[i]) ==1: # vain yksi judg
        datapoint['judgement'] = list(evals_with_clears[i])[0] # nyt judgement on osalla lauseista vain yksi str => label
sample = data[:3]
for item in sample:
    print(item)
    print()

{'id': 'ajoneuvot00692', 'judgement': ['positive', 'neutral'], 'aspects': ['status'], 'left context': 'Tämä . BMW provosoi tarpeettomiin ohituksiin . Liikennevaloissa lähtiessäkin on usein yhden hengen kiihdytyskisat pystyssä . ', 'target': 'Fordin', 'right context': ' ratissa ei tarvitse katsella tätä , vaikka ajotyyli ja nopeus on samoja . Onko tämä sitä kateutta ?'}

{'id': 'ajoneuvot00697', 'judgement': 'positive', 'aspects': ['auto', 'merkki', 'ääni'], 'left context': '', 'target': 'Zetat', 'right context': ' on kyllä upeita . Hyväkuntoiset on vaan aikalailla viety käsistä . Aika paljon noita myös laitellaan , mutta hyvällä maulla mielestäni ( motorsport hengessä ) . Olen ollut parin + 250hp vaparin kyydissä . Suorakutonen laulaa nätisti 8000rpm .'}

{'id': 'ajoneuvot01589', 'judgement': ['mixed', 'neutral', 'neutral'], 'aspects': ['hinta', 'piirteet'], 'left context': 'Tässä langassa lienee paras kysyä , mitä tulisi huomioida ', 'target': 'E39 : n', 'right context': ' hankinnassa

In [141]:
# jaetaan data datasetteihin
clear_labels = ['positive','neutral','negative']
train_data =[]
dev_data =[]
test_data=[]
count_unclears = 0
for item in data:
    #while(len(train_data))
    judg = item.get('judgement')
    #print(judg)
    if type(judg) == str:
        if judg == 'unclear' or judg == 'mixed':
            count_unclears += 1
            test_data.append(item)
        elif judg in clear_labels:
            #print(judg)
            train_data.append(item)
    else:
        dev_data.append(item)
print("train: ", len(train_data), ", dev: ", len(dev_data), ", test: ", len(test_data))
print(count_unclears)
print(dev_data)

train:  929 , dev:  5 , test:  46
46
[{'id': 'ajoneuvot00692', 'judgement': ['positive', 'neutral'], 'aspects': ['status'], 'left context': 'Tämä . BMW provosoi tarpeettomiin ohituksiin . Liikennevaloissa lähtiessäkin on usein yhden hengen kiihdytyskisat pystyssä . ', 'target': 'Fordin', 'right context': ' ratissa ei tarvitse katsella tätä , vaikka ajotyyli ja nopeus on samoja . Onko tämä sitä kateutta ?'}, {'id': 'ajoneuvot01589', 'judgement': ['mixed', 'neutral', 'neutral'], 'aspects': ['hinta', 'piirteet'], 'left context': 'Tässä langassa lienee paras kysyä , mitä tulisi huomioida ', 'target': 'E39 : n', 'right context': ' hankinnassa , niitähän saa jo parilla tonnilla . Ainoat kriteerit : nahkasisusta , ilmastointi , sedan .'}, {'id': 'ajoneuvot01823', 'judgement': ['positive', 'neutral', 'positive', 'positive'], 'aspects': ['bensankulutus', 'kestävyys', 'kulutus', 'laatu'], 'left context': '', 'target': 'Saab 9000', 'right context': ' 2 . 3literisellä pikkumoottorilla varustettu y

# Task II: analysis
## inconsistencies and challenges in annotation

## synonymous aspects