In [2]:
# Created on 15/05/2019 by Ali JABBARI
# Edited on 17/05/2019
#
# Script to import all annotations, for selected types and transformations
#
#

In [1]:
import glob
import os

In [2]:
data_path = './data/'

In [3]:
def getFileList(ftypes, start_path = '.'):
    
    file_list = []
    for dirpath, dirnames, filenames in os.walk(start_path):
        for f in filenames:
            fp = os.path.join(dirpath, f)
            if fp.endswith(ftypes):
                file_list.append(fp)
    
    return file_list

In [4]:
def loadAnnotations(ann_files, txt_files, types):
    ANNOTATIONS = []
    
    for af, tf in zip(ann_files, txt_files):
        with open(af, 'r') as ann_data, open(tf, 'r') as text_data:
            text = text_data.read()
            res = []
            for line in ann_data:
                if line.startswith('T'):
                    content = line.split()
                    if content[1] in types:
                        res.append((int(content[2]), int(content[3]), content[1]))
            if res: ANNOTATIONS.append((text,{"entities": res}))
                
    return ANNOTATIONS

In [5]:
ann = getFileList(('.ann'), data_path+'./trainset')
txt  =getFileList(('.txt'), data_path+'./trainset')

In [6]:
# View all annotation instances for a given list of types

def viewAnnotations(types, tf=None):
    
    global ann, txt
    raw_data = loadAnnotations(ann, txt, types)
    
    if tf==None:
        articles = raw_data
    else:
        articles = editAnnotations(raw_data, tf)
        
    for i in range(len(articles)):
        example = articles[i]
        mytext = example[0]
        myanns = example[1]['entities']
        for j in range(len(myanns)):
            start, end, cat = myanns[j]
            print(mytext[start:end],':', cat)

In [27]:
def getTags(types):
    
    global ann, txt
    articles = loadAnnotations(ann, txt, types)
    tags = []
    
    for i in range(len(articles)):
        example = articles[i]
        mytext = example[0]
        myanns = example[1]['entities']
        for j in range(len(myanns)):
            start, end, cat = myanns[j]
            tags.append(mytext[start:end])
    return tags

In [26]:
set(getTags(['Currency', 'Fundraising']))

{"d'euros", 'dollar', 'dollars', 'euros', 'financement', "l'euro"}

In [23]:
def editAnnotations(raw_annotations, transformation):

    annotation = raw_annotations
    for article in range(len(annotation)):
        output = []
        for item in annotation[article][1]['entities']:
            item = list(item)
            #old_tag = item[2]
            new_tag = transformation.get(item[2],"No_key")
            item[2]=new_tag
            item = tuple(item)
            output.append(item)
        annotation[article][1]['entities'] = output
        
    return annotation

In [24]:
raw = loadAnnotations(ann, txt, ['Investment', 'IPO'])

In [25]:
raw[0][1]['entities'][0][2]

'IPO'

In [20]:
keys = {'City': 'LOC',
      'Country': 'LOC',
      'WordRegion': 'LOC' }
in_data = loadAnnotations(ann, txt, ['City', 'Country', 'WordRegion'])
editAnnotations(in_data, keys)

[("comme son père michel, emmanuel besnier a dû reprendre très jeune - à moins de 30 ans - la gestion du groupe familial suite au décès brutal de son père. ce manager diplômé d'école de commerce au caractère très secret (il refuse toute photo personnelle) s'est illustré cette année en remportant la bataille pour le contrôle du champion italien parmalat, hissant ainsi lactalis au premier rang mondial des produits laitiers devant danone.",
  {'entities': [(335, 342, 'LOC')]}),
 ('\ufefftout comme la city de londres ne se résume pas à la bourse des valeurs mobilières, casablanca finance city (cfc) s\'entend comme une plateforme globale de services et d\'acteurs tirant leur activité principale des marchés financiers. c\'est pourquoi les managers de cfc s\'agacent parfois d\'être interrogés sur les performances de la bourse de casablanca. lancée en 2010 avec l\'objectif affiché de devenir la place de choix aux côtés de l\'afrique du sud, cfc ne se limite ni aux frontières du maroc, ni à cel

In [178]:
viewAnnotations(['City', 'Country', 'WordRegion'], tf=keys)


detroit : LOC
munich : LOC
bratislava : LOC
shanghai : LOC
brest : LOC
paris : LOC
françaises : LOC
américaines : LOC
portugaise : LOC
français : LOC
etats-unis : LOC
inde : LOC
brésil : LOC
chine : LOC
inde : LOC
brésil : LOC
russie : LOC
américains : LOC
viêtnam : LOC
turquie : LOC
etats-unis : LOC
chine : LOC
brésil : LOC
chinois : LOC
indonésie : LOC
viêtnam : LOC
turquie : LOC
chine : LOC
français : LOC
france : LOC
france : LOC
américaine : LOC
