# Tutorial 

## Part-II

In this live session we will **(a)** tokenize the input into words, **(b)** morphologically analyze each instance, **(c)** merge the instances conforming to the scope of the original data points and **(d)** export accordingly. Input will be the output of Part-I (Turkish).


### * imports

In [27]:
import glob
from string import punctuation
import subprocess

### ** globals

In [28]:
input_path = "./in/"
output_path = "./out/"

### *** read input

In [29]:
def read_and_store_input(input_path):
    # initialize dictionary
    data = {}
    # read file names from the input directory
    input_files = glob.glob(input_path+'*.txt')
    for file_path in input_files:
        content = open(file_path, 'r')
        # create an empty list with a key as the name of the current file
        file_name = file_path.split('/')[-1]
        data[file_name]=[]
        # populate the list with content from file
        for line in content:
            # check if line has content
            if line.strip() != "":
                data[file_name].append(line.strip())
    return data

In [30]:
data = read_and_store_input(input_path)

In [31]:
data

{'00001131_pp.txt': ['NÜ PERİDE',
  'Hakan Akdoğan',
  'Roman',
  '7',
  'Koca duvar taşıyordun yüreğinde kimsenin aşamayacağı, aşmaya cesaret edemeyeceği. Dışa karşı güçlüydü, içe, yüreğine yıkılmak üzereydi. Anılarla örülmüş, acılarla harçlanmış duvara tırmanmak, aşabilmenin ilk şartıydı. Vazgeçmek kolaydı, ertelemek de. Ama tırmanmaya başlandı bitirilmeli! Çünkü seferinde acımasız geriye dönüş vardı. Bıraktığın sefer başlangıca gebeydi. Bir aşsaydım duvarı olacaktın, kucaklayacaktın beni. Kırgınlıkların, korkuların eriyip gidecekti, olacak, geçecekti. Ben kıvranacaktım, acı çekip işkencelere gönüllü katlanacaktım yerine, bilmeden.']}

In [13]:
punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [32]:
def tokenize(line):
    # remove punc.
    line = ''.join(ch for ch in line if ch not in punctuation)
    # tokenize
    words = line.split()
    return words

def tokenizer(data):
    # traverse data
    for file, content in data.items():
        for index, line in enumerate(content):
            words = tokenize(line)
            # update, 'NÜ PERİDE' --> ['NÜ', 'PERİDE']
            content[index] = words

In [33]:
tokenizer(data)

In [34]:
data

{'00001131_pp.txt': [['NÜ', 'PERİDE'],
  ['Hakan', 'Akdoğan'],
  ['Roman'],
  ['7'],
  ['Koca',
   'duvar',
   'taşıyordun',
   'yüreğinde',
   'kimsenin',
   'aşamayacağı',
   'aşmaya',
   'cesaret',
   'edemeyeceği',
   'Dışa',
   'karşı',
   'güçlüydü',
   'içe',
   'yüreğine',
   'yıkılmak',
   'üzereydi',
   'Anılarla',
   'örülmüş',
   'acılarla',
   'harçlanmış',
   'duvara',
   'tırmanmak',
   'aşabilmenin',
   'ilk',
   'şartıydı',
   'Vazgeçmek',
   'kolaydı',
   'ertelemek',
   'de',
   'Ama',
   'tırmanmaya',
   'başlandı',
   'bitirilmeli',
   'Çünkü',
   'seferinde',
   'acımasız',
   'geriye',
   'dönüş',
   'vardı',
   'Bıraktığın',
   'sefer',
   'başlangıca',
   'gebeydi',
   'Bir',
   'aşsaydım',
   'duvarı',
   'olacaktın',
   'kucaklayacaktın',
   'beni',
   'Kırgınlıkların',
   'korkuların',
   'eriyip',
   'gidecekti',
   'olacak',
   'geçecekti',
   'Ben',
   'kıvranacaktım',
   'acı',
   'çekip',
   'işkencelere',
   'gönüllü',
   'katlanacaktım',
   'yerine',


In [35]:
def analyzer(word):
    command = "bazel run -c opt scripts:print_analyses -- --word=%s" %(word)
    directory = "/home/gorgo/Tools/turkish-morphology-master/"
    analysis = subprocess.run(command.split(), capture_output=True, cwd=directory).stdout.decode().split('\n')[1:3]
    return analysis

def analyze(data):
    # traverse data
    for file, content in data.items():
        for line in content:
            for index, word in enumerate(line):
                print("SURFACE_FORM: %s" %(word))
                analyses = analyzer(word)
                if not analyses:
                    analyses = "%s[NON_WORD]" %(word) # '$imdi' --> '' --> '$imdi[NON_WORD]'
                print("ANALYSIS_1: %s" %(analyses[0]))
                print("ANALYSIS_2: %s\n" %(analyses[1]))
                # update
                line[index] = analyses

In [36]:
analyze(data)

SURFACE_FORM: NÜ
ANALYSIS_1: (nü[JJ])+[Proper=False]
ANALYSIS_2: (nü[JJ])+[Proper=True]

SURFACE_FORM: PERİDE
ANALYSIS_1: (Peri[NNP]+[PersonNumber=A3sg]+[Possessive=Pnon]+DA[Case=Loc])+[Proper=True]
ANALYSIS_2: (Peride[NNP]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare])+[Proper=True]

SURFACE_FORM: Hakan
ANALYSIS_1: (Hakan[NNP]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare])+[Proper=True]
ANALYSIS_2: (Hakan[NNP]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Nom])+[Proper=True]

SURFACE_FORM: Akdoğan
ANALYSIS_1: (Akdoğan[NNP]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare])+[Proper=True]
ANALYSIS_2: (Akdoğan[NNP]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Nom])+[Proper=True]

SURFACE_FORM: Roman
ANALYSIS_1: (Roma[NNP]+[PersonNumber=A3sg]+Hn[Possessive=P2sg]+[Case=Bare])+[Proper=True]
ANALYSIS_2: (Roma[NNP]+[PersonNumber=A3sg]+Hn[Possessive=P2sg]+[Case=Nom])+[Proper=True]

SURFACE_FORM: 7
ANALYSIS_1: (7[CD])+[Proper=False]
ANALYSIS_2: (7[CD])+[Proper=True]

SURFACE_FORM: Koca
ANA

ANALYSIS_1: (ilk[JJ])+[Proper=False]
ANALYSIS_2: (ilk[JJ])+[Proper=True]

SURFACE_FORM: şartıydı
ANALYSIS_1: (şart[NOMP]+[PersonNumber=A3sg]+SH[Possessive=P3sg]+[Case=Bare]+YDH[Copula=PastCop]+[PersonNumber=V3pl])+[Proper=False]
ANALYSIS_2: (şart[NOMP]+[PersonNumber=A3sg]+SH[Possessive=P3sg]+[Case=Bare]+YDH[Copula=PastCop]+[PersonNumber=V3pl])+[Proper=True]

SURFACE_FORM: Vazgeçmek
ANALYSIS_1: (vazgeç[VB]+[Polarity=Pos])([NOMP]-mAk[Derivation=Inf]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare]+[Copula=PresCop]+[PersonNumber=V3pl])+[Proper=False]
ANALYSIS_2: (vazgeç[VB]+[Polarity=Pos])([NOMP]-mAk[Derivation=Inf]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare]+[Copula=PresCop]+[PersonNumber=V3pl])+[Proper=True]

SURFACE_FORM: kolaydı
ANALYSIS_1: (kol[NOMP]+[PersonNumber=A3sg]+[Possessive=Pnon]+YA[Case=Dat]+YDH[Copula=PastCop]+[PersonNumber=V3pl])+[Proper=False]
ANALYSIS_2: (kol[NOMP]+[PersonNumber=A3sg]+[Possessive=Pnon]+YA[Case=Dat]+YDH[Copula=PastCop]+[PersonNumber=V3pl])+[Proper=

ANALYSIS_1: (eri[VB]+[Polarity=Pos])([CRB]-YHp[Derivation=After])+[Proper=False]
ANALYSIS_2: (eri[VB]+[Polarity=Pos])([CRB]-YHp[Derivation=After])+[Proper=True]

SURFACE_FORM: gidecekti
ANALYSIS_1: (git[VB]+[Polarity=Pos])([NOMP]-YAcAk[Derivation=FutNom]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare]+YDH[Copula=PastCop]+[PersonNumber=V3pl])+[Proper=False]
ANALYSIS_2: (git[VB]+[Polarity=Pos])([NOMP]-YAcAk[Derivation=FutNom]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare]+YDH[Copula=PastCop]+[PersonNumber=V3pl])+[Proper=True]

SURFACE_FORM: olacak
ANALYSIS_1: (ol[VB]+[Polarity=Pos])([NOMP]-YAcAk[Derivation=FutNom]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare]+[Copula=PresCop]+[PersonNumber=V3pl])+[Proper=False]
ANALYSIS_2: (ol[VB]+[Polarity=Pos])([NOMP]-YAcAk[Derivation=FutNom]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare]+[Copula=PresCop]+[PersonNumber=V3pl])+[Proper=True]

SURFACE_FORM: geçecekti
ANALYSIS_1: (geç[VB]+[Polarity=Pos])([NOMP]-YAcAk[Derivation=FutNom]+[PersonN

https://github.com/google-research/turkish-morphology

In [42]:
def merge(data):
    for file, content in data.items():
        for index, line in enumerate(content):
            data_point = ''
            for analyses in line:
                stream = '/'.join(analysis for analysis in analyses)
                data_point += stream + ' '
            data_point = data_point.strip()
            # update
            content[index] = data_point

In [43]:
merge(data)

In [45]:
content = data['00001131_pp.txt']
content[0]

'(nü[JJ])+[Proper=False]/(nü[JJ])+[Proper=True] (Peri[NNP]+[PersonNumber=A3sg]+[Possessive=Pnon]+DA[Case=Loc])+[Proper=True]/(Peride[NNP]+[PersonNumber=A3sg]+[Possessive=Pnon]+[Case=Bare])+[Proper=True]'

In [46]:
def export(data):
    for file_name, content in data.items():
        name, ext = file_name.split('.')
    output_file = open(output_path+name+'_ma.'+ext, 'w')
    for line in content:
        output_file.write(line+'\n')
    output_file.close()

In [47]:
export(data)