In [None]:
!pip install stanza



In [None]:
import stanza

In [None]:
print("Downloading Korean model...")
stanza.download('ko', package = "gsd")

Downloading Korean model...


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.3.0.json:   0%|   …

2022-04-15 00:41:34 INFO: Downloading these customized packages for language: ko (Korean)...
| Processor | Package |
-----------------------
| tokenize  | gsd     |
| pos       | gsd     |
| lemma     | gsd     |
| depparse  | gsd     |
| pretrain  | gsd     |

2022-04-15 00:41:34 INFO: File exists: /root/stanza_resources/ko/tokenize/gsd.pt.
2022-04-15 00:41:34 INFO: File exists: /root/stanza_resources/ko/pos/gsd.pt.
2022-04-15 00:41:34 INFO: File exists: /root/stanza_resources/ko/lemma/gsd.pt.
2022-04-15 00:41:35 INFO: File exists: /root/stanza_resources/ko/depparse/gsd.pt.
2022-04-15 00:41:35 INFO: File exists: /root/stanza_resources/ko/pretrain/gsd.pt.
2022-04-15 00:41:35 INFO: Finished downloading models and saved to /root/stanza_resources.


In [None]:
print("Building an Korean pipeline...")
ko_nlp = stanza.Pipeline('ko',  package = "gsd")

2022-04-15 00:41:35 INFO: Loading these models for language: ko (Korean):
| Processor | Package |
-----------------------
| tokenize  | gsd     |
| pos       | gsd     |
| lemma     | gsd     |
| depparse  | gsd     |

2022-04-15 00:41:35 INFO: Use device: gpu
2022-04-15 00:41:35 INFO: Loading: tokenize
2022-04-15 00:41:35 INFO: Loading: pos


Building an Korean pipeline...


2022-04-15 00:41:35 INFO: Loading: lemma
2022-04-15 00:41:35 INFO: Loading: depparse
2022-04-15 00:41:36 INFO: Done loading processors!


In [None]:
ko_doc = ko_nlp("제가 몇 시인지 기억 안나는데 밤은 아니고 해가 있던 시간이었거든요. 제가 집에 있었는데, 제 방에 이렇게 있었는데 누워 있었어요. 아빠가 들어왔어요. 야구가 끝나고 들어온 것 같은데 아빠가 제 방에 들어오더라고요.")
print(ko_doc)


[
  [
    {
      "id": 1,
      "text": "제가",
      "lemma": "제+가",
      "upos": "PRON",
      "xpos": "NNG+JKS",
      "head": 5,
      "deprel": "nsubj",
      "start_char": 0,
      "end_char": 2
    },
    {
      "id": 2,
      "text": "몇",
      "lemma": "몇",
      "upos": "DET",
      "xpos": "MM",
      "head": 3,
      "deprel": "det",
      "start_char": 3,
      "end_char": 4
    },
    {
      "id": 3,
      "text": "시인지",
      "lemma": "시인지",
      "upos": "NOUN",
      "xpos": "NNB",
      "head": 5,
      "deprel": "nsubj",
      "start_char": 5,
      "end_char": 8
    },
    {
      "id": 4,
      "text": "기억",
      "lemma": "기억",
      "upos": "NOUN",
      "xpos": "NNG",
      "head": 3,
      "deprel": "flat",
      "start_char": 9,
      "end_char": 11
    },
    {
      "id": 5,
      "text": "안나는데",
      "lemma": "안+나+는데",
      "upos": "VERB",
      "xpos": "VV+EC",
      "head": 10,
      "deprel": "advcl",
      "start_char": 12,
      "end_char": 16
    

In [None]:
for i, sent in enumerate(ko_doc.sentences):
    print("[Sentence {}]".format(i+1))
    for word in sent.words:
        print("{:12s}\t{:12s}\t{:6s}\t{:6s}\t{:d}\t{:12s}".format(\
              word.text, word.lemma, word.pos, word.xpos, word.head, word.deprel))
    print("")

[Sentence 1]
제가          	제+가         	PRON  	NNG+JKS	5	nsubj       
몇           	몇           	DET   	MM    	3	det         
시인지         	시인지         	NOUN  	NNB   	5	nsubj       
기억          	기억          	NOUN  	NNG   	3	flat        
안나는데        	안+나+는데      	VERB  	VV+EC 	10	advcl       
밤은          	밤+은         	NOUN  	NNG+JX	7	nsubj       
아니고         	아니+고        	VERB  	VCN+EC	0	root        
해가          	해+가         	NOUN  	NNG+JKS	9	nsubj       
있던          	있+던         	VERB  	VV+ETM	7	conj        
시간이었거든요     	시간+이+었+거든요  	VERB  	NNG+VCP+EP+EF	7	conj        
.           	.           	PUNCT 	SF    	10	punct       

[Sentence 2]
제가          	제+가         	PRON  	NNG+JKS	3	nsubj       
집에          	집+에         	ADV   	NNG+JKB	3	obl         
있었는데        	있+었+는데      	VERB  	VV+EP+EC	9	advcl       
,           	,           	PUNCT 	SP    	3	punct       
제           	저+의         	PRON  	NP+JKG	6	det:poss    
방에          	방+에         	ADV   	NNG+JKB	8	obl         
이렇게         	이렇+게     

In [None]:
subject_dict = ["제+가", "저+", "아빠+가", "아버지+가", "아저씨+가", "나+는", "내+가"]


for i, sent in enumerate(ko_doc.sentences):
    j = i
    print("[Sentence {}]".format(i+1))
    triple_dict = {'주어': 'x', '목적어': 'x', '서술어':'x'}
    for word in sent.words:
       if(word.deprel == "nsubj" or word.deprel == "csubj"):
         if(word.xpos == "NP+JKS"):
          print("{}번째 목적어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
          continue
         if(word.xpos == "NNB"):
          print("{}번째 의존명사 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
          continue
         if(word.xpos == "NNB+JKC"):
          print("{}번째 의존명사 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
          continue
         if(word.lemma in subject_dict):
          print("{}번째 주요 주어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
          triple_dict['주어'] = word.text
          continue
         print("{}번째 주어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
       elif(word.deprel == "det"):
         print("{}번째 관형사 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
       elif(word.deprel == "dep"):
         if(word.pos == "VERB"):
           print("{}번째 서술어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
           triple_dict['서술어'] = word.text
           if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
            print(triple_dict)
           continue
         print("{}번째 목적어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
         triple_dict['목적어'] = word.text
       elif(word.deprel == "acl:relcl"):
         print("{}번째 목적어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
         triple_dict['목적어'] = word.text
       elif(word.deprel == "flat"):
         if(word.pos == "VERB"):
            print("{}번째 서술어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
            triple_dict['서술어'] += word.text
            j = j + 1
            if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
             print(triple_dict)
            continue
         print("{}번째 목적어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
         triple_dict['목적어'] = word.text
       elif(word.deprel == "obj" or word.deprel == "iobj"):
         print("{}번째 목적어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
         triple_dict['목적어'] = word.text
       elif(word.deprel == "ccomp"):
         print("{}번째 서술어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
         triple_dict['서술어'] = word.text
         if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
           print(triple_dict)
       elif(word.deprel == "obl"):
        #  if(word.xpos =="NNG+JKB"):
        #    continue
         print("{}번째 관형어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
       elif(word.deprel == "conj"):
         print("{}번째 서술어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
         triple_dict['서술어'] = word.text
         j = j + 1
         if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
           print(triple_dict)
       elif(word.deprel == "advcl"):
         if("VCN" in word.xpos):
           print("{}번째 부정지정사 + 서술어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
           triple_dict['목적어'] = 'x'
           j += 1
           continue
         print("{}번째 부사절 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
         j = j + 1 
       elif(word.deprel == "root"):
         if(word.pos == "NOUN"):
          print("{}번째 목적어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
          continue
         if("VCN" in word.xpos):
           print("{}번째 부정지정사 + 서술어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
           triple_dict['목적어'] = 'x'
           continue
         print("{}번째 서술어 : {:15s}\t{:15s}".format(j+1,word.text, word.deprel))
         triple_dict['서술어'] = word.text
         if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
           print(triple_dict)
         j = j + 1
        
    print("")
    print(triple_dict)
    print("")

[Sentence 1]
1번째 주요 주어 : 제가             	nsubj          
1번째 관형사 : 몇              	det            
1번째 의존명사 : 시인지            	nsubj          
1번째 목적어 : 기억             	flat           
1번째 부사절 : 안나는데           	advcl          
2번째 주어 : 밤은             	nsubj          
2번째 부정지정사 + 서술어 : 아니고            	root           
2번째 주어 : 해가             	nsubj          
2번째 서술어 : 있던             	conj           
3번째 서술어 : 시간이었거든요        	conj           

{'주어': '제가', '목적어': 'x', '서술어': '시간이었거든요'}

[Sentence 2]
2번째 목적어 : 제가             	nsubj          
2번째 관형어 : 집에             	obl            
2번째 부사절 : 있었는데           	advcl          
3번째 관형어 : 방에             	obl            
3번째 부사절 : 있었는데           	advcl          
4번째 서술어 : 누워             	root           
5번째 서술어 : 있었어요           	flat           

{'주어': 'x', '목적어': 'x', '서술어': '누워있었어요'}

[Sentence 3]
3번째 주요 주어 : 아빠가            	nsubj          
3번째 서술어 : 들어왔어요          	root           

{'주어': '아빠가', '목적어': 'x', '서술어': '들어왔어요'}

[Sentence 4]
4번째 주어 

In [None]:
subject_dict = ["제+가", "저+", "아빠+가", "아버지+가", "아저씨+가", "나+는", "내+가","저+는"]
triple_dicts=[]
new_dicts=[]

for i, sent in enumerate(ko_doc.sentences):
    j = i
    print("[Sentence {}]".format(i+1))
    triple_dict = {'주어': 'X', '목적어': 'X', '서술어':'X'}
    for word in sent.words:
       if(word.deprel == "nsubj" or word.deprel == "csubj"):
         if(word.xpos == "NP+JKS"):
          print("{}번째 목적어 : {:15s}".format(j+1,word.text))
          continue
         if(word.xpos == "NNB"):
          print("{}번째 의존명사 : {:15s}".format(j+1,word.text))
          continue
         if(word.xpos == "NNB+JKC"):
          print("{}번째 의존명사 : {:15s}".format(j+1,word.text))
          continue
         if(word.lemma in subject_dict):
          print("{}번째 주요 주어 : {:15s}".format(j+1,word.text))
          triple_dict['주어'] = word.text
          continue
         print("{}번째 주어 : {:15s}".format(j+1,word.text))
       elif(word.deprel == "det"):
         print("{}번째 관형사 : {:15s}".format(j+1,word.text))
       elif(word.deprel == "dep"):
         if(word.pos == "VERB"):
           print("{}번째 서술어 : {:15s}".format(j+1,word.text))
           triple_dict['서술어'] = word.text
           if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
            triple_dicts.append(triple_dict.copy())
           continue
         print("{}번째 목적어 : {:15s}".format(j+1,word.text))
         triple_dict['목적어'] = word.text
       elif(word.deprel == "acl:relcl"):
         print("{}번째 목적어 : {:15s}".format(j+1,word.text))
         triple_dict['목적어'] = word.text
       elif(word.deprel == "flat"):
         if(word.pos == "VERB"):
            print("{}번째 서술어 : {:15s}".format(j+1,word.text))
            triple_dict['서술어'] = word.text
            if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
              triple_dicts.append(triple_dict.copy())
            j = j + 1
            continue
         print("{}번째 목적어 : {:15s}".format(j+1,word.text))
         triple_dict['목적어'] = word.text
       elif(word.deprel == "obj" or word.deprel == "iobj"):
         print("{}번째 목적어 : {:15s}".format(j+1,word.text))
         triple_dict['목적어'] = word.text
       elif(word.deprel == "ccomp"):
         print("{}번째 서술어 : {:15s}".format(j+1,word.text))
         triple_dict['서술어'] = word.text
         if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
            triple_dicts.append(triple_dict.copy())
       elif(word.deprel == "obl"):
        #  if(word.xpos =="NNG+JKB"):
        #    continue
         print("{}번째 관형어 : {:15s}".format(j+1,word.text))
       elif(word.deprel == "conj"):
         print("{}번째 서술어 : {:15s}".format(j+1,word.text))
         triple_dict['서술어'] = word.text
         if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
            triple_dicts.append(triple_dict.copy())
         j = j + 1        
       elif(word.deprel == "advcl"):
         if("VCN" in word.xpos):
           print("{}번째 부정지정사 + 서술어 : {:15s}".format(j+1,word.text))
           triple_dict['목적어'] = 'X'
           j += 1
           continue
         print("{}번째 부사절 : {:15s}".format(j+1,word.text))
         j = j + 1 
       elif(word.deprel == "root"):
         if(word.pos == "NOUN"):
          print("{}번째 목적어 : {:15s}".format(j+1,word.text))
          continue
         if("VCN" in word.xpos):
           print("{}번째 부정지정사 + 서술어 : {:15s}".format(j+1,word.text))
           triple_dict['목적어'] = 'X'
           continue
         print("{}번째 서술어 : {:15s}".format(j+1,word.text))
         triple_dict['서술어'] = word.text
         if(triple_dict['주어'] != 'x' and triple_dict['목적어'] != 'x' and triple_dict['서술어'] != 'x'):
            triple_dicts.append(triple_dict.copy())
         j = j + 1
        
    print("")
    try:
      for i in range(len(triple_dicts)-1):
        if triple_dicts[i]['주어']==triple_dicts[i+1]['주어'] and triple_dicts[i]['목적어']==triple_dicts[i+1]['목적어']:
          a=triple_dicts[i]['서술어']
          b=triple_dicts[i+1]['서술어']
          triple_dicts[i]['서술어']=a+" "+b
          del triple_dicts[i+1]
    except:
      pass

    for v in triple_dicts:
      if v not in new_dicts:
        new_dicts.append(v)

    for i in new_dicts:
      print(i)
    triple_dicts.clear()
    new_dicts.clear()
    print("")

[Sentence 1]
1번째 주요 주어 : 제가             
1번째 관형사 : 몇              
1번째 의존명사 : 시인지            
1번째 목적어 : 기억             
1번째 부사절 : 안나는데           
2번째 주어 : 밤은             
2번째 부정지정사 + 서술어 : 아니고            
2번째 주어 : 해가             
2번째 서술어 : 있던             
3번째 서술어 : 시간이었거든요        

{'주어': '제가', '목적어': 'X', '서술어': '있던 시간이었거든요'}

[Sentence 2]
2번째 주요 주어 : 제가             
2번째 관형어 : 집에             
2번째 부사절 : 있었는데           
3번째 관형어 : 방에             
3번째 부사절 : 있었는데           
4번째 서술어 : 누워             
5번째 서술어 : 있었어요           

{'주어': '제가', '목적어': 'X', '서술어': '누워 있었어요'}

[Sentence 3]
3번째 주요 주어 : 아빠가            
3번째 서술어 : 들어왔어요          

{'주어': '아빠가', '목적어': 'X', '서술어': '들어왔어요'}

[Sentence 4]
4번째 주어 : 야구가            
4번째 서술어 : 끝나고            
4번째 서술어 : 들어온            
5번째 의존명사 : 것              
5번째 부사절 : 같은데            
6번째 주요 주어 : 아빠가            
6번째 관형어 : 방에             
6번째 서술어 : 들어오더라고요        

{'주어': 'X', '목적어': 'X', '서술어': '끝나고 들어온'}
{'주어': '아빠가', '목적어': 'X', '서술어': '들어오더라고요'}

