# Realation Extraction (RE) with Watson API

- **relations**การสกัดความสัมพันธ์ (Relation Extraction: RE) เป็นปัญหาที่ซับซ้อน - **relations**และการพัฒนาระบบสกัดความสัมพันธ์ขึ้นมาเองจากศูนย์นั้นถือเป็นงานที่ท้าทายและต้องใช้เวลามาก อย่างไรก็ตาม วิธีแก้ปัญหาที่นิยมใช้ในอุตสาหกรรม NLP - **relations**คือการพึ่งพาบริการ Natural Language Understanding (NLU) ที่จัดเตรียมโดย IBM Watson บริการนี้ช่วยให้นักพัฒนาสามารถสกัดความสัมพันธ์ระหว่างเอนทิตีต่างๆ - **relations**ในข้อความได้โดยไม่ต้องพัฒนาระบบใหม่ตั้งแต่ต้น

- **features=Features()**
- **relations**: `RelationsOptions()` - วิเคราะห์ความสัมพันธ์ (relations) ระหว่างส่วนต่าง ๆ ในข้อความ
- **sentiment**: `SentimentOptions()` - วิเคราะห์ความรู้สึก (sentiment) ว่าเป็นบวกหรือลบ
- **entities**: `EntitiesOptions()` - ตรวจจับเอนทิตี (entities) เช่น ชื่อคน สถานที่ หรือองค์กร
- **keywords**: `KeywordsOptions()` - ดึงคำหลัก (keywords) ที่สำคัญในข้อความ
- **emotion**: `EmotionOptions()` - วิเคราะห์อารมณ์ (emotion) ในข้อความ เช่น ความสุข ความเศร้า ความโกรธ
- **concepts**: `ConceptsOptions()` - ตรวจจับแนวคิด (concepts) หรือหัวข้อสำคัญในข้อความ
- **categories**: `CategoriesOptions()` - จัดหมวดหมู่ข้อความให้อยู่ในหมวดหมู่เนื้อหาเฉพาะ



โค้ดนี้เป็นตัวอย่างการใช้ IBM Watson Natural Language Understanding (NLU) เพื่อตรวจสอบความสัมพันธ์ (relations) ในข้อความ โดยใช้ API ของ IBM Watson


## Example 1

In [3]:
# # New version

# import json
# from ibm_watson import NaturalLanguageUnderstandingV1
# from ibm_cloud_sdk_core.authenticators import IAMAuthenticator
# from ibm_watson.natural_language_understanding_v1 import Features, RelationsOptions

# # Replace 'XXXXX' with your actual API key
# authenticator = IAMAuthenticator('XXXXX')
# natural_language_understanding = NaturalLanguageUnderstandingV1(
#     version='2021-08-01',
#     authenticator=authenticator
# )

# # Set the service URL (replace with your service URL)
# natural_language_understanding.set_service_url('https://gateway-wdc.watsonplatform.net/natural-language-understanding/api')

# # Analyze the text
# response = natural_language_understanding.analyze(
#     text='Leonardo DiCaprio won Best Actor in a Leading Role for his performance.',
#     features=Features(relations=RelationsOptions())
# ).get_result()

# # Print the result
# print(json.dumps(response, indent=2))


In [None]:
# Old version

import json # ใช้ในการจัดรูปแบบข้อมูลที่ได้รับจาก IBM Watson เป็น JSON
from watson_developer_cloud import NaturalLanguageUnderstandingV1 # Import Function
from watson_developer_cloud.natural_language_understanding_v1 import Features, RelationsOptions # Import Feature in NLU

# สร้าง Object ของ Watson NLU:
natural_language_understanding = NaturalLanguageUnderstandingV1(
    version='2018-11-16', # กำหนดเวอร์ชัน '2018-11-16'
    # สามารถดู version ได้จาก 
    #   https://cloud.ibm.com/docs/natural-language-understanding?topic=natural-language-understanding-release-notes
    #   https://cloud.ibm.com/docs/natural-language-understanding?topic=natural-language-understanding-entity-type-systems
    iam_apikey='XXXXX', # คีย์ API ที่ใช้เพื่อยืนยันตัวตน (Authentication) 
    url='https://gateway-wdc.watsonplatform.net/natural-language-understanding/api'
    # URL นี้คืออะไร: เป็น URL ที่ใช้เชื่อมต่อกับ IBM Watson Natural Language Understanding (NLU) API 
    # สำหรับการส่งคำขอและรับผลลัพธ์จากบริการวิเคราะห์ภาษาธรรมชาติ
)

# วิเคราะห์ ความสัมพันธ์(relations) ในข้อความที่ให้ไว้ และรับผลลัพธ์ที่ได้จาก API มาใช้งาน
response = natural_language_understanding.analyze(
    text='Leonardo DiCaprio won Best Actor in a Leading Role for his performance.',
    features=Features(relations=RelationsOptions()) # API วิเคราะห์ โดยในกรณีนี้คือฟีเจอร์ relations ซึ่งใช้ในการวิเคราะห์ความสัมพันธ์ (relations) ระหว่างสิ่งต่าง ๆ ในข้อความ
    ,language="en"  # ระบุภาษา
    ).get_result()

print(json.dumps(response, indent=2)) # Dump string สร้าง string จากข้อมูล python

  


{
  "usage": {
    "text_units": 1,
    "text_characters": 71,
    "features": 1
  },
  "relations": [
    {
      "type": "awardedTo",
      "sentence": "Leonardo DiCaprio won Best Actor in a Leading Role for his performance.",
      "score": 0.680715,
      "arguments": [
        {
          "text": "Best Actor",
          "location": [
            22,
            32
          ],
          "entities": [
            {
              "type": "EntertainmentAward",
              "text": "Best Actor"
            }
          ]
        },
        {
          "text": "Leonardo DiCaprio",
          "location": [
            0,
            17
          ],
          "entities": [
            {
              "type": "Person",
              "text": "Leonardo DiCaprio"
            }
          ]
        }
      ]
    }
  ],
  "language": "en"
}


In [None]:
{
  "usage": { # บอกสถิติการใช้งานของการวิเคราะห์
    "text_units": 1, # จำนวนหน่วยของข้อความที่ถูกวิเคราะห์ (1 หน่วย)
    "text_characters": 71, # จำนวนตัวอักษรในข้อความที่ถูกวิเคราะห์ (71 ตัวอักษร)
    "features": 1 # จำนวนฟีเจอร์ที่ถูกวิเคราะห์ (ในกรณีนี้มี 1 ฟีเจอร์ คือ relations)
  },
  "relations": [
    {
      "type": "awardedTo", # ความสัมพันธ์ที่เกี่ยวข้องกับการให้รางวัล
      "sentence": "Leonardo DiCaprio won Best Actor in a Leading Role for his performance.",
      "score": 0.680715, # ความมั่นใจในการวิเคราะห์ความสัมพันธ์นี้ ยิ่งคะแนนเข้าใกล้ 1 
      # ==========================================
      "arguments": [
        # -------------------------------
        {
          "text": "Best Actor",
          "location": [ # ตำแหน่ง index ของ text ที่ 22 ถึง 32
            22,
            32
          ],
          "entities": [ # จัดประเภท
            {
              "type": "EntertainmentAward", # ประเภท "รางวัลบันเทิง"
              "text": "Best Actor"
            }
          ]
        },
        # -------------------------------
        {
          "text": "Leonardo DiCaprio",
          "location": [
            0,
            17
          ],
          "entities": [
            {
              "type": "Person", # ประเภท "บุคคล"
              "text": "Leonardo DiCaprio"
            }
          ]
        }
        # -------------------------------
      ]
      # ==========================================
    }
  ],
  "language": "en"
}

# Entity

- **Entity types**:
  - **Date**
  - **Duration**
  - **EmailAddress**
  - **Facility**
  - **GeographicFeature**
  - **Hashtag**
  - **IPAddress**
  - **JobTitle**
  - **Location**
  - **Measure**
  - **Money**
  - **Number**
  - **Ordinal**
  - **Organization**
  - **Percent**
  - **Person**
  - **PhoneNumber**
  - **Time**
  - **TwitterHandle**
  - **URL**

- **Entity subtypes**:
  - **AbusedSubstance**
  - **Academic**
  - **AcademicInstitution**
  - **AcademicPostTitle**
  - **AccidentType**
  - **Accommodation**
  - **Actor**
  - **AdministrativeDivision**
  - **AircraftDesigner**
  - **AircraftManufacturer**
  - **...**
  - **...**


- **https://cloud.ibm.com/docs/natural-language-understanding?topic=natural-language-understanding-entity-types-version-2**

## Example 2

In [None]:
mytext = "Satya Narayana Nadella currently serves as the Chief Executive Officer (CEO) of Microsoft."

response = natural_language_understanding.analyze(
    text=mytext,
    features=Features(relations=RelationsOptions())).get_result()

#print(json.dumps(response, indent=2))
result = json.dumps(response)


In [None]:
result

'{"usage": {"text_units": 1, "text_characters": 90, "features": 1}, "relations": [{"type": "employedBy", "sentence": "Satya Narayana Nadella currently serves as the Chief Executive Officer (CEO) of Microsoft.", "score": 0.48706, "arguments": [{"text": "CEO", "location": [72, 75], "entities": [{"type": "Person", "text": "Satya Narayana Nadella"}]}, {"text": "Microsoft", "location": [80, 89], "entities": [{"type": "Organization", "text": "Microsoft", "disambiguation": {"subtype": ["Commercial"]}}]}]}], "language": "en"}'

In [None]:
{
  "usage": {
    "text_units": 1,
    "text_characters": 90,
    "features": 1
  },
  "relations": [
    # ================================
    {
      "type": "employedBy",
      "sentence": "Satya Narayana Nadella currently serves as the Chief Executive Officer (CEO) of Microsoft.",
      "score": 0.48706,
      "arguments": [
        # ---------------------
        {
          "text": "CEO",
          "location": [
            72,
            75
          ],
          "entities": [
            {
              "type": "Person",
              "text": "Satya Narayana Nadella"
            }
          ]
        },
        # ---------------------
        {
          "text": "Microsoft",
          "location": [
            80,
            89
          ],
          "entities": [
            {
              "type": "Organization",
              "text": "Microsoft",
              "disambiguation": { # แก้ความกำกวม (บอกรายละเอียดเพิ่มเติม)
                "subtype": [
                  "Commercial"
                ]
              }
            }
          ]
        }
        # ---------------------
      ]
    }
    # --------------------------------
  ],
  "language": "en"
}


In [None]:
for item in response['relations']:
        print(item['type'])
        for subitem in item['arguments']:
            print(subitem['entities'])
print()

employedBy
[{'type': 'Person', 'text': 'Satya Narayana Nadella'}]
[{'type': 'Organization', 'text': 'Microsoft', 'disambiguation': {'subtype': ['Commercial']}}]



## Example 3

In [None]:
mytext2 = "Nadella was born in Hyderabad. His father, Bukkapuram Nadella Yugandher,\
      was a civil servant who worked for the Indian Administrative Service of the Government of India. His mother was a Sanskrit scholar. "
response = natural_language_understanding.analyze(
    text=mytext2,
    features=Features(relations=RelationsOptions())).get_result()

for item in response['relations']:
        print(item['type'])
        for subitem in item['arguments']:
            print(subitem['entities'])
print()

bornAt
[{'type': 'Person', 'text': 'Nadella'}]
[{'type': 'GeopoliticalEntity', 'text': 'Hyderabad'}]
parentOf
[{'type': 'Person', 'text': 'Bukkapuram Nadella Yugandher'}]
[{'type': 'Person', 'text': 'Nadella'}]
employedBy
[{'type': 'Person', 'text': 'Administrative'}]
[{'type': 'GeopoliticalEntity', 'text': 'Indian', 'disambiguation': {'subtype': ['Country']}}]
managerOf
[{'type': 'Person', 'text': 'Administrative'}]
[{'type': 'Organization', 'text': 'Service', 'disambiguation': {'subtype': ['Government']}}]
parentOf
[{'type': 'Person', 'text': 'scholar'}]
[{'type': 'Person', 'text': 'Nadella'}]
locatedAt
[{'type': 'Person', 'text': 'scholar'}]
[{'type': 'Facility', 'text': 'Sanskrit'}]
locatedAt
[{'type': 'Person', 'text': 'scholar'}]
[{'type': 'Facility', 'text': 'Sanskrit'}]



## Example 4

In [None]:
mytext = "Amazon releases new product."

response = natural_language_understanding.analyze(
    text=mytext,
    features=Features(relations=RelationsOptions())).get_result()

print(json.dumps(response, indent=2))


In [None]:
{
  "usage": {
    "text_units": 1,
    "text_characters": 13,
    "features": 1
  },
  "entities": [
    {
      "type": "Organization",
      "text": "Amazon",
      "disambiguation": 
        "subtype": ["Commercial", "E-commerce"]
      },
      "score": 0.95
    }
  ],
  "language": "en"
}



In [None]:
mytext = "Amazon one of the most dangerous places"

response = natural_language_understanding.analyze(
    text=mytext,
    features=Features(relations=RelationsOptions())).get_result()

print(json.dumps(response, indent=2))


In [None]:

{
  "usage": {
    "text_units": 1,
    "text_characters": 13,
    "features": 1
  },
  "entities": [
    {
      "type": "Location",
      "text": "Amazon",
      "disambiguation": {
        "subtype": ["GeographicFeature", "River"]
      },
      "score": 0.85  # คะแนนความมั่นใจ
    }
  ],
  "language": "en"
}


## Example 5

In [None]:
mytext3 = """Nadella attended the Hyderabad Public School, Begumpet [12] before receiving
a bachelor's in electrical engineering[13] from the Manipal Institute of Technology 
(then part of Mangalore University) in Karnataka in 1988."""
response = natural_language_understanding.analyze(
    text=mytext3,
    features=Features(relations=RelationsOptions())).get_result()
for item in response['relations']:
        print(item['type'])
        for subitem in item['arguments']:
            print(subitem['entities'])

employedBy
[{'type': 'Person', 'text': 'Nadella'}]
[{'type': 'Organization', 'text': 'Hyderabad Public School', 'disambiguation': {'subtype': ['Commercial']}}]
awardedTo
[{'type': 'Degree', 'text': 'bachelor'}]
[{'type': 'Person', 'text': 'Nadella'}]
educatedAt
[{'type': 'Person', 'text': 'Nadella'}]
[{'type': 'Organization', 'text': 'Manipal Institute of Technology', 'disambiguation': {'subtype': ['Educational']}}]
educatedAt
[{'type': 'Person', 'text': 'Nadella'}]
[{'type': 'Organization', 'text': 'Mangalore University', 'disambiguation': {'subtype': ['Educational']}}]
awardedBy
[{'type': 'Degree', 'text': 'bachelor'}]
[{'type': 'Organization', 'text': 'Manipal Institute of Technology', 'disambiguation': {'subtype': ['Educational']}}]
basedIn
[{'type': 'Organization', 'text': 'Mangalore University', 'disambiguation': {'subtype': ['Educational']}}]
[{'type': 'GeopoliticalEntity', 'text': 'Karnataka'}]


## Note

- **การสกัดความสัมพันธ์ (Relation Extraction: RE)** แสดงความสัมพันธ์ระหว่างเอนทิตีต่างๆ
- สามารถใช้ข้อมูลจาก RE ในการสร้าง **ฐานความรู้ (Knowledge Base)** สำหรับองค์กร
  - **Watson Knowledge Studio (WKS) สร้าง Custom Model เพื่อนำ Deploy บน Watson NLU**
- **การสกัดความสัมพันธ์ยังไม่สมบูรณ์**: ยังเป็นปัญหาที่ต้องการการปรับปรุงเพิ่มเติม
- **ประสิทธิภาพขึ้นอยู่กับโดเมน**:
  - วิธีการที่ใช้กับ **Wikipedia** อาจทำงานได้ดี
  - แต่ไม่แน่ว่าจะเหมาะกับ **บทความข่าวทั่วไป** หรือ **ข้อความจากโซเชียลมีเดีย**

