# 10. Analyzing the Meaning of Sentences

### Previous....

Each phrase structure rule is supplemented with a recipe for constructing a value for the feature 'sem'.

predicates
- Angus walks -> walk(angus) : unary predicate
- Angus sees Bertie -> see(angus, bertie) : binary predicate

basic types
- e is the type of entities (= 명사?)
- t is the type of formulas (= 동사?)
- 〈e, t〉 is the type of expressions from entities to truth values, namely unary predicates. (= 절?)



## 4   The Semantics of English Sentences

### 4.1   Compositional Semantics in Feature-Based Grammar

이 장에서는 문장의 논리적 형태(logical form)을 구성한다. 이것을 하기위한 guiding idea는 **Principle of Compositionality**.

**Principle of Compositionality**: The meaning of a whole is a function of the meanings of the parts and of the way they are syntactically combined.

(전체의 의미는 각 구성요소들의 의미와 그것들이 통사론적으로 결합된 방식의 작용이다.)

우리의 목표는 파싱(parsing)과 의미론적 표현(semantic representation)을 부드럽게 결합시키는 것. 즉, 다음 그림과 같은 것을 구성하는 것이다. 

<img src = "images/goal.png">

- S[SEM=<?vp(?np)>] -> NP[SEM=?np] VP[SEM=?vp]
- VP[SEM=?v] -> IV[SEM=?v]
- NP[SEM=<cyril>] -> 'Cyril'
- IV[SEM=<\x.bark(x)>] -> 'barks'




### 4.2   The λ-Calculus

앞장에서 우리는 문서에서 우리가 원하는 단어를 선택할 때 단어의 특성 P의 집합으로 표현하는 것이 편리하다는 것을 보았다. 

"어휘(vocabulary) V의 요소이면서 P라는 특성(property)을 가진 요소 w의 집합"
- {w | w ∈ V & P(w)} : mathematical set notation
- λw. (V(w) ∧ P(w)) : **λ operator**

λ is a binding operator, just as the first-order logic quantifiers are.  


examples:

- 		 (walk(x) ∧ chew_gum(x)) : open formular

- 		 λx.(walk(x) ∧ chew_gum(x)) : binding the variable x with the λ operator

- 		 \x.(walk(x) & chew_gum(x)) : NLTK representation 


Remember that \ is a special character in Python strings. We could escape it (with another \), or else use "raw strings"

In [6]:
import nltk
expr = read_expr('\x.(walk(x) & chew_gum(x))')


SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-1: truncated \xXX escape (<ipython-input-6-3111eb3c386e>, line 2)

In [9]:
expr = read_expr(r'\x.(walk(x) & chew_gum(x))') # using raw strings: string 앞에 'r'을 붙임
expr

<LambdaExpression \x.(walk(x) & chew_gum(x))>

λ expression으로 결합된 결과는 **λ abstraction**이라 부른다. λ abstraction는 동사구(혹은 주어 없는 절)를 표현하기 좋은 방법이다. 동사구의 오른쪽에 붙여서 사용한다. 
- To walk and chew-gum is hard
- hard(\x.(walk(x) & chew_gum(x)))





- \x.(walk(x) & chew_gum(x)) (gerald)
- 	(walk(gerald) & chew_gum(gerald))
- (walk(x) & chew_gum(x))[gerald/x]

**β-reduction.** : α[β/x] notation for the operation of replacing all free occurrences of x in α by the expression β. 

In order to carry of β-reduction of expressions in NLTK, we can call the simplify() method

In [16]:
expr = read_expr(r'\x.(walk(x) & chew_gum(x))(gerald)')
print(expr)
print(expr.simplify())

\x.(walk(x) & chew_gum(x))(gerald)
(walk(gerald) & chew_gum(gerald))




λ abstract 두번 사용하기

In [17]:
print(read_expr(r'\x.\y.(dog(x) & own(y, x))(cyril)').simplify())
print(read_expr(r'\x y.(dog(x) & own(y, x))(cyril, angus)').simplify())

\y.(dog(cyril) & own(y,cyril))
(dog(cyril) & own(angus,cyril))


우리가 수식을 표현하는데 쓰는 변수명(x,y,z,...)들은 의미가 있을까? 그렇지 않다. 변수의 이름은 임의로 설정할 수 있다. 즉 exists x.P(x) 와 exists y.P(y)는 동등하다. 이를 **α equivalents**, 혹은 **alphabetic variants**라 한다. 그리고 이 변수명을 변경하는 것(relabling)은 **α-conversion** 이라 부른다.

In [18]:
expr1 = read_expr('exists x.P(x)')
print(expr1)
expr2 = expr1.alpha_convert(nltk.sem.Variable('z'))
print(expr2)
expr1 == expr2

exists x.P(x)
exists z.P(z)


True

NLTK에서 β-reduction 을 수행하면 이러한 relabling은 자동으로 수행된다

In [19]:
expr3 = read_expr('\P.(exists x.P(x))(\y.see(y, x))')
print(expr3)
print(expr3.simplify())

(\P.exists x.P(x))(\y.see(y,x))
exists z1.see(z1,x)


### 4.3   Quantified NPs

A dog barks.

exists x.(dog(x) & bark(x))

\P.exists x.(dog(x) & P(x))

\Q P.exists x.(Q(x) & P(x))



### 4.4   Transitive Verbs

Angus chases a dog.

\y.exists x.(dog(x) & chase(y, x))

\P.exists x.(dog(x) & P(x))(\z.chase(y, z))

X(\z.chase(y, z))

\X y.X(\x.chase(y, x))





In [20]:
read_expr = nltk.sem.Expression.fromstring
tvp = read_expr(r'\X x.X(\y.chase(x,y))')
np = read_expr(r'(\P.exists x.(dog(x) & P(x)))')
vp = nltk.sem.ApplicationExpression(tvp, np)
print(vp)
print(vp.simplify())

(\X x.X(\y.chase(x,y)))(\P.exists x.(dog(x) & P(x)))
\x.exists z2.(dog(z2) & chase(x,z2))


In [21]:
from nltk import load_parser
parser = load_parser('grammars/book_grammars/simple-sem.fcfg', trace=0)
sentence = 'Angus gives a bone to every dog'
tokens = sentence.split()
for tree in parser.parse(tokens):
    print(tree.label()['SEM'])

all z4.(dog(z4) -> exists z3.(bone(z3) & give(angus,z3,z4)))


In [22]:
sents = ['Irene walks', 'Cyril bites an ankle']
grammar_file = 'grammars/book_grammars/simple-sem.fcfg'

for results in nltk.interpret_sents(sents, grammar_file):
    for (synrep, semrep) in results:
        print(synrep)

(S[SEM=<walk(irene)>]
  (NP[-LOC, NUM='sg', SEM=<\P.P(irene)>]
    (PropN[-LOC, NUM='sg', SEM=<\P.P(irene)>] Irene))
  (VP[NUM='sg', SEM=<\x.walk(x)>]
    (IV[NUM='sg', SEM=<\x.walk(x)>, TNS='pres'] walks)))
(S[SEM=<exists z5.(ankle(z5) & bite(cyril,z5))>]
  (NP[-LOC, NUM='sg', SEM=<\P.P(cyril)>]
    (PropN[-LOC, NUM='sg', SEM=<\P.P(cyril)>] Cyril))
  (VP[NUM='sg', SEM=<\x.exists z5.(ankle(z5) & bite(x,z5))>]
    (TV[NUM='sg', SEM=<\X x.X(\y.bite(x,y))>, TNS='pres'] bites)
    (NP[NUM='sg', SEM=<\Q.exists x.(ankle(x) & Q(x))>]
      (Det[NUM='sg', SEM=<\P Q.exists x.(P(x) & Q(x))>] an)
      (Nom[NUM='sg', SEM=<\x.ankle(x)>]
        (N[NUM='sg', SEM=<\x.ankle(x)>] ankle)))))


In [23]:
v = """
bertie => b
olive => o
cyril => c
boy => {b}
girl => {o}
dog => {c}
walk => {o, c}
see => {(b, o), (c, b), (o, c)}
"""

val = nltk.Valuation.fromstring(v)
g = nltk.Assignment(val.domain)
m = nltk.Model(val.domain, val)
sent = 'Cyril sees every boy'
grammar_file = 'grammars/book_grammars/simple-sem.fcfg'

results = nltk.evaluate_sents([sent], grammar_file, m, g)[0]
for (syntree, semrep, value) in results:
    print(semrep)
    print(value)

all z6.(boy(z6) -> see(cyril,z6))
True


### 4.5   Quantifier Ambiguity Revisited

지금까지 설명한 방법들의 한계는 scope ambiguity를 다루지 않는다는 점. 예를 들어, 

Every girl chases a dog. 이 문장은 a.로만 표현될 뿐 b.로는 표현되지 않는다. 

a.		all x.(girl(x) -> exists y.(dog(y) & chase(x,y)))

b.		exists y.(dog(y) & all x.(girl(x) -> chase(x,y)))

<img src = "images/scoping.png">


**Cooper storage**: a semantic representation is a pair consisting of a **core semantic representation** plus a list of **binding operators**.

binding operators 는 'quantified NP'에서와 같은 semantic representation 으로,  core는  chase(x,y)로 생각하자.

\P.exists y.(dog(y) & P(y))(\z2.chase(z1,z2))

\P.all x.(girl(x) -> P(x))(\z1.exists x.(dog(x) & chase(z1,x)))

binding operator list가 비었을땐, 문장의 논리적인 형태(conventional logical form)를 볼 수 있다. 이를 **S-Retrieval** 이라 한다. 

IV[SEM=[core=<\x.smile(x)>, store=(/)]] -> 'smiles'

NP[SEM=[core=<@x>, store=(<bo(\P.P(cyril),@x)>)]] -> 'Cyril'



## 5   Discourse Semantics

A **discourse** is a sequence of sentences. 많은 경우, 문장의 해석은 그것의 순서에 크게 의존함. 대표적으로 대명사들 (anaphoric pronouns, such as he, she and it)

### 5.1   Discourse Representation Theory

a.      Angus owns a dog. It bit Irene.

b.		∃x.(dog(x) ∧ own(Angus, x) ∧ bite(x, Irene))



### 5.2   Discourse Processing