In [1]:
import tensorflow as tf

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

In [2]:
tf.constant(u"Thanks 😊")

<tf.Tensor: shape=(), dtype=string, numpy=b'Thanks \xf0\x9f\x98\x8a'>

In [5]:
tf.constant([u"You're", u"welcome!"]).shape

TensorShape([2])

####  유니코드 표현
텐서플로에서 유니코드 문자열을 표현하기 위한 두 가지 방법이 있습니다.
- ```string``` 스칼라 - 코드 포인트의 시퀀스가 알려진 문자 인코딩을 사용해 인코딩됩니다.
- ```int32``` 벡터 - 위치마다 개별 코드 포인트를 포함합니다.

In [6]:
# UTF-8로 인코딩된 string 스칼라로 표현한 유니코드 문자열입니다.
text_utf8 = tf.constant(u"语言处理")
text_utf8

<tf.Tensor: shape=(), dtype=string, numpy=b'\xe8\xaf\xad\xe8\xa8\x80\xe5\xa4\x84\xe7\x90\x86'>

In [7]:
# UTF-16-BE로 인코딩된 string 스칼라로 표현한 유니코드 문자열입니다.
text_utf16be = tf.constant(u"语言处理".encode("UTF-16-BE"))
text_utf16be

<tf.Tensor: shape=(), dtype=string, numpy=b'\x8b\xed\x8a\x00Y\x04t\x06'>

In [8]:
# 유니코드 코드 포인트의 벡터로 표현한 유니코드 문자열입니다.
text_chars = tf.constant([ord(char) for char in u"语言处理"]) # ord: Return the Unicode code point
text_chars

<tf.Tensor: shape=(4,), dtype=int32, numpy=array([35821, 35328, 22788, 29702], dtype=int32)>

In [16]:
# 인코딩된 string 스칼라를 코드 포인트의 벡터로 변환합니다.
tf.strings.unicode_decode(text_utf8,
                          input_encoding='UTF-8')

<tf.Tensor: shape=(4,), dtype=int32, numpy=array([35821, 35328, 22788, 29702], dtype=int32)>

In [17]:
# 코드 포인트의 벡터를 인코드된 string 스칼라로 변환합니다.
tf.strings.unicode_encode(text_chars,
                          output_encoding='UTF-8')

<tf.Tensor: shape=(), dtype=string, numpy=b'\xe8\xaf\xad\xe8\xa8\x80\xe5\xa4\x84\xe7\x90\x86'>

In [18]:
# 인코드된 string 스칼라를 다른 인코딩으로 변환합니다.
tf.strings.unicode_transcode(text_utf8,
                             input_encoding='UTF8',
                             output_encoding='UTF-16-BE')

<tf.Tensor: shape=(), dtype=string, numpy=b'\x8b\xed\x8a\x00Y\x04t\x06'>

In [22]:
batch_utf8 = [s.encode('UTF-8') for s in
              [u'hÃllo',  u'What is the weather tomorrow',  u'Göödnight', u'😊']]
batch_chars_ragged = tf.strings.unicode_decode(batch_utf8,
                                              input_encoding='UTF-8')
for sentence_chars in batch_chars_ragged.to_list():
    print(sentence_chars)

[104, 195, 108, 108, 111]
[87, 104, 97, 116, 32, 105, 115, 32, 116, 104, 101, 32, 119, 101, 97, 116, 104, 101, 114, 32, 116, 111, 109, 111, 114, 114, 111, 119]
[71, 246, 246, 100, 110, 105, 103, 104, 116]
[128522]


In [25]:
batch_chars_ragged, batch_chars_ragged.to_list(), batch_chars_ragged.to_tensor()

(<tf.RaggedTensor [[104, 195, 108, 108, 111], [87, 104, 97, 116, 32, 105, 115, 32, 116, 104, 101, 32, 119, 101, 97, 116, 104, 101, 114, 32, 116, 111, 109, 111, 114, 114, 111, 119], [71, 246, 246, 100, 110, 105, 103, 104, 116], [128522]]>,
 [[104, 195, 108, 108, 111],
  [87,
   104,
   97,
   116,
   32,
   105,
   115,
   32,
   116,
   104,
   101,
   32,
   119,
   101,
   97,
   116,
   104,
   101,
   114,
   32,
   116,
   111,
   109,
   111,
   114,
   114,
   111,
   119],
  [71, 246, 246, 100, 110, 105, 103, 104, 116],
  [128522]],
 <tf.Tensor: shape=(4, 28), dtype=int32, numpy=
 array([[   104,    195,    108,    108,    111,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0],
        [    87,    104,     97,    116,     32,    105,    115,     32,
            116,    104,    101,     32,    119,    101,     97,    116

```tf.RaggedTensor```를 바로 사용하거나, 패딩(padding)을 사용해 ```tf.Tensor```로 변환하거나, ```tf.RaggedTensor.to_sparse``` 메서드를 사용해 ```tf.SparseTensor```로 변환 할 수 있습니다.

In [26]:
batch_chars_padded = batch_chars_ragged.to_tensor(default_value=-1)
print(batch_chars_padded.numpy())

[[   104    195    108    108    111     -1     -1     -1     -1     -1
      -1     -1     -1     -1     -1     -1     -1     -1     -1     -1
      -1     -1     -1     -1     -1     -1     -1     -1]
 [    87    104     97    116     32    105    115     32    116    104
     101     32    119    101     97    116    104    101    114     32
     116    111    109    111    114    114    111    119]
 [    71    246    246    100    110    105    103    104    116     -1
      -1     -1     -1     -1     -1     -1     -1     -1     -1     -1
      -1     -1     -1     -1     -1     -1     -1     -1]
 [128522     -1     -1     -1     -1     -1     -1     -1     -1     -1
      -1     -1     -1     -1     -1     -1     -1     -1     -1     -1
      -1     -1     -1     -1     -1     -1     -1     -1]]


In [28]:
batch_chars_sparse = batch_chars_ragged.to_sparse()
batch_chars_sparse

<tensorflow.python.framework.sparse_tensor.SparseTensor at 0x7f32454d7400>

In [31]:
tf.strings.unicode_encode([[99, 97, 116], [100, 111, 103], [ 99, 111, 119]],
                          output_encoding='UTF-8')

<tf.Tensor: shape=(3,), dtype=string, numpy=array([b'cat', b'dog', b'cow'], dtype=object)>

In [39]:
# 길이가 다른 여러 문자열을 인코딩할 때는 tf.RaggedTensor 를 입력으로 사용해야 한다.
tf.strings.unicode_encode(batch_chars_ragged, output_encoding='UTF-8')

<tf.Tensor: shape=(4,), dtype=string, numpy=
array([b'h\xc3\x83llo', b'What is the weather tomorrow',
       b'G\xc3\xb6\xc3\xb6dnight', b'\xf0\x9f\x98\x8a'], dtype=object)>

In [40]:
# 패딩된 텐서나 희소(sparse) 텐서는 unicode_encode를 호출하기 전에 tf.RaggedTensor로 바꿉니다.
tf.strings.unicode_encode(
    tf.RaggedTensor.from_sparse(batch_chars_sparse),
    output_encoding='UTF-8')

<tf.Tensor: shape=(4,), dtype=string, numpy=
array([b'h\xc3\x83llo', b'What is the weather tomorrow',
       b'G\xc3\xb6\xc3\xb6dnight', b'\xf0\x9f\x98\x8a'], dtype=object)>

In [42]:
# UTF8에서 마지막 문자는 4바이트를 차지합니다.
thanks = u'Thanks 😊'.encode('UTF-8')
print(thanks)
num_bytes = tf.strings.length(thanks).numpy()
num_chars = tf.strings.length(thanks, unit='UTF8_CHAR').numpy()
print('{} 바이트; {}개의 UTF-8 문자'.format(num_bytes, num_chars))

b'Thanks \xf0\x9f\x98\x8a'
11 바이트; 8개의 UTF-8 문자


In [46]:
tf.strings.substr(thanks, pos=7, len=1).numpy()

b'\xf0'

In [47]:
# unit='UTF8_CHAR'로 지정하면 4 바이트인 문자 하나를 반환합니다.
print(tf.strings.substr(thanks, pos=7, len=1, unit='UTF8_CHAR').numpy())

b'\xf0\x9f\x98\x8a'


In [48]:
tf.strings.unicode_split(thanks, 'UTF-8').numpy()

array([b'T', b'h', b'a', b'n', b'k', b's', b' ', b'\xf0\x9f\x98\x8a'],
      dtype=object)

In [49]:
# tf.strings.unicode_decode
# tf.strings.unicode_decode_with_offsets: 각 문자의 시작 오프셋을 포함한 두 번째 텐서를 추가 반환합니다.
codepoints, offsets = tf.strings.unicode_decode_with_offsets(u"🎈🎉🎊", 'UTF-8')
print(codepoints, offsets)
for (codepoint, offset) in zip(codepoints.numpy(), offsets.numpy()):
    print("바이트 오프셋 {}: 코드 포인트 {}".format(offset, codepoint))

tf.Tensor([127880 127881 127882], shape=(3,), dtype=int32) tf.Tensor([0 4 8], shape=(3,), dtype=int64)
바이트 오프셋 0: 코드 포인트 127880
바이트 오프셋 4: 코드 포인트 127881
바이트 오프셋 8: 코드 포인트 127882


각 유니코드 코드 포인트는 스크립트(script)라 부르는 하나의 코드 포인트의 집합(collection)에 속합니다. 문자의 스크립트는 문자가 어떤 언어인지 결정하는 데 도움이 됩니다. 예를 들어, 'Б'가 키릴(Cyrillic) 스크립트라는 것을 알고 있으면 이 문자가 포함된 텍스트는 아마도 (러시아어나 우크라이나어 같은) 슬라브 언어라는 것을 알 수 있습니다.

In [51]:
# 텐서플로는 주어진 코드 포인트가 어떤 스크립트를 사용하는지 판별하기 위해 tf.strings.unicode_script 제공합니다
# 스크립트 코드는 구글링해서 찾기를
uscript = tf.strings.unicode_script([33464, 1041])  # ['芸', 'Б']
print(uscript.numpy())  # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC]

[17  8]


In [52]:
print(tf.strings.unicode_script(batch_chars_ragged))

<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>


예제: 간단한 분할
분할(segmentation)은 텍스트를 단어와 같은 단위로 나누는 작업입니다. 공백 문자가 단어를 나누는 구분자로 사용되는 경우는 쉽지만, (중국어나 일본어 같이) 공백을 사용하지 않는 언어나 (독일어 같이) 단어를 길게 조합하는 언어는 의미를 분석하기 위한 분할 과정이 꼭 필요합니다. 웹 텍스트에는 "NY株価"(New York Stock Exchange)와 같이 여러 가지 언어와 스크립트가 섞여 있는 경우가 많습니다.

스크립트의 변화를 단어 경계로 근사하여 (ML 모델 사용 없이) 대략적인 분할을 수행할 수 있습니다. 위에서 언급된 "NY株価"의 예와 같은 문자열에 적용됩니다. 다양한 스크립트의 공백 문자를 모두 USCRIPT_COMMON(실제 텍스트의 스크립트 코드와 다른 특별한 스크립트 코드)으로 분류하기 때문에 공백을 사용하는 대부분의 언어들에서도 역시 적용됩니다.

> scripts 찬양, 찾아보면 이런 라이브러리가 있지 않을까

In [53]:
# dtype: string; shape: [num_sentences]
#
# 처리할 문장들 입니다. 이 라인을 수정해서 다른 입력값을 시도해 보세요!
sentence_texts = [u'Hello, world.', u'世界こんにちは', u'Helloんにちは구건모']

In [54]:
sentence_char_codepoint = tf.strings.unicode_decode(sentence_texts, 'UTF-8')
print(sentence_char_codepoint)

<tf.RaggedTensor [[72, 101, 108, 108, 111, 44, 32, 119, 111, 114, 108, 100, 46], [19990, 30028, 12371, 12435, 12395, 12385, 12399], [72, 101, 108, 108, 111, 12435, 12395, 12385, 12399, 44396, 44148, 47784]]>


In [55]:
sentence_char_script = tf.strings.unicode_script(sentence_char_codepoint)
print(sentence_char_script)

<tf.RaggedTensor [[25, 25, 25, 25, 25, 0, 0, 25, 25, 25, 25, 25, 0], [17, 17, 20, 20, 20, 20, 20], [25, 25, 25, 25, 25, 20, 20, 20, 20, 18, 18, 18]]>


In [69]:
tf.fill([sentence_char_script.nrows(), 1], True) # tf.fill([3, 1], True)

<tf.Tensor: shape=(3, 1), dtype=bool, numpy=
array([[ True],
       [ True],
       [ True]])>

In [70]:
tf.not_equal(sentence_char_script[:, 1:], sentence_char_script[:, :-1])

<tf.RaggedTensor [[False, False, False, False, True, False, True, False, False, False, False, True], [False, True, False, False, False, False], [False, False, False, False, True, False, False, False, True, False, False]]>

In [57]:
sentence_char_starts_word = tf.concat(
    [tf.fill([sentence_char_script.nrows(), 1], True),
     tf.not_equal(sentence_char_script[:, 1:], sentence_char_script[:, :-1])],
    axis=1) # shift 한 값을 비교함으로써 script 값이 달라지는 곳을 찾는다.
print(sentence_char_starts_word)

<tf.RaggedTensor [[True, False, False, False, False, True, False, True, False, False, False, False, True], [True, False, True, False, False, False, False], [True, False, False, False, False, True, False, False, False, True, False, False]]>


In [72]:
tf.where(sentence_char_starts_word.values)

<tf.Tensor: shape=(9, 1), dtype=int64, numpy=
array([[ 0],
       [ 5],
       [ 7],
       [12],
       [13],
       [15],
       [20],
       [25],
       [29]])>

In [73]:
tf.squeeze(tf.where(sentence_char_starts_word.values), axis=1)

<tf.Tensor: shape=(9,), dtype=int64, numpy=array([ 0,  5,  7, 12, 13, 15, 20, 25, 29])>

In [71]:
word_starts = tf.squeeze(tf.where(sentence_char_starts_word.values), axis=1)
print(word_starts)

tf.Tensor([ 0  5  7 12 13 15 20 25 29], shape=(9,), dtype=int64)


In [74]:
word_char_codepoint = tf.RaggedTensor.from_row_starts(
    values=sentence_char_codepoint.values,
    row_starts=word_starts)
print(word_char_codepoint)

<tf.RaggedTensor [[72, 101, 108, 108, 111], [44, 32], [119, 111, 114, 108, 100], [46], [19990, 30028], [12371, 12435, 12395, 12385, 12399], [72, 101, 108, 108, 111], [12435, 12395, 12385, 12399], [44396, 44148, 47784]]>


In [76]:
# dtype: int64; shape: [num_sentences]
#
# sentence_num_words[i]는 i번째 문장 안에 있는 단어의 수입니다.
sentence_num_words = tf.reduce_sum(
    tf.cast(sentence_char_starts_word, tf.int64),
    axis=1)
print(sentence_num_words)
# dtype: int32; shape: [num_sentences, (num_words_per_sentence), (num_chars_per_word)]
#
# sentence_word_char_codepoint[i, j, k]는 i번째 문장 안에 있는
# j번째 단어 안의 k번째 문자에 대한 코드 포인트입니다.
sentence_word_char_codepoint = tf.RaggedTensor.from_row_lengths(
    values=word_char_codepoint,
    row_lengths=sentence_num_words)
print(sentence_word_char_codepoint)

tf.Tensor([4 2 3], shape=(3,), dtype=int64)
<tf.RaggedTensor [[[72, 101, 108, 108, 111], [44, 32], [119, 111, 114, 108, 100], [46]], [[19990, 30028], [12371, 12435, 12395, 12385, 12399]], [[72, 101, 108, 108, 111], [12435, 12395, 12385, 12399], [44396, 44148, 47784]]]>


In [77]:
tf.strings.unicode_encode(sentence_word_char_codepoint, 'UTF-8').to_list()

[[b'Hello', b', ', b'world', b'.'],
 [b'\xe4\xb8\x96\xe7\x95\x8c',
  b'\xe3\x81\x93\xe3\x82\x93\xe3\x81\xab\xe3\x81\xa1\xe3\x81\xaf'],
 [b'Hello',
  b'\xe3\x82\x93\xe3\x81\xab\xe3\x81\xa1\xe3\x81\xaf',
  b'\xea\xb5\xac\xea\xb1\xb4\xeb\xaa\xa8']]