# 줄리아를 생각하다(Think Julia)

## Chapter 8. 문자열

문자열은 일종의 **순열**(sequence)인데, 어떤 값들을 순서대로 묶어 놓았다는 의미

### 8.1 문자

* 영어 알파벳: 미국정보교환표준부호(American standard code for Information Interchange), 줄여서 아스키 표준(ASCII standard)으로 표준화 되어 있음(각 문자마다 0~127 사이의 숫자 하나가 대응)

* 비영어권 문자: 유니코드 표준(Unicode standard)으로 세계적 규모의 모든 문자에 고유한 숫자 하나씩 할당되어 있음

한 개의 문자를 표현하는 자료형은 Char

값을 표시할 때는 문자를 작은 따옴표로 감싸줌

In [1]:
'x'

'x': ASCII/Unicode U+0078 (category Ll: Letter, lowercase)

In [5]:
'🍌' # \:banana: + tab

'🍌': Unicode U+1F34C (category So: Symbol, other)

In [3]:
typeof('x')

Char

In [4]:
typeof('🍌')

Char

### 8.2 문자열은 순열

문자열은 문자의 순열: 대괄호(Bracket) 연산자(```[]```)를 이용해 각 문자에 접근 가능

In [6]:
fruit = "banana"

"banana"

In [8]:
letter = fruit[1]

'b': ASCII/Unicode U+0062 (category Ll: Letter, lowercase)

* 두 번째 실행문은 fruit의 첫 번째 문자를 가져와 letter에 할당
* 대괄호 안에 있는 표현식을 **인덱스**(index)라고 함(인덱스는 원하는 순열 안에서 어떤 문자를 가져올 지를 정함)
     1) 줄리아의 인덱스는 1에서 시작함(**첫번째 원소**는 인덱스 ```1```로 접근할 수 있고, **마지막 원소**는 인덱스 ```end```로 접근 가능)
     2) 인덱스에는 값과 연산자를 포함하는 표현식을 쓸 수 있음
     3) 다만, 인덱스 값의 자료형은 정수여야 하며 그렇지 않을 경우 오류가 발생함

In [10]:
# 인덱스 예사 1)
fruit[end]

'a': ASCII/Unicode U+0061 (category Ll: Letter, lowercase)

In [11]:
# 인덱스 예시 2)
i = 1
fruit[i + 1]

'a': ASCII/Unicode U+0061 (category Ll: Letter, lowercase)

In [17]:
# 인덱스 예시 3)
fruit[1.5]

LoadError: MethodError: no method matching getindex(::String, ::Float64)
[0mClosest candidates are:
[0m  getindex(::AbstractString, [91m::Colon[39m) at strings/basic.jl:189
[0m  getindex(::String, [91m::Int64[39m) at strings/string.jl:224
[0m  getindex(::AbstractString, [91m::Integer[39m) at strings/basic.jl:184
[0m  ...

### 8.3 length

* length는 문자열을 이루는 문자의 개수를 반환하는 내장 함수

In [24]:
fruits = "🍌 🍎 🥭"

"🍌 🍎 🥭"

In [25]:
len = length(fruits)

5

In [28]:
last = fruits[len]

' ': ASCII/Unicode U+0020 (category Zs: Separator, space)

줄리아의 문자열은 UTF-8 부호화(UTF-8 encoding)을 사용

UTF-8은 가변 길이 부호화 방식이므로 각 문자를 이루는 메모리의 바이트 수가 문자의 종류에 따라 달라질 수 있음

sizeof 함수는 문자열의 메모리 바이트 수를 반환함

In [29]:
sizeof("🍌")

4

이모지가 4바이트로 부호화되고, 문자열은 바이트 단위로 인덱스되기 때문에 fruits의 다섯번째 원소는 공백(space)임

따라서 UTF-8 문자열에서는 모든 바이트 인덱스가 유효하지는 않음 -> 유효하지 않은 바이트 인덱스 문자열에 접근하면 다음과 같이 오류 발생

In [30]:
fruits[2]

LoadError: StringIndexError: invalid index [2], valid nearby indices [1]=>'🍌', [5]=>' '

fruits의 경우 이모지 문자는 4바이트를 차지하므로, 인덱스 2, 3, 4는 유효하지 않고 5가 다음 문자의 인덱스가 됨

이를 nextind() 함수를 이용하여 확인함

In [None]:
nextind(fruits, 1)

5

In [32]:
nextind(fruits, 5)

6

In [38]:
println(fruits[1], '\n',
        fruits[5], '\n',
        fruits[6], '\n',
        fruits[10], '\n',
        fruits[11], '\n')  

🍌
 
🍎
 
🥭



In [48]:
# 이모지를 사용하는 문자열을 파싱하는 함수 만들기

function parsing_emoji_string(string)
    
        str = string
        ind = 1
    
        while true
            println(str[ind])
            if ind == lastindex(str)
                break
            end
            ind = nextind(str, ind)
        end
end 

parsing_emoji_string (generic function with 1 method)

In [46]:
parsing_emoji_string(fruits)

🍌
 
🍎
 
🥭


### 8.4 순회

보통 문자열의 처음부터 시작해, 매번 한 글자씩 나아가며 뭔가를 처리하고, 맨 마지막 문자까지 이를 반복하는 처리 패턴을 **순회**(traversal)라고 함

**예제 1) While 문을 이용한 순회**

In [50]:
index = firstindex(fruits)

while index <= sizeof(fruits)
    letter = fruits[index]
    println(letter)
    global index = nextind(fruits, index)
end

🍌
 
🍎
 
🥭


* 이 루프는 문자열을 순회하면서 각 문자를 한 줄에 하나씩 출력함

* 루프의 조건은 index <= sizeof(fruit)이며, index가 문자열의 바이트 길이보다 커지면 조건이 false가 되고, 루프는 더 이상 실행되지 않음

    - sizeof(fruit) == 14
```
```
* firstindex 함수는 유효한 첫 바이트 인덱스를 반환 

* index 앞에 있는 예약어 global은 Main에서 정의된 변수(while 루프 바깥의 변수) index에 재할당하겠다는 의미


**예제 2) for 문을 이용한 순회**

In [52]:
for letter in fruits
    println(letter)
end

🍌
 
🍎
 
🥭


* 루프를 돌 때마다, 문자열의 다음 문자가 변수 letter에 할당됨
* 루프는 더 이상 다음 문자가 없을 때까지 계속됨

**예제 3) for 문을 이용해 딕셔너리 순으로 나열을 만드는 방법**

In [53]:
prefixes = "JKLMNOPQ"
suffix = "ack"

for letter in prefixes
    println(letter * suffix)
end

Jack
Kack
Lack
Mack
Nack
Oack
Pack
Qack


**연습문제 8-2** Ouack와 quack은 철자가 다름. 이를 수정하는 for문 작성

In [67]:
prefixes = "JKLMNOPQ"
suffix = "ack"

for letter in prefixes
    # 한 개의 문자를 표현하는 자료형인 char를 이용하여 비교해야 함 ' ' 
    if letter == 'O' || letter == 'Q'
        println(letter * "uack")
    else
        println(letter * suffix)
    end
end

Jack
Kack
Lack
Mack
Nack
Ouack
Pack
Quack


In [68]:
typeof(letter)

Char

In [69]:
typeof(prefixes)

String

### 8.5 문자열 조각

문자열의 일부분을 **조각**(slice)라고 함. 조각을 선택하는 것(slicing in string)은 한 글자를 선택하는 것과 유사함

In [71]:
str = "Julius Caeser" ; # ;은 복수의 문장을 한 줄로 실행하게 하면서 해당 문장의 출력을 보이지 않게 하는 역할도 함

In [72]:
str[1:6]

"Julius"

연산 [n:m]은 문자열의 n번째 바이트에서 m번째 바이트까지의 문자로 이루어진 문자열을 반환함

   * 인덱스 처리에 유의
   * 예약어 end는 문자열의 마지막 바이트를 가리키는 인덱스로 사용 가능
   * 첫 번째 인덱스가 두 번째보다 크다면, 결과는 빈 문자열이 됨 ("")

In [73]:
str[8:end]

"Caeser"

In [74]:
str[8:7]

""

### 8.7 문자열은 불변

문자열은 **불변(immutable)** 하므로 문자열 인덱싱을 통한 수정은 불가

In [80]:
greeting = "Hello, world"
print(greeting)

Hello, world

In [78]:
# immutable 속성때문에 에러 발생 
greeting [1] = 'J'

LoadError: syntax: space before "[" not allowed in "greeting [" at In[78]:2

수정을 원할 경우, 원본을 기준으로 변화가 가해진 새로운 문자열을 생성함

In [82]:
greeting2 = "J" * greeting[2:end]

"Jello, world"

### 8.7 문자열 보간

병합을 이용하여 문자열을 만드는 것은 번잡스러운 면이 있음.

이를 해소하기 위해, $ 기호를 이용한 **문자열 보간(string interpolation)** 을 이용할 수 있음

In [83]:
greet = "Hello"

"Hello"

In [84]:
whom = "World"

"World"

In [90]:
"$greet, $(whom)!" # !기호를 붙이기 위해서 괄호 사용

"Hello, World!"

$ 기호 다음에 나오는 가장 짧은 완전 표현식이 보간될 문자열 값이 됨. 따라서 괄호를 사용하면 어떤 표현식이나 사용 가능

In [91]:
"1 + 2 = $(1 + 2)"

"1 + 2 = 3"

### 8.8 탐색

**예제 1)** 글자의 인덱스를 찾는 find 함수

인덱스를 받아서 해당 글자를 가져오는 대신 글자를 받아서 해당 인덱스를 돌려줌(찾으려는 글자가 없으면 -1을 반환)

In [98]:
function find(word, letter)
    index = firstindex(word)
    while index <= sizeof(word)
        if word[index] == letter
            return index
        end
        index = nextind(word, index)
    end
    -1
end

find (generic function with 2 methods)

In [94]:
find("Test string in Julia", 't')

4

**연습 8-4** find 함수를 수정해서, 세번째 인수를 받도록 함. 이 인수는 탐색을 시작할 시작 인덱스로 사용됨

In [111]:
function find2(word, letter, st_index)
    index = st_index
    while index <= sizeof(word)
        if word[index] == letter
            return index - st_index + 1
        end
        index = nextind(word, index)
    end
    -1
end

find2 (generic function with 1 method)

In [110]:
find2("Test string in Julia", 't', 3)

2

* 순열을 순회하면서 찾으려고 하는 것을 찾았을 때 결과를 되돌려주는 것을 **탐색**(search)이라고 함

### 8.9 루프와 계수

**예제 1) 문자열에서 특정 글자가 나타나는 횟수 카운트**

In [116]:
word = "Banana"
counter = 0

for letter in word
    if letter == 'a'
        global counter = counter + 1
    end
end

println(counter)

3


이 프로그램은 **계수기(counter)** 라는 널리 쓰이는 계산 패턴을 보여줌

변수 counter는 0으로 초기화된 후, a가 발견될 때마다 증가함 -> 루프 종료 후 counter의 결과는 'a'의 개수가 됨

In [118]:
function count(str, input_char , st_index)
    word = str[st_index:end]
    counter = 0

    for letter in word
        if letter == input_char
            counter = counter + 1
        end
    end
    
    return counter
end

count (generic function with 1 method)

In [125]:
println("1부터 시작할 때: ", count("Test string in Julia", 't', 1), "번", "\n")

println("5부터 시작할 때: ", count("Test string in Julia", 't', 5),  "번", "\n")

1부터 시작할 때: 2번

5부터 시작할 때: 1번



### 8.10 문자열 라이브러리

줄리아에는 문자열 작업을 하는데 유용한 다양한 기능을 제공함

In [126]:
uppercase("Hello, World!")

"HELLO, WORLD!"

In [131]:
findfirst('a', "banana")

2

In [132]:
findfirst("an", "banana")

2:3

In [133]:
findnext("na", "banana", 4)

5:6

이 외에도 문자열에 관련된 다양한 기능을 활용하고자 한다면 

Strings.jl 패키지 참조

https://docs.julialang.org/en/v1/base/strings/

### 8.11 ∈ 연산자

∈: 연산자 왼쪽에 있는 문자가 오른쪽에 있는 문자열에 포함되어 있는지를 알려주는 불리언 연산자

In [134]:
'a' ∈"banana" # 'a' in "banana"

true

**예제 1)** word1의 글자 중에서 word2에도 나오는 글자를 모두 출력

In [135]:
function inboth(word1, word2)
    for letter in word1
        if letter ∈word2
            print(letter, " ")
        end
    end
end

inboth (generic function with 1 method)

In [136]:
inboth("apples", "oranges")

a e s 

변수 이름을 잘 지으면, 줄리아 코드를 영어처럼 읽을 수 있음 

예) inboth 함수의 내용 -> "for (each) letter in (the first) word, if (the) letter is an element of (the second) word, print (the) letter."

### 8.12 문자열 비교

문자열에도 관계 연산자를 사용할 수 있음

두 문자열이 같은지 확인하려면 ==를 사용함

In [138]:
word = "Pineapple"

if word == "banana"
    println("All right, bananas.")
end

다른 관계 연산자들로 문자열이 알파벳 순서로 앞쪽인지 뒤쪽인지를 비교할 수 있음

In [139]:
if word < "banana"
    println("Your word, $word, comes before banana.")
elseif word > "banana"
    println("Your word, $word, comes after banana.")
else
    println("All right, bananas.")
end

Your word, Pineapple, comes before banana.


대문자가 소문자에 우선하기 때문에 바나나보다 앞서 온다는 메시지가 출력됨

### 8.13 디버깅

**예제) 회문(palindrome) 확인 함수** 

똑바로 읽어도 거꾸로 읽어도 우영우 (기러기 토마토 스위스 인도인 별똥별 역삼역?) 인지 확인하는 함수

In [140]:
function isreverse(word1, word2)
    if length(word1) != length(word2)
        return false
    end
    i = firstindex(word1)
    j = lastindex(word2)
    while j >= 0 
        j = prevind(word2, j)
        if word1[i] != word2[j]
            return false
        end
        i = nextind(word1, i)
    end
    true
end

isreverse (generic function with 1 method)

In [141]:
# 테스트 
isreverse("pots", "stop")

false

In [144]:
# 디버깅 -> 인덱스 출력

function isreverse(word1, word2)
    if length(word1) != length(word2)
        return false
    end
    i = firstindex(word1)
    j = lastindex(word2)
    while j >= 0 
        j = prevind(word2, j)
        @show i j
        if word1[i] != word2[j]
            return false
        end
        i = nextind(word1, i)
    end
    true
end

isreverse (generic function with 1 method)

In [145]:
# 디버깅 테스트 
isreverse("pots", "stop")

i = 1
j = 3


false

루프의 1회 차 실행에서는 j가 4가 되어야 하지만 출력된 값은 3으로 나옴 

In [150]:
# 함수 수정

function isreverse(word1, word2)
    if length(word1) != length(word2)
        return false
    end
    i = firstindex(word1)
    j = lastindex(word2)
    while j >= 0 

        @show i j
        if word1[i] != word2[j]
            return false
        end
        
        # 문장의 길이에 맞춰서 while문을 빠져나오는 break문 추가
        # 연습 8-6 
        if i >= length(word1)
            break
        end
        
        i = nextind(word1, i)
        j = prevind(word2, j)
        
    end
    true
end

isreverse (generic function with 1 method)

In [151]:
isreverse("pots", "stop")

i = 1
j = 4
i = 2
j = 3
i = 3
j = 2
i = 4
j = 1


true

번외로 "우영우"로 실험을 실시 -> **한글은 3byte unicode** 임을 확인함 (UTF-8 encoding)

In [161]:
isreverse("우영우", "우영우")

i = 1
j = 7
i = 4
j = 4


true

In [163]:
println("우영우"[1], " to the ", 
        "우영우"[4], " to the ",
        "우영우"[7]) # unicode는 3byte

우 to the 영 to the 우


In [164]:
nextind("우영우", 1)

4

In [165]:
"우영우"[1]

'우': Unicode U+C6B0 (category Lo: Letter, other)

### 8.14 용어집

* **순열(sequence)**

    - 어떤 값들의 순서 있는 모음. 정수 인덱스로 구분할 수 있다.
```
```
* **아스키 표준(ASCII standard)**

    - 전자 통신을 위해 문자열을 숫자로 대응시킨 표준. 128개 문자가 있음
```
```
* **유니코드 표준(Unicode standard)**

    - 컴퓨터 산업 표준으로, 전 세계에서 사용되는 거의 모든 문자 체계의 문자들에 대해 일관된 코드화 규칙, 표시 방법, 처리 방법을 규정했다. 
```
```
* **인덱스(index)**

    - 순열에 있는 한 항목(예를 들면 문자열에 있는 한 문자)에 접근하기 위해 사용하는 정수. 줄리아에서는 인덱스가 1부터 시작한다.
```
```
* **UTF-8 부호화(UTF-8 encoding)**

    - 유니코드의 1,112,064개 모든 유효한 코드 포인트(문자)를 처리할 수 있는 가변 길이 문자 부호화 방법. 한 개부터 네 개까지의 바이트를 사용해 문자를 부호화한다.
```
```
* **순회(traverse)**

    - 순열에 있는 항목에 차례대로 접근하여 각각에 대해 유사한 작업을 수행하는 것을 말한다.
```
```
* **조각(slice)**

    - 인덱스 범위로 지정 가능한 문자열의 부분
```
```
* **빈 문자열(empty string)**

    - 문자를 가지고 있지 않은 문자열. 길이가 0이고, 연속된 두 개의 따옴표로 표기
```
```
* **불변(immutable)**

    - 순열의 성질로, 항목을 변경하지 못함을 의미함
```
```
* **문자열 보간(string interpolation)**

    - 한 개 이상의 지정 위치를 가지고 있는 어떤 문자열을 평가하는 절차. 각 지정 위치의 표현식을 평가하고 결과를 치환하는 식으로 동작한다.
```
```
* **탐색(search)**

    - 순회 패턴의 한 종류로, 목표 항목을 찾을 때까지 순회하는 것을 말함
```
```
* **계수기(counter)**

    - 어떤 것을 세기 위해 사용하는 변수. 일반적으로 0으로 초기화한 후, 증가시키는 식으로 사용

### 연습문제

**연습 8-7)**  줄리아 공식 메뉴얼 확인 


https://docs.julialang.org/en/v1/manual/strings/

* replace 함수 사용 (참조: https://www.geeksforgeeks.org/replace-a-substring-with-another-string-in-julia-replace-method/)

In [178]:
println(replace("GFG is a CS portal.", "CS" => "Computer Science"))
println(replace("GeeksforGeeks is a CS portal.", "GeeksforGeeks" => "GFG"))

GFG is a Computer Science portal.
GFG is a CS portal.


```
```
**연습 8-9)** indexing 활용 회문 여부 확인 함수 작성

In [174]:
"banana"[end:-1:1]

function ispalindrome(str)
    ind_interval = nextind(str,1) - 1
        if str == str[end:-ind_interval:1]
        true
    else
        false
    end
end

ispalindrome (generic function with 1 method)

In [175]:
ispalindrome("banana")

false

In [176]:
ispalindrome("우영우")

true

In [177]:
ispalindrome("TopoT")

true