# Строки

Строка является **неизменяемой**(immutable) последовательностью байт(uint8). Строки могут содержать произвольный данные, включая и байт с значением 0, но обычно они хранят читаемый текст. Строки можно условно интерпретировать как последовательность Unicode кодов символов(Unicode code point), закодированных в соответствии с **UTF-8**.

Встроенная функция **len** возвращает количество байт в строке(не рун), а операция индексирования **s[i]** позволяет получить i-й байт строки, где 0 <= i < len(s):

In [1]:
import "fmt"

s := "Friendly smile"
fmt.Println(len(s))
fmt.Sprint(s[0])

// Ошибка. Нельзя менять строку.
// s[0] = 'A'

// Ошибка. Вышли за размеры строки.
// s[len(s)]

14
70


i-й байт строки **необъязательно** является i-м символом строки, т.к. в кодировке UTF-8 коды не ASCII символов могут занимать больше одного байта.  

Операция получения подстроки **s[i:j]** создаёт новую строку, начиная с байта с индексом i и до байта j, но не включая его. В результате получается строка из j-i байт:

In [2]:
word := "brainstorm"
fmt.Sprint(word[0:5])

brain


i и/или j можно опускать, только при этом значением по-умолчанию для i является 0, а для j - len(s):

In [3]:
word = "scarecrow"
fmt.Println(word[:5])
fmt.Println(word[5:])
fmt.Sprint(word[:])

scare
crow
scarecrow


Строки можно объединять простым сложением:

In [4]:
fmt.Sprint("Bye" + "-bye")

Bye-bye


Строки можно сравнивать между собой с помощью операторов ==, < и т.д. Сравнение выполняется побайтово.  

Как мы уже говорили значение строк нельзя менять: последовательность байт, которая хранится в значении строки является неизменяемой, хотя мы и можем присвоить новое значение строковой переменной. Рассмотрим следующий пример:

In [5]:
film := "Snow White"
princess := film
film += " and the Seven Dwarfs"
fmt.Sprint(princess, "\n", film)

Snow White
Snow White and the Seven Dwarfs


Как видно из этого примера после добавления новой строки к переменной film, исходная строка на которую указывала эта переменная, не изменилась, т.е. переменная princess всё также хранит значение "Snow White". Переменная film после последнего присваивания хранит уже новую строку.

## Строковые литералы

Литералом строки является последовательность байт, заключённых в двойные кавычки: "Hello, Мир!". Т.к. исходные файлы Go всегда кодируются в UTF-8 и строки в Go интерпретируются как UTF-8, мы можем включить коды Unicode символов в строковые литералы.  

Внутри строкового литерала в двойных кавычках может находиться **esc-последовательность**(escape sequence), которая начинается с символа обратного слеша __\\__. Esc-последовательность позволяет вставить в строку произвольный байт. Одной из групп таких вставок являются контрольные коды ASCII такие как переход на новую строку, таб и т.д. Можно также вставить произвольный байт в 16-ричном виде с помощью последовательности \xhh(объязательно должны быть указаны две 16-ричные цифры) или в 8-ричном виде с помощью последовательности \ooo(объязательно должны быть указаны три 8-ричные цифры).

В Go есть также **необработанные** строковые литералы(raw string literal), которые записываются как \`...\`, где вместо кавычек используется обратный апостроф(backquote). Esc-последовательности внутри таких строк не обрабатываются, т.е. содержимое воспринимается в буквальном виде. Например, строка \`\n\` будет состоять из двух символов \ и n, а не одного символа переноса строки. Такие строки удобны при работе с регулярными выражениями, литералами JSON и др.

## Unicode

Давным давно во время зарождения эпохи персональных компьютеров был только один набор символов: **ASCII**, American Standard Code for Information Interchange. ASCII, а именно US-ASCII, использует 7 бит для кодирования 128 символов, входящих в этот набор: строчные и прописные буквы английского алфавита, цифры и т.д. На это время это было оправданной системой, но многие другие письменности не могли быть представлены этой кодировкой. Решением стало появление стандарта **Unicode**. Unicode собрал все символы со всех письменностей мира,  контрольные коды как перенос строк и т.д.(даже какие-то эзотерические символы) и присвоил каждому стандартный номер называемый **Unicode кодом символа**(Unicode code point). В Go этот Unicode код символа называется **руной**(rune).

Unicode версии 8 определяет более чем 120000 символов из 100 языков мира. Каким образом это всё можно представить внутри компьютера? Естественно напрашивается тип int32, т.к. в него такое количество символов умещается с больщим запасом. Именно этот тип и используется в Go для представления руны: называется он **rune** и является синонимом типа int32.

Мы могли бы представить последовательность рун в виде последовательности int32 значений, но такая система(которая называется UTF-32) занимает слишком много места. Вместо неё в Go используется UTF-8.

## UTF-8

В UTF-8 Unicode коды символов кодируются в виде последовательности байт различной длины: для представления руны может быть использовано от 1 до 4 байт. ASCII символы кодируются с помощью одного байта, а для других наиболее часто встречающихся рун используется от 2 до 3 байт. Такое кодирование рун мешает прямому индексированию n-го символа строки, но обладает многими другими полезными свойствами.

Исходные файлы Go всегда кодируются в UTF-8 и UTF-8 является предпочтительным способом кодировки текста, с которым нужно работать программам на Go. Пакет unicode содержит функции для работы с отдельными рунами, а пакет unicode/utf8 предоставляет функции для кодирования и декодирования рун.

Многие Unicode символы сложно набирать с помощью клавиатуры или визуально отличить от других более похожих символов; некоторые символы являются даже невидимыми. Go **позволяет** включить Unicode символ в строковый литерал, используя его Unicode код(Unicode code point). Это можно сделать двумя способами. 16-битные Unicode коды набираются с помощью последовательности **\uhhhh**, а 32-битные - последовательностью **\Uhhhhhhhh**. В обоих случаях h означает 16-ричную цифру. Давайте попробуем набрать слово "Кубик"(без кавычек), используя только что приведённую схему. Для этого нам необходимо определить Unicode код каждого символа в этом слове. Скачав [pdf документ](https://www.unicode.org/charts/PDF/U0400.pdf) с описанием русского алфавита с сайта **unicode.org** мы можем найти необходимые нам Unicode коды(в 16-ричном виде):  
К - 041A  
у - 0443  
б - 0431  
и - 0438  
к - 043A  

В виде литерала строки это можно записать так:

In [6]:
import "fmt"

cube := "\u041A\u0443\u0431\u0438\u043A"
fmt.Sprint(cube)

Кубик


Unicode коды можно также использовать для инициализации литералов рун. Если значение руны меньше 256, то её можно инициализировать и с помощью 16-ричного числа как, например, '\x41'(буква 'A'), но большие 255 значения должны начинаться на \u или \U:

In [7]:
r := '\u041A'
fmt.Sprintf("%c", r)

К


Для подсчёта количества символов в строке в общем случае нельзя пользоваться функцией len, т.к. она возвращает количество байт, которое необходимо для представления строки в кодировке UTF-8, а в этой кодировке, как мы уже говорили, символ может занимать от 1 до 4 байт. Для подсчёта количества символов в строке можно воспользоваться пакетом **utf8**:

In [8]:
import "unicode/utf8"

num := "ноль"
fmt.Println(len(num))
fmt.Sprint(utf8.RuneCountInString(num))

8
4


Цикл **for range** позволяет пройтись по каждому символу строки:

In [9]:
for i, r := range "Ёжик" {
    fmt.Printf("%d\t%q\n", i, r) // %q выводит символ в кавычках
}

0	'Ё'
2	'ж'
4	'и'
6	'к'


То что строки в Go интерпретируются как закодированные в UTF-8 последовательности Unicode кодов является соглашением, а не объязательным правилом, т.к. строка в Go по определению является последовательностью байт. Но что будет, если мы попытаемся пройтись циклом for range по неправильно сформированной с точки зрения UTF-8 строке? При обнаружении такого символа в цикле for range мы получим так называемый **знак исправления**(replacement character) - Unicode символ с кодом **0xFFFD**. Выглядит он как белый знак вопроса внутри чёрного 6-угольника:

In [10]:
noStr := "\x41\x42\x80"
for _, r := range noStr {
    fmt.Printf("%c\n", r)
}

A
B
�


Если мы преобразуем строку в слайс из рун, то получим Unicode коды каждого символа в строке:

In [11]:
for _, r := range []rune("Кубик") {
    fmt.Printf("%04X - %c\n", r, r)
}

041A - К
0443 - у
0431 - б
0438 - и
043A - к


И наоборот, преобразование слайса из рун в строку даёт строку в виде UTF-8, в которую входят все руны из слайса.  
При преобразовании целого числа в строку, это число воспринимается как руна, т.е. мы получим представление в виде UTF-8 строки Unicode кода, код которого равен этому числу.