# Texto e Bytes em Elixir

Este notebook foi criado nesta versão de Elixir:

In [1]:
System.version

"1.8.1"

Em Elixir, os delimitarores `"` e `'` indicam sequências de tipos distintos:

In [2]:
"ABC" == 'ABC'

false

## Binary

Uma sequência entre aspas duplas é uma `binary`, armazenada como uma sequência de bytes.

In [3]:
b = "ABC"

"ABC"

In [4]:
is_binary(b)

true

Outra forma de representar uma `binary` no código-fonte é como uma sequência de inteiros delimitada por `<<` e `>>`:

In [5]:
b2 = <<65, 66, 67>>

"ABC"

In [6]:
b === b2

true

Porém o exemplo acima só funciona porque "ABC" é 100% ASCII. Quando há caracteres não-ASCII, as coisas são mais complicadas.

In [7]:
b3 = "café"

"café"

Vamos obter os códigos dos caracteres em `b3` para tentar construir um binário igual a `"café"`:

In [8]:
to_charlist(b3)

[99, 97, 102, 233]

In [9]:
b4 = <<99, 97, 102, 233>>

<<99, 97, 102, 233>>

Quando fizemos `b2 = <<65, 66, 67>>`, o valor apareceu como `"ABC"`, mas dessa vez o valor de `b4` não apareceu como uma string delimitada por aspas duplas. E mais:

In [10]:
b3 === b4

false

O motivo é que `b4` é um binário, mas Elixir sabe que não representa texto codificado em UTF-8. Elixir só exibe binários como texto entre aspas duplas se o valor é um texto em UTF-8. O que aconteceu: 233 é o código Unicode do caractere "é", porém na codificação UTF-8 qualquer caractere não-ASCII é representado em dois ou mais bytes. Veja:

In [11]:
:binary.bin_to_list("é")

[195, 169]

Assim podemos obter os valores dos bytes correspondentes a todos os caracteres do binário `b3 = "café"`

In [12]:
:binary.bin_to_list(b3)

[99, 97, 102, 195, 169]

Agora podemos confirmar nosso endimento de strings como binários em UTF-8, reconstruindo a `"café"` usando a notação de binários com os valores da codigificação UTF-8:

In [13]:
b5 = <<99, 97, 102, 195, 169>>

"café"

In [14]:
b3 === b5

true

In [15]:
<<99, 97, 102, 233 :: utf8>>

"café"

In [16]:
Enum.each(0..255, &(IO.puts(Integer.to_string(&1) <> "\t" <> inspect(<<&1>>))))

0	<<0>>
1	<<1>>
2	<<2>>
3	<<3>>
4	<<4>>
5	<<5>>
6	<<6>>
7	"\a"
8	"\b"
9	"\t"
10	"\n"
11	"\v"
12	"\f"
13	"\r"
14	<<14>>
15	<<15>>
16	<<16>>
17	<<17>>
18	<<18>>
19	<<19>>
20	<<20>>
21	<<21>>
22	<<22>>
23	<<23>>
24	<<24>>
25	<<25>>
26	<<26>>
27	"\e"
28	<<28>>
29	<<29>>
30	<<30>>
31	<<31>>
32	" "
33	"!"
34	"\""
35	"#"
36	"$"
37	"%"
38	"&"
39	"'"
40	"("
41	")"
42	"*"
43	"+"
44	","
45	"-"
46	"."
47	"/"
48	"0"
49	"1"
50	"2"
51	"3"
52	"4"
53	"5"
54	"6"
55	"7"
56	"8"
57	"9"
58	":"
59	";"
60	"<"
61	"="
62	">"
63	"?"
64	"@"
65	"A"
66	"B"
67	"C"
68	"D"
69	"E"
70	"F"
71	"G"
72	"H"
73	"I"
74	"J"
75	"K"
76	"L"
77	"M"
78	"N"
79	"O"
80	"P"
81	"Q"
82	"R"
83	"S"
84	"T"
85	"U"
86	"V"
87	"W"
88	"X"
89	"Y"
90	"Z"
91	"["
92	"\\"
93	"]"
94	"^"
95	"_"
96	"`"
97	"a"
98	"b"
99	"c"
100	"d"
101	"e"
102	"f"
103	"g"
104	"h"
105	"i"
106	"j"
107	"k"
108	"l"
109	"m"
110	"n"
111	"o"
112	"p"
113	"q"
114	"r"
115	"s"
116	"t"
117	"u"
118	"v"
119	"w"
120	"x"
121	"y"
122	"z"
123	"{"
124	"|"
125	"}"
126	"~"
127	"\d"
128	<<128>

:ok