# Strings

***DISCLAIMER: Este notebook foi escrito com base no que li [neste](https://docs.julialang.org/en/v1/manual/strings/) capítulo do manual***


Em outras linguagens é muito comum utilizarmos apenas os caracteres mais básicos, como letras do alfabeto, números e alguns sinais de pontuação, e isso encaixa perfeitamente com o padrão ASCII.

Porém já vimos que Julia suporta Unicode e LaTeX na criação de nomes de variáveis, logo podemos supor, e bem, que ela dará suporte a Unicode em strings.

Basicamente Julia tem 2 grandes tipos: `AbstractString` e o `AbstractChar` - e daí surge outros subtipos como: `String` e `Char` - onde estes últimos 2 são apenas para strings e caracteres ASCII. 

Portanto, devemos sempre definir os parâmetros das nossas funções que vão receber strings ou caracteres como um dos grandes tipos.

## Caracteres

Caractere é quando temos apenas uma letra, número, simbolo ou sinal, ou seja, não é um """texto""".

Definimos um caracter fazendo o uso de plicas `''`.

In [7]:
# Atribuir o caracter A à nossa variável
caracter = 'A'

'A': ASCII/Unicode U+0041 (category Lu: Letter, uppercase)

In [8]:
typeof(caracter)

Char

Podemos converter caracteres em decimais (o decimal corresponde ao seu **code point**, istoé, a sua posição na tabela ASCII e/ou à sua representação como ponto Unicode).

In [9]:
decimal = Int(caracter)

65

E podemos reverter isso usando o subtipo `Char`.

In [10]:
Char(decimal)

'A': ASCII/Unicode U+0041 (category Lu: Letter, uppercase)

Para verificar se um decimal ou hexadecimal é válido como ASCII/Unicode, utilizamos a função `isvalid`.

In [11]:
isvalid(Char, 0x110000)

false

In [12]:
isvalid(Char, 0x2200)

true

Para escrevemos um caracter Unicode podemos fazer uso de `'\u'` 

In [13]:
'\u2200'

'∀': Unicode U+2200 (category Sm: Symbol, math)

In [14]:
# Sigma maiúsculo
'\u03a3'

'Σ': Unicode U+03A3 (category Lu: Letter, uppercase)

Julia sabe se pode printar certos caracteres ou se precisa de recorrer à sua representação Unicode. Isto porque a linguagem tem acesso à linguagem e á região definidas no sistema operativo.

# Strings

Para criar strings utilizamos as aspas `""`. E caso queiramos utilizar as aspas dentro da strings temos que fazer um scape `\`.

In [15]:
println("Sou uma string")

Sou uma string


In [16]:
println("Sou uma string com \"aspas\"")

Sou uma string com "aspas"


Para extrair caracteres de uma string, podemos tratá-la como um array e acedemos através dos índices.

Caso queiramos o primeiro ou último caracter utilizamos as palavras reservadas `begin` e `end` como índices.

Porém essas palavras são apenas um shorthand, um "atalho" para as funções `firstindex(str)` e `lastindex(str)`.

In [17]:
str = "Sou um teste"

str[begin]

'S': ASCII/Unicode U+0053 (category Lu: Letter, uppercase)

In [18]:
str[begin]

'S': ASCII/Unicode U+0053 (category Lu: Letter, uppercase)

In [19]:
str[1]

'S': ASCII/Unicode U+0053 (category Lu: Letter, uppercase)

***Já devem ter reparado que Julia tem algo igual ao MATLAB ... A indexação.***

***Portanto os índices não começam em 0 mas sim em 1. Estes pormenores e outros que já apareceram ou vão aparecer mais à frente, são consequência de Julia ser uma linguagem voltada para a área científica (matemática).***

Assim como no Python, podemos extrair substrings utilizando: `[indice_inicio:indice_fim]`

In [20]:
str[1:3]

"Sou"

***MAS*** o senhor Python habitua-nos muito mal, pois quando o usamos se definirmos string com `''` é o mesmo que definir com `""` e tudo é considerado string.

Pois é ... aqui em Julia isto `str[6]` é diferente disto `str[6:6]`, porque `str[6]` está-nos a retornar o caracter no índice 6, porém `str[6:6]` está a retornar uma string que começa no índice 6 e termina no índice 6. Resumo um é do tipo `Char` e o outro é do tipo `String`.

In [21]:
typeof( str[6] )

Char

In [22]:
typeof( str[6:6] )

String

Também se pode obter substrings através do tipo `SubString`, fazendo com que tenhamos um objeto desse tipo e não do tipo `String`.

In [23]:
sub = SubString(str, 1, 4)

typeof(sub)

SubString{String}

# Unicode

Quando definimos alguma string utilizando o `\u`, ela será codificada em UTF-8 o que faz com que cada caracter possa ocupar um número de bytes superior a 1 (<u>normalmente do decimal(code point) 128 para cima, os caracteres ocupam mais que 1 byte</u>).


Isto fará com que quando tentamos aceder a um caracter de índice $n$, nem sempre será válido, pois podemos apanhar algum byte referente ao caracter do índice anterior.

In [24]:
s = "\u2200 x \u2203 y"

length(s)

7

In [25]:
# O primeiro índice representará o primeiro caracter
s[1]

'∀': Unicode U+2200 (category Sm: Symbol, math)

In [26]:
# Como o caracter anterior é um Unicode com code point > 128, este índice ainda pertence a ele
s[2]

LoadError: StringIndexError: invalid index [2], valid nearby indices [1]=>'∀', [4]=>' '

In [27]:
s[3]

LoadError: StringIndexError: invalid index [3], valid nearby indices [1]=>'∀', [4]=>' '

Bem o caracter ∀ ocupou 3 bytes da nossa string, mas se repararmos Julia avisa, no erro, qual o próximo caracter válido para printar: `StringIndexError: invalid index [3], valid nearby indices [1]=>'∀', [4]=>' '
` - Neste caso o índice 4 é o próximo índice válido.

In [28]:
s[4]

' ': ASCII/Unicode U+0020 (category Zs: Separator, space)

Para evitarmos ter que verificar todos os índices e olhar para a mensagem de erro, podemos utilizar a função `nextind(str, indice)`, onde o `indice` é o índice a partir do qual queremos verificar o próximo índice válido. Por exemplo, se eu passa-se a nossa string `s` e o índice $1$, a função retornaria $4$.


Também há a `prevind(string, indice)` caso queiramos ver de trás para a frente, ou seja, o índice válido anterior ao que passámos como argumento.

Podemos passar um argumento opcional, sendo esse o valor válido que queremos. Por exemplo, se eu quiser o índice válido a seguir ao primeiro índice, faço: `nextind(s, firstindex(s))` - MAS, se eu quiser não o valor a seguir, mas o valor ... a seguir ao a seguir, ou seja, o segundo valor válido depois do primeiro índice, faço: `nextind(s, firstindex(s), 2)`.

In [29]:
# índice do valor válido a seguir ao primeiro indice
nextind(s, firstindex(s))

4

In [30]:
# índice do segundo valor válido a seguir ao primeiro indice
nextind(s, firstindex(s), 2)

5

***Nota: `length(string) <= lastindex(s)` - pois o length vai contar como se cada caracter ocupasse apenas 1 byte, apenas 1 índice.***

Por fim, se quisermos iterar por todos os possíveis índices em uma string, utilizamos a função `eachindex(string)` que já fará de forma otimizada.


***Nota:*** Ela retornará um objeto do tipo `EachStringIndex` que não é a melhor forma de visualizar os índices. Para isso precisamos converter o objeto em um array/vector de valores (que no caso são índices) utilizando uma outra função `collect(object)`. 

In [31]:
collect( eachindex(s) )

7-element Vector{Int64}:
  1
  4
  5
  6
  7
 10
 11

Podemos ver a code unit crua (representação do(s) byte(s)) de um dado caracter utilizando o `codeunit(string, indice)`. 

Podemos mostrar todos os code units usando `codeunits(string)`. 

In [32]:
# Code unit do valor no índice 2
codeunit(s, 2)

0x88

In [33]:
codeunits(s)

11-element Base.CodeUnits{UInt8, String}:
 0xe2
 0x88
 0x80
 0x20
 0x78
 0x20
 0xe2
 0x88
 0x83
 0x20
 0x79

Julia aceita qualquer sequência de unit codes, mesmo que contenham UTF-8 codes inválidos. Isso porque ela faz uma verificação da seguinte forma:
* Divide a sequência em sub sequências de 8-bit code units
* Verifica cada uma dessas sub sequências (cada uma delas deve ou não referir-se a um caracter)
* Essas verificação é feita comparando com alguns padrões
* Caso não bata com os padrões Julia dirá se é uma caracter inválido por má formação ou por ter uma sub sequência de code units muito elevado, por exemplo.

In [34]:
# Exemplo mostrado no manual de uma sequência de code units
s = "\xc0\xa0\xe2\x88\xe2|"

"\xc0\xa0\xe2\x88\xe2|"

In [35]:
# Iteramos por todas as sequências de 8-bit code units (caracteres)
foreach(display, s)

'\xc0\xa0': [overlong] ASCII/Unicode U+0020 (category Zs: Separator, space)

'\xe2\x88': Malformed UTF-8 (category Ma: Malformed, bad data)

'\xe2': Malformed UTF-8 (category Ma: Malformed, bad data)

'|': ASCII/Unicode U+007C (category Sm: Symbol, math)

Isto não é algo que eu domine muito, mas baseado na documentação vimos que:
* `'\xc0\xa0'` são code units muito altos para representar o caracter espaço ' '
* `'\xe2\x88'` apesar de válidos, o próximo code unit (`'\xe2'`) torna esta sub sequência inválida
* `'\xe2'` este além de fazer á sub sequência anterior inválida, também é inválido, pois `|` não é uma continuação válida.
* `'|'` é um caracter normal


***Nota: O `foreach` é uma forma de loop onde, basicamente, iteramos sobre um objeto e passamos ele para uma função. O `display` é uma função que permite printar o valor de um objeto e ainda obter algumas informações acerca dele.***

Novamente, para não termos de nos basear em erros para verificar o que cada sub sequência tem ou não errado, podemos usar a função `isvalid.(array/vector)` com a nossa `String`.

***Nota***: O `.` depois de `isvalid` significa broadcasting, ou seja, queremos verificar que cada elemento no array é válido(1) ou não(0).

In [36]:
isvalid.(collect(s))

4-element BitVector:
 0
 0
 0
 1

Um método útil na nossa jornada é o `transcode(Type, string)`, ele permite-nos converter as nossa strings para outros encoders.

# Concatenação

Comecemos já por avisar que concatenar strings que possuem sequências de code units inválidas podem gerar outros caracteres.

Mas para mim a parte mais interessante é o operador utilizado para concatenar strings. Em Python usamos o `+` para concatenar strings, porém em Julia usamos o `*`.

Mas porquê ?? Na realidade, faz bastante sentido matematicamente! Quando nós adicionamos 2 matrizes de tamanhos iguais, nós definimos que essa operação é comutativa, porque: $A + B == B + A$- mas, e se em vez de números fossem strings?

$"Jupyter" + "Notebook" \neq "Notebook" + "Jupyter"$ - logo concatenar strings adicionando não faz sentido, MAS utilizando o operador de multiplicação `*` FAZ! Pois multiplicação de 2 matrizes não é algo comutativo: $A \cdot B \neq B \cdot A$.

Lembrem-se que Julia é uma linguagem com escopo científico, então sempre haverá relações com matemática.

In [37]:
# Uma simples concatenação
"Jupyter " * "Notebook"

"Jupyter Notebook"