# Strings

In [1]:
'x'

'x': ASCII/Unicode U+0078 (category Ll: Letter, lowercase)

In [2]:
Int('x')

120

In [3]:
fruit = "banana"

"banana"

In [4]:
fruit[2]

'a': ASCII/Unicode U+0061 (category Ll: Letter, lowercase)

In [15]:
fruits = "🍌 🍎 🍐"

"🍌 🍎 🍐"

In [16]:
length(fruits)

5

Ok, jusque là parait logique, une banane et un espace

In [17]:
fruits[2]

StringIndexError: StringIndexError("🍌 🍎 🍐", 2)

In [18]:
fruits[5]

' ': ASCII/Unicode U+0020 (category Zs: Separator, space)

En fait, les caractères spéciaux comme les emoticones prennent 4 bytes à être codés, les 4 premiers "éléments" sont alors le codage de la banane, et le 5eme est un espace

In [19]:
sizeof('🍌')

4

On peut alors utiliser nextind() pour trouver (pour l'exemple ici) le prochain caractère "montrable" après l'indice "2".

nextind(fruits, 2)

Traversal

In [21]:
index = firstindex(fruits)
while index <= sizeof(fruits)
    println(fruits[index])
    global index = nextind(fruits, index)
end

🍌
 
🍎
 
🍐


Pourquoi 'global' ? Dans le stack, tout ce qui se trouve en _Main_ est connu par tout le monde, mais si on veut changer une variable dans ce _Main_, on doit annoncer que l'on va utiliser cette variable, d'où le global

Si on veut éviter des confusions, on met alors la boucle (ou ce qu'on veut faire) dans une fonction.
_Remarque_ : dans un notebook, chaque cellule est considérée comme une espèce de fonction, le global n'est donc pas nécessaire

Le code que l'on vient d'écrire peut être beaucoup plus facilement écrit : 

In [22]:
for ch in fruits
    println(ch)
end

🍌
 
🍎
 
🍐


## String Slices

In [23]:
fruit[2:3]

"an"

In [24]:
fruit[2:2:end]

"aaa"

In [25]:
fruits[2:6]

StringIndexError: StringIndexError("🍌 🍎 🍐", 2)

In [26]:
fruits[1:6]

"🍌 🍎"

Ici cela fonctionne car on a sélectionné le premier caractère de l'icone, mais si on avait mis 1:7 : cela ne fonctionnerait pas car on a alors 2 caractères (en fait le premier caractère définit si c'est une icone ou pas, et l'interpréteur peut donc savoir s'il doit prendre les caractères suivants ou pas )

## Strings Are Immutable

In [27]:
fruit[1] = "k"

MethodError: MethodError: no method matching setindex!(::String, ::String, ::Int64)

On ne peut pas modifier un String !

In [28]:
fruit = 'k' * fruit[2:end]

"kanana"

Mais attention, ici nous avons fait un reassignment (ce n'est plus la meme adresse !)

## String Interpolation

In [29]:
prom = 171
string(171) * " is the best prom"

"171 is the best prom"

Mais c'est un peu lourd de toujours écrire "string", on peut alors utiliser une interpolation : 

In [30]:
"$prom is the best prom"

"171 is the best prom"

In [31]:
"$(171+171/171+171/171) is the best prom?"

"173.0 is the best prom?"

In [33]:
"$(Int(171+171/171+171/171)) is the best prom?"

"173 is the best prom?"

## Searching

In [35]:
function find(str, ch)
    index = firstindex(str)
    while index <= sizeof(str)
        if str[index] == ch
            return index
        end
        index = nextind(str, index)
    end
    return -1
end

find (generic function with 1 method)

In [36]:
find(fruits, ' ')

5

## Looping and Counting

In [37]:
counter = 0 
for ch in "banana"
    if ch == 'a'
        global counter +=1
    end
end
counter

3

## String Library

In [38]:
uppercase(fruit)

"KANANA"

## The ∈ Operator

In [39]:
'a' ∈ "banana"

true

In [40]:
'a' in "banana"

true

In [41]:
'm' ∉ "banana"

true

## String Comparison

In [42]:
"Ben" < "Bart"

false

Pourquoi ? On compare en fait caractère par caractère, le premier : ok, ensuite : 

In [43]:
Int('e')

101

In [44]:
Int('a')

97

Attention à la casse ('a' > 'A')

## Arrays

### An Array is a Sequence

In [46]:
[150, 161, 171]

3-element Array{Int64,1}:
 150
 161
 171

Un array à une dimension est toujours un vecteur COLONNE ! Et n'a qu'une seule dimension

In [47]:
[150 161 171]

1×3 Array{Int64,2}:
 150  161  171

In [48]:
["Ben", "Bart", "Freya"]

3-element Array{String,1}:
 "Ben"  
 "Bart" 
 "Freya"

In [49]:
[[1], [2,3], [4 1]]

3-element Array{Array{Int64,N} where N,1}:
 [1]   
 [2, 3]
 [4 1] 

### Arrays Are Mutuable

In [1]:
proms = [150, 161, 171]

3-element Array{Int64,1}:
 150
 161
 171

In [2]:
proms[1] = 149

149

In [3]:
proms

3-element Array{Int64,1}:
 149
 161
 171

In [4]:
proms[1:2:end]

2-element Array{Int64,1}:
 149
 171

In [5]:
for prom in proms
    println(prom)
end

149
161
171


In [6]:
for index in 1:length(proms)
    proms[index] +=1
end

In [7]:
proms

3-element Array{Int64,1}:
 150
 162
 172

In [8]:
proms + 1

MethodError: MethodError: no method matching +(::Array{Int64,1}, ::Int64)
Closest candidates are:
  +(::Any, ::Any, !Matched::Any, !Matched::Any...) at operators.jl:502
  +(!Matched::Complex{Bool}, ::Real) at complex.jl:292
  +(!Matched::Missing, ::Number) at missing.jl:93
  ...

Ne fonctionne pas, mais "comme" en Matlab, on peut rajouter un point pour effectuer l'addition sur tout l'array

In [9]:
proms .+ 1

3-element Array{Int64,1}:
 151
 163
 173

### Array Library

In [11]:
proms[4] = 172

BoundsError: BoundsError: attempt to access 3-element Array{Int64,1} at index [4]

Ici ne fonctionne pas comme en Matlab, on a besoin de push!

Pourquoi "!" ? C'est une convention, toute fonction qui modifie intrinsèquement une variable est suivie par un !

In [14]:
push!(proms, 172)

4-element Array{Int64,1}:
 150
 162
 172
 172

In [15]:
pop!(proms)

172

In [16]:
proms

3-element Array{Int64,1}:
 150
 162
 172

In [17]:
pushfirst!(proms, 164)

4-element Array{Int64,1}:
 164
 150
 162
 172

In [18]:
append!(proms, [135, 146, 156])

7-element Array{Int64,1}:
 164
 150
 162
 172
 135
 146
 156

In [19]:
sort!(proms)

7-element Array{Int64,1}:
 135
 146
 150
 156
 162
 164
 172

## Map, Filter and Reduce

In [20]:
function addall(v)
    res = 0
    for el in v
        res += el
    end
    res
end

addall (generic function with 1 method)

In [21]:
addall(proms)

1085

C'est typiquement une réduction; ici "res" est un _accumulateur_

In [23]:
v = ["Ben", "Bart", "Freya"]

3-element Array{String,1}:
 "Ben"  
 "Bart" 
 "Freya"

In [24]:
function capitalizeall(v)
    res = []
    for el in v
        push!(res, uppercase(el))
    end
    res
end

capitalizeall (generic function with 1 method)

In [25]:
capitalizeall(v)

3-element Array{Any,1}:
 "BEN"  
 "BART" 
 "FREYA"

In [26]:
function onlyodd(v)
    res = []
    for el in v 
        if el % 2 == 1
            push!(res, el)
        end
    end
    res
end
            

In [27]:
onlyodd(proms)

1-element Array{Any,1}:
 135

## Dot Syntax

In [28]:
v

3-element Array{String,1}:
 "Ben"  
 "Bart" 
 "Freya"

In [29]:
uppercase.(v)

3-element Array{String,1}:
 "BEN"  
 "BART" 
 "FREYA"

## Deleting (Inserting) Elements

In [32]:
proms

7-element Array{Int64,1}:
 135
 146
 150
 156
 162
 164
 172

In [33]:
insert!(proms, 5, 171)

8-element Array{Int64,1}:
 135
 146
 150
 156
 171
 162
 164
 172

In [34]:
deleteat!(proms,7)

7-element Array{Int64,1}:
 135
 146
 150
 156
 171
 162
 172

## Arrays and Strings

In [36]:
str = " 171 is the best prom"

" 171 is the best prom"

In [37]:
collect(str)

21-element Array{Char,1}:
 ' '
 '1'
 '7'
 '1'
 ' '
 'i'
 's'
 ' '
 't'
 'h'
 'e'
 ' '
 'b'
 'e'
 's'
 't'
 ' '
 'p'
 'r'
 'o'
 'm'

In [38]:
join(ans)

" 171 is the best prom"

## Objects and Values

In [41]:
a = "171 POL"

"171 POL"

In [40]:
b = "171 POL"

"171 POL"

In [42]:
a == b

true

In [43]:
aa = collect(a)

7-element Array{Char,1}:
 '1'
 '7'
 '1'
 ' '
 'P'
 'O'
 'L'

In [44]:
bb = collect(b)

7-element Array{Char,1}:
 '1'
 '7'
 '1'
 ' '
 'P'
 'O'
 'L'

In [45]:
aa == bb

true

Mais est-ce que les deux variables pointent vers la même position en mémoire ? (\equiv pour un triple égalité)

In [48]:
a === b

true

In [49]:
a ≡ b

true

Pour les Strings, c'est vrai

In [47]:
aa === bb

false

Pour les arrays, pas ! Pourquoi ? Tout simplement parce que "Strings are immutable" ! Par contre pour les arrays, si on en modifie 1, que se passe t il ? Impossible, donc aa et bb sont totalement différents

Deux objets qui sont identiques et immutable sont le MEME objet ! (D'ailleurs on dit que a et b sont des _alias_)

## Array Arguments

In [50]:
function deletehead!(v)
    popfirst!(v)
end

deletehead! (generic function with 1 method)

In [51]:
proms

7-element Array{Int64,1}:
 135
 146
 150
 156
 171
 162
 172

In [52]:
deletehead!(proms)

135

In [53]:
proms

6-element Array{Int64,1}:
 146
 150
 156
 171
 162
 172

Ici, v et proms sont des alias dans la fonction ! 

In [55]:
function baddeletehead(v)
    v = v[2:end]
end

baddeletehead (generic function with 1 method)

In [57]:
baddeletehead(proms)

5-element Array{Int64,1}:
 150
 156
 171
 162
 172

In [60]:
proms

6-element Array{Int64,1}:
 146
 150
 156
 171
 162
 172

On voit qu'ici on a un reassignment car proms et la réponse de baddelete ne sont pas les mêmes ! 

_Remarque_ : en Matlab, dès qu'une variable est utilisée dans une fonction, la fonction retourne une COPIE de la variable ! (Donc une énorme matrice sera copiée 2 fois, et prendra donc 2 fois plus de place ...) 

## Dictionaries

On veut maintenant autre chose qu'un naturel comme indice, un string par exemple. On crée alors un Dictionnaire

In [62]:
eng2fr = Dict()

Dict{Any,Any} with 0 entries

In [63]:
eng2fr["one"] = "un"

"un"

In [64]:
eng2fr["two"] = "two"

"two"

In [65]:
eng2fr

Dict{Any,Any} with 2 entries:
  "two" => "two"
  "one" => "un"

In [66]:
eng2du = Dict("one"=>"een", "two"=>"twee", "three"=>"drie")

Dict{String,String} with 3 entries:
  "two"   => "twee"
  "one"   => "een"
  "three" => "drie"

Pourquoi cet ordre ? A l'interieur du dictionnaire, pour chaque valeur on crée un HASH, et ceux-ci sont triés alphabetiquement

Mais pourquoi utiliser des HASH ? Pour trouver un élément, qu'il soit dans 3 ou dans 10000 : le meme temps de calcul sera nécessaire

In [67]:
eng2fr["three"]

KeyError: KeyError: key "three" not found