# Łańcuchy znaków - ciąg dalszy

### Badanie zawartości łańcucha

Ruby posiada bardzo wiele metod pozwalających na wykonywanie różnych operacji na łańcuchach. Do najprostszych z nich należy metoda `empty?`, która zwraca wartość prawdy, jeśli łańcuch jest pusty.

Przykład
```ruby
"".empty?
```

Sprawdź działanie tej metody dla co najmniej dwóch łańcuchów - pustego oraz niepustego.

In [1]:
"".empty?
"Ola".empty?

false

Bardzo często używaną metodą jest `size` (to samo co `length`). Zwraca ona ilość **znaków** z których składa się łańcuch. Należy wziąć pod uwagę, że ilość znaków, nie musi równać się ilości bajtów, w szczególności dotyczy to napisów zakodowanych w standardzie Unicode (np. UTF-8). Dlatego w Rubym istnieje też metoda `bytesize`, która zwraca ilość bajtów, które napis zajmuje w pamięci.

Przykład
```ruby
"Łódź".size
"Łódź".bytesize
```

Sprawdź wynik działania tych metod dla napisów zawierających polskie znaki.

In [4]:
"Łódź".size
"Łódź".bytesize

7

### Zadanie 1

Sprawdź jaką długość w bajtach ma napis "─". Dlaczego?

In [5]:
string = "─"
string.bytesize

3

Jak widać w wcześniejszym przykładzie, napisy mogą zawierać znaki narodowe. Czasami jednak możemy mieć problem z określeniem, w jakim kodowaniu zapisany jest napis. W tym celu można skorzystać z metody `encoding`, która zwraca kodowanie.

Przykład
```ruby
"Łódź".encoding
```

W Rubim od wersji 2.0 domyślnym kodowaniem jest UTF-8.

In [6]:
"Łódź".encoding

#<Encoding:UTF-8>

W tekstach często poszukujemy wystąpienia określonego znaku. Najprościej znaleźć jego położenie korzystając z metod `index` oraz `rindex`, które zwracają indeks odpowiednio pierwszego od lewej i pierwszego od prawej wystąpienia znaku.

Przykład:
```ruby
"paczka".index("a")
"paczka".rindex("a")
```

In [7]:
"paczka".rindex("a")

5

Jednakże metodą, która chyba najczęściej wykonywana jest na łańuchcach znaków jest wydobywanie z nich ich części. W tym celu wykorzystywany jest operator indeksowania `[]`. 

Do operatora można przekazać pojedynczą wartość - wtedy zostanie zwrócony pojedynczy znak (który również jest łańcuchem):
```ruby
"Łódź"[0]
```

In [8]:
"Łódź"[0]

"Ł"

Można również przekazać _zakres_ indeksów - wtedy zostanie zwróconych kilka znaków:
```ruby
"Łódź"[0..1]
``` 

In [9]:
"Łódź"[0..1]

"Łó"

Napisy indeksowane są od 0. Ale możliwe jest wykorzystywanie również indeksów ujemnych. Wtedy napis indeksowany jest od końca, przy założeniu, że ostatni znak ma indeks -1.

```ruby
"Łódź"[-2..-1]
```

In [10]:
"Łódź"[-2..-1]

"dź"

### Zadanie 2

Załóżmy, że zmienna `url` zawiera adres zasobu sieciowego. Jak najproście wydostać ostatni element ścieżki takiego zasobu? W poniższym przykładzie napisz kod, który wydostanie napis `Polska` z całego odnośnika.

In [18]:
url = "http://pl.wikipedia.org/wiki/Polska"
dlugosc = url.length
ukosnik = url.rindex("/")
url[ukosnik+1..dlugosc]


"Polska"

### Zmiana zawartości łańcucha

Ruby pozwala w prosty sposób zamieniać mały litery na wielkie i vice-versa. Służą do tego metody `upcase` i `downcase`.

```ruby
"Warszawa".upcase
```

In [19]:
"Warszawa".upcase

"WARSZAWA"

Niestety wsparcie dla UTF-8 nie jest kompletne, dlatego metoda ta nie działa dla polskich znaków.

```ruby
"Łódź".upcase
```

In [20]:
"Łódź".upcase

"ŁóDź"

Problem ten można rozwiązać za pomocą biblioteki `string_case_pl`. Aby można było z niej korzystać, trzeba ją wpierw zainstalować. Służy do tego polecenie `gem` - jest to menadżer bibliotek Rubiego.

Instalacja jest bardzo prosta - w linii poleceń wystarczy napisać (konieczne jest zatrzymanie IRuby):
```
gem install string_case_pl
```

Od momentu instalacji możemy korzystać z biblioteki. Wymaga to jej załadowania za pomocą polecenia `require`

```ruby
require 'string_case_pl'
"Łódź".upcase
```

In [2]:
require 'string_case_pl'
"Łódź".upcase

"ŁÓDŹ"

W Rubim można również łatwo "poprawić" łańcuchy, które posiadają zbędne znaki, np. spacje. Metoda `squeeze` usuwa powtarzające się znaki, które leżą obok siebie. Jeśli przekażemy do niej argument, to zostaną usunięte powtórzenia tylko tych znaków.

```ruby
"zbyt     wiele     spacji     ".squeeze(" ")
```

In [3]:
"zbyt     wiele     spacji     ".squeeze(" ")

"zbyt wiele spacji "

Metod `strip` natomiast usuwa spacje na początku i na końcu łańcucha
```ruby
"      niepotrzebne spacje          ".strip
```

In [4]:
"      niepotrzebne spacje          ".strip

"niepotrzebne spacje"

Natomiast metoda `chomp` usuwa ostatni znak, jeśli jest znakiem przejścia do nowej linii
```ruby
"hello \n".chomp
```

In [5]:
"hello \n".chomp

"hello "

Najważniejszymi metodami należącymi do tej grupy są jednak `sub` oraz `gsub`. Pozwalają one zmieniać zawartość łańcucha na podstawie dopasowania wyrażenia regularnego.

`sub` zmienia tylko pierwsze dopasowanie wyrażenia
```ruby
"Ala ma kota".sub(/a/,"o")
```

In [6]:
"Ala ma kota".sub(/a/,"o")

"Alo ma kota"

`gsub` zmienia wszystkie dopasowania wyrażenia
```ruby
"Ala ma kota".gsub(/a/,"o")
```

In [7]:
"Ala ma kota".gsub(/a/,"o")

"Alo mo koto"

### Zadanie 3

Napisz wyrażenie, które zastępuje w napisie wszystkie cyfry znakiem `x`. 

In [9]:
napis = "W domu było 10 kotów i 5 psów"
napis.gsub(/\d/,"x")
napis.gsub(/\d+/,"x")
# Tutaj wstaw kod zamieniający cyfry na znak x.
# Rezultatem jego wywołania powinien być napis "W domu było xx kotów oraz x psów"
# Możesz również napisać wyrażenie, którego rezultatem jest napis "W domu było x kotów oraz x psów"

"W domu było x kotów i x psów"

### Konwersja łańcuchów

Pomimo tego, że Ruby jest językiem _silnie typizowanym_ (tzn. nie ma w nim niejawnych konwersji pomiędzy typami), to istnieje wiele metod pozwalających na jawne zamienianie jednych wartości na inne. W przypadku łańcuchów znaków często będziemy zamieniać wartości liczbowe na łańcuchy i _vice-versa_. 

Aby zamienić liczbę na łańcuch korzystamy z metody `to_s` (robiliśmy to już wcześniej).

```ruby
10.to_s
```

Dzięki temu możemy np. skleić napis z liczbą:

```ruby
"Wartość liczby to " + 10.to_s
```

In [10]:
"Wartość liczby to " + 10.to_s

"Wartość liczby to 10"

Metoda ta akceptuje jednak wartość liczbową, która wyznacza podstawę wykorzystywaną do reprezentacji liczby. Domyślnie liczby reprezentowane są w systemie dziesiętnym, ale bardzo łatwo można wykorzystać inny system pozycyjny.

```ruby
10.to_s
10.to_s(2)
10.to_s(16)
```

In [11]:
10.to_s(16)

"a"

Istnieją również metody pozwalające na konwersję w drugą stronę. Metoda `to_i` zamienia łańcuch na liczbę
```ruby
"10".to_i
"10" + "20"
"10".to_i + "20".to_i
```

In [12]:
"10".to_i + "20".to_i

30

Również ta metoda akceptuje parametr, który pozwala określić podstawę systemu:
```ruby
"100".to_i(2)
```

In [13]:
"100".to_i(2)

4

Obok niej istnieje również metoda `to_f`, która zamienia napis na liczbę zmiennopozycyjną
```ruby
"1.5".to_i
"1.5".to_f
```

In [14]:
"1.5".to_f

1.5

### Zadanie 4

Jaką reprezentację w systemie ósemkowym ma zapisana w systemie szesnastkowym liczba "AFC"?

In [16]:
"AFC".to_i(16).to_s(8)

"5374"

Ostatnim, często wykorzystywanym typem konwersji łańuchów znaków jest podział łańcucha na części. W wyniku wywołania `split` 
otrzymujemy tablicę łańcuchów, podzielonych w miejscu, w którym wystąpił znak przekazany do tej metody. Domyślnie
znakiem tym jest spacja.

```ruby
"Ala ma kota, a kot jest persem.".split
```

In [17]:
"Ala ma kota, a kot jest persem.".split

["Ala", "ma", "kota,", "a", "kot", "jest", "persem."]

Metoda ta akceptuje również wyrażenia regularne.
```ruby
"Ala ma kota, a kot jest persem.".split(/\s[,.?!]?|[,.?!]$/)
```

In [18]:
"Ala ma kota, a kot jest persem.".split(/\s[,.?!]?|[,.?!]$/)

["Ala", "ma", "kota,", "a", "kot", "jest", "persem"]

### Zadanie 5

Przetestuj wyrażenie z poprzedniego zadania z różnymi napisami zawierającymi wiele zdań.

In [19]:
"Dzień dobry! Pozdrawiam serdecznie! Ola".split(/\s[,.?!]?|[,.?!]$/)

["Dzień", "dobry!", "Pozdrawiam", "serdecznie!", "Ola"]

### Metody modyfikujące oryginalny łańcuch

Większość metod działających na łańcuchach nie modyfikuje orginalnej wartości, lecz zwraca zmodyfikowaną kopię łańcucha. Wyjątkiem jest np. metoda `<<`, służąca do konkatenacji. Isnieje jednak szereg metod pozwalających na modyfikowanie oryginalnego łańcucha znaków. Charakteryzują się one tym, że na końcu nazwy pojawia się wykrzyknik.

Przykładowo metoda `downcase` zwraca kopię łańucha, a metoda `downcase!` modyfikuje oryginalny łańcuch
```ruby
napis = "Janek"
nowy_napis = napis.downcase
puts nowy_napis
puts napis

napis = "Janek"
nowy_napis = napis.downcase!
puts nowy_napis
puts napis
```


In [21]:
napis = "Janek"
nowy_napis = napis.downcase
puts nowy_napis
puts napis

janek
Janek


Istnieje istotna różnica pomiędzy obiema metodami. Poza tym, że metoda z wykrzyknikiem modyfikuje oryginalny łańuch, to dodatkowo - jeśli w łańcuchu nie nastąpi żadna zmiana, zwraca ona wartość `nil`.

Dlatego jeśli chcemy połączyć kilka metod modyfikujących jeden łańcuch powinniśmy wykorzystywać metody bez wykrzyknika
```ruby
puts "  POWITANIE    ZE   SPACJJAMI  ".squeeze.strip.downcase
puts "powitanie ze spacjami".squeeze.strip.downcase
puts "  POWITANIE    ZE   SPACJJAMI  ".squeeze!.strip!.downcase!
puts "powitanie ze spacjami".squeeze!.strip!.downcase!
```puts "powitanie ze spacjami".squeeze!.strip!.downcase!

### Zadanie 6

Napisz wyrażenie, które modyfikuje napis, tak, że małe litery zamienane są na wielkie, potwarzające litery "I" są usuwane, a wszystkie wystąpienia litery "A" zamieniane są na wystąpienia litery "O". Polskie litery również powinny być zamienione.

In [23]:
napis = "II Klasa szkoły podstawowej. Ala ma kota. To kot, a to Ala."
napis.upcase.squeeze("I").gsub(/A/,"O")

"I KLOSO SZKOŁY PODSTOWOWEJ. OLO MO KOTO. TO KOT, O TO OLO."