# Łańcuchy znaków - ciąg dalszy

### Badanie zawartości łańcucha

Ruby posiada bardzo wiele metod pozwalających na wykonywanie różnych operacji na łańcuchach. Do najprostszych z nich należy metoda `empty?`, która zwraca wartość prawdy, jeśli łańcuch jest pusty.

Przykład
```ruby
"".empty?
```

Sprawdź działanie tej metody dla co najmniej dwóch łańcuchów - pustego oraz niepustego.

In [2]:
"".empty?


true

Bardzo często używaną metodą jest `size` (to samo co `length`). Zwraca ona ilość **znaków** z których składa się łańcuch. Należy wziąć pod uwagę, że ilość znaków, nie musi równać się ilości bajtów, w szczególności dotyczy to napisów zakodowanych w standardzie Unicode (np. UTF-8). Dlatego w Rubym istnieje też metoda `bytesize`, która zwraca ilość bajtów, które napis zajmuje w pamięci.

Przykład
```ruby
"Łódź".size
"Łódź".bytesize
```

Sprawdź wynik działania tych metod dla napisów zawierających polskie znaki.

In [11]:
puts "Łódź".size 
puts "Łódź".bytesize 



4
7


### Zadanie 1

Sprawdź jaką długość w bajtach ma napis "─". Dlaczego?

In [19]:
puts "─".bytesize


3


Jak widać w wcześniejszym przykładzie, napisy mogą zawierać znaki narodowe. Czasami jednak możemy mieć problem z określeniem, w jakim kodowaniu zapisany jest napis. W tym celu można skorzystać z metody `encoding`, która zwraca kodowanie.

Przykład
```ruby
"Łódź".encoding
```

W Rubim od wersji 2.0 domyślnym kodowaniem jest UTF-8.

In [12]:
puts "Łódź".encoding


UTF-8


W tekstach często poszukujemy wystąpienia określonego znaku. Najprościej znaleźć jego położenie korzystając z metod `index` oraz `rindex`, które zwracają indeks odpowiednio pierwszego od lewej i pierwszego od prawej wystąpienia znaku.

Przykład:
```ruby
"paczka".index("a")
"paczka".rindex("a")
```

In [5]:
puts "paczka".index("p")
puts "paczka".rindex("a")

0
5


Jednakże metodą, która chyba najczęściej wykonywana jest na łańuchcach znaków jest wydobywanie z nich ich części. W tym celu wykorzystywany jest operator indeksowania `[]`. 

Do operatora można przekazać pojedynczą wartość - wtedy zostanie zwrócony pojedynczy znak (który również jest łańcuchem):
```ruby
"Łódź"[0]
```

In [16]:
"Łódź"[0]

"Ł"

Można również przekazać _zakres_ indeksów - wtedy zostanie zwróconych kilka znaków:
```ruby
"Łódź"[0..1]
``` 

In [17]:
"Łódź"[0..1]

"Łó"

Napisy indeksowane są od 0. Ale możliwe jest wykorzystywanie również indeksów ujemnych. Wtedy napis indeksowany jest od końca, przy założeniu, że ostatni znak ma indeks -1.

```ruby
"Łódź"[-2..-1]
```

In [16]:
"Łódź"[-3..-1]


"ódź"

### Zadanie 2

Załóżmy, że zmienna `url` zawiera adres zasobu sieciowego. Jak najproście wydostać ostatni element ścieżki takiego zasobu? W poniższym przykładzie napisz kod, który wydostanie napis `Polska` z całego odnośnika.

In [10]:
url="http://wikipedia.org/wiki/Polska"
pozycja =url.rindex("/")
pozycja

25

### Zmiana zawartości łańcucha

Ruby pozwala w prosty sposób zamieniać mały litery na wielkie i vice-versa. Służą do tego metody `upcase` i `downcase`.

```ruby
"Warszawa".upcase
```

In [23]:
"Warszawa".upcase

"WARSZAWA"

Niestety wsparcie dla UTF-8 nie jest kompletne, dlatego metoda ta nie działa dla polskich znaków.

```ruby
"Łódź".upcase
```

In [24]:
"Łódź".upcase

"ŁóDź"

Problem ten można rozwiązać za pomocą biblioteki `string_case_pl`. Aby można było z niej korzystać, trzeba ją wpierw zainstalować. Służy do tego polecenie `gem` - jest to menadżer bibliotek Rubiego.

Instalacja jest bardzo prosta - w linii poleceń wystarczy napisać (konieczne jest zatrzymanie IRuby):
```
gem install string_case_pl
```

Od momentu instalacji możemy korzystać z biblioteki. Wymaga to jej załadowania za pomocą polecenia `require`

```ruby
require 'string_case_pl'
"Łódź".upcase
```

In [12]:
require 'string_case_pl'
"Łódź".upcase


NameError: undefined local variable or method `string_case_pl' for main:Object

W Rubim można również łatwo "poprawić" łańcuchy, które posiadają zbędne znaki, np. spacje. Metoda `squeeze` usuwa powtarzające się znaki, które leżą obok siebie. Jeśli przekażemy do niej argument, to zostaną usunięte powtórzenia tylko tych znaków.

```ruby
"zbyt     wiele     spacji     ".squeeze(" ")
```

In [13]:
"zbyt     wiele     spacji     ".squeeze(" ")


"zbyt wiele spacji "

Metod `strip` natomiast usuwa spacje na początku i na końcu łańcucha
```ruby
"      niepotrzebne spacje          ".strip
```

In [3]:
"      niepotrzebne spacje          ".strip

"niepotrzebne spacje"

Natomiast metoda `chomp` usuwa ostatni znak, jeśli jest znakiem przejścia do nowej linii
```ruby
"hello \n".chomp
```

In [15]:
"hello \n".chomp


"hello \n"

Najważniejszymi metodami należącymi do tej grupy są jednak `sub` oraz `gsub`. Pozwalają one zmieniać zawartość łańcucha na podstawie dopasowania wyrażenia regularnego.

`sub` zmienia tylko pierwsze dopasowanie wyrażenia
```ruby
"Ala ma kota".sub(/a/,"o")
```

In [22]:
puts "Ala ma kota".sub(/a/,"o")

Alo ma kota


`gsub` zmienia wszystkie dopasowania wyrażenia
```ruby
"Ala ma kota".gsub(/a/,"o")
```

In [23]:
puts "Ala ma kota".gsub(/a/,"o")


Alo mo koto


### Zadanie 3

Napisz wyrażenie, które zastępuje w napisie wszystkie cyfry znakiem `x`. 

In [19]:
napis = "W domu było 10 kotów i 5 psów"
napis2 = napis.gsub(/[0,5,1]/,"x")
puts napis2.gsub(/i/,"oraz")



W domu było xx kotów oraz x psów


### Konwersja łańcuchów

Pomimo tego, że Ruby jest językiem _silnie typizowanym_ (tzn. nie ma w nim niejawnych konwersji pomiędzy typami), to istnieje wiele metod pozwalających na jawne zamienianie jednych wartości na inne. W przypadku łańcuchów znaków często będziemy zamieniać wartości liczbowe na łańcuchy i _vice-versa_. 

Aby zamienić liczbę na łańcuch korzystamy z metody `to_s` (robiliśmy to już wcześniej).

```ruby
10.to_s
```

Dzięki temu możemy np. skleić napis z liczbą:

```ruby
"Wartość liczby to " + 10.to_s
```

In [21]:
puts "Wartość liczby to " + 10.to_s


Wartość liczby to 10


Metoda ta akceptuje jednak wartość liczbową, która wyznacza podstawę wykorzystywaną do reprezentacji liczby. Domyślnie liczby reprezentowane są w systemie dziesiętnym, ale bardzo łatwo można wykorzystać inny system pozycyjny.

```ruby
10.to_s
10.to_s(2)
10.to_s(16)
```

In [20]:
puts 10.to_s
puts 10.to_s(2)
puts 10.to_s(16)


10
1010
a


Istnieją również metody pozwalające na konwersję w drugą stronę. Metoda `to_i` zamienia łańcuch na liczbę
```ruby
"10".to_i
"10" + "20"
"10".to_i + "20".to_i
```

In [27]:
puts "10".to_i
puts "10" + "20"
puts "10".to_i + "20".to_i

10
1020
30


Również ta metoda akceptuje parametr, który pozwala określić podstawę systemu:
```ruby
"100".to_i(2)
```

In [24]:
"8".to_i(10)

8

Obok niej istnieje również metoda `to_f`, która zamienia napis na liczbę zmiennopozycyjną
```ruby
"1.5".to_i
"1.5".to_f
```

In [30]:
puts "1.5".to_i
puts "1.5".to_f


1
1.5


### Zadanie 4

Jaką reprezentację w systemie ósemkowym ma zapisana w systemie szesnastkowym liczba "AFC"?

In [29]:
napis3 ="AFC".to_i(16)
napis4 = napis3.to_s(8)
puts napis4

5374


Ostatnim, często wykorzystywanym typem konwersji łańuchów znaków jest podział łańcucha na części. W wyniku wywołania `split` 
otrzymujemy tablicę łańcuchów, podzielonych w miejscu, w którym wystąpił znak przekazany do tej metody. Domyślnie
znakiem tym jest spacja.

```ruby
"Ala ma kota, a kot jest persem.".split
```

In [57]:
"Ala ma kota, a kot jest persem.".split


["Ala", "ma", "kota,", "a", "kot", "jest", "persem."]

Metoda ta akceptuje również wyrażenia regularne.
```ruby
"Ala ma kota, a kot jest persem.".split(/\s[,.?!]?|[,.?!]$/)
```

In [58]:
"Ala ma kota, a kot jest persem.".split(/\s[,.?!]?|[,.?!]$/)

["Ala", "ma", "kota,", "a", "kot", "jest", "persem"]

### Zadanie 5

Przetestuj wyrażenie z poprzedniego zadania z różnymi napisami zawierającymi wiele zdań.

In [59]:
puts " Ostatnim, często wykorzystywanym typem konwersji łańuchów znaków jest podział łańcucha na części. W wyniku. wywołania otrzymujemy tablicę łańcuchów, podzielonych w miejscu, w którym wystąpił znak przekazany do tej metody. Domyślnie znakiem tym jest spacja.".split(/\s[,.?!]?|[,.?!]$/)

["", "Ostatnim,", "często", "wykorzystywanym", "typem", "konwersji", "łańuchów", "znaków", "jest", "podział", "łańcucha", "na", "części.", "W", "wyniku.", "wywołania", "otrzymujemy", "tablicę", "łańcuchów,", "podzielonych", "w", "miejscu,", "w", "którym", "wystąpił", "znak", "przekazany", "do", "tej", "metody.", "Domyślnie", "znakiem", "tym", "jest", "spacja"]


### Metody modyfikujące oryginalny łańcuch

Większość metod działających na łańcuchach nie modyfikuje orginalnej wartości, lecz zwraca zmodyfikowaną kopię łańcucha. Wyjątkiem jest np. metoda `<<`, służąca do konkatenacji. Isnieje jednak szereg metod pozwalających na modyfikowanie oryginalnego łańcucha znaków. Charakteryzują się one tym, że na końcu nazwy pojawia się wykrzyknik.

Przykładowo metoda `downcase` zwraca kopię łańucha, a metoda `downcase!` modyfikuje oryginalny łańcuch
```ruby
napis = "Janek"
nowy_napis = napis.downcase
puts nowy_napis
puts napis

napis = "Janek"
nowy_napis = napis.downcase!
puts nowy_napis
puts napis
```


In [30]:
napis = "Janek"
nowy_napis = napis.downcase!
puts nowy_napis
puts napis


janek
janek


Istnieje istotna różnica pomiędzy obiema metodami. Poza tym, że metoda z wykrzyknikiem modyfikuje oryginalny łańuch, to dodatkowo - jeśli w łańcuchu nie nastąpi żadna zmiana, zwraca ona wartość `nil`.

Dlatego jeśli chcemy połączyć kilka metod modyfikujących jeden łańcuch powinniśmy wykorzystywać metody bez wykrzyknika
```ruby
puts "  POWITANIE    ZE   SPACJJAMI  ".squeeze.strip.downcase
puts "powitanie ze spacjami".squeeze.strip.downcase
puts "  POWITANIE    ZE   SPACJJAMI  ".squeeze!.strip!.downcase!
puts "powitanie ze spacjami".squeeze!.strip!.downcase!
```

In [41]:
puts "  POWITANIE    ZE   SPACJJAMI  ".squeeze.strip.downcase
puts "powitanie ze spacjami".squeeze.strip.downcase
puts "  POWITANIE    ZE   SPACJJAMI  ".squeeze!.strip.downcase!
puts "powitanie ze spacjami".squeeze.strip.downcase

powitanie ze spacjami
powitanie ze spacjami
powitanie ze spacjami
powitanie ze spacjami


### Zadanie 6

Napisz wyrażenie, które modyfikuje napis, tak, że małe litery zamienane są na wielkie, potwarzające litery "I" są usuwane, a wszystkie wystąpienia litery "A" zamieniane są na wystąpienia litery "O". Polskie litery również powinny być zamienione.

In [36]:
require 'string_case_pl'
puts "II Klasa szkoły podstawowej. Ala ma kota. To kot, a to Ala.".upcase.squeeze("I").gsub(/A/,"O")

LoadError: cannot load such file -- string_case_pl