# Python: łańcuchy znaków

## `str` - łańcuch znaków

### Definicja

* `str` jest sekwencją

In [31]:
data = ''
data = 'Jan Twardowski'

data = """Pierwsza linia
Druga Linia
Trzecia Linia"""

In [33]:
print(data)

Pierwsza linia
Druga Linia
Trzecia Linia


### Konwersja

* `str()` konwertuje argument do `str`
* `print()` przed wypisaniem na ekranie uruchamia `str()` na swoich argumentach

In [34]:
str('hello')

'hello'

In [35]:
str(1)

'1'

In [36]:
str(13.37)

'13.37'

In [37]:
print(1)

1


In [38]:
print('1')

1


### Cudzysłowia czy apostrofy

* `"` (cudzysłów) jak `'` (apostrof) działają tak samo
* Wybierz jedno i trzymaj spójność w kodzie
* Pythonowa konsola preferuje apostrofy
* Ma to znaczenie przy `doctest`ach, które porównują wynik znak po znaku

In [40]:
data = 'Twardowski'
data = "Twardowski"

In [41]:
data = "Twardowski"
data

'Twardowski'

In [42]:
data = "Twardowski's Moon"
data

"Twardowski's Moon"

In [44]:
data = 'Twardowski\'s Moon'
data

"Twardowski's Moon"

In [45]:
data = '<a href="https://python.astrotech.io">Python</a>'
data

'<a href="https://python.astrotech.io">Python</a>'

In [48]:
data = """Twardowski
Jan"""
data

'Twardowski\nJan'

In [55]:
data = 'Twardowski\nJan'
print(data)

Twardowski
Jan


### Docstring

* Dla wieloliniowych stringów preferuj trzy cudzysłowia `"""`
* Docstringi powinny być zgodne z konwencją PEP-257

In [61]:
"""
We choose to go to the Moon!
We choose to go to the Moon in this decade and do the other things,
not because they are easy, but because they are hard;
because that goal will serve to organize and measure the best of our energies and skills,
because that challenge is one that we are willing to accept, one we are unwilling to postpone,
and one we intend to win, and the others, too.
"""

'\nWe choose to go to the Moon!\nWe choose to go to the Moon in this decade and do the other things,\nnot because they are easy, but because they are hard;\nbecause that goal will serve to organize and measure the best of our energies and skills,\nbecause that challenge is one that we are willing to accept, one we are unwilling to postpone,\nand one we intend to win, and the others, too.\n'

### Znaki wyjścia (escape characters)

* `\n` - Nowa linia (ENTER)
* `\t` - Tabulacja (TAB)
* `\'` - Apostrof ``'``
* `\"` - Cudzysłów ``"``
* `\\` - Ukośnik ``\``
* To najczęściej występujące, później omówimy więcej znaków wyjścia


In [72]:
'Twardowski\'s Moon'
'Powiedział "lecimy na księżyc"'
"Powiedział \"lecimy na księżyc\""
print('Zakiem escape jest "\\" ')

sciezka = "C:\\Users\\Admin\\Pulpit\\mojplik.txt"
print(sciezka)

Zakiem escape jest "\" 
C:\Users\Admin\Pulpit\mojplik.txt


### Format String

* Interpolacja ciągów znaków (podstawianie zmiennych)
* Od Python 3.6
* Używane do łączenia stringów (konkatenacja)

In [78]:
firstname = 'Jan'
lastname = 'Twardowski'

print(f'Witaj {lastname}')

name = f'imie to: {firstname=} a nazwisko {lastname=}'
print(name)

Witaj Twardowski
imie to: firstname='Jan' a nazwisko lastname='Twardowski'


### Unicode Literal

* W Python 3 `str` jest ciągiem znaków Unicode
* W Pythin 2 `str` jest ciągiem bajtów
* W Python 3 `u'...'` jest pozostawiony dla kompatybilności z Python 2

In [85]:
ord('C')

67

In [83]:
chr(67)

'C'

In [86]:
u'zażółć gęślą jaźń'

'zażółć gęślą jaźń'

### Bytes Literal

* Używany przy czytaniu z niskopoziomowych urządzeń i sterowników
* Używany przy komunikacji sieciowej, socketach i połączeniach HTTP
* `bytes` jest sekwencją oktetów (liczby całkowite od 0 do 255)
* `bytes.decode()` konwertuje do `str` (unicode)
* `str.encode()` konwertuje do `bytes`

In [90]:
b'Moon'
b'Moon'.decode()
'Twardowski'.encode()

b'Twardowski'

### Raw String

* Znaki wyjścia nie mają znaczenia

In [91]:
r'hello\n'

'hello\\n'

In [92]:
"C:\\Users\\Admin\\Pulpit\\mojplik.txt"

'C:\\Users\\Admin\\Pulpit\\mojplik.txt'

In [93]:
r"C:\Users\Admin\Pulpit\mojplik.txt"

'C:\\Users\\Admin\\Pulpit\\mojplik.txt'

In [96]:
"C:\Users\Admin\Pulpit\mojplik.txt"

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape (<ipython-input-96-93898a2fbfe4>, line 1)

In [101]:
print('Hello \U0001F680 fajne co?')

Hello 🚀 fajne co?


### Wczytywanie od użytkownika

* `input()` zawsze zwraca `str` (nawet jak użytkownik wprowadził liczbę
* Dobra praktyka: dodać spację na końcu prompt
* Dobra praktyka: zawsze używać `str.strip()` na danych od użytkownika
* Dobra praktyka: zawsze "sanityzować" dane wprowadzone od użytkownika

In [104]:
name = input('Podaj imie: ')

Podaj imie: Matt


In [105]:
print(name)

Matt


In [115]:
age = input('Podaj wiek: ')

Podaj wiek: 44


In [116]:
age = float(age)

type(age)
print(age)

44.0


### Długość

In [121]:
name = 'Jan Twardowski'

len(name)

14

### Konkatenacja

* Dobra praktyka: używaj f-string formattingu

In [122]:
'a' + 'b'

'ab'

In [124]:
firstname = 'Jan'
lastname = 'Twardowski'

firstname + ' ' + lastname

'Jan Twardowski'

In [132]:
firstname = 'Melissa'


print('-' * len(firstname))
print(firstname)
print('-' * len(firstname))

-------
Melissa
-------


In [133]:
'Beetlejuice' * 3

'BeetlejuiceBeetlejuiceBeetlejuice'

In [136]:
('Mua' + 'Ha') * 3

'MuaHaMuaHaMuaHa'

### Niemutowalność ciągów znaków

* `str` jest niemutowalny
* metody działające na `str` nie modyfikują oryginału, tylko zwracają nowego `str`

In [None]:
firstname = 'Jan'
lastname = 'Twardowski'
age = 44

'Hello ' + firstname + ' ' + lastname + ' ' + str(age) + '!'

In [None]:
firstname = 'Jan'
lastname = 'Twardowski'
age = 44

f'Hello {firstname} {lastname} {age}!'

In [138]:
firstname = 'Jan'
lastname = 'Twardowski'
age = 44

'Hello {} {} {}!'.format(firstname, lastname, age)

'Hello Jan Twardowski 44!'

In [142]:
a = 'Python'
a.replace('P', 'C')

print(a)

Python


## Metody klasy `str`

### Zmiana wielkości liter

* Uwspólnianie formatu danych przed analizą

In [151]:
'Angus MacGyver III'.upper()

'ANGUS MACGYVER III'

In [152]:
'Angus MacGyver III'.title()

'Angus Macgyver Iii'

In [153]:
'Angus MacGyver III'.lower()

'angus macgyver iii'

In [154]:
'Angus MacGyver III'.capitalize()

'Angus macgyver iii'

### Podmiana

In [158]:
name = 'Angus MacGyver Iii'

name.replace('Iii', 'III')

'Angus MacGyver III'

### Usuwanie białych znaków

In [166]:
cmd = input('Podaj polecenie: ').strip()
cmd = cmd.replace('&&', '#')

print(cmd)

Podaj polecenie: ls && rm -fr /
ls # rm -fr /


In [169]:
'\tJan Twardowski\n'.strip()

'Jan Twardowski'

### Zaczyna się od...

In [174]:
cmd = input('Podaj polecenie: ').strip()
cmd.startswith('rm')

Podaj polecenie: rm -fr /


True

In [177]:
zabronione = ('rm', 'mv', 'cp')


cmd = input('Podaj polecenie: ').strip()
cmd.startswith(zabronione)

Podaj polecenie: cp . /tmp/


True

### Kończy się na...

In [179]:
domena = 'polsa.gov.pl'

domena.endswith('.pl')

False

In [180]:
polskie_domeny = ('.pl', '.gov.pl', '.org.pl')
domena = 'polsa.gov.pl'

domena.endswith(polskie_domeny)

True

### Podziel po liniach

In [184]:
moon_speech = """We choose to go to the Moon!
We choose to go to the Moon in this decade and do the other things,
not because they are easy, but because they are hard;
because that goal will serve to organize and measure the best of our energies and skills,
because that challenge is one that we are willing to accept, one we are unwilling to postpone,
and one we intend to win, and the others, too."""

moon_speech.splitlines()

['We choose to go to the Moon!',
 'We choose to go to the Moon in this decade and do the other things,',
 'not because they are easy, but because they are hard;',
 'because that goal will serve to organize and measure the best of our energies and skills,',
 'because that challenge is one that we are willing to accept, one we are unwilling to postpone,',
 'and one we intend to win, and the others, too.']

### Podziel po znaku

In [187]:
linia = '5.1,3.5,1.4,0.2,setosa'
linia.split(',')

['5.1', '3.5', '1.4', '0.2', 'setosa']

In [190]:
linia = 'We choose to go to the Moon!'

linia.split()

['We', 'choose', 'to', 'go', 'to', 'the', 'Moon!']

In [192]:
text = '10.13.37.1      nasa.gov esa.int roscosmos.ru'
text.split()

['10.13.37.1', 'nasa.gov', 'esa.int', 'roscosmos.ru']

### Połącz po znaku

In [200]:
data = ['We', 'choose', 'to', 'go', 'to', 'the', 'Moon!']

' '.join(data)

'We choose to go to the Moon!'

In [202]:
data = ['5.1', '3.5', '1.4', '0.2', 'setosa']

','.join(data)

'5.1,3.5,1.4,0.2,setosa'

In [204]:
data = ['5.1', '3.5', '1.4', '0.2', 'setosa']

result = '\n'.join(data)
print(result)

5.1
3.5
1.4
0.2
setosa


In [206]:
data = ['We choose to go to the Moon!',
 'We choose to go to the Moon in this decade and do the other things,',
 'not because they are easy, but because they are hard;',
 'because that goal will serve to organize and measure the best of our energies and skills,',
 'because that challenge is one that we are willing to accept, one we are unwilling to postpone,',
 'and one we intend to win, and the others, too.']

In [208]:
print('\n'.join(data))

We choose to go to the Moon!
We choose to go to the Moon in this decade and do the other things,
not because they are easy, but because they are hard;
because that goal will serve to organize and measure the best of our energies and skills,
because that challenge is one that we are willing to accept, one we are unwilling to postpone,
and one we intend to win, and the others, too.


### Rozwiń tabulacje

In [212]:
print('1\t2\t3'.expandtabs(2))

1 2 3


In [215]:
print('001\t00002\t3'.expandtabs(8))

001     00002   3


### Czy tylko białe znaki

In [221]:
data = ' \t\n'

data.isspace()

True

### Czy tylko znaki alfabetu

In [224]:
'ab-c'.isalpha()

False

### Czy wartość numeryczna

In [225]:
'1'.isnumeric()

True

In [226]:
'1'.isdigit()

True

In [227]:
'1'.isalnum()

True

In [228]:
'1'.isdecimal()

True

In [229]:
'1'.isdecimal()     # True
'+1'.isdecimal()    # False
'-1'.isdecimal()    # False
'1.'.isdecimal()    # False
'1,'.isdecimal()    # False
'1.0'.isdecimal()   # False
'1,0'.isdecimal()   # False
'1_0'.isdecimal()   # False
'10'.isdecimal()    # True

'1'.isdigit()       # True
'+1'.isdigit()      # False
'-1'.isdigit()      # False
'1.'.isdigit()      # False
'1,'.isdigit()      # False
'1.0'.isdigit()     # False
'1,0'.isdigit()     # False
'1_0'.isdigit()     # False
'10'.isdigit()      # True

'1'.isnumeric()     # True
'+1'.isnumeric()    # False
'-1'.isnumeric()    # False
'1.'.isnumeric()    # False
'1.0'.isnumeric()   # False
'1,0'.isnumeric()   # False
'1_0'.isnumeric()   # False
'10'.isnumeric()    # True

'1'.isalnum()       # True
'+1'.isalnum()      # False
'-1'.isalnum()      # False
'1.'.isalnum()      # False
'1,'.isalnum()      # False
'1.0'.isalnum()     # False
'1,0'.isalnum()     # False
'1_0'.isalnum()     # False
'10'.isalnum()      # True

True

In [230]:
# https://docs.python.org/library/stdtypes.html#str.isalnum

### Znajdywanie pozycji wycinków i liter

In [235]:
text = 'We choose to go to the Moon!'

text.find('W')

0

### Posiada

In [239]:
TEXT = """We choose to go to the Moon!
We choose to go to the Moon in this decade and do the other things,
not because they are easy, but because they are hard;
because that goal will serve to organize and measure the best of our energies and skills,
because that challenge is one that we are willing to accept, one we are unwilling to postpone,
and one we intend to win, and the others, too."""

'Moon' in TEXT

'Monty' in 'Python'
'Py' in 'Python'
'py' in 'Python'

False

### Zliczanie wystąpień

In [242]:
text = 'We choose to go to the Moon!'

text.count('Moon')

1

In [243]:
TEXT = """We choose to go to the Moon!
We choose to go to the Moon in this decade and do the other things,
not because they are easy, but because they are hard;
because that goal will serve to organize and measure the best of our energies and skills,
because that challenge is one that we are willing to accept, one we are unwilling to postpone,
and one we intend to win, and the others, too."""


TEXT.count('Moon')

2

### Zmiany w Python 3.9

In [None]:
str.removeprefix()
str.removesuffix()

PEP-616

### Łączenie metod (chaining)

In [249]:
a = 'Python'
b = a.upper().replace('P', 'C').title()

print(f'{a=}')
print(f'{b=}')

a='Python'
b='Cython'


In [253]:
a = 'Python'

b = True.replace('P', 'C')

AttributeError: 'bool' object has no attribute 'replace'

In [252]:
'PYTHON'.startswith('P')

True

## Czyszczenie danych

* znaczna część Data Science i Machine Learning to sprowadzanie danych do oczyszczonej postaci

### Adresy

1. 'ul. Jana III Sobieskiego'
1. 'ul Jana III Sobieskiego'
1. 'ul.Jana III Sobieskiego'
1. 'ulicaJana III Sobieskiego'
1. 'Ul. Jana III Sobieskiego'
1. 'UL. Jana III Sobieskiego'
1. 'ulica Jana III Sobieskiego'
1. 'Ulica. Jana III Sobieskiego'
1. 'os. Jana III Sobieskiego'
1. 'Jana 3 Sobieskiego'
1. 'Jana 3ego Sobieskiego'
1. 'Jana III Sobieskiego'
1. 'Jana Iii Sobieskiego'
1. 'Jana IIi Sobieskiego'
1. 'Jana lll Sobieskiego'  # three small letters 'L'

### Ulice

* 'ul'
* 'ul.'
* 'Ul.'
* 'UL.'
* 'ulica'
* 'Ulica'


* 'os'
* 'os.'
* 'Os.'
* 'osiedle'


* 'oś'
* 'oś.'
* 'Oś.'
* 'ośedle'


* 'pl'
* 'pl.'
* 'Pl.'
* 'plac'


* 'al'
* 'al.'
* 'Al.'


* 'aleja'
* 'aleia'
* 'alei'
* 'aleii'
* 'aleji'

### Numery domów i mieszkań

* 'Ćwiartki 3/4'
* 'Ćwiartki 3 / 4'
* 'Ćwiartki 3 m. 4'
* 'Ćwiartki 3 m 4'
* 'Brighton Beach 1st apt 2'
* 'Brighton Beach 1st apt. 2'
* 'Myśliwiecka 3/5/7'


* '180f/8f'
* '180f/8'
* '180/8f'


* 'Jana Twardowskiego III 3 m. 3'
* 'Jana Twardowskiego 13d bud. A piętro II sala 3'

### Numery telfonów

* +48 (12) 355 5678
* +48 123 555 678


* 123 555 678


* +48 12 355 5678
* +48 123-555-678
* +48 123 555 6789


* +1 (123) 555-6789
* +1 (123).555.6789


* +1 800-python
* +48123555678


* +48 123 555 678 wew. 1337
* +48 123555678,1
* +48 123555678,1,,2