![alt text](../../pythonexposed-high-resolution-logo-black.jpg "Optionele titel")

### Veelvoorkomende methoden voor strings

Voor een volledige lijst van alle string methoden, zie:
https://docs.python.org/3/library/stdtypes.html#string-methods

#### Hoofdletteromzettingen

We bekijken drie methoden voor het toewijzen van hoofdlettergebruik:

In [1]:
message = 'The definitive guide to Python'

We kunnen deze karakters toewijzen aan hoofdletters:

In [2]:
message.upper()

'THE DEFINITIVE GUIDE TO PYTHON'

of naar kleine letters:

In [3]:
message.lower()

'the definitive guide to python'

Soms kan titlelcase effectief zijn voor weergavedoeleinden:

In [4]:
message.title()

'The Definitive Guide To Python'

We moeten een beetje voorzichtig zijn met hoofdlettergebruik. Het lijkt voor de hand te liggen dat de hoofdletterequivalent van `a` `A` is, en de kleine letterequivalent van `A` is `a`.  Maar veel talen hebben geen hoofd- en kleine letters!

De unicode-standaard definieert de mapping tussen kleine en hoofdlettervarianten, bijvoorbeeld https://www.compart.com/en/unicode/U+03B1 vertelt ons dat de hoofdlettervariant voor het alfa-teken dat we eerder zagen (`U+03B1`) gedefinieerd is als het unicode-teken `U+0391`.

In [1]:
l = '\u03B1'
u = '\u0391'
onze_A = 'A'

In [2]:
l, u

('α', 'Α')

In [3]:
l.upper() == u

True

In [4]:
l.upper() == onze_A

False

En wat dacht je van die slang emoji die we net zagen?

In [8]:
python = '🐍'

In [9]:
python.lower()

'🐍'

In [10]:
python.upper()

'🐍'

Zoals we kunnen zien, is er geen verschil in de visuele output, en in feite zijn de karakters aan elkaar gelijk:

In [11]:
python.lower() == python.upper()

True

De reden dat ik dit vermeld is dat sommige mensen hoofdletteromzettingen gebruiken om "hoofdletteronafhankelijke" overeenkomsten uit te voeren - dit is over het algemeen geen goede aanpak en wordt eigenlijk niet aanbevolen door de Unicode-standaard.

Stel dat we te maken hebben met een dataset die een kolom met merknamen bevat. We willen aan elke rij in de dataset een merk-ID toewijzen op basis van een zoekopdracht in een merkentabel.

Het probleem is dat de merknamen in de dataset niet schoon zijn - ze kunnen anders zijn dan wat we hebben in onze zoektabel.

Laten we aannemen dat we een gestandaardiseerde merknaam hebben in onze zoeklijst:

In [56]:
brand = 'BMW'

Stel dat de rij in onze dataset een merknaam bevat zoals: `bmw`, of `Bmw`

We willen dat afstemmen op onze standaard merknaam.

Dit kunnen we doen door de dataset merknaam te matchen met dezelfde letterhoofdlettergebruik als onze zoekopdracht:

In [57]:
row_brand = 'bmw'

In [58]:
brand == row_brand

False

In [59]:
brand.upper() == row_brand.upper()

True

of, we kunnen in plaats daarvan kleine letters gebruiken:

In [60]:
brand.lower() == row_brand.lower()

True

Dat lijkt prima te werken, maar overweeg dit voorbeeld:

In [1]:
street = 'stra\N{LATIN SMALL LETTER SHARP S}e'

In [2]:
street

'straße'

In [63]:
street.upper()

'STRASSE'

Je zult daar merken dat de hoofdletter van dat `sz` teken, `SS` is - en dat zijn eigenlijk twee standaard `S` karakters:

In [64]:
len(street), len(street.upper())

(6, 7)

Zoals je kunt zien, leidt de conversie naar hoofdletters tot één extra karakter. Dit betekent dat we problemen kunnen tegenkomen als we case mappings proberen te gebruiken voor case-insensitieve vergelijkingen.

In [65]:
data = 'STRASSE'

In [66]:
street.lower() == data.lower()

False

Dus krijgen we `False`, ook al zijn deze technisch gezien gelijk vanuit een niet-hoofdlettergevoelig perspectief:

#### Hoofdletteromzetting

De betere aanpak is iets wat **case folding** wordt genoemd - wat specifiek is ontwikkeld om te helpen bij case-insensitieve vergelijkingen.

Case folding wordt eigenlijk gedefinieerd door de Unicode-standaard en wordt gebruikt om hoofdletteronafhankelijke vergelijkingen uit te voeren. Hoewel het eruit kan zien alsof case folding gewoon kleine letters gebruikt, is dat **niet** altijd het geval.

Laten we onze `street` en `data` vergelijking nogmaals proberen, dit keer met behulp van 'folding':

In [23]:
street.casefold() == data.casefold()

True

Merk op dat we geen hoofdlettervouwing gebruiken voor weergavedoeleinden, alleen voor interne hoofdletterongevoelige vergelijkingen.

Dit lost echter niet al onze problemen op, soms moeten we omgaan met andere kwesties die verband houden met hoe unicode karakters er hetzelfde **uit** kunnen zien, maar dat in feite niet zijn, helemaal niet hetzelfde karakter.

Bijvoorbeeld:

In [24]:
s1 = 'ê'
s2 = 'ê'

In [25]:
s1 == s2

False

Dit komt doordat we hetzelfde karakter visueel zien (de tekens), maar gebaseerd op twee verschillende definities:

In [26]:
s1 = '\N{LATIN SMALL LETTER E WITH CIRCUMFLEX}'
s2 = '\N{LATIN SMALL LETTER E}\N{COMBINING CIRCUMFLEX ACCENT}'

In [27]:
s1, s2, s1 == s2

('ê', 'ê', False)

Hoe dit probleem opgelost kan worden vereist een dieper begrip van Unicode, en valt buiten de reikwijdte van deze cursus.

#### Strippen van een tekenreeks

Vaak wanneer we werken met stringgegevens, moeten we karakters aan het begin en/of einde van de string verwijderen.

Bijvoorbeeld, we kunnen deze string hebben:

In [28]:
name = 'Peter '

Zoals je kunt zien is er een achtergebleven spatie die we misschien willen verwijderen:

In [29]:
name.rstrip(' ')

'Peter'

Hier hebben we specifiek een `spatie` aan de **rechterkant** van de string verwijderd.

Als we geen argument specificeren, zal Python **witruimte** (spaties, newlines, tabs enz) aan beide uiteinden verwijderen.

In [67]:
name = '\t Peter\tJones\t'

In [68]:
print(name)

	 Peter	Jones	


We kunnen zowel de tabs als spaties van beide uiteinden van de string verwijderen:

In [69]:
name.strip()

'Peter\tJones'

Natuurlijk wordt het tabteken `\t` in het midden van de string niet verwijderd.

We kunnen ook onze eigen karakterreeks opgeven om weg te strippen (zoals we zojuist hebben gezien), of zelfs meerdere karakters:

In [1]:
s = 'ababPYTHONabab'

In [2]:
s.strip('ab')

'PYTHON'

#### Concatenatie

De `+` operator werkt voor strings door een nieuwe string te maken door de strings samen te voegen:

In [35]:
'Python' + ' ' + 'rocks' + '!'

'Python rocks!'

#### Het splitten van strings

Soms kunnen we een reeks karakters in een string hebben die op enigerlei wijze begrensd zijn. Bijvoorbeeld, denk aan een rij met gegevens in een CSV-bestand - de velden (of kolommen) in het bestand zijn gescheiden (begrensd) door komma's (meestal).

Python heeft gespecialiseerde tools voor het omgaan met CSV-gegevens, maar er zijn andere niet-CSV-gerelateerde gevallen waar we een string moeten opsplitsen in een lijst op basis van een bepaalde scheidingsteken.

Bijvoorbeeld, stel dat we deze data hebben:

In [20]:
data = "Jones,Peter is momenteel in Brugge data science aan het volgen"

In [14]:
data==data2

True

In [28]:
naam = data.split(' ')[0]
naam = naam.split(',')[1], naam.split(',')[0]

In [32]:
type(naam)
voornaam = naam[0]
voornaam

'Peter'

Hier willen we dit opsplitsen in voornaam / achternaam.

Dit kunnen we doen door de string op het  `,` karakter te splitsen.

In [22]:
split_data

['Jones', 'Peter is momenteel in Brugge data science aan het volgen']

Zoals je kunt zien hebben we nu een lijst die gesplitst is op de `,`, en we kunnen deze extracten door middel van unpacking:

In [39]:
last, first = data.split(',')

In [40]:
last

'Jones'

In [41]:
first

'Peter'

#### Samenvoegen van Strings

Dit is in feite het omgekeerde van het splitsen van strings.

We kunnen een string creëren uit een iterable van strings, waarbij we de verbindingskarakters (nul of meer) specificeren:

In [33]:
data = ['item 1', 'item 2', 'item 3']

In [36]:
', '.join(data)

'item 1, item 2, item 3'

Onthoud dat strings iterables zijn, dus we zouden zelfs iets als dit kunnen doen:

In [44]:
','.join('ABCD')

'A,B,C,D'

#### Substrings

We kunnen eenvoudig testen of een reeks karakters aanwezig is in een andere reeks door de `in` operator te gebruiken:

In [45]:
'rock' in 'python rocks!'

True

Natuurlijk, dit is hoofdlettergevoelig:

In [46]:
'Python' in 'python rocks!'

False

Om een case insensitive containment test te gebruiken, kunnen we case folding gebruiken:

In [47]:
'Python'.casefold() in 'python rocks!'.casefold()

True

Deze test is alleen om te controleren of een string een substring bevat, en vertelt ons niet waar de deelstring zich bevindt in de hoofdstring (als deze er al is) - maar vaak is dit alles wat we nodig hebben, en hebben we niet de extra kosten nodig van het bepalen niet alleen of de deelstring aanwezig is, maar waar het zich bevindt.

Containment werkt eigenlijk voor elk sequentietype:

In [70]:
1 in [1, 2, 3]

True

In [71]:
'abc' in ('abc', 'def')

True

Voor strings kunnen we deze test op bepaling van bevattting verder verfijnen om te bepalen of een string begint of eindigt met een specifieke substring:

In [50]:
'Python rocks'.startswith('Python')

True

In [51]:
'Python rocks'.endswith('rocks')

True

In [52]:
'Python rocks'.startswith('rocks')

False

Om de index van het begin van de substring te vinden, kunnen we de `index`- of `find`-methoden gebruiken. Het belangrijkste verschil tussen de twee is dat `index` een uitzondering zal geven als de substring niet wordt gevonden, terwijl `find` gewoon een waarde `-1` zal teruggeven:

In [22]:
message = 'To every action there is always an equal and opposite reaction.'

In [23]:
message.index('every')

3

Maar als we proberen een subreeks te vinden die niet bestaat:

In [24]:
message.index('Newton')

ValueError: substring not found

Standaard geeft de index methode het index terug van het eerste voorkomen van de deelstring (indien aanwezig). Bijvoorbeeld, in de bovenstaande `message` komen de karakters `action` twee keer voor:

In [25]:
message.index('action')

9

Zoals je kunt zien, wordt de index geretourneerd voor het eerste voorkomen van de deelreeks `action`.


We kunnen de help-documentatie voor `index` bekijken, door het volgende in Jupyter in te typen:

In [26]:
?str.index

[0;31mDocstring:[0m
S.index(sub[, start[, end]]) -> int

Return the lowest index in S where substring sub is found,
such that sub is contained within S[start:end].  Optional
arguments start and end are interpreted as in slice notation.

Raises ValueError when the substring is not found.
[0;31mType:[0m      method_descriptor

Zoals je kunt zien in de docstring voor `index`, kunnen we een slice specificeren waarbinnen we naar de subreeks zoeken, dus om de volgende voorkomen van `action` te vinden, hoeven we eenvoudigweg het begin van de slice in te stellen op de index **na** het einde van de huidige subreeks:

In [31]:
start_index = message.index('action') + len('action')

In [32]:
start_index

15

En we kunnen nu opnieuw zoeken naar die deelreeks:

In [33]:
message.index('action', start_index)

56

De `find`-methode werkt op een vergelijkbare manier, maar werpt geen uitzondering op als de deelstring niet wordt gevonden:

In [34]:
message.find('always')

25

In [35]:
message.find('Newton')

-1

We zullen later in deze cursus leren hoe we uitzonderingen moeten afhandelen, maar kies de methode die het meest logisch is in de context van jouw code.

Bijvoorbeeld, we kunnen wat code hebben gestructureerd om een ​​reeks bewerkingen uit te voeren als de deelreeks niet wordt gevonden:

We zouden het op deze manier kunnen doen:

In [36]:
start = message.find('Newton')
if start == -1:
    print('not found...')

doing some complex operations here...


Persoonlijk geef ik de voorkeur aan deze volgende aanpak, omdat het voor mij duidelijker is wat er gebeurt en niet afhankelijk is van "magische" getallen:

In [38]:
try:
    start = message.index('Newton')
except ValueError:
    print('doing some complex operations here...')

doing some complex operations here...


Wat interessant is aan `index` is dat het eigenlijk werkt voor andere sequentietypen zoals lijsten en tuples:

In [39]:
data = ['a', 'b', 'c', 'd']

In [40]:
data.index('b')

1

`find` daarentegen is specifiek voor enkel strings.

Een laatste ding, ik heb vermeld dat als je alleen geïnteresseerd bent in weten of een substring **aanwezig** is in een string, de `in` operator veel sneller is!

In [73]:
from timeit import timeit

In [74]:
message = 'Imagination is more important than knowledge - Einstein'

In [75]:
timeit("'Einstein' in message", globals=globals(), number=10_000_000)

0.40958926099847304

In [76]:
timeit("message.find('Einstein')", globals=globals(), number=10_000_000)

0.9294789790001232

In [77]:
timeit("message.index('Einstein')", globals=globals(), number=10_000_000)

1.0461625759999151