# Datatyper

I förra föreläsningen märkte ni att vissa funktioner, såsom ``round``, ``max`` och ``sum`` ställde krav på argumentens typ, de var tvunget numeriska. Detta är väldigt vanligt, och de flesta funktioner har sådana krav på sina argument. 

I Python har alla variabler en *datatyp*. Språket har följande datatyper:

- Numeriska:
    - Heltal (*int*, *integer*)
    - Flyttal (*float*, *floating point*)
- Strängar
- Booleaner

Vi har redan stött på flera av dessa i första tillfället, men vi ska nu formalisera skillnaden.

<img src="typer.PNG" width="700" align="center"/>

<!-- 
Det finns många olika sätt att spara information i variabel i Python, och vi har redan sett de flesta av dem vid första tillfället. 
Starten på det här tillfället blir alltså en möjlighet till lite repitition, men också reflektion om skillnaden 
och vad det innebär när vi använder språket. 

Vi kan undersöka vilken typ av data vi jobbar med genom att använda den inbyggda funktionen <code>type()</code>.
Vi kan skriva <code>type(ditt_variabel)</code> och kan få alla dessa svar tillbaka:
    
<code>int<br>float<br>str<br>complex<br>list<br>tuple<br>range<br>dict<br>set<br>frozenset<br>bool<br>bytes<br>bytearray<br>memoryview</code>

Vi kommer att kort repetera heltal (int), decimaltal (float), sträng (str) och listor (list). 
Nytt är boleanska (bool) och att skapa en ordbok (dict). -->

## Heltal och flyttal
Heltal (*ints*, *integers*) är en så kallad numerisk typ som representeras med siffror, den andra är flyttal. Flyttal kallas ibland för decimaltal, men vi kommer snart att klargöra varför det namnet inte används.

Detta kan verka väldigt basalt att göra skillnad på heltal och flyttal, då man gjorde det senast på lågstadiet. Faktum är dock att heltal och flyttal har helt olika egenskaper.

Heltal betecknar tal som används för uppräkning eller ordning. Det jobbar exempelvis ungefär 6500 personer på GU, och i skrivande stund har hälften av dem tillgång till sin mejl.

Man *kan* inte använda flyttal för att representera antal, eftersom det implicerar att man också kan ha halva människor, och andra bråkdelar av anställda. Inte heller kan man komma på 2.5:e plats i en tävling. En annan viktig användning av heltal är index (som ju är ekvivalent med ordning), exempelvis i listor. Givet en lista ``x`` kan man ange ``x[0]`` men inte ``x[0.5]``.

I Python anges heltal med siffror utan decimalpunkt. 0 är alltså ett heltal, men 0.0 och 0.5 är så kallade flyttal. Tal med decimalpunkt kallas flyttal, eller *floats*, *floating point numbers* på engelska då detta avser att punkten "flyter" längs olika positioner i talet. 

Vi illustrerar med ett exempel. Antal anställda på GU låter vi vara 6499. Om vi dividerar det med två erhålls ett flyttal, som alltså antyder en halv människa på någon avdelning.

In [2]:
n_employees = 6499

employees_wo_email = n_employees/2

print(employees_wo_email)

3249.5


I Python finns dock så kallad heltalsdivision (``//``), som förkastar resten vid division:

In [3]:
employees_wo_email = n_employees//2

print(employees_wo_email)

3249


Att växla mellan heltal och flyttal är oftast smärtfritt, och görs med de inbyggda funktionerna ``int`` och ``float``. Detta kallas typkastning:

In [4]:
int(5.0)

5

In [5]:
float(5)

5.0

Man ska vara försiktig vid typkastning dock, eftersom det inte är väldefinierat att gå från flyttal till heltal. Detta är ett så kallat avrundningsproblem. I Python förkastas decimaldelen av talet när man går från flyttal till heltal.

In [6]:
int(5.7)

5

Vid aritmerik med numeriska typer sker i allmänhet automatisk typkastning. Det innebär allt som oftast att heltal konverteras till flyttal.

In [8]:
print(1+17)
print(1+17.0)

18
18.0


Om man är osäker på vilken typ en variabel har, kan man använda den inbyggda funktionen ``type``:

In [9]:
a = 5.2
b = 6499
c = "Ida"


print(type(a))
print(type(b))
print(type(c))

<class 'float'>
<class 'int'>
<class 'str'>


**Utmaning!**

Fundera över olika situationer när heltal respektive flyttal lämpar sig bäst.

## Sträng (string)
Nästa grundläggande typ är strängen. Strängen är, som vi fick erfara i förra tillfället, en slags lista av karaktärer eller tecken. Strängar betecknas med citationstecken, och kan innehålla alla typer av karaktärer på tangentbordet.

Variabler kan typkastas till strängar med hjälp av den inbyggda funktionen ``str``. Detta returnerar allt som oftast värdet av variabeln inneslutet i citationstecken. 

In [10]:
# Numerisk variabel
a = 5.2

a_as_string = str(a)

# Vi kan kontrollera typen
print(type(a_as_string))

# Variabeln är indexerbar som en sträng
print(a_as_string[0], a_as_string[1], a_as_string[2])

<class 'str'>
5 . 2


Strängar har också stöd för grundläggande aritmetik med ``+``- och ``*``-operatorerna, men det har en helt annan effekt än för numeriska typer. Addition av strängar *konkatenerar* eller sammanfogar strängarna, medan multiplikation upprepar dem. Betrakta följande exempel:

In [11]:
a = "Jag heter"

# Sammanfogning med +
print(a + "Nikolajeff")

# Sammanfogning sker inte automatiskt med mellanslag. Mellanslag är en karaktär som måste läggas till
print(a + " " + "Nikolajeff")

# Upprepning av sträng
print(a*5)
print((a + " " + "Nikolajeff")*5)

Jag heterNikolajeff
Jag heter Nikolajeff
Jag heterJag heterJag heterJag heterJag heter
Jag heter NikolajeffJag heter NikolajeffJag heter NikolajeffJag heter NikolajeffJag heter Nikolajeff


**Utmaning!**

1. Sammanfoga en hel mening som en sträng av ord.
2. Upprepa meningen 3 gånger
3. Upprepa meningen 0 gånger
4. Upprepa meningen -1 gånger

Vi observerar också att det är väsentlig skillnad att addera siffror och siffror som strängar:

In [12]:
print(1 + 2 + 3)

print("1" + "2" + "3")

6
123


I det första exemplet verkar ``+``-operatorn på siffror, och adderar dem precis som vi är vana. I det andra fallet opererar den på strängar, och har då en konkatenerande funktion istället. Vi kan dock även här använda oss av typkastning: Både ``float`` och ``int`` verkar på strängar och producerar siffror.

In [13]:
print(int("1")+int("2")+int("3"))

6


Strängar är egentligen inte helt vanliga typer, utan har en hel del inbyggda funktioner, som man kommer åt med ``.``-notation. En full lista av funktioner finns [här](https://docs.python.org/2.5/lib/string-methods.html). Vi ska dock ta ett par användbara exempel. 

- ``.lower()``: Returnerar en kopia av hela strängen som små bokstäver (gemener)
- ``.upper()``: Returnerar en kopia av hela strängen som stora bokstäver (versaler)
- ``.count(substring)``: Räknar förekomsten av en strängdel i en annan
- ``.find(substring)``: Söker och hittar index för en strängdel

In [14]:
b = a + " " + "Nikolajeff"

b_gemen = b.lower()
b_versal = b.upper()

print(b_gemen)
print(b_versal)

jag heter nikolajeff
JAG HETER NIKOLAJEFF


Vi kan titta vårt Boye-exempel från förra tillfället. Med ``.count()`` kan vi få enkel statistik på ordförekomst i texten. Detta förutsätter att delsträngen har exakt samma form det du söker.

In [15]:
from samples import boye_string

# Kontrollera typen
print(type(boye_string))

print(boye_string)

<class 'str'>
vi är din skara som du svek herre förtrösta bjöd du och det blev värre ur ondskans dimmor steg ingen ljusning ur tordönet ingen sakta susning vi skalv i öknen övergivna med hårda bud i sten skrivna de blev oss bröd de blev oss vatten men kring vår fromhet teg natten vi drog längs vägarna gudsslagna budbärare i eld tvagna dom och soning så bjöd rösten och domen sannades men aldrig trösten vi sjöng i markerna i jubel vända mot nya stjärnor till tecken tända o dröm o hopp vad du flöt rikligt o löftens löfte så stort och svikligt en bön en enda återstår oss slå ännu hårdare du som slår oss vik samman rummet och släck tiden förgör allt och skapa friden hur länge än hur länge än hur länge än förinta oss förinta oss


In [16]:
# Vi beräknar förekomsten av "och" i texten
boye_string.count("och")

6

Vi kan också använda den inbyggda funktionen ``.find(substring)`` för att hitta om en delsträng förekommer i texten, och returnera index av **första förekomsten**. Denna inbyggda funktionen kan alltså inte hitta alla förekomster. 

In [17]:
# Sökord kallas ibland "query"
# Testa att söka själv efter olika strängar
query = "och"

index_for_first_appearance = boye_string.find(query)

# Borde returnera första bokstaven i sökordet
print(boye_string[index_for_first_appearance])

o


**Utmaning!**
1. Beräkna förekomsten av alla personliga pronomen i texten ("jag", "du", "han", "hon", "vi", "ni", "de").
2. Beräkna totala antalet ord. Tips: Hur relaterar antalet ord till antalet mellanslag?
3. Beräkna procentandelen personliga pronomen i texten.


## Booleaner (boolean)
En väldigt smidig inbyggd funktion i strängar är ``.isalpha()`` som avgör **om** strängen endast består av alfabetiska tecken, eller **om** det också finns siffror och specialtecken. 

In [19]:
alfabetet = "abcdefghijklmnopqrstuvwxyz"

print(alfabetet.isalpha())

True


In [20]:
alfabetet_med_siffror = alfabetet + "0123456789" # Sammanfogar strängarna

print(alfabetet_med_siffror.isalpha())

False


Returvärdena från dessa funktioner är *antingen* sant eller falskt. Dessa två värden kallas booleaner (*bool*, *boolean*) som utgör den absolut viktigaste datatypen i programmering. Dessa används för villkorliga instruktioner, och är oerhört viktiga i många funktioner. Booleaner följer en speciell typ av aritmetik (som kallas [booleansk algebra](https://sv.wikipedia.org/wiki/Boolesk_algebra)). De kan ta värdena ``True`` och ``False`` som är nyckelord i Python. Man kan alltså inte döpa variabler till detta.

Det vanligaste användningsområdet för booleaner är att testa likhet. Minns att det vardagliga likhetstecknet ``=`` i programmering används för tilldelning av variabler. Om vi vill testa om två variabler har samma värde, används ``==``. Vi kan också testa numeriska variabler om de är större, respektive mindre än varandra med operatorerna ``<, >``.

In [21]:
x = 40000000 # Fyra miljoner
y = 40000000000000 # Fyrtio tusen miljarder svenska kronor

# Vi testar om dessa är lika
print("x, y är lika: ", x == y)

# Vi testar om x är större än y
print("x är större än y: ", x > y)

# Vi testar om x är mindre än y
print("x är mindre än y: ", x < y)

x, y är lika:  False
x är större än y:  False
x är mindre än y:  True


In [22]:
# Vi kan också testa likhet hos strängar
a = "ost"
b = "Ost"
c = "chèvre"
d = "ost"

# Observera då att gemener och versaler är olika karaktärer
print(a == b)

print(a == d)

False
True


**Utmaning!**

In [23]:
y = 157/12

# undersök om y är större än 13


# undersök om y*3 är lika med 100