# Sammansatta datatyper
I förra texten gick vi igenom "enkla" datatyper. Ofta så är det dock relevant att samla sina värden eller data i en större struktur. Pythons standardbibliotek har stöd för flera sådan, däribland *listor* och så kallade *dictionaries*. Dessa tillåter en att samla flera värden i samma variabel, med lite olika finesser.

För att relatera detta till ett praktiskt exempel, så betraktar vi en tabell, en relativt komplicerad datastruktur.

# Exempel: En tabell
Ni har vid flera tillfällen fått se ett kalkylark, eller en tabell som ett exempel på datastruktur. Vi ska nu analysera vad en tabell faktiskt består av.

<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;}
.tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
  overflow:hidden;padding:10px 5px;word-break:normal;}
.tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
  font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;}
.tg .tg-amwm{font-weight:bold;text-align:center;vertical-align:top}
.tg .tg-0lax{text-align:left;vertical-align:top}
.tg .tg-7zrl{text-align:left;vertical-align:bottom}
</style>
<table class="tg">
<thead>
  <tr>
    <th class="tg-amwm">ord</th>
    <th class="tg-amwm">antal förekomster</th>
    <th class="tg-amwm">tfidf</th>
    <th class="tg-0lax"><span style="font-weight:bold">rättstavad</span><br></th>
  </tr>
</thead>
<tbody>
  <tr>
    <td class="tg-7zrl">string</td>
    <td class="tg-7zrl">integer</td>
    <td class="tg-7zrl">float</td>
    <td class="tg-0lax">boolean</td>
  </tr>
  <tr>
    <td class="tg-7zrl">rälsmarknad</td>
    <td class="tg-7zrl">4</td>
    <td class="tg-7zrl">14.18311444</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">verldsmarknad</td>
    <td class="tg-7zrl">11</td>
    <td class="tg-7zrl">10.78912178</td>
    <td class="tg-0lax">False</td>
  </tr>
  <tr>
    <td class="tg-7zrl">bokmarknad</td>
    <td class="tg-7zrl">8</td>
    <td class="tg-7zrl">4.81071705</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">parisermarknad</td>
    <td class="tg-7zrl">1</td>
    <td class="tg-7zrl">3.951243719</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">penningemarknad</td>
    <td class="tg-7zrl">7</td>
    <td class="tg-7zrl">3.620795599</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">bokhandelsmarknad</td>
    <td class="tg-7zrl">1</td>
    <td class="tg-7zrl">3.034952987</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">egendomsmarknad</td>
    <td class="tg-7zrl">1</td>
    <td class="tg-7zrl">2.69848075</td>
    <td class="tg-0lax">True</td>
  </tr>
</tbody>
</table>

En tabell består av metadata, kolumnnamnen och deras associerade typ. I vårt fall är det förekomster av sammansättningar av ordet `marknad` i Sveriges tvåkammarriksdags handlingar. Metadatan hos vår tabell är alltså
- ord (sammansättningen)
- antal förekomster (hur många gånger ordet förekommer i korpuset)
- tfidf (ett mått på dess relevans i texten)
- rättstavad (huruvida ordet är rättstavat)

Varje kolumn har också en datatyp associerad med sig. I så kallade **strukturerade data** är det oftast viktigt att dessa stämmer med kolumnens innehåll, så att inte antal förekomster ibland skrivs ut i klartext, exempelvis.

Tabellen består av rader och kolumner. Varje kolumn är en egenskap eller feature hos datamängden som vi vill spara.

En rad innehåller en observation av dessa metadata:
<table class="tg">
  <tr>
    <td class="tg-7zrl">rälsmarknad</td>
    <td class="tg-7zrl">4</td>
    <td class="tg-7zrl">14.18311444</td>
    <td class="tg-0lax">True</td>
  </tr>
</table>

Tabellen kan därför betraktas som en lista av rader, observationer. Varje observation är därför också en lista med namngivna egenskaper som vi sparat. 

Det är vår ambition att vi i slutet av denna föreläsning skall kunna programmera motsvarande en tabell för våra data, som är läsbar för en dator.

# Listor
En lista innehåller flera andra värden eller variabler. De har ingen längdbegränsning (så när som på hur mycket data som kan rymmas i datorns minne).

I Python så skrivs en lista med omringande hakparenteser/klamrar `[]` och varje värde i listan separeras med ett komma `,`. Detta är en del av språkets syntax, och en av anledningarna att man alltid använder decimal**punkt** för flyttal i Python, och inte decimal**komma**.

In [3]:
x = 65
l = [1, "ost", 2, 47.18, x]

print(l)

[1, 'ost', 2, 47.18, 65]


Om vi vill avgöra längden hos en lista, kan vi använda den inbyggda funktionen `len` (kort för *length*, som uppenbarligen var för långt...), som listan som parameter och returnerar värdet på dess längd:

In [4]:
length_of_list = len(l)

print(length_of_list) # eller bara print(len(l))

5


Listor i python kan innehålla vilka typer av variabler som helst, exempelvis en annan lista.

In [5]:
nested = [x, 12, "Hello there", ["a smaller list with only one element"], l]
print(nested)
print(len(nested))

[65, 12, 'Hello there', ['a smaller list with only one element'], [1, 'ost', 2, 47.18, 65]]
5


Observera att listor som element i andra listor fortfarande bara räknas som ett enkelt element. Den yttersta listan i vårt fall har alltså endast 5 element, även om de inre listorna har 1 respektive 5 element själva.

Vissa funktioner ställer krav på att listor endast innehåller värden av en viss typ. <code>sum</code> och <code>min</code> vill exempelvis helst ha listor med endast siffror, av naturliga skäl

In [8]:
numeric = [0.5, 1, 2.213, 3, 4, 5, 6,708.1,8,9,10]

sum_of_numeric = sum(numeric)

smallest_in_numeric = min(numeric)

print("Summa: ", sum_of_numeric)
print("Minimum: ", smallest_in_numeric)

Summa:  756.813
Minimum:  0.5


### Indexering
För att få tag på ett värde ur en lista så används så kallad indexering. Listor är *ordnade*, det vill säga att två listor med olika ordning är inte likvärdiga.

In [6]:
[1, 2] == [1, 2]

True

In [7]:
[1, 2] == [2, 1]

False

Det finns alltså en naturlig intuition för ordningen hos värdena i en lista. För att få tag på det första värdet i en lista kallad `x`, så skriver vi `x[0]`. Detta är något förvirrande, men kallas *nollindexering*. Det andra värdet hämtas alltså genom `x[1]`. Pröva gärna själv nedan.

In [9]:
x = [1, "ost", 2, 47.18, ["värde i inre listan", 780]]

print(x[0]) # första värdet, returnerar 1
print(x[1]) # andra värdet, returnerar "ost"

1
ost


Observera att indexering sker med en offset. Första elementet är inte <code>x[1]</code> utan <code>x[0]</code>. 

Detta är konvention, och något man får vänja sig vid. Index för sista elementet är alltså <code>sista_index = len(list)-1</code>. Om du väljer ett index utanför <code>[0, 1, 2, 3, 4, 5]</code> i vårt fall, får du ett "IndexError".

<img src="../bilder/lista1.png" width="500" align="center"/>

In [10]:
x[80]

IndexError: list index out of range

En smidig notation hos python är att sista elementet också kan erhålla sista elementet med negativa index:

In [11]:
x[+1]

'ost'

In [12]:
x[-1]

['värde i inre listan', 780]

Som ni nu märkt kan man använda både positiva och negativa tal för att indexera i listor. Att indexera med ``-1`` returnerar det sista elementet i en lista. 

Python har intuitivt utökat denna funktionalitet ytterligare: Indexering utgår från första (nollte, ``0``) elementet och andra elementet åt **höger** ges av index ``1``. Det andra elementet åt **vänster** ges av index ``-1``, vilket vi vet också motsvaras av sista elementet i listan. På så vis ges det tredje elementet åt vänster av index ``-2``, och det tredje elementet åt höger av index ``3``. Det är dock sällsynt att man använder bakåtindexering för att komma åt mer än sista ``-1`` och näst sista ``-2`` elementen.

<img src="../bilder/lista2.png" width="500" align="center"/>
<img src="../bilder/lista3.png" width="500" align="center"/>

Här kommer ett intressant fall där datatypen är oerhört viktig - index hos listor är uteslutande **heltal**. Detta då heltal modellerar uppräkning. Man har inte haft 13.3 kunder på en dag, exempelvis. Om man därför försöker indexera ovan lista med ett **flyttal** istället så fås

In [21]:
print(x[1.5])

TypeError: list indices must be integers or slices, not float

In [22]:
print(x[1.0])

TypeError: list indices must be integers or slices, not float

# Dictionaries


Ordböcker, eller hädanefter *dictionaries* är en generalisering av listor. I förra avsnittet diskuterade vi listor med index likt en katalog, eller ett arkiv. Varje element i listan hämtas med index. I verkligheten är index mindre rigida, och inte bara en siffra. 

I exempelvis ett bibliografiskt index hittar ni publikationer efter journal, år och författare. Journal, författare och år utgör då er *nyckel*, och den erhållna publikationen ert *värde*. 

Ordböcker tillåter er att hämta element i listor med vilken typ av index ni önskar - heltal, strängar eller till och med egenbyggda funktioner. De är dock inte riktigt lika smidiga att arbeta med.

## Dictionaries: Nycklar och värden

En lista definieras med hjälp av hakparenteser: ``[123, "namn", 3.14]``. 

Ett dictionary definieras med måsvingar: ``{"heltalet": 123, "strängen": "namn", "flyttalet": 3.14}`` samt av *par* av nycklar-värden. Nyckeln skrivs innan ett kolon, och värdet efter kolon, ``nyckel : värde``. Dictionaries kan på detta vis indexeras med hjälp av nyckeln, medan man i listor måste känna till dess absoluta position.

In [1]:
l = [123, "namn", 3.14]

d = {"heltalet": 123, "strängen": "namn", "flyttalet": 3.14}

# Kan också skrivas med tydligare indentering
# d = {
#      "heltalet": 123, 
#      "strängen": "namn", 
#      "flyttalet": 3.14
#     }

För att hämta värdet i ett dictionary så använder vi inte ett index, utan nyckeln till värdet.

In [2]:
print(d["heltalet"])

print(d["strängen"])

print(d["flyttalet"])

123
namn
3.14


Nästan vilken struktur i Python som helst kan vara en nyckel. Man kan alltså också använda säg, booleaner, flyttal eller heltal (som i listor):

In [8]:
dictionary = {
    2: "första värdet",
    3.14: "approximation till pi",
    True: "inte falskt",
    3: 1
}

print(dictionary[2])
print(dictionary[True])
print(dictionary[3])

första värdet
inte falskt
1


Vad som skiljer ett dictionary från en lista är att *ordningen inte är definierad*. De är så kallat *oordnade*. Längden på ett dictionary är definierat som antalet nyckel-värdes-par, i ovan fall alltså 4.

In [10]:
print(len(dictionary))

4


## Exempel: Åter till tabellen
Vi återgår till vår tabell-modell. Vi har nu flera verktyg för att kodifiera motsvarande en tabell i Python. Vi exemplifierar här ett par sätt som alla har sina fördelar och nackdelar.

### Alternativ 1: Listor av Listor (row major)
Ett alternativ är att modellera tabellen som listor av rader, där varje rad är en egen lista med observerade egenskaper. I det perspektiv att en tabell är en lista med rader kallas den för *"row major"*, rader i första hand.

Det vill säga att en rad blir

In [11]:
row = ["rälsmarknad", 4, 14.18311444, True]

och tabellen totalt är en lista med dessa rader på detta vis.

In [None]:
table = [
    ["rälsmarknad", 4, 14.18311444, True],
    ["verldsmarknad", 11, 10.78912178, True],
    ["bokmarknad", 8, 4.81071705, True],
    ["parisermarknad", 1, 3.951243719, True],
    ["penningemarknad", 7, 3.620795599, True],
    ["bokhandelsmarknad", 1, 3.034952987, True],
    ["egendomsmarknad", 1, 2.69848075, True],
]

Nackdelen med listor är att de inte har stöd för metadata. Om vi inte har sparat informationen av vad varje kolumn i listorna faktiskt hänvisar till, kan det vara svårt att förstå tabellen *a priori*. Vidare är det ju ingenting som säger att "ord" måste komma före "rättstavat", informationen finns ju där oavsett.

### Alternativ 2: Listor av dictionaries
Ett andra alternativ är att istället låta varje varje rad innehålla metadata om sitt innehåll. Vi låter istället varje rad vara ett dictionary:

In [1]:
row = {"ord": "rälsmarknad", "antal förekomster": 4, "tfidf": 14.18311444, "rättstavad": True}

Vi observerar att även en enda rad utanför kontexten av sin tabell ändå har all metadata som krävs för att förstå datan. Hela tabellen som en lista av sådana rader blir

In [1]:
table = [
    {"ord": "rälsmarknad", "antal förekomster": 4, "tfidf": 14.18311444, "rättstavad": True},
    {"ord": "verldsmarknad", "antal förekomster": 11, "tfidf": 10.78912178, "rättstavad": True},
    {"ord": "bokmarknad", "antal förekomster": 8, "tfidf": 4.81071705, "rättstavad": True},
    {"ord": "parisermarknad", "antal förekomster": 1, "tfidf": 3.951243719, "rättstavad": True},
    {"ord": "penningemarknad", "antal förekomster": 7, "tfidf": 3.620795599, "rättstavad": True},
    {"ord": "bokhandelsmarknad", "antal förekomster": 1, "tfidf": 3.034952987, "rättstavad": True},
    {"ord": "egendomsmarknad", "antal förekomster": 1, "tfidf": 2.69848075, "rättstavad": True},
]

Nackdelen med denna approach är att den är väsentligt mer verbos. Vanligtvis brukar man dock varken läsa eller skriva dessa kodifieringar av tabeller manuellt. 

Det finns även andra fördelar, detta är ett format som är väldigt välanvänt av biblioteket `pandas`, som används för dataprocessering i Python, vilket vi kommer erfara i kommande föreläsningar:

In [2]:
import pandas as pd

In [8]:
pd.DataFrame.from_records(table)

Unnamed: 0,ord,antal förekomster,tfidf,rättstavad
0,rälsmarknad,4,14.183114,True
1,verldsmarknad,11,10.789122,True
2,bokmarknad,8,4.810717,True
3,parisermarknad,1,3.951244,True
4,penningemarknad,7,3.620796,True
5,bokhandelsmarknad,1,3.034953,True
6,egendomsmarknad,1,2.698481,True
