# Loopar: Att upprepa och traversera
I förra texten gick vi igenom 

# Exempel: En tabell
Ni har vid flera tillfällen fått se ett kalkylark, eller en tabell som ett exempel på datastruktur. Vi ska nu analysera vad en tabell faktiskt består av.

<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;}
.tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
  overflow:hidden;padding:10px 5px;word-break:normal;}
.tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
  font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;}
.tg .tg-amwm{font-weight:bold;text-align:center;vertical-align:top}
.tg .tg-0lax{text-align:left;vertical-align:top}
.tg .tg-7zrl{text-align:left;vertical-align:bottom}
</style>
<table class="tg">
<thead>
  <tr>
    <th class="tg-amwm">ord</th>
    <th class="tg-amwm">antal förekomster</th>
    <th class="tg-amwm">tfidf</th>
    <th class="tg-0lax"><span style="font-weight:bold">rättstavad</span><br></th>
  </tr>
</thead>
<tbody>
  <tr>
    <td class="tg-7zrl">string</td>
    <td class="tg-7zrl">integer</td>
    <td class="tg-7zrl">float</td>
    <td class="tg-0lax">boolean</td>
  </tr>
  <tr>
    <td class="tg-7zrl">rälsmarknad</td>
    <td class="tg-7zrl">4</td>
    <td class="tg-7zrl">14.18311444</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">verldsmarknad</td>
    <td class="tg-7zrl">11</td>
    <td class="tg-7zrl">10.78912178</td>
    <td class="tg-0lax">False</td>
  </tr>
  <tr>
    <td class="tg-7zrl">bokmarknad</td>
    <td class="tg-7zrl">8</td>
    <td class="tg-7zrl">4.81071705</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">parisermarknad</td>
    <td class="tg-7zrl">1</td>
    <td class="tg-7zrl">3.951243719</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">penningemarknad</td>
    <td class="tg-7zrl">7</td>
    <td class="tg-7zrl">3.620795599</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">bokhandelsmarknad</td>
    <td class="tg-7zrl">1</td>
    <td class="tg-7zrl">3.034952987</td>
    <td class="tg-0lax">True</td>
  </tr>
  <tr>
    <td class="tg-7zrl">egendomsmarknad</td>
    <td class="tg-7zrl">1</td>
    <td class="tg-7zrl">2.69848075</td>
    <td class="tg-0lax">True</td>
  </tr>
</tbody>
</table>

En tabell består av metadata, kolumnnamnen och deras associerade typ. I vårt fall är det förekomster av sammansättningar av ordet `marknad` i Sveriges tvåkammarriksdags handlingar. Metadatan hos vår tabell är alltså
- ord (sammansättningen)
- antal förekomster (hur många gånger ordet förekommer i korpuset)
- tfidf (ett mått på dess relevans i texten)
- rättstavad (huruvida ordet är rättstavat)

Varje kolumn har också en datatyp associerad med sig. I så kallade **strukturerade data** är det oftast viktigt att dessa stämmer med kolumnens innehåll, så att inte antal förekomster ibland skrivs ut i klartext, exempelvis.

Tabellen består av rader och kolumner. Varje kolumn är en egenskap eller feature hos datamängden som vi vill spara.

En rad innehåller en observation av dessa metadata:
<table class="tg">
  <tr>
    <td class="tg-7zrl">rälsmarknad</td>
    <td class="tg-7zrl">4</td>
    <td class="tg-7zrl">14.18311444</td>
    <td class="tg-0lax">True</td>
  </tr>
</table>

Tabellen kan därför betraktas som en lista av rader, observationer. Varje observation är därför också en lista med namngivna egenskaper som vi sparat. 

Det är vår ambition att vi i slutet av denna föreläsning skall kunna programmera motsvarande en tabell för våra data, som är läsbar för en dator.

### Att traversera en lista: For-loopar
Mycket data är organiserad som någon form av lista. Det kan vara observationer från ett experiment, dokument i ett arkiv, eller helt enkelt namn och metadata. Text kan ofta representeras som listor av ord, meningar eller tecken. Det är därför ofta intressant att genomföra någon form av instruktion för varje element i en lista. 

För detta syfte använder vi så kallade `for-loopar`. En loop är en konstruktion som *itererar* genom någonting, exempelvis en lista.

Betrakta nedan lista över namn:

In [13]:
names = ['Leia', 'Rey', 'Obi-Wan', 'Leia', 'Maul', 'C-3PO', 'Maul', 'Luke', 'Yoda', 'Leia', 'Grogu']

Loopar tillåter oss att tillämpa en funktion eller instruktion på varje enskilt element. Vi exemplifierar med den enkla `print`-funktionen

In [16]:
for name in names:
    print(name)

Leia
Rey
Obi-Wan
Leia
Maul
C-3PO
Maul
Luke
Yoda
Leia
Grogu


Detta är ett typexempel på syntax i Python, men vi måste dissekera vad som händer. 

`for` och `in` är reserverade nyckelord. Man bör alltså inte döpa variabler till dessa namn. 

`name` är en variabel som representerar varje enskilt element i listan `names`. Detta variabelnamn kan bytas ut till vad som helst som anses mer passande, exempelvis

In [17]:
for element in names:
    print(element)

Leia
Rey
Obi-Wan
Leia
Maul
C-3PO
Maul
Luke
Yoda
Leia
Grogu


som alltså gör samma sak. Programmet gör alltså vill säga
- För varje element i listan `names`, utför instruktionen `print` för elementet.

Instruktionerna som skall utföras varje iteration skrivs i Python med en indentering, 5 mellanslag eller ett `Tab`-nedslag. Detta är typisk *syntax*, ett ej betydelsebärande men obligatoriskt inslag i språket. Om syntaxen inte stämmer kommer ni att få ett `SyntaxError`.

Vi kan skapa ett liknande program som utför samma instruktion ett visst antal gånger, genom att skriva:

In [19]:
for i in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]:
    print("Choklad")
    # print(i)

Choklad
Choklad
Choklad
Choklad
Choklad
Choklad
Choklad
Choklad
Choklad
Choklad


För 10 värden i listan skrivs alltså `Choklad` ut. Variabeln `i` tilldelas varje iteration detta värde, och instruktionen i indenteringen utförs. Testa att avkommentera det andra `print`-kommandot för att se vilket värde `i` antar.

Ett ekvivalent sätt att skriva vår loop över `names` hade alltså varit att skriva

```python
for i in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]:
    print(names[i])

```
där vi alltså itererar genom varje index för namnen i listan och hämtar värdet på namnet. En shorthand för detta är att skriva

In [20]:
for i in range(0, len(names)):
    print(names[i])

Leia
Rey
Obi-Wan
Leia
Maul
C-3PO
Maul
Luke
Yoda
Leia
Grogu


där `range(min, max)` genererar en lista med heltal mellan `min` och `maximum-1`.

Vi är nu intresserade av att veta hur många gånger `Leia` förekommer i listan. Man kan tänka sig att man vill veta hur många gånger personen förekommer i en databas, exempelvis.

Vad vi gör är att vi skriver en loop som går igenom varje element i listan och kontrollerar om namnet är just Leia. I så fall skrivs det ut till skärmen.

In [14]:
for name in names:
    if name == 'Leia':
        print(name)

Leia
Leia
Leia
