# Filer, input och output (IO)
Det är en illa dold hemlighet att all information egentligen bara är filer. Nästan all data som skickas, sparas och kommuniceras gör detta i steg av att ha varit filer. Det är därför oerhört viktigt att ha vana vid att hantera persistenta dokument, att läsa dessa, samt att skriva till dokument.

Möjliga tillämpningar kan vara att kompilera alla resultat från en webbsökning, producera listor och tabeller till andra typer av program, eller att konvertera sitt handskrivna Excel-blad till något datorläsbart.

Datorer utgår i allmänhet från en sak - alla dokument består av text, strängar. Det är vad som läses och vad som skrives. Därför måste man ofta processa datan man läst i något steg, exempelvis konvertera resultaten från flyttal till strängar.

# Exempel: Tabellen
Vi återkommer till den ökända tabellen som vi behandlade i början av kursen.

In [1]:
table = [
    {"ord": "rälsmarknad", "antal förekomster": 4, "tfidf": 14.18311444, "rättstavad": True},
    {"ord": "verldsmarknad", "antal förekomster": 11, "tfidf": 10.78912178, "rättstavad": True},
    {"ord": "bokmarknad", "antal förekomster": 8, "tfidf": 4.81071705, "rättstavad": True},
    {"ord": "parisermarknad", "antal förekomster": 1, "tfidf": 3.951243719, "rättstavad": True},
    {"ord": "penningemarknad", "antal förekomster": 7, "tfidf": 3.620795599, "rättstavad": True},
    {"ord": "bokhandelsmarknad", "antal förekomster": 1, "tfidf": 3.034952987, "rättstavad": True},
    {"ord": "egendomsmarknad", "antal förekomster": 1, "tfidf": 2.69848075, "rättstavad": True},
]

Avsikten är nu att skriva denna till en fil, och sedan läsa in den igen. För detta behöver vi titta på det så kallade *filobjektet*.

Inbyggt i python är funktionen `open`, som skapar ett filobjekt som antingen kan läsa från en "fysisk" fil, eller skriva en sådan. Den tar två huvudsakliga argument, *filnamnet* samt *skriv- eller läsläget*.



In [2]:
help(open)

Help on built-in function open in module io:

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
    Open file and return a stream.  Raise OSError upon failure.
    
    file is either a text or byte string giving the name (and the path
    if the file isn't in the current working directory) of the file to
    be opened or an integer file descriptor of the file to be
    wrapped. (If a file descriptor is given, it is closed when the
    returned I/O object is closed, unless closefd is set to False.)
    
    mode is an optional string that specifies the mode in which the file
    is opened. It defaults to 'r' which means open for reading in text
    mode.  Other common values are 'w' for writing (truncating the file if
    it already exists), 'x' for creating and writing to a new file, and
    'a' for appending (which on some Unix systems, means that all writes
    append to the end of the file regardless of the current seek position

Läsläget, `mode`, använder ett standardiserat namnsystem.

- `'r'`, "read", är läsläget för text. Detta används om man ska läsa en redan skriven textfil
- `'w'`, "write", är skrivläget för text. Detta används om man ska skriva till en ny fil från början.
- `'a'`, "append", är ett skrivläge för att lägga till text i slutet på filen.

Därutöver finns några fler lägen som vi skippar nu. Om vi vill öppna en fil för att skriva till den så skriver vi:

In [7]:
f = open("testfil.csv", "w")

När man använder filobjekt är det oerhört viktigt att man "stänger" eller avslutar filen efter att den öppnats. Detta görs med medlemsfunktionen `close`.

In [9]:
f.close()

När ni kör ovan cell kommer ni att märka att en ny fil dykt upp i ert filträd, hittills tom.


## Att skriva
Vi är nu intresserade av att skriva vår tabell i `csv`-format, ett vanligt format för tabulära data. Detta består av rader, med varje kolumns värde separerade med ett komma. 

Först måste vi konvertera våra data till text, en sträng, med detta format:

In [8]:
f = open("testfil.csv", "w")

for row in table:

    string_to_write = str(row["ord"]) + "," + str(row["antal förekomster"]) + "," + str(row["tfidf"]) + "," + str(row["rättstavad"])

    f.write(string_to_write)

f.close()

Resultatet av detta skriptet är inte vad vi väntade oss. Istället har alla vår text skrivits till en enda lång rad i filen. Orsaken är hur textprocessing fungerar; allting som skrivs i text har på låg datornivå en egen karaktär (tecken, bokstav), inklusive ny rad. 

Den vanligaste texthanteringsstandarden säger att nyradstecknet skrivs `\n` (kort för "newline"), och detta måste appenderas på text för att nästa sträng skall börja på en ny rad. Vi modifierar koden ovanför:



In [10]:
f = open("testfil.csv", "w")

for row in table:

    string_to_write = str(row["ord"]) + "," + str(row["antal förekomster"]) + "," + str(row["tfidf"]) + "," + str(row["rättstavad"]) 
    
    # Add a newline last
    string_to_write += "\n"

    f.write(string_to_write)

f.close()

## Att läsa
Bra jobbat, ni har nu lärt er att skriva. Vi gör lite omvänt och lär oss först nu att läsa. Avsikten är att återfå samma datarepresentation som vi utgick ifrån, vår tabell.


Det är dock programmatiskt sett väsentligt mer komplicerat att läsa. Det är nämligen så, att det är väldigt svårt att *a priori* veta hur mycket information som finns i innehållet ska läsas. Därför måste en läsare stega sig fram, eller läsa allt på en gång.

Vi börjar med att öppna filen i läsläge, samt använder medlemsfunktionen `read` för att läsa allt innehåll på en gång.

In [12]:
f = open("testfil.csv", "r")

string_to_read = f.read()

print(string_to_read)
f.close()

rälsmarknad,4,14.18311444,True
verldsmarknad,11,10.78912178,True
bokmarknad,8,4.81071705,True
parisermarknad,1,3.951243719,True
penningemarknad,7,3.620795599,True
bokhandelsmarknad,1,3.034952987,True
egendomsmarknad,1,2.69848075,True



Resultatet är en stor sträng. Detta hjälper oss inte så mycket, då det kommer bli väldigt krångligt att extrahera den faktiska datan i termer av sina ursprungliga datatyper. Istället utnyttjas vi medlemsfunktionen `readlines` som automatiskt separerar strängen efter `\n`.

In [15]:
f = open("testfil.csv", "r")

strings_in_list = f.readlines()

print(strings_in_list)
f.close()

['rälsmarknad,4,14.18311444,True\n', 'verldsmarknad,11,10.78912178,True\n', 'bokmarknad,8,4.81071705,True\n', 'parisermarknad,1,3.951243719,True\n', 'penningemarknad,7,3.620795599,True\n', 'bokhandelsmarknad,1,3.034952987,True\n', 'egendomsmarknad,1,2.69848075,True\n']


Det finns alltid en risk att man glömmer att stänga sina filer på det här viset. Konsekvensen kan bli obehaglig om man skriver stora mängder data. Ett alternativt sätt att skriva bland annat öppnandet av filer undviker detta. För detta syfte används så kallade `with`-satser, som automatiskt stänger en fil efter att man är klar. I utbyte kan man inte använda sitt filobjekt (`f` i det här fallet), utanför satsen.

In [21]:
with open("testfil.csv", "r") as f:
    strings_in_list = f.readlines()

print(strings_in_list)

['rälsmarknad,4,14.18311444,True\n', 'verldsmarknad,11,10.78912178,True\n', 'bokmarknad,8,4.81071705,True\n', 'parisermarknad,1,3.951243719,True\n', 'penningemarknad,7,3.620795599,True\n', 'bokhandelsmarknad,1,3.034952987,True\n', 'egendomsmarknad,1,2.69848075,True\n']


Nästa steg är preprocessing och städning. 

Vi har nu varje ursprunglig rad separerad. Vi skall nu separera de respektive kolumnerna, samt göra oss av med nyradstecknet, som inte längre behövs. Observera att kolumnerna i varje rad separeras med komma. Vi skall använda detta faktum för att extrahera dem.

Vi måste alltså:
- Hämta varje sträng
- Ta bort nyradstecknet
- Dela strängen vid komma
- Göra om kolumnerna till rätt datatyp
  
För detta använder vi medlemsfunktionerna `split` och `replace` inbyggda i strängar. Dessa gör att vi kan dela strängar vid ett visst avdelningstecken, samt ersätta vissa tecken med något annat.

- `replace` tar två argument: Först tecknet/strängen man vill ersätta, sedan vad dessa skall ersättas med.
- `split` tar ett argument, tecknet vid vilken en sträng skall avdelas. Observera att avdelningstecknet försvinner, och resultatet är en lista med strängar istället.

In [16]:
example = "en väldigt lång sträng, med en liten bisats dessutom"

print(example.split(","))
print(example.replace("ä", "æ"))

['en väldigt lång sträng', ' med en liten bisats dessutom']
en vældigt lång stræng, med en liten bisats dessutom


In [19]:

rows_as_lists = []

# Iterate through the rows
for string in strings_in_list:

    # Remove newline 
    string = string.replace("\n", "") # Replace the newline character with nothing

    # Split at comma
    columns_as_strings = string.split(",")

    # Add to a new list of rows (using append)
    rows_as_lists.append(columns_as_strings)

    
print(rows_as_lists)

[['rälsmarknad', '4', '14.18311444', 'True'], ['verldsmarknad', '11', '10.78912178', 'True'], ['bokmarknad', '8', '4.81071705', 'True'], ['parisermarknad', '1', '3.951243719', 'True'], ['penningemarknad', '7', '3.620795599', 'True'], ['bokhandelsmarknad', '1', '3.034952987', 'True'], ['egendomsmarknad', '1', '2.69848075', 'True']]


Observera att värdena nu ligger i en nästlad lista. Vi vill göra om detta till en lista av dictionaries istället, inklusive metadatan.

In [20]:
table = []

for row in rows_as_lists:

    processed_row = {
        "ord": row[0],
        "antal förekomster": int(row[1]), # Convert to integer
        "tfidf": float(row[2]), # Convert to float
        "rättstavad": bool(row[-1]), # Convert to boolean
    }


    table.append(processed_row)

table

[{'ord': 'rälsmarknad',
  'antal förekomster': 4,
  'tfidf': 14.18311444,
  'rättstavad': True},
 {'ord': 'verldsmarknad',
  'antal förekomster': 11,
  'tfidf': 10.78912178,
  'rättstavad': True},
 {'ord': 'bokmarknad',
  'antal förekomster': 8,
  'tfidf': 4.81071705,
  'rättstavad': True},
 {'ord': 'parisermarknad',
  'antal förekomster': 1,
  'tfidf': 3.951243719,
  'rättstavad': True},
 {'ord': 'penningemarknad',
  'antal förekomster': 7,
  'tfidf': 3.620795599,
  'rättstavad': True},
 {'ord': 'bokhandelsmarknad',
  'antal förekomster': 1,
  'tfidf': 3.034952987,
  'rättstavad': True},
 {'ord': 'egendomsmarknad',
  'antal förekomster': 1,
  'tfidf': 2.69848075,
  'rättstavad': True}]

Och vips har vi återfått vår ursprungliga representation!

## Sammanfattning
Sammanfattningsvis skall vi konvertera vår csv-skrivare och -läsare till funktioner, för framtida bruk!

In [29]:
def csv_writer(table, filename):

    with open(filename, 'w') as f:
        for row in table:

            string_to_write = str(row["ord"]) + "," + str(row["antal förekomster"]) + "," + str(row["tfidf"]) + "," + str(row["rättstavad"]) 
    
            # Add a newline last
            string_to_write += "\n"

            # Write a line
            f.write(string_to_write)



def csv_reader(filename):
    
    with open(filename, "r") as f:

        strings_in_list = f.readlines()

    table = []

    # Iterate through the rows
    for string in strings_in_list:

        # Remove newline 
        string = string.replace("\n", "") # Replace the newline character with nothing

        # Split at comma
        row = string.split(",")

        # Process and add to the new table
        processed_row = {
            "ord": row[0],
            "antal förekomster": int(row[1]), # Convert to integer
            "tfidf": float(row[2]), # Convert to float
            "rättstavad": bool(row[-1]), # Convert to boolean
        }

        table.append(processed_row)

    return table

In [30]:
csv_writer(table, "test.csv")

In [31]:
print(csv_reader("test.csv"))

[{'ord': 'rälsmarknad', 'antal förekomster': 4, 'tfidf': 14.18311444, 'rättstavad': True}, {'ord': 'verldsmarknad', 'antal förekomster': 11, 'tfidf': 10.78912178, 'rättstavad': True}, {'ord': 'bokmarknad', 'antal förekomster': 8, 'tfidf': 4.81071705, 'rättstavad': True}, {'ord': 'parisermarknad', 'antal förekomster': 1, 'tfidf': 3.951243719, 'rättstavad': True}, {'ord': 'penningemarknad', 'antal förekomster': 7, 'tfidf': 3.620795599, 'rättstavad': True}, {'ord': 'bokhandelsmarknad', 'antal förekomster': 1, 'tfidf': 3.034952987, 'rättstavad': True}, {'ord': 'egendomsmarknad', 'antal förekomster': 1, 'tfidf': 2.69848075, 'rättstavad': True}]


Det finns givetvis jättemånga färdiga bibliotek för att läsa de vanligaste representationerna av data. Det är oftast enbart för ren text eller specialiserade applikationer man behöver skriva något själv. Ett exempel är just `pandas`, som lätt kan läsa csv-filer till tabulär data.

In [36]:
import pandas as pd

pd.read_csv("test.csv")

Unnamed: 0,rälsmarknad,4,14.18311444,True
0,verldsmarknad,11,10.789122,True
1,bokmarknad,8,4.810717,True
2,parisermarknad,1,3.951244,True
3,penningemarknad,7,3.620796,True
4,bokhandelsmarknad,1,3.034953,True
5,egendomsmarknad,1,2.698481,True


Värt att observera är att denna lösning antar per default att det skall finnas metadatarubriker till varje kolumn.