# Jak czytać dane z pliku?


Zadania maturalne opierają się na danych z pliku. W tym notebooku pokażemy jak czytać dane z pliku na przykładzie zmodyfikowanych danych z matury z informatyki z czerwca 2024.


## Krok 0: Przygotowanie katalogu

Pobierz i przenieść pliki do katalogu gdzie będziesz rozwiązywał zadania.
Poponuje utworzyć katalog np. matura2019 i tam przenieść pliki.
Powinieneś mieć np. taką strukturę katalogów:

- rozwiązania.py
- plik1.txt
- plik2.txt
- plik3.txt
  ...

Można też zrobić osobny folder na dane. Wtedy struktura katalogów będzie wyglądać tak:

- rozwiązania.py
- /dane/
  - plik1.txt
  - plik2.txt
  - plik3.txt
    ...


##


## Krok 1: Poznaj dane i otwórz plik

Ważne jest aby spojrzeć na pliki i zobaczyć w jakiej są one postaci. Będzie to również napisane w treści zadania. Na potrzeby przykładu uznamy że plik ma następujący format:
W pierwszej lini znajduje się jedna liczba naturalna: n.

- n oznacza liczbę lini, które będą w pliku. <br>

Następnie znajduje się n linii, każda w postaci: <br>
k word

- gdzie k jest długością słowa word, które jest napisem składającym się z małych liter alfabetu łacińskiego. Dane są oddzielone spacją są oddzielone spacją. <br>

Przykładowy plik może więc wyglądać następująco: <br>
5 <br>
4 abcd <br>
10 abababababab <br>
3 kot <br>
2 ok <br>
9 allokacja <br>


Przygotowujemy się więc na taki format. Dane wczytamy za pomocą instrukcji <br>
<code>with open(\<nazwa pliku>.txt") as file: </code> <br>
'with' rozpoczyna blok kodu, który kończy się po wcięciu. <br>
'open' otwiera plik. Parametr "r" otwiera w trybie od odczytu (read) <br>
'as file' oznacza że plik będzie dostępny pod nazwą 'file' wewnątrz bloku kodu. <br>
<br>
Następnie bardzo popularne jest przejście po liniach pliku za pomocą pętli for. <br><br>


###### Aby zaprezentować przykład możesz stworzyć w katalogu plik.txt i wkleić do niego przykładowe dane. Możesz też wykonać poniższy kod, który stworzy plik i wklei do niego przykładowe dane (zapisywanie danych w pliku nie jest, w mojej opini, potrzebne na maturze - wystarczy wkleić Ctrl-C + Ctrl-V output z terminala, dlatego nie tłumaczę poniższego kodu).


In [13]:
import random
import string
n = 100
with open("plik.txt", "w") as example_file:
    example_file.write(f"{n}\n")
    for i in range(n):
        k = random.randint(1, 100)
        w = ''.join(random.choices(string.ascii_lowercase, k=k))
        example_file.write(f"{k} {w}\n")

In [14]:
with open("plik.txt", "r") as file:
    for line in file:
        print(line)  # wypiszemy zawartość pliku

100

16 nikguujjnnsfxftn

56 phfancxtznlvmgurmnzehqfunmmydohbivqcmrwskevhyydggurhulku

66 mrbfpveajyrdkvwohpqldldppaxdhetixiwejneledeoozcauyrtepuezjhurybexh

26 cpjdgztuictoehkqjfopzufdph

16 kqbuszffoagzpbff

2 bp

66 fddifephlaaswehyxjkzvisbbxszoevdrsohddfyhfavwmvoucpflmarjlsezhkowx

14 cxsexiehrvwihq

44 uhqoporvfwtgynnnhszpfkznwqhlfpogthslnebkbdwn

50 xhqsncuhgiaihxdmbwjnjhoyhzvqkukzejjptpqfiwivtowzvh

94 plpxsovimbsroaudtjxtkajmdnyreazpsmscxinlgrhcejpuzewtjxdhugkpzkdqoxhimmtfuhghijkkxzujtvdnnnwccm

15 egesknzcgdljhgk

36 jesgyurchgnahgxtibkaqpifdrjzdkjmzhxf

50 xmqkcgailnclemiayygzxdhuuaptzokncghqwmemhvcdrtqxvo

63 bktzeoyqqvrizgkmcglarsupjruxsvbsrtijjqprkzmdwfiitoxuagttelzahii

30 aimzpyxvcktmxaqqhbufaoubulayur

81 whwqkrkswowducmxtnqfhzsewersccjvvqbsixhqulvogryvzqkluokvjnspfkecpreqvslsrmmkddjfu

91 snyoszlacqnhgohhbtftaiauejtnhkremuphtvjhfzxathowrxccqsrzrcklpwtqfnbaskoasxmuvkqiuqhuzucyyrr

58 heumloosyggupfjqhndwdospqogedhqhnzkakqztavkcldnireeijtlfip

75 vvvgcyctvnyivaeqqxwgwbkg

Jeśli wszystko poszło dobrze to powiniśmy zobaczyć treść pliku plik.txt oddzielony putymi liniami.
Super, teraz chcemy ten plik odpowiednio przetworzyć aby dodać np do jakiejś listy. Chcemy rozwiązać następujące problemy:

1. Wartości liczbowe w typie Int (na razie są w typie String)
2. Oddzielić pierwszą linię od reszty (ponieważ pierwsza linia jest w innym formacie niż reszta)
3. Usunąć znaki nowej linii (jak widać na przykładzie powyżej, każda linia kończy się znakiem nowej linii, ponieważ nasza linia ma dodany znak \n - chcemy go usunąć)
4. Podzielić linie na części (na razie mamy jedną linię, chcemy ją podzielić na części, aby móc dodać do listy i potem łatwiej operować na danych)
   <br><br>

Powyższe problemy można rozwiązać np w następujący sposób:


In [15]:
with open("plik.txt", "r") as file:
    input = []  # lista, w której będziemy przechowywać dane
    # wczytujemy pierwszą linię osobno, po takim wczytaniu kursor pliku przesuwa się na kolejną linię
    n_str = file.readline()
    n = int(n_str)  # zamieniamy napis na liczbę
    for line in file:
        # usuwamy białe znaki z początku i końca linii (np. znak nowej linii)
        linePretty = line.strip()
        # dzielimy linię na listę napisów, które były oddzielone spacją
        lineSplitted = linePretty.split(" ")
        # zamieniamy pierwszy element listy (k) na liczbę
        lineSplitted[0] = int(lineSplitted[0])
        input.append(lineSplitted)  # dodajemy linię do listy danych
    print(input)

[[16, 'nikguujjnnsfxftn'], [56, 'phfancxtznlvmgurmnzehqfunmmydohbivqcmrwskevhyydggurhulku'], [66, 'mrbfpveajyrdkvwohpqldldppaxdhetixiwejneledeoozcauyrtepuezjhurybexh'], [26, 'cpjdgztuictoehkqjfopzufdph'], [16, 'kqbuszffoagzpbff'], [2, 'bp'], [66, 'fddifephlaaswehyxjkzvisbbxszoevdrsohddfyhfavwmvoucpflmarjlsezhkowx'], [14, 'cxsexiehrvwihq'], [44, 'uhqoporvfwtgynnnhszpfkznwqhlfpogthslnebkbdwn'], [50, 'xhqsncuhgiaihxdmbwjnjhoyhzvqkukzejjptpqfiwivtowzvh'], [94, 'plpxsovimbsroaudtjxtkajmdnyreazpsmscxinlgrhcejpuzewtjxdhugkpzkdqoxhimmtfuhghijkkxzujtvdnnnwccm'], [15, 'egesknzcgdljhgk'], [36, 'jesgyurchgnahgxtibkaqpifdrjzdkjmzhxf'], [50, 'xmqkcgailnclemiayygzxdhuuaptzokncghqwmemhvcdrtqxvo'], [63, 'bktzeoyqqvrizgkmcglarsupjruxsvbsrtijjqprkzmdwfiitoxuagttelzahii'], [30, 'aimzpyxvcktmxaqqhbufaoubulayur'], [81, 'whwqkrkswowducmxtnqfhzsewersccjvvqbsixhqulvogryvzqkluokvjnspfkecpreqvslsrmmkddjfu'], [91, 'snyoszlacqnhgohhbtftaiauejtnhkremuphtvjhfzxathowrxccqsrzrcklpwtqfnbaskoasxmuvkqiuqhuzucyyrr'], [58,

Po paru ćwiczeniach damy radę znacznie skrócić zapis:


In [16]:
with open("plik.txt") as file:  # domyślnie tryb odczytu
    input = []
    n = int(file.readline())
    for line in file:
        lineSplitted = line.strip().split(" ")
        lineSplitted[0] = int(lineSplitted[0])
        input.append(lineSplitted)
    print(input)

[[16, 'nikguujjnnsfxftn'], [56, 'phfancxtznlvmgurmnzehqfunmmydohbivqcmrwskevhyydggurhulku'], [66, 'mrbfpveajyrdkvwohpqldldppaxdhetixiwejneledeoozcauyrtepuezjhurybexh'], [26, 'cpjdgztuictoehkqjfopzufdph'], [16, 'kqbuszffoagzpbff'], [2, 'bp'], [66, 'fddifephlaaswehyxjkzvisbbxszoevdrsohddfyhfavwmvoucpflmarjlsezhkowx'], [14, 'cxsexiehrvwihq'], [44, 'uhqoporvfwtgynnnhszpfkznwqhlfpogthslnebkbdwn'], [50, 'xhqsncuhgiaihxdmbwjnjhoyhzvqkukzejjptpqfiwivtowzvh'], [94, 'plpxsovimbsroaudtjxtkajmdnyreazpsmscxinlgrhcejpuzewtjxdhugkpzkdqoxhimmtfuhghijkkxzujtvdnnnwccm'], [15, 'egesknzcgdljhgk'], [36, 'jesgyurchgnahgxtibkaqpifdrjzdkjmzhxf'], [50, 'xmqkcgailnclemiayygzxdhuuaptzokncghqwmemhvcdrtqxvo'], [63, 'bktzeoyqqvrizgkmcglarsupjruxsvbsrtijjqprkzmdwfiitoxuagttelzahii'], [30, 'aimzpyxvcktmxaqqhbufaoubulayur'], [81, 'whwqkrkswowducmxtnqfhzsewersccjvvqbsixhqulvogryvzqkluokvjnspfkecpreqvslsrmmkddjfu'], [91, 'snyoszlacqnhgohhbtftaiauejtnhkremuphtvjhfzxathowrxccqsrzrcklpwtqfnbaskoasxmuvkqiuqhuzucyyrr'], [58,

Dobrze jest w obu przypadkach wypisać dane i sprawdzić czy zgadzają się z treścią pliku, czy wczytujemy wszystko i czy odpowiednio zmieniliśmy typ danych. <br>


## Krok 2: Utworzenie funkcji

Taki fragment kodu dużo lepiej jest umieścić w funkcji. Dba to o porządek naszego kodu i pozwala na łatwiejsze testowanie. <br>


In [17]:
def read_input():
    with open("plik.txt") as file:
        input = []
        n = int(file.readline())
        for line in file:
            lineSplitted = line.strip().split(" ")
            lineSplitted[0] = int(lineSplitted[0])
            input.append(lineSplitted)  # dodajemy linię do listy danych
    return n, input

Aby być przygotowanym na każdą ewnetualność można dodać funkcji argument z nazwą pliku. Wtedy funkcja będzie uniwersalna i będzie można ją wykorzystać w innych zadaniach (takich gdzie format pliku się nie zmienia). <br>


In [18]:
def read_input(file_name="plik.txt"):
    with open(file_name) as file:
        input = []
        n = int(file.readline())
        for line in file:
            lineSplitted = line.strip().split(" ")
            lineSplitted[0] = int(lineSplitted[0])
            input.append(lineSplitted)  # dodajemy linię do listy danych
    return n, input

In [19]:
n, input = read_input()
print(n)
print(input)

100
[[16, 'nikguujjnnsfxftn'], [56, 'phfancxtznlvmgurmnzehqfunmmydohbivqcmrwskevhyydggurhulku'], [66, 'mrbfpveajyrdkvwohpqldldppaxdhetixiwejneledeoozcauyrtepuezjhurybexh'], [26, 'cpjdgztuictoehkqjfopzufdph'], [16, 'kqbuszffoagzpbff'], [2, 'bp'], [66, 'fddifephlaaswehyxjkzvisbbxszoevdrsohddfyhfavwmvoucpflmarjlsezhkowx'], [14, 'cxsexiehrvwihq'], [44, 'uhqoporvfwtgynnnhszpfkznwqhlfpogthslnebkbdwn'], [50, 'xhqsncuhgiaihxdmbwjnjhoyhzvqkukzejjptpqfiwivtowzvh'], [94, 'plpxsovimbsroaudtjxtkajmdnyreazpsmscxinlgrhcejpuzewtjxdhugkpzkdqoxhimmtfuhghijkkxzujtvdnnnwccm'], [15, 'egesknzcgdljhgk'], [36, 'jesgyurchgnahgxtibkaqpifdrjzdkjmzhxf'], [50, 'xmqkcgailnclemiayygzxdhuuaptzokncghqwmemhvcdrtqxvo'], [63, 'bktzeoyqqvrizgkmcglarsupjruxsvbsrtijjqprkzmdwfiitoxuagttelzahii'], [30, 'aimzpyxvcktmxaqqhbufaoubulayur'], [81, 'whwqkrkswowducmxtnqfhzsewersccjvvqbsixhqulvogryvzqkluokvjnspfkecpreqvslsrmmkddjfu'], [91, 'snyoszlacqnhgohhbtftaiauejtnhkremuphtvjhfzxathowrxccqsrzrcklpwtqfnbaskoasxmuvkqiuqhuzucyyrr'], 

## Done!
