# Sprawdzian 1: Wczytywanie plików

To notebook przygotowujący do pierwszego sprawdzianu z pracy z plikami tekstowymi.

## Wstęp teoretyczny

Plik to uporządkowany zbiór danych zapisany na dysku komputera. Najczęściej spotykamy pliki tekstowe, obrazy, filmy lub arkusze kalkulacyjne. W tym sprawdzianie skupiamy się na **plikach tekstowych**, które składają się z kolejnych linijek znaków. Naszym materiałem będzie poemat *Pan Tadeusz* Adama Mickiewicza w formacie `.txt`.

Każda linijka kończy się niewidocznym znakiem nowej linii (`\n`). To właśnie ten znak sprawia, że następny fragment tekstu zaczyna się w nowym wierszu. Podczas pracy z plikami warto mieć świadomość jego obecności, aby prawidłowo dzielić i łączyć tekst.


## Jak wczytać plik w Pythonie?

Do otwierania plików używamy funkcji `open()`. Najbezpieczniej korzystać z instrukcji `with`, ponieważ automatycznie zamknie plik po zakończeniu pracy. **Zwróć uwagę na wcięcia** – wszystko, co ma działać na otwartym pliku, musi znajdować się wewnątrz bloku `with` i być wcięte o cztery spacje.

### Skąd wziąć plik *Pan Tadeusz*?

W repozytorium znajdziesz skrypt `pobierz_pan_tadeusz.py`, który pobiera aktualną wersję tekstu z serwisu Wolne Lektury. Wystarczy uruchomić go w katalogu z tym notebookiem (np. poleceniem `python pobierz_pan_tadeusz.py`), aby utworzyć plik `pan-tadeusz.txt`. To właśnie ten plik będziemy otwierać w dalszych przykładach.


In [None]:
# przykład: wczytanie całej zawartości pliku naraz
with open('pan-tadeusz.txt', 'r', encoding='utf-8') as plik:
    zawartosc = plik.read()  # wszystko trafia do jednego łańcucha znaków
print(zawartosc)  # można go dalej analizować lub wyświetlić

Powyższy kod zakłada, że plik `pan-tadeusz.txt` znajduje się w tym samym folderze co nasz skrypt lub notebook. Jeżeli plik leży gdzie indziej, należy podać pełną ścieżkę lub zmodyfikować zmienną z nazwą pliku.


## Wczytanie wszystkich linijek na raz

Metoda `readlines()` zwraca listę, w której każda pozycja to kolejna linia z pliku łącznie ze znakiem nowej linii. Gdy zależy nam na tekście bez końcowych znaków, możemy użyć `read().splitlines()`.

In [None]:
with open('pan-tadeusz.txt', 'r', encoding='utf-8') as plik:
    wszystkie_linie = plik.readlines()
print(wszystkie_linie)  # lista linijek razem ze znakami "\n"

with open('pan-tadeusz.txt', 'r', encoding='utf-8') as plik:
    wszystkie_linie_bez_znaku = plik.read().splitlines()
print(wszystkie_linie_bez_znaku)  # lista linijek bez znaków nowej linii

## Wczytywanie linijka po linijce w pętli `for`

Jeśli plik jest duży lub chcemy przetwarzać dane krok po kroku, lepiej wczytywać linijki po kolei. Tutaj również pilnujemy wcięć – ciało pętli `for` musi być wcięte względem nagłówka. `enumerate()` pomoże numerować linie, a `strip()` usunie zbędne znaki, w tym końcowy znak nowej linii.

In [None]:
with open('pan-tadeusz.txt', 'r', encoding='utf-8') as plik:
    for numer, linia in enumerate(plik, start=1):
        czysta_linijka = linia.strip()  # usuwamy "\n" oraz ewentualne spacje z obu stron
        print(f'Linia {numer}: {czysta_linijka}')

## Co dalej?

Poniżej znajdziesz propozycje pięciu zadań o rosnącym poziomie trudności, wszystkie oparte na tekście *Pana Tadeusza* zapisanym w pliku `pan-tadeusz.txt`. Daj znać, które z nich chcesz wykorzystać lub jak je zmodyfikować.

1. **Pierwsze spotkanie z plikiem:** Otwórz plik i wypisz pierwsze dziesięć linijek tekstu w dokładnie takiej kolejności, w jakiej występują. Zwróć uwagę, aby całe działanie odbywało się wewnątrz bloku `with`.
2. **Wyszukiwanie słów-kluczy:** Przejdź po linijkach i policz, ile z nich zawiera słowo `Litwo` (niezależnie od wielkości liter). Wynik wypisz na końcu.
3. **Analiza nagłówków ksiąg:** Wyszukaj nagłówki rozpoczynające się od słowa `KSIĘGA` i wypisz je wraz z numerami w kolejności występowania. To zadanie uczy filtrowania linijek po wzorcu.
4. **Statystyka słów bohatera:** Wczytaj cały tekst i oblicz, ile razy pojawia się imię `Tadeusz` (również w różnych wielkościach liter). Wynik przedstaw w zwięzłej informacji tekstowej.
5. **Raport o strukturze tekstu:** Przygotuj raport zawierający: łączną liczbę linijek, liczbę znaków (z uwzględnieniem i bez uwzględnienia znaków nowej linii) oraz średnią długość linijki. Opcjonalnie wskaż trzy najdłuższe linijki wraz z ich numerami.

Czy taka lista zadań Ci odpowiada? Chętnie dopracuję szczegóły na podstawie Twoich sugestii.
