# 1. Wejście i wyjście

W Pythonie istnieje kilka sposobów prezentowania wyników działania naszego programu:

* dane mogą zostać wypisane na ekran,
* zapisane do pliku w celu ponownego użycia.

Python posiada wbudowaną funkcję **open**, która służy do otwierania plików z dysku. Zwraca ona obiekt pliku posiadający metody i atrybuty, dzięki którym możemy dostać się do pliku i wykonywać na nim pewne operacje, np. pobranie, dopisanie danych. Funkcja ta posiada dwa argumenty: nazwę (ścieżkę do pliku), tryb (określa czynność np. odczyt z pliku).

Najprostszy sposób użycia metody open to:

In [None]:
text = open('plik.txt', ).read()
print(text)

Jednakże nie jest to metoda bezpieczna. Dobry skrypt powinien zamykać połączenie z plikiem zaraz po zakończeniu operowania na nim. Do tego służy metoda **close**.

In [None]:
plik = open('plik.txt')
try:
    tekst = plik.read()
finally:
    plik.close()

print(tekst)

Różne tryby metody open:

* **r** - czytanie pliku,
* **w** - zapisywanie do pliku (kasowanie poprzedniej zawartości, gdy plik nie istnieje tworzy go),
* **a** - dopisywanie do pliku (poprzednia zawartość pozostaje, dodanie nowych danych na końcu pliku),
* **r+** - czytanie i pisanie (poprzednia zawartość pozostaje),
* **w+** - czytanie i pisanie (kasowanie poprzedniej zawartości),
* **a+** - czytanie i pisanie (poprzednia zawartość pozostaje),
* **b** - dodatek do poprzednich, określa tryb binarny (Windows, Macintosh),
* **U** - dodatek do poprzednich (uniwersalny translator nowych wierszy).

W systemach Windows i na macintoshach dodanie b do tryb powoduje otwarcie pliku w trybie binarnym, tak więc możemy podać tryby rb, wb i r+b. Windows rozróżnia pliki tekstowe i binarne: znaki końca linii w plikach tekstowych są automatycznie zmieniane, gdy dane są czytane lub pisane.

# Odczytywanie danych z pliku

Wybrane funkcje:

* przeczytanie całego pliku

In [None]:
f = open('plik.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)

* przeczytanie kilku (n) znaków:

In [None]:
f = open('plik.txt', 'r')
try:
    tekst = f.read(7) # czyta 7 znakow
finally: 
    f.close()

print(tekst)

* czytanie jednej linii (wraz ze znakiem końca linii \n):

In [None]:
f = open('plik.txt', 'r')
try:
    tekst = f.readline()
    tekst = f.readline()
    tekst = f.readline()
finally: 
    f.close()

print(tekst)

* przeczytanie wszystkich linii i przechowanie ich jako listę stringów z \n na końcu:

In [None]:
f = open('plik.txt', 'r')
try:
    tekst = f.readlines()
finally: 
    f.close()

print(tekst)

print()
print(tekst[0])

# Zapisywanie danych do pliku

In [None]:
liczba = 131
x = 1.2345
napis = "abcdef"

f = open('plik3.txt', 'w')
try:
    f.write("jeden\n")
    f.write(str(liczba) + "\n")
    f.write(str(x) + "\n")
    f.write(napis + "\n")
finally: 
    f.close()

In [None]:
f = open('plik3.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)

Inny zapis:

In [None]:
liczba = 535
x = 633.647
napis = "ghij"

f = open('plik3.txt', 'w')
try:
    f.write("%d\n" % liczba)
    f.write("%f\n" % x)
    f.write("%s\n" % napis)
    
    f.write("%s %s %s\n" % ("a1","a2","a3"))
    f.write("%s\n" % " ".join(["a1","a2","a3"]))
finally: 
    f.close()

In [None]:
f = open('plik3.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)

Zapisywanie kilku linii do pliku:

In [None]:
str = ["abcdef\n", "nie\n", "tak\n"]

f = open('plik3.txt', 'w')
try:
    f.writelines(str)
finally: 
    f.close()

In [None]:
f = open('plik3.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)

# Poruszanie się po pliku
Oprócz powyższych metod istnieją jeszcze takie, które pozwalają poruszać się ,,wewnątrz'' pliku, np.:

 * funkcja **tell()** - zwraca liczbę całkowitą oznaczającą bieżącą pozycję w pliku mierzoną w bajtach, licząc od początku pliku,
 * funkcja **seek**(przesuniecie, od_czego) - zmienia pozycję w pliku. Nowa pozycja obliczana jest poprzez dodanie ,,przesuniecie'' do punktu odniesienia, a ten z kolei wyznaczony jest przez wartość argumentu ,,od_czego''. Wartość od_czego równa 0 oznacza początek pliku, 1 oznacza bieżącą pozycję, a 2 to koniec pliku. ,,od_czego'' może zostać pominięte i domyślnie przyjmowane jest jako 0, używając jako punktu odniesienia początek pliku.

In [None]:
f = open('plik5.txt', 'rb+')
try:
    print(f.tell())
    print(f.tell())
    f.seek(5)     # Idź do 5 bajtu w pliku
    print(f.read(1))
    f.seek(-3, 2) # Idź do 3 bajtu od końca pliku
    print(f.read(1))
finally: 
    f.close()

## Przykład 1 (kopiowanie zawartości jednego pliku do drugiego):

In [None]:
def copy_file(infile_name, outfile_name):
    infile = open(infile_name, "r")
    outfile = open(outfile_name, "w")
    try:
        for line in infile:
            outfile.write(line)
    finally:
        infile.close()
        outfile.close()
        
copy_file("plik2.txt", "plik4.txt")

## Przykład 2 (pobieranie określonego wiersza z pliku):

In [None]:
import linecache
wiersz = linecache.getline('plik.txt', 2)
print(wiersz)

# Inny sposób otwierania plików

W Pythonie 2.6 i 3.x pojawiła się nowa instrukcja **with** z opcjonalnym **as** związana z wyjątkami. Instrukcja ta jest alternatywą dla zwykłego zastosowania **try finally**.

In [None]:
# Czytanie danych z pliku.
# Plik zostanie zamknięty nawet gdy wystąpi wyjątek.
with open("plik2.txt", 'r') as f:
#     print f.closed
    text = f.read()

print(f.closed)
print()
print(text)

In [None]:
# Zapisywanie do pliku
liczba = 234.5

with open("plik6.txt", 'w') as f:
    f.write("%.1f\n" % liczba)

## Operacje na plikach i katalogach

Jednym z podstawowych zadań systemu operacyjnego jest obsługa dyskowego systemu plików. Funkcje, które pozwalają usuwać, przenosić pliki i katalogi znajdują się w modelu standardowym **os**:

In [None]:
import os

Poniżej podamy kilka funkcji pozwalających wykonywać pewne operacje na plikach i katalogach:
 
 * jak sprawdzić, w którym znajdujemy się katalogu:

In [None]:
print(os.getcwd())

* jak zmienić bieżący katalog:

In [None]:
os.chdir('../')
print(os.getcwd())
os.chdir('F:\J_python')
print(os.getcwd())

* jak sprawdzić zawartość dowolnego katalogu:

In [None]:
print(os.listdir('.'))
print()
print(os.listdir(r'e:\programy'))

* jak znaleźć pliki z rozszerzeniem ,,exe'':

In [None]:
import fnmatch
# fnmatch(nazwa, wzorzec) - zwraca prawdę, wtedy i tylko wtedy, 
# gdy nazwa odpowiada wzorcowi

print([x for x in os.listdir(r'C:\Windows') if fnmatch.fnmatch(x,'*.exe')])

* jak otrzymać katalog i nazwę pliku ze ścieżki path:

In [None]:
print(os.path.split('C:\Python24\nazwa_katalogu\plik.txt'))
print(os.path.split(r'C:\Python24\nazwa_katalogu\plik.txt')[0])
print(os.path.split('C:\Python24\nazwa_katalogu\plik.txt')[1])


* jak połączyć ciąg katalogów w jedną ścieżkę:

In [None]:
print(os.path.join('C:','Python24','nazwa_katalogu','plik.txt'))

* jak srawdzić czy dany plik istnieje:

In [None]:
print(os.path.exists('e:'))
print(os.path.exists('f:'))

* jak stworzyć nowy katalog:

In [None]:
os.mkdir('nowy')

* ak zmienić nazwę pliku lub katalogu:

In [None]:
os.rename('nowy','nowy_1')

* jak sprawdzić, czy dany obiekt jest plikiem:

In [None]:
print(os.path.isfile('e:'))
print(os.path.isfile('./plik1.txt'))

* jak sprawdzić, czy dany obiekt jest katalogiem:

In [None]:
print(os.path.isdir('e:'))

* jak usunąć plik lub katalog z dysku:

In [None]:
os.remove('./wyk6/plik4.txt')
os.rmdir('nowy_1')

# Zad.

Napisz funkcję, która będzie zwracała:

* liczbę wierszy,
* liczbę wyrazów w każdej linii oraz obliczy średnią długość słowa w poszczególnych wierszach,
* liczbę zdań w pliku.

Funkcja powinna przyjmować jeden argument: nazwę/ścieżkę do pliku.

# Zad.

Dany jest plik tekstowy o następującej zawartości:


```python
kanapka 2.50
szarlotka 1.50
woda_mineralna 1.50
```

Napisz funkcję, która obliczy łączną cenę koszyka towarów. Argumentem jest nazwa pliku, wartością jest łączna cena.

# Zad. 

Dany jest plik tekstowy o następującej zawartości

```python
kanapka 2.50
szarlotka 1.50
woda_mineralna 1.50
```

ym razem nazwy towarów mogą być wielowyrazowe, ale cena jest zawsze poprzedzona znakiem dwukropka.

Napisz następujące funkcje

* obliczanie ceny koszyka
* dodawanie nowej pozycji do koszyka (na koniec)
* usuwanie wybranej pozycji z koszyka (podajemy numer linii do usunięcia)



# 2. Wyrażenia regularne

Wyrażenia regularne wykorzystywane są w praktyce do przetwarzania tekstów (wyszukiwania określonych znaków, łańcuchów). Wyrażenie regularne (ang. regular expression) stanowi wzorzec napisu. W oparciu o nie, możemy automatycznie odnaleźć w tekście każdy napis pasujący do wzorca (ang. matching string, lub krócej match). Funkcje obsługujące wyrażenia regularne w Pythonie znajdują się w module **re**.

In [None]:
import re

# Najważniejsze metody modułu re:

 * **re.search(pattern, str)**

Szuka dopasowania wyrażenia regularnego pattern w całym łańcuchu str i zwraca obiekt klasy MatchObject.

In [None]:
lancuch="""Wlazł kot na płot i nie mruga.
Smutna to blablalaaaa, niedługa?"""

print(lancuch)
kot = re.search("kot", lancuch)
print(kot)

W zmiennej kot mamy teraz zapamiętany wynik wyszukiwania wzorca "kot" w napisie lancuch w postaci obiektu klasy MatchObject, który posiada m.in. metody **start** i **end** zwracające początek i koniec pasującego do wzorca fragmentu napisu, który z kolei zwracany jest przez metodę **group** wywołaną z parametrem 0 (kolejne liczby naturalne zwracają kolejne grupy wyrażenia regularnego):

In [None]:
print(kot.start(), kot.end(), kot.group())

* **re.match(pattern, str)**

Szuka dopasowania wyrażenia regularnego pattern, ale tylko na początku łańcucha str, czym różni się od funkcji search:

In [None]:
print(re.match("kot", lancuch))
w = re.match("Wlazł", lancuch)
print(w.start(), w.end(), w.group())

* **re.findall(pattern, str)**

Funkcja findall pozwala znaleźć wszystkie wystąpienia wzorca w tekście i zwraca ich listę:

In [None]:
print(re.findall("nie", lancuch))

* **re.finditer(pattern, str)**

Zwraca iterator zwracający kolejne obiekty dopasowania wzorca pattern w łańcuchu str:

In [None]:
text = "He was carefully disguised but captured quickly by police."
for m in re.finditer(r"\w+ly", text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

* **re.split(pattern, str)**

Zwraca listę stringów powstałą z podzielenia łańcucha str na każdym dopasowania wyrażenia regularnego pattern:

In [None]:
print(re.split(" - ","34 - 523 - 876 - 098"))

* **re.sub(pattern, repl, str)**
Zwraca kopię łańcucha str, gdzie wszystkie dopasowania wyrażenia regularnego pattern zamienione zostały na repl:

In [None]:
l2 = re.sub("ot","otek", lancuch)
print(lancuch)
print()
print(l2)

## Przyspieszanie wyszukiwania

Jeżeli pewnego wzorca mamy zamiar używać wielokrotnie, wygodnie jest go skompilować. Funkcje modułu re dostępne są wtedy jako metody skompilowanego wyrażenia. Poprawia to także szybkość wyszukiwania.

In [None]:
procenty = re.compile(r"\b\d+%")
print(procenty.findall("Woda ma 0% cukru."))
print(procenty.findall("Śmietana ma 6% cukru."))
print(procenty.findall("Cukier ma 100% cukru."))
print(procenty.sub("90%","Cukier ma 100% cukru."))
print(procenty.split("Cukier ma 100% cukru."))

## Obiekty dopasowania

W przypadku dopasowania zwracany jest tzw. obiekt dopasowania (ang. match object). Obiekty dopasowania posiadają m.in. następujące metody:

* group(n) - zwraca tekst dopasowania dla grupy n,
* groups() - zwraca krotkę zawierającą dopasowania wszystkich grup, począwszy od 1. grupy,
* start(n) - zwraca indeks początkowy dla grupy n,
* end(n) - zwraca indeks końcowy dla grupy n,
* span(n) - zwraca dla grupy n krotkę (indeks początkowy, indeks końcowy).

Najważniejsza z powyższych jest funkcja group. Dla grupy 0 funkcja zwraca całe dopasowane wyrażenie regularne. Dla grup 1,2,... funkcja zwraca dopasowania w kolejnych nawiasach (nawiasy nieprzechwytujące nie są brane pod uwagę).

In [None]:
pattern = r'(\d+).(\d*)'
str = '342.79+12.56'

m = re.match(pattern, str)

print(m.group(0))           # 342.79, cale dopasowanie
print(m.group(1))           # 342, dopasowanie (\d+)
print(m.group(2))           # 79, dopasowanie (\d*)
print(m.start(1), m.end(1)) 
print(m.start(2), m.end(2))
print(m.span(2))

## Znaki specjalne

Większość znaków może być używana jako literały. Istnieją jednak znaki specjalne, które muszą być poprzedzone ukośnikiem \, aby można było ich używać jako literałów. Wspomniane znaki specjalne to: \, **.**, **^**, **$**, **?**, **+**, *****, **{**, **}**, **[**, **]**, **|**.

## Surowe ciągi znaków

Surowe ciągi znaków (ang. raw strings) ułatwiają pisanie wyrażeń regularnych w Pythonie, zmniejszając potrzebę użycia znaków ukośnika (backslash'a). Łańcuch znaków poprzedza się literą r, która wyłącza specjalne znaczenie ukośnika. Dobrą praktyką jest zawsze definiowanie wzorców jako surowych łańcuchów.
Przykłady:

In [None]:
print("ab*")    # zwykły łańcuch
print(r"ab*")   # surowy łańcuch

print("\\w+\\s+")    # zwykły łańcuch
print(r"\w+\s+")    # surowy łańcuch

## Klasy znaków

Klasa znaków to jeden lub większa liczba znaków ujętych w nawiasy kwadratowe. Klasa znaków jest wyrażeniem. Jeśli nie jest podany po niej kwantyfikator, zostanie dopasowany dokładnie jeden znak spośród znaków zdefiniowanych w klasie znaków. Oto niektóre z nich:

* . - dowolny znak z wyjątkiem znaku nowej linii,
* \d - dowolna cyfra,
* \D - dowolna znak nie będący cyfrą,
* \s - dowolny biały znak (spacja, tabulator, itd.),
* \S - dowolny znak nie będący białym znakiem,
* \w - dowolny znak alfanumeryczny (litera lub cyfra),
* \W - dowolny znak nie będący znakiem alfanumerycznym.

## Kwantyfikatory wyrażeń regularnych

Kwantyfikatory określają ilość powtórzeń znaków lub sekwencji we wzorcach. Domyślnie kwantyfikatory są zachłanne, tzn. starają się dopasować maksymalną możliwą ilość znaków w tekście. Oto niektóre z nich:

* \* - 0 lub więcej wystąpień,
* \+ - 1 lub więcej wystąpień,
* ? - 0 lub 1 wystąpienie,
* {n} - dokładnie n wystąpień,
* {n,} - co najmniej n wystąpień,
* {,n} - co najwyżej n wystąpień,
* {m,n} - od m do n wystąpień,
* [...] - jeden znak spośród zbioru znaków,
* [^...] - jeden znak spoza zbioru znaków,
* A|B - dopasowanie A lub B, operator alternatywy.

## Kwantyfikatory niezachłanne

Dodanie znaku zapytania po kwantyfikatorze przekształca go w kwantyfikator niezachłanny (leniwy):

* \*? - 0 lub więcej wystąpień,
* \+? - 1 lub więcej wystąpień,
* ?? - 0 lub 1 wystąpienie,
* {m,n}? - od m do n wystąpień. Kwantyfikator niezachłanny stara się dopasować minimalną możliwą ilość tekstu.

## Asercje

Asercje (kotwice) pozwalają wyznaczyć miejsce w tekście, w którym musi pojawić się dopasowanie:

* ^ - początek tekstu,
* $ - koniec tekstu,
* \A - początek tekstu,
* \Z - koniec tekstu,
* \b - pusty string na początku lub końcu słowa (dopasowuje granicę słowa albo początek lub koniec tekstu),
* \B - pusty string, lecz nie na początku lub końcu słowa (dopasowanie wewnątrz słowa).

In [None]:
# szukamy daty
print(re.findall(r"\b\d{4}-\d{2}-\d{2}\b","Zdarzyło się to 2006-08-12."))

In [None]:
# szykamy liczb
print(re.findall(r"-?\b\d+(?:[,\.]\d*)?\b","7 ludzi ma 3,3 psy warte -112.30 zł"))

In [None]:
# podwajamy wszystkie liczby w łańcuchu
print(re.sub(r"-?\b\d+(?:[,\.]\d*)?\b", \
       lambda m: "%.2f"%(float(m.group(0))*2), \
       "7 ludzi ma 3 psy warte -112.20 zł"))

Pozostałe opcje sterujące wyrażeniami regularnymi:

* **IGNORECASE** – ignoruje przy porównywaniu wielkość liter,
* **MULTILINE** – sprawia, że znaki $ i ^ oznaczają nie tylko początek (koniec) napisu, ale też początek (koniec) wiersza,
* **DOTALL** – sprawia, że kropka obejmuje też znaki końca wiersza,
* **VERBOSE** – ignoruje białe znaki we wzorcu i pozwala umieszczać w nim komentarze (opcja stosowana wyłącznie dla poprawienia przejrzystości kodu źródłowego).

Kilka opcji łączymy ze sobą operatorem sumy bitowej ,,|'':

In [None]:
print(lancuch)
print()
print(re.findall(r"^\w+", lancuch, re.IGNORECASE|re.MULTILINE))

# Zad.
Stwórz wyrażenie regularne, które pozwoli wyszukać w dowolnym tekście wszystkie zawarte w nim adresy e-mail. Pamiętaj o znakach, które muszą być w każdym poprawnym adresie e-mail, oraz o znakach, które mogą w nim wystąpić.

In [1]:
import re
f = open('4.txt', 'r')

# Zad.

Typowym błędem przy szybkim wpisywaniu tekstu jest pisanie drugiej litery wyrazu dużą literą, np. SZczecin (zamiast Szczecin) czy POlska (zamiast Polska). Napisz program, wykorzystujący funkcję sub i wyrażenia regularne, który poprawi wszystkie takie błędy w tekście wprowadzonym przez użytkownika. Wyrazy dłuższe niż dwie litery mają być poprawiane automatycznie, natomiast o podmianę wyrazu dwuliterowego (np. IT na It) program ma pytać użytkownika za każdym razem, gdy na taki natrafi.

In [None]:
text= "POlska to piękny kraj dla LUdzi pracujących w IT"


# Zad

Napisz program, który wczytuje plik i zapisuje jego zawartość w nowym pliku ale w odwrotnej kolejności występowania wierszy (czyli pierwsza linia w starym pliku będzie ostatnią w nowym pliku).

In [None]:
f = open('1.txt', 'r')

# Zad

W pliku 'dane.txt' są dane z brakującymi wartościami. Każda wartość oddzielona jest przecinkiem. Proszę napisać program, który będzie czytał dane z pliku 'dane.txt' i zapisywał je do innego pliku ale tak aby wartości były oddzielone spacjami, a w miejsce brakujących danych wstawiał '0'.

In [None]:
f = open('dane.txt', 'r')

# Zad. 
Napisz program, który w pliku 3.txt usunie powtarzające się spacje występujące obok siebie i zastąpi znaczniki <tt>&lt;b&gt;</tt> oraz <tt>&lt;/b&gt;</tt> znacznikami <tt>[b]</tt> oraz <tt>[/b]</tt>. Tekst, który powstanie w wyniku przeprowadzenia wspomnianych operacji wypisz na ekran.

In [4]:
f = open('3.txt', 'r')