# 1. Wejście i wyjście

W Pythonie istnieje kilka sposobów prezentowania wyników działania naszego programu:

* dane mogą zostać wypisane na ekran,
* zapisane do pliku w celu ponownego użycia.

Python posiada wbudowaną funkcję **open**, która służy do otwierania plików z dysku. Zwraca ona obiekt pliku posiadający metody i atrybuty, dzięki którym możemy dostać się do pliku i wykonywać na nim pewne operacje, np. pobranie, dopisanie danych. Funkcja ta posiada dwa argumenty: nazwę (ścieżkę do pliku), tryb (określa czynność np. odczyt z pliku).

Najprostszy sposób użycia metody open to:

In [5]:
text = open('plik.txt', ).read()
print(text)

Al ma kota.


Jednakże nie jest to metoda bezpieczna. Dobry skrypt powinien zamykać połączenie z plikiem zaraz po zakończeniu operowania na nim. Do tego służy metoda **close**.

In [51]:
plik = open('plik.txt')
try:
    tekst = plik.read()
finally:
    plik.close()

print(tekst)

Ala ma kota.
Kot ma mysz.
Mysz jest wolna.


Różne tryby metody open:

* **r** - czytanie pliku,
* **w** - zapisywanie do pliku (kasowanie poprzedniej zawartości, gdy plik nie istnieje tworzy go),
* **a** - dopisywanie do pliku (poprzednia zawartość pozostaje, dodanie nowych danych na końcu pliku),
* **r+** - czytanie i pisanie (poprzednia zawartość pozostaje),
* **w+** - czytanie i pisanie (kasowanie poprzedniej zawartości),
* **a+** - czytanie i pisanie (poprzednia zawartość pozostaje),
* **b** - dodatek do poprzednich, określa tryb binarny (Windows, Macintosh),
* **U** - dodatek do poprzednich (uniwersalny translator nowych wierszy).

W systemach Windows i na macintoshach dodanie b do tryb powoduje otwarcie pliku w trybie binarnym, tak więc możemy podać tryby rb, wb i r+b. Windows rozróżnia pliki tekstowe i binarne: znaki końca linii w plikach tekstowych są automatycznie zmieniane, gdy dane są czytane lub pisane.

# Odczytywanie danych z pliku

Wybrane funkcje:

* przeczytanie całego pliku

In [52]:
f = open('plik.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)

Ala ma kota.
Kot ma mysz.
Mysz jest wolna.


* przeczytanie kilku (n) znaków:

In [53]:
f = open('plik.txt', 'r')
try:
    tekst = f.read(7) # czyta 7 znakow
finally: 
    f.close()

print(tekst)

Ala ma 


* czytanie jednej linii (wraz ze znakiem końca linii \n):

In [54]:
f = open('plik.txt', 'r')
try:
    tekst = f.readline()
    tekst = f.readline()
    tekst = f.readline()
finally: 
    f.close()

print(tekst)

Mysz jest wolna.


* przeczytanie wszystkich linii i przechowanie ich jako listę stringów z \n na końcu:

In [19]:
f = open('plik.txt', 'r')
try:
    tekst = f.readlines()
finally: 
    f.close()

print(tekst)

print()
print(tekst[0])

['Ala ma kota.\n', 'Kot ma mysz.\n', 'Mysz jest wolna.']

Ala ma kota.



# Zapisywanie danych do pliku

In [20]:
liczba = 131
x = 1.2345
napis = "abcdef"

f = open('plik3.txt', 'w')
try:
    f.write("jeden\n")
    f.write(str(liczba) + "\n")
    f.write(str(x) + "\n")
    f.write(napis + "\n")
finally: 
    f.close()

In [21]:
f = open('plik3.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)

jeden
131
1.2345
abcdef



Inny zapis:

In [22]:
liczba = 535
x = 633.647
napis = "ghij"

f = open('plik3.txt', 'w')
try:
    f.write("%d\n" % liczba)
    f.write("%f\n" % x)
    f.write("%s\n" % napis)
    
    f.write("%s %s %s\n" % ("a1","a2","a3"))
    f.write("%s\n" % " ".join(["a1","a2","a3"]))
finally: 
    f.close()

In [23]:
f = open('plik3.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)

535
633.647000
ghij
a1 a2 a3
a1 a2 a3



Zapisywanie kilku linii do pliku:

In [24]:
str = ["abcdef\n", "nie\n", "tak\n"]

f = open('plik3.txt', 'w')
try:
    f.writelines(str)
finally: 
    f.close()

In [25]:
f = open('plik3.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)

abcdef
nie
tak



# Poruszanie się po pliku
Oprócz powyższych metod istnieją jeszcze takie, które pozwalają poruszać się ,,wewnątrz'' pliku, np.:

 * funkcja **tell()** - zwraca liczbę całkowitą oznaczającą bieżącą pozycję w pliku mierzoną w bajtach, licząc od początku pliku,
 * funkcja **seek**(przesuniecie, od_czego) - zmienia pozycję w pliku. Nowa pozycja obliczana jest poprzez dodanie ,,przesuniecie'' do punktu odniesienia, a ten z kolei wyznaczony jest przez wartość argumentu ,,od_czego''. Wartość od_czego równa 0 oznacza początek pliku, 1 oznacza bieżącą pozycję, a 2 to koniec pliku. ,,od_czego'' może zostać pominięte i domyślnie przyjmowane jest jako 0, używając jako punktu odniesienia początek pliku.

In [41]:
f = open('plik5.txt', 'rb+')
try:
    print(f.tell())
    print(f.tell())
    f.seek(5)     # Idź do 5 bajtu w pliku
    print(f.read(1))
    f.seek(-3, 2) # Idź do 3 bajtu od końca pliku
    print(f.read(1))
finally: 
    f.close()

0
0
b'5'
b'd'


## Przykład 1 (kopiowanie zawartości jednego pliku do drugiego):

In [44]:
def copy_file(infile_name, outfile_name):
    infile = open(infile_name, "r")
    outfile = open(outfile_name, "w")
    try:
        for line in infile:
            outfile.write(line)
    finally:
        infile.close()
        outfile.close()
        
copy_file("plik2.txt", "plik4.txt")

## Przykład 2 (pobieranie określonego wiersza z pliku):

In [56]:
import linecache
wiersz = linecache.getline('plik.txt', 2)
print(wiersz)

Kot ma mysz.



# Inny sposób otwierania plików

W Pythonie 2.6 i 3.x pojawiła się nowa instrukcja **with** z opcjonalnym **as** związana z wyjątkami. Instrukcja ta jest alternatywą dla zwykłego zastosowania **try finally**.

In [57]:
# Czytanie danych z pliku.
# Plik zostanie zamknięty nawet gdy wystąpi wyjątek.
with open("plik2.txt", 'r') as f:
#     print f.closed
    text = f.read()

print(f.closed)
print()
print(text)

True

plik 2


In [58]:
# Zapisywanie do pliku
liczba = 234.5

with open("plik6.txt", 'w') as f:
    f.write("%.1f\n" % liczba)

## Operacje na plikach i katalogach

Jednym z podstawowych zadań systemu operacyjnego jest obsługa dyskowego systemu plików. Funkcje, które pozwalają usuwać, przenosić pliki i katalogi znajdują się w modelu standardowym **os**:

In [59]:
import os

Poniżej podamy kilka funkcji pozwalających wykonywać pewne operacje na plikach i katalogach:
 
 * jak sprawdzić, w którym znajdujemy się katalogu:

In [60]:
print(os.getcwd())

F:\J_python


* jak zmienić bieżący katalog:

In [63]:
os.chdir('../')
print(os.getcwd())
os.chdir('F:\J_python')
print(os.getcwd())

F:\
F:\J_python


* jak sprawdzić zawartość dowolnego katalogu:

In [64]:
print(os.listdir('.'))
print()
print(os.listdir(r'e:\programy'))

['.ipynb_checkpoints', '01.txt', '1.csv', '1.jpg', '111-checkpoint.ipynb', '111.ipynb', '2.csv', '3dGraph.png', '4_dataDisplay_ipynb.contexts.zip', '4_dataDisplay_ipynb.tasks.zip', 'AD01_Z01-checkpoint.ipynb', 'AD01_Z01.ipynb', 'AD01_Z02-checkpoint.ipynb', 'AD01_Z02.ipynb', 'AD01_Z03-checkpoint.ipynb', 'AD01_Z03.ipynb', 'add_to_python_path.ipynb', 'Analiza 5-checkpoint.ipynb', 'Analiza 5.ipynb', 'Analiza 7.ipynb', 'Analiza 8.ipynb', 'board.c', 'board.pyx', 'Brown word clustering evaluation.ipynb', 'Brown_clustering_Hartigan_1.ipynb', 'Brown_clustering_Hartigan_2.ipynb', 'Brown_clustering_Hartigan_3-Copy1.ipynb', 'Brown_clustering_Hartigan_3.ipynb', 'Brown_ex_1-Copy1.ipynb', 'Brown_ex_1-Copy2.ipynb', 'Brown_ex_1.ipynb', 'Brown_ex_1_old.ipynb', 'Brown_ex_1_temp.ipynb', 'Brown_ex_2.ipynb', 'Brown_ex_3.ipynb', 'Brown_run_1.ipynb', 'brown_test_1.ipynb', 'brown_test_2.ipynb', 'brown_test_3.ipynb', 'BV-checkpoint.ipynb', 'BV.ipynb', 'CEC.ipynb', 'cleaned_loans_2007.csv', 'Cross validation for

PermissionError: [WinError 21] Urządzenie nie jest gotowe: 'e:\\programy'

* jak znaleźć pliki z rozszerzeniem ,,exe'':

In [69]:
import fnmatch
# fnmatch(nazwa, wzorzec) - zwraca prawdę, wtedy i tylko wtedy, 
# gdy nazwa odpowiada wzorcowi

print([x for x in os.listdir(r'C:\Windows') if fnmatch.fnmatch(x,'*.exe')])

['bfsvc.exe', 'explorer.exe', 'HelpPane.exe', 'hh.exe', 'notepad.exe', 'regedit.exe', 'splwow64.exe', 'TWUNK_16.EXE', 'TWUNK_32.EXE', 'winhlp32.exe', 'write.exe']


* jak otrzymać katalog i nazwę pliku ze ścieżki path:

In [71]:
print(os.path.split('C:\Python24\nazwa_katalogu\plik.txt'))
print(os.path.split(r'C:\Python24\nazwa_katalogu\plik.txt')[0])
print(os.path.split('C:\Python24\nazwa_katalogu\plik.txt')[1])


('C:\\Python24\nazwa_katalogu', 'plik.txt')
C:\Python24\nazwa_katalogu
plik.txt


* jak połączyć ciąg katalogów w jedną ścieżkę:

In [72]:
print(os.path.join('C:','Python24','nazwa_katalogu','plik.txt'))

C:Python24\nazwa_katalogu\plik.txt


* jak srawdzić czy dany plik istnieje:

In [73]:
print(os.path.exists('e:'))
print(os.path.exists('f:'))

False
True


* jak stworzyć nowy katalog:

In [74]:
os.mkdir('nowy')

* ak zmienić nazwę pliku lub katalogu:

In [75]:
os.rename('nowy','nowy_1')

* jak sprawdzić, czy dany obiekt jest plikiem:

In [77]:
print(os.path.isfile('e:'))
print(os.path.isfile('./plik1.txt'))

False
True


* jak sprawdzić, czy dany obiekt jest katalogiem:

In [78]:
print(os.path.isdir('e:'))

False


* jak usunąć plik lub katalog z dysku:

In [80]:
os.remove('./wyk6/plik4.txt')
os.rmdir('nowy_1')

FileNotFoundError: [WinError 3] System nie może odnaleźć określonej ścieżki: './wyk6/plik4.txt'

# Zad.

Napisz funkcję, która będzie zwracała:

* liczbę wierszy,
* liczbę wyrazów w każdej linii oraz obliczy średnią długość słowa w poszczególnych wierszach,
* liczbę zdań w pliku.

Funkcja powinna przyjmować jeden argument: nazwę/ścieżkę do pliku.

In [110]:
f = open('1.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)

Nam strzelać nie kazano. - Wstąpiłem na działo 
I spojrzałem na pole: dwieście harmat grzmiało, 
Artyleryi ruskiej ciągną się szeregi 
Prosto, długo, daleko, jako morza brzegi. 
I widziałem ich wodza: przybiegł, mieczem skinął 
I, jak ptak, jedno skrzydło wojska swego zwinął. 
Wylewa się spod skrzydła ścisniona piechota 
Długą czarną kolumną, jako lawa błota, 
Nasypana iskrami bagnetów. Jak sępy, 
Czarne chorągwie na śmierc prowadzą zastępy. 
Przeciw nim sterczy biała, wąska, zaostrzona, 
Jak głaz, bodzący morze, reduta Ordona. 



In [111]:
f = open('1.txt', 'r')
try:
    tekst = f.readlines()
finally: 
    f.close()
print(len(tekst))

12


In [114]:
f = open('1.txt', 'r')
try:
    tekst = f.readlines()
finally: 
    f.close()
for i in tekst:
    print(len(i.split(" ")))

9
8
6
7
8
9
7
7
6
7
7
7


In [115]:
f = open('1.txt', 'r')
try:
    tekst = f.readlines()
finally: 
    f.close()
for i in tekst:
    l1=list(map(len, i.split(" ")))
    print(sum(l1)/len(l1))
    

4.444444444444445
5.25
5.5
5.285714285714286
5.375
4.666666666666667
5.571428571428571
4.857142857142857
5.5
5.714285714285714
5.857142857142857
5.0


# Zad.

Dany jest plik tekstowy o następującej zawartości:


```python
kanapka 2.50
szarlotka 1.50
woda_mineralna 1.50
```

Napisz funkcję, która obliczy łączną cenę koszyka towarów. Argumentem jest nazwa pliku, wartością jest łączna cena.

# Zad. 

Dany jest plik tekstowy o następującej zawartości

```python
kanapka 2.50
szarlotka 1.50
woda_mineralna 1.50
```

ym razem nazwy towarów mogą być wielowyrazowe, ale cena jest zawsze poprzedzona znakiem dwukropka.

Napisz następujące funkcje

* obliczanie ceny koszyka
* dodawanie nowej pozycji do koszyka (na koniec)
* usuwanie wybranej pozycji z koszyka (podajemy numer linii do usunięcia)



# 2. Wyrażenia regularne

Wyrażenia regularne wykorzystywane są w praktyce do przetwarzania tekstów (wyszukiwania określonych znaków, łańcuchów). Wyrażenie regularne (ang. regular expression) stanowi wzorzec napisu. W oparciu o nie, możemy automatycznie odnaleźć w tekście każdy napis pasujący do wzorca (ang. matching string, lub krócej match). Funkcje obsługujące wyrażenia regularne w Pythonie znajdują się w module **re**.

In [81]:
import re

# Najważniejsze metody modułu re:

 * **re.search(pattern, str)**

Szuka dopasowania wyrażenia regularnego pattern w całym łańcuchu str i zwraca obiekt klasy MatchObject.

In [95]:
lancuch="""Wlazł kot na płot i nie mruga.
Smutna to blablalaaaa, niedługa?"""

print(lancuch)
kot = re.search("kot", lancuch)
print(kot)

Wlazł kot na płot i nie mruga.
Smutna to blablalaaaa, niedługa?
<_sre.SRE_Match object; span=(6, 9), match='kot'>


W zmiennej kot mamy teraz zapamiętany wynik wyszukiwania wzorca "kot" w napisie lancuch w postaci obiektu klasy MatchObject, który posiada m.in. metody **start** i **end** zwracające początek i koniec pasującego do wzorca fragmentu napisu, który z kolei zwracany jest przez metodę **group** wywołaną z parametrem 0 (kolejne liczby naturalne zwracają kolejne grupy wyrażenia regularnego):

In [96]:
print(kot.start(), kot.end(), kot.group())

6 9 kot


* **re.match(pattern, str)**

Szuka dopasowania wyrażenia regularnego pattern, ale tylko na początku łańcucha str, czym różni się od funkcji search:

In [97]:
print(re.match("kot", lancuch))
w = re.match("Wlazł", lancuch)
print(w.start(), w.end(), w.group())

None
0 5 Wlazł


* **re.findall(pattern, str)**

Funkcja findall pozwala znaleźć wszystkie wystąpienia wzorca w tekście i zwraca ich listę:

In [98]:
print(re.findall("nie", lancuch))

['nie', 'nie']


* **re.finditer(pattern, str)**

Zwraca iterator zwracający kolejne obiekty dopasowania wzorca pattern w łańcuchu str:

In [99]:
text = "He was carefully disguised but captured quickly by police."
for m in re.finditer(r"\w+ly", text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

07-16: carefully
40-47: quickly


* **re.split(pattern, str)**

Zwraca listę stringów powstałą z podzielenia łańcucha str na każdym dopasowania wyrażenia regularnego pattern:

In [100]:
print(re.split(" - ","34 - 523 - 876 - 098"))

['34', '523', '876', '098']


* **re.sub(pattern, repl, str)**
Zwraca kopię łańcucha str, gdzie wszystkie dopasowania wyrażenia regularnego pattern zamienione zostały na repl:

In [101]:
l2 = re.sub("ot","otek", lancuch)
print(lancuch)
print()
print(l2)

Wlazł kot na płot i nie mruga.
Smutna to blablalaaaa, niedługa?

Wlazł kotek na płotek i nie mruga.
Smutna to blablalaaaa, niedługa?


## Przyspieszanie wyszukiwania

Jeżeli pewnego wzorca mamy zamiar używać wielokrotnie, wygodnie jest go skompilować. Funkcje modułu re dostępne są wtedy jako metody skompilowanego wyrażenia. Poprawia to także szybkość wyszukiwania.

In [102]:
procenty = re.compile(r"\b\d+%")
print(procenty.findall("Woda ma 0% cukru."))
print(procenty.findall("Śmietana ma 6% cukru."))
print(procenty.findall("Cukier ma 100% cukru."))
print(procenty.sub("90%","Cukier ma 100% cukru."))
print(procenty.split("Cukier ma 100% cukru."))

['0%']
['6%']
['100%']
Cukier ma 90% cukru.
['Cukier ma ', ' cukru.']


## Obiekty dopasowania

W przypadku dopasowania zwracany jest tzw. obiekt dopasowania (ang. match object). Obiekty dopasowania posiadają m.in. następujące metody:

* group(n) - zwraca tekst dopasowania dla grupy n,
* groups() - zwraca krotkę zawierającą dopasowania wszystkich grup, począwszy od 1. grupy,
* start(n) - zwraca indeks początkowy dla grupy n,
* end(n) - zwraca indeks końcowy dla grupy n,
* span(n) - zwraca dla grupy n krotkę (indeks początkowy, indeks końcowy).

Najważniejsza z powyższych jest funkcja group. Dla grupy 0 funkcja zwraca całe dopasowane wyrażenie regularne. Dla grup 1,2,... funkcja zwraca dopasowania w kolejnych nawiasach (nawiasy nieprzechwytujące nie są brane pod uwagę).

In [103]:
pattern = r'(\d+).(\d*)'
str = '342.79+12.56'

m = re.match(pattern, str)

print(m.group(0))           # 342.79, cale dopasowanie
print(m.group(1))           # 342, dopasowanie (\d+)
print(m.group(2))           # 79, dopasowanie (\d*)
print(m.start(1), m.end(1)) 
print(m.start(2), m.end(2))
print(m.span(2))

342.79
342
79
0 3
4 6
(4, 6)


## Znaki specjalne

Większość znaków może być używana jako literały. Istnieją jednak znaki specjalne, które muszą być poprzedzone ukośnikiem \, aby można było ich używać jako literałów. Wspomniane znaki specjalne to: \, **.**, **^**, **$**, **?**, **+**, *****, **{**, **}**, **[**, **]**, **|**.

## Surowe ciągi znaków

Surowe ciągi znaków (ang. raw strings) ułatwiają pisanie wyrażeń regularnych w Pythonie, zmniejszając potrzebę użycia znaków ukośnika (backslash'a). Łańcuch znaków poprzedza się literą r, która wyłącza specjalne znaczenie ukośnika. Dobrą praktyką jest zawsze definiowanie wzorców jako surowych łańcuchów.
Przykłady:

In [104]:
print("ab*")    # zwykły łańcuch
print(r"ab*")   # surowy łańcuch

print("\\w+\\s+")    # zwykły łańcuch
print(r"\w+\s+")    # surowy łańcuch

ab*
ab*
\w+\s+
\w+\s+


## Klasy znaków

Klasa znaków to jeden lub większa liczba znaków ujętych w nawiasy kwadratowe. Klasa znaków jest wyrażeniem. Jeśli nie jest podany po niej kwantyfikator, zostanie dopasowany dokładnie jeden znak spośród znaków zdefiniowanych w klasie znaków. Oto niektóre z nich:

* . - dowolny znak z wyjątkiem znaku nowej linii,
* \d - dowolna cyfra,
* \D - dowolna znak nie będący cyfrą,
* \s - dowolny biały znak (spacja, tabulator, itd.),
* \S - dowolny znak nie będący białym znakiem,
* \w - dowolny znak alfanumeryczny (litera lub cyfra),
* \W - dowolny znak nie będący znakiem alfanumerycznym.

## Kwantyfikatory wyrażeń regularnych

Kwantyfikatory określają ilość powtórzeń znaków lub sekwencji we wzorcach. Domyślnie kwantyfikatory są zachłanne, tzn. starają się dopasować maksymalną możliwą ilość znaków w tekście. Oto niektóre z nich:

* \* - 0 lub więcej wystąpień,
* \+ - 1 lub więcej wystąpień,
* ? - 0 lub 1 wystąpienie,
* {n} - dokładnie n wystąpień,
* {n,} - co najmniej n wystąpień,
* {,n} - co najwyżej n wystąpień,
* {m,n} - od m do n wystąpień,
* [...] - jeden znak spośród zbioru znaków,
* [^...] - jeden znak spoza zbioru znaków,
* A|B - dopasowanie A lub B, operator alternatywy.

## Kwantyfikatory niezachłanne

Dodanie znaku zapytania po kwantyfikatorze przekształca go w kwantyfikator niezachłanny (leniwy):

* \*? - 0 lub więcej wystąpień,
* \+? - 1 lub więcej wystąpień,
* ?? - 0 lub 1 wystąpienie,
* {m,n}? - od m do n wystąpień. Kwantyfikator niezachłanny stara się dopasować minimalną możliwą ilość tekstu.

## Asercje

Asercje (kotwice) pozwalają wyznaczyć miejsce w tekście, w którym musi pojawić się dopasowanie:

* ^ - początek tekstu,
* $ - koniec tekstu,
* \A - początek tekstu,
* \Z - koniec tekstu,
* \b - pusty string na początku lub końcu słowa (dopasowuje granicę słowa albo początek lub koniec tekstu),
* \B - pusty string, lecz nie na początku lub końcu słowa (dopasowanie wewnątrz słowa).

In [105]:
# szukamy daty
print(re.findall(r"\b\d{4}-\d{2}-\d{2}\b","Zdarzyło się to 2006-08-12."))

['2006-08-12']


In [106]:
# szykamy liczb
print(re.findall(r"-?\b\d+(?:[,\.]\d*)?\b","7 ludzi ma 3,3 psy warte -112.30 zł"))

['7', '3,3', '-112.30']


In [108]:
# podwajamy wszystkie liczby w łańcuchu
print(re.sub(r"-?\b\d+(?:[,\.]\d*)?\b", \
       lambda m: "%.2f"%(float(m.group(0))*2), \
       "7 ludzi ma 3 psy warte -112.20 zł"))

14.00 ludzi ma 6.00 psy warte -224.40 zł


Pozostałe opcje sterujące wyrażeniami regularnymi:

* **IGNORECASE** – ignoruje przy porównywaniu wielkość liter,
* **MULTILINE** – sprawia, że znaki $ i ^ oznaczają nie tylko początek (koniec) napisu, ale też początek (koniec) wiersza,
* **DOTALL** – sprawia, że kropka obejmuje też znaki końca wiersza,
* **VERBOSE** – ignoruje białe znaki we wzorcu i pozwala umieszczać w nim komentarze (opcja stosowana wyłącznie dla poprawienia przejrzystości kodu źródłowego).

Kilka opcji łączymy ze sobą operatorem sumy bitowej ,,|'':

In [109]:
print(lancuch)
print()
print(re.findall(r"^\w+", lancuch, re.IGNORECASE|re.MULTILINE))

Wlazł kot na płot i nie mruga.
Smutna to blablalaaaa, niedługa?

['Wlazł', 'Smutna']


# Zad.
Stwórz wyrażenie regularne, które pozwoli wyszukać w dowolnym tekście wszystkie zawarte w nim adresy e-mail. Pamiętaj o znakach, które muszą być w każdym poprawnym adresie e-mail, oraz o znakach, które mogą w nim wystąpić.

In [4]:
import re
f = open('4.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()
#print(tekst)
#mails = re.compile(r"(6[a-zA-Z0-9_.+-]+\[at\][a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)")
mails = re.compile(r"\w+\.?\w+\.?\w+\[at\]\w+\.[a-zA-Z0-9-.]+")
print(mails.findall(tekst))

['krzysztof.jakub.bartosz[at]gmail.com', 'Jakub.Byszewski[at]im.uj.edu.pl', 'Slawomir.Cynk[at]uj.edu.pl', 'Marcin.Dumnicki[at]im.uj.edu.pl', 'Zenon.Jablonski[at]im.uj.edu.pl', 'Piotr.Jucha[at]im.uj.edu.pl', 'Lukasz.Kosinski[at]im.uj.edu.pl', 'Piotr.Koscielniak[at]im.uj.edu.pl', 'Marcin.Kulczycki[at]im.uj.edu.pl', 'dominik.kwietniak[at]im.uj.edu.pl', 'Marcin.Mazur[at]im.uj.edu.pl', 'vmityu[at]yahoo.com', 'Piotr.Niemiec[at]im.uj.edu.pl', 'Leszek.Pieniazek[at]im.uj.edu.pl', 'Slawomir.Rams[at]im.uj.edu.pl', 'wojciech.slomczynski[at]im.uj.edu.pl', 'Maciej.Ulas[at]im.uj.edu.pl', 'Pawel.Wilczynski[at]im.uj.edu.pl', 'Pawel.Zapalowski[at]im.uj.edu.pl', 'Dariusz.Zawisza[at]im.uj.edu.pl', 'kwojtek.jakub.bartosz[at]gmail.com', 'Dariusz.Zawisza[at]gmail.com', 'Jan.kowalski[at]gmail.com', 'Zenon.wisniewski[at]gmail.com', 'Marta.klisko[at]gmail.com', 'Joanna.Orewczyk[at]im.uj.edu.pl', 'jacek.tabor[at]ii.uj.edu.pl']


# Zad.

Typowym błędem przy szybkim wpisywaniu tekstu jest pisanie drugiej litery wyrazu dużą literą, np. SZczecin (zamiast Szczecin) czy POlska (zamiast Polska). Napisz program, wykorzystujący funkcję sub i wyrażenia regularne, który poprawi wszystkie takie błędy w tekście wprowadzonym przez użytkownika. Wyrazy dłuższe niż dwie litery mają być poprawiane automatycznie, natomiast o podmianę wyrazu dwuliterowego (np. IT na It) program ma pytać użytkownika za każdym razem, gdy na taki natrafi.

In [8]:
text= "POlska to piękny kraj dla LUdzi pracujących w IT"
print(re.findall(r"[A-Z][A-Z]\w*",text))

['POlska', 'LUdzi', 'IT']


In [18]:
def con(m):
    if(len(m.group())>2): 
        return((m.group()).title())
    else:
        y_n = input("Czy zamienić " + (m.group()) )
        if( y_n == 'y'):
            return((m.group()).title())
        else:
            return(m.group())
print(re.sub(r"[A-Z][A-Z]\w*", con, text))

Czy zamienić ITy
Polska to piękny kraj dla Ludzi pracujących w It


In [17]:
#print(re.sub(r"[A-Z][A-Z]\w*", lambda m : m.group(0).title(), text))

Polska to piękny kraj dla Ludzi pracujących w It


# Zad

Napisz program, który wczytuje plik i zapisuje jego zawartość w nowym pliku ale w odwrotnej kolejności występowania wierszy (czyli pierwsza linia w starym pliku będzie ostatnią w nowym pliku).

In [4]:
f = open('1.txt', 'r')
try:
    tekst = f.readlines()
finally: 
    f.close()

f = open('reversed_1.txt', 'w')
try:
    for i in reversed(tekst):
        f.write(i)
finally: 
    f.close()
    
f = open('reversed_1.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)  

Jak głaz, bodzący morze, reduta Ordona. 
Przeciw nim sterczy biała, wąska, zaostrzona, 
Czarne chorągwie na śmierc prowadzą zastępy. 
Nasypana iskrami bagnetów. Jak sępy, 
Długą czarną kolumną, jako lawa błota, 
Wylewa się spod skrzydła ścisniona piechota 
I, jak ptak, jedno skrzydło wojska swego zwinął. 
I widziałem ich wodza: przybiegł, mieczem skinął 
Prosto, długo, daleko, jako morza brzegi. 
Artyleryi ruskiej ciągną się szeregi 
I spojrzałem na pole: dwieście harmat grzmiało, 
Nam strzelać nie kazano. - Wstąpiłem na działo 



# Zad

W pliku 'dane.txt' są dane z brakującymi wartościami. Każda wartość oddzielona jest przecinkiem. Proszę napisać program, który będzie czytał dane z pliku 'dane.txt' i zapisywał je do innego pliku ale tak aby wartości były oddzielone spacjami, a w miejsce brakujących danych wstawiał '0'.

In [5]:
f = open('dane.txt', 'r')
try:
    tekst = f.readlines()
finally: 
    f.close()
    
f = open('dane_1.txt', 'w')
try:
    for i in tekst:
        l=i.split(",")
        for li,j in enumerate(l):
            if(j==""):
                f.write("000")
            else:
                f.write(j)
            if(li<len(l)-1):    
                f.write(", ")
finally: 
    f.close()
    
f = open('dane_1.txt', 'r')
try:
    tekst = f.read()
finally:
    f.close()

print(tekst)            


7, 3.2, 4.7, 1.4
6.4, 3.2, 4.5, 1.5
6.9, 000, 4.9, 1.5
000, 2.3, 4, 
6.5, 2.8, 4.6, 1.5
5.7, 000, 4.5, 1.3
6.3, 3.3, 4.7, 
4.9, 000, 3.3, 1
6.6, 000, 4.6, 1.3
5.2, 2.7, 3.9, 1.4
5, 000, 3.5, 1
5.9, 3, 4.2, 1.5
6, 2.2, 4, 1
000, 2.9, 4.7, 1.4
5.6, 2.9, 3.6, 1.3
6.7, 000, 000, 1.4
5.6, 3, 4.5, 1.5
5.8, 2.7, 4.1, 1
6.2, 000, 4.5, 1.5
5.6, 2.5, 000, 1.1
5.9, 3.2, 4.8, 1.8
6.1, 2.8, 4, 1.3
000, 2.5, 4.9, 1.5
6.1, 2.8, 000, 1.2
6.4, 2.9, 4.3, 1.3
6.6, 3, 4.4, 1.4
6.8, 2.8, 4.8, 1.4
000, 3, 5, 1.7
6, 2.9, 4.5, 1.5
5.7, 2.6, 3.5, 1
000, 000, 3.8, 1.1
5.5, 2.4, 3.7, 1
5.8, 000, 3.9, 1.2
6, 2.7, 5.1, 1.6
000, 3, 4.5, 1.5
6, 3.4, 4.5, 1.6
6.7, 3.1, 4.7, 1.5
6.3, 000, 4.4, 
5.6, 3, 4.1, 1.3
5.5, 000, 4, 1.3
5.5, 2.6, 000, 1.2
6.1, 3, 4.6, 1.4
5.8, 2.6, 4, 1.2
5, 2.3, 000, 1
000, 2.7, 4.2, 1.3
5.7, 3, 4.2, 
5.7, 000, 4.2, 1.3
6.2, 2.9, 4.3, 1.3
5.1, 000, 3, 1.1
000, 2.8, 000, 1.3

