# Python w badaniach humanistycznych
## Zajęcia 2

Na tym etapie wszyscy powinni mieć lokalnie wykonane wszystkie czynności opisane na poprzednim wykładzie, w szczególności sklonowane repozytorium o nazwie `kurs-pythona-2017Z-<login-githubowy>`.

Spróbujemy teraz zaciągnąć do naszego repozytorium zmiany w repozytorium "macierzystym" (=materiały do dzisiejszych zajęć), ale najpierw nauczymy się commitować nasze zmiany. Użytkownicy Windowsa uruchamiają `Git Gui`, użytkownicy Linuksa (i, miejmy nadzieję, Maca) uruchmamiają `git citool` (uprzednio zainstalowawszy paczkę `git-gui`).

Osoby ciekawe świata i gita mogą w wolnych chwilach czytać https://git-scm.com/book

1. Otwieramy lokalizację, w której mamy nasze repozytorium.
2. W lewym górym oknie (`Unstaged Changes`) mamy listę plików, które są inne niż w najnowszej zacommitowanej wersji.
3. Te zmiany, które chcemy utrwalić, musimy najpierw oznaczyć jako takie (`stage`). Wybieramy plik i klikamy `Commit -> Stage to commit`. Plik znika z `Unstaged Changes` i pojawia się w `Staged Changes` (lewo-dół.
4. Kiedy mamy zestage'owane wszystkie zmiany, możemy wpisać commit message (prawo-doł) i kliknąć `Commit`. Jeśli dodatkowo klikniemy `Push`, na zmiana znajdzie się na serwerze GitHuba.
5. Uwaga: żeby mergowanie w następnym kroku się udało, nie możemy mieć żadnych _zmienionych_, niezacommitowanych plików w repozytorium.



1. Z menu wybieramy `Remote -> Add`.
2. Podajemy Name: `upstream` (bo to ładne i w miarę adekwatne słowo) i Location: `git@github.com:LaCH-UW/kurs-pythona-2017Z.git` ( bo inaczej nie zadziała, przeklejone z pola `Clone` ze strony https://github.com/LaCH-UW/kurs-pythona-2017Z ). Niech opcja "Fetch immediately" będzie zaznaczona (i tylko ona).
3. "Następnym razem" pamiętajmy o opcji `Remote -> Fetch`.
4. Utwórzmy lokalnego brancha w oparciu o to: `Branch -> Create`, Name: `upstream-master`, a jako `Starting Revision` podajmy Revision Expression: `upstream/master` (Uwaga, to to samo słowo `upstream`, co w pkt. 3). Chcemy domyślnych opcji (`Fast Forward Only`, `Fetch Tracking Branch` i `Checkout After Creation`).
5. Teraz możemy nanieść zmiany z brancha `upstream-master` na nasz branch `master` -- `Branch -> Checkout` i wybieramy `master`.
6. `Merge -> Local Merge`, i w `Local branch` wybieramy `upstream-master`.
7. Uruchamiamy Jupyter Notebook (jeśli go nie uruchomiliśmy) i możemy pracować.

Jak "zwykle" mamy pliki `2017-11-21/zajecia.ipynb` (ćwiczenia na zajęciach), `2017-11-21/slajdy.ipynb` (materiały z wykładu) i `2017-11-21/praca_domowa.ipynb` (wiadomo).

## Praca z plikami

Za pomocą polecenia `with open(<scieżka-do-pliku>, <tryb>) as wskaznik:` możemy znaleźć się w kontekście otwartego pliku, pod zmienną `wskaznik` mając wskaźnik do pliku. Jeśli otwieramy plik do odczytu (`tryb == 'r'`), wskaźnik ma metodę `read`; jeśli do zapisu, to `write` (`tryb == 'w'`; UWAGA: otwarcie pliku w trybie zapisu go wyczyści; możemy dopisywać coś do pliku otwarłszy go do "dopisywania" (`'a'`)).

W momencie, kiedy opuścimy kontekst (=kod przestanie być "wcięty" względem `with`), plik zostanie automatycznie zamknięty.

In [1]:
with open('../dane/lalka-tom-pierwszy.txt', 'r') as fp:
    tekst = fp.read()

tekst[:100]

'Bolesław Prus\n\nLalka\n\n\n\n\n\n\nTom I\n\n\n\nI. Jak wygląda firma J. Mincel i S. Wokulski przez szkło butelek'

Nb. w zmiennej typu `string` znaki nowej linii są oznaczane symbolem `\n` (polubmy go, może się przydać). Jeśli wywołamy polecenie `print()`, zostaną automatycznie zamieniona na faktycznie złamania wiersza.

## Ćwiczenie 1: Sprawdź ile znaków jest w pierwszym tomie Lalki
(powinien być na ścieżce `../dane/lalka-tom-pierwszy.txt`)

## Liczenie słów w tekście

In [2]:
# wersja 'chcemy policzyć tylko jedno słowo'

def wersja_1(text, searched_word):
    count = 0
    for word in text.split():
        if word == searched_word:
            count += 1

    return count

wersja_1(tekst, 'dzień')

59

In [3]:
# wersja naiwna

def wersja_2(text):
    struct = []
    for word in text.split():
        struct.append(word)

    return struct

dane_2 = wersja_2(tekst)
dane_2.count('dzień')

59

In [4]:
# wersja dużo-lepsza: wyszukiwanie w słowniku jest szybsze

def wersja_3(text):
    struct = {}
    for word in text.split():
        if word not in struct:
            struct[word] = 1
        else:
            struct[word] += 1
    return struct

dane_3 = wersja_3(tekst)
dane_3['dzień']

59

In [5]:
# Uwaga: Ponieważ dane słowo jest dodawane do słownika przy pierwszym wystąpieniu to byłby błąd:
#dane_3['carewicz']
# Możemy użyć polecenia (drugi parametr jest wartością zwracaną przez metodę, jeśli klucza nie ma w słowniku):
dane_3.get('carewicz', 0)

0

## Ćwiczenie 2:
### 1. Weź 20 pierwszych "słów" z tekstu Lalki.
### 2. Policz ile razy każde z nich występuje w tekście.

## Powyższe metody liczenia są z gruntu wadliwe. Co im dolega?

In [6]:
# Po pierwsze, jest kwestia wielkości liter
print(dane_3.get('dzień', 0))
print(dane_3.get('Dzień', 0))

59
7


In [7]:
# normalizacja

def wersja_4(text):
    struct = {}
    for word in text.upper().split():
        if word not in struct:
            struct[word] = 1
        else:
            struct[word] += 1
    return struct

dane_4 = wersja_4(tekst)
print(dane_4.get('dzień', 0))
print(dane_4.get('Dzień', 0))
print(dane_4.get('DZIEŃ', 0))
print(dane_4.get('Dzień'.upper(), 0))

0
0
66
66


In [8]:
# Po drugie, warto się pozbyć znaków niealfanumerycznych
print(dane_3.get('dzień.', 0))

4


In [9]:
# wyrzucanie znaków interpunkcyjnych

def wersja_5(text):
    struct = {}
    for word in text.replace('.', '').replace('?', '').replace('!', '').replace('…', '').upper().split():
        if word not in struct:
            struct[word] = 1
        else:
            struct[word] += 1
    return struct

dane_5 = wersja_5(tekst)
print(dane_4.get('dzień'.upper(), 0))
print(dane_5.get('dzień'.upper(), 0))

66
71


## Ćwiczenie 3: Wykonaj polecenia z ćwiczenia 2 licząc "bardziej słowa". Porównaj wyniki.

Czy na pewno wyrzuciliśmy wszystkie znaki interpunkcyjne? Jak mieć pewność?

https://en.wikipedia.org/wiki/Unicode_character_property

In [10]:
import unicodedata  # to jest moduł Pythona; niektóre są wbudowane (jak unicodedata), inne trzeba zainstalować

print(unicodedata.category('a'))
print(unicodedata.category('A'))
print(unicodedata.category('.'))
print(unicodedata.category(' '))
print(unicodedata.category('1'))
print(unicodedata.category('\n'))  # pamiętamy?


Ll
Lu
Po
Zs
Nd
Cc


In [11]:
import unicodedata

def wersja_6(text):
    struct = {}
    for word in ''.join(c for c in text if unicodedata.category(c) != 'Po').upper().split():
        if word not in struct:
            struct[word] = 1
        else:
            struct[word] += 1
    return struct

dane_6 = wersja_6(tekst)
print(dane_4.get('dzień'.upper(), 0))
print(dane_5.get('dzień'.upper(), 0))
print(dane_6.get('dzień'.upper(), 0))

66
71
83


Czy to jest dobrze? Skąd wiemy co chcemy wyrzucić?

## Ćwiczenie 4: Zbuduj (i obejrzyj) mapę znaków i ich klas unicode'owych

In [12]:
import unicodedata

def wersja_7(text):
    struct = {}
    for word in ''.join(c for c in text if not unicodedata.category(c).startswith('P')).upper().split():
        if word not in struct:
            struct[word] = 1
        else:
            struct[word] += 1
    return struct

dane_7 = wersja_7(tekst)
print(dane_4.get('dzień'.upper(), 0))
print(dane_5.get('dzień'.upper(), 0))
print(dane_6.get('dzień'.upper(), 0))
print(dane_7.get('dzień'.upper(), 0))

66
71
83
84


## Krótko o wyrażeniach regularnych

Dłużej tutaj: https://docs.python.org/3/library/re.html

In [13]:
import re

# znajdź napis postaci "<wozi> + dowolna liczba znaków będących literami"
print(re.search(r'wozi\w*', tekst))

# znajdź wszystkie wystąpienia powyższego
for m in re.findall(r'wozi\w*', tekst):
    print(m)

# znajdź wszystkie napisy postaci "kot + <dowolna liczba znaków będących literami>"
# i zamień je na napisy postaci "pies + <to, co było po 'kot'>"
print(re.sub(r'kot(\w*)', 'pies\g<1>', 'Ala ma kota, kot ma Alę'))

<_sre.SRE_Match object; span=(137566, 137571), match='wozie'>
wozie
wozie
wozić
woziki
wozie
wozić
woził
woziła
Ala ma piesa, pies ma Alę


In [14]:
import re

# . oznacza dowolny znak, \b -- granicę słowa
print(re.search(r'\bk.ń\b', tekst))

# w kwadratowych nawiasach możemy podać pulę znaków, które matchujemy; | oznacza alternatywę ("lub")
print(re.sub(r'[.,?…]|!', '', 'Czy sądzisz, że interpunkcja jest zbędna? Ja tak!'))

# \d oznacza cyfrę (alternatywnie możemy napisać "[0-9]")
print(re.sub(r'\d', '', 'Jestem nu324me31ro31f1i0l5em!'))

# dzielenie po wyrażeniu regularnym -- efektem jest lista
print(re.split(r'-', '2017-02-04'))

<_sre.SRE_Match object; span=(36062, 36065), match='koń'>
Czy sądzisz że interpunkcja jest zbędna Ja tak
Jestem numerofilem!
['2017', '02', '04']


## Ćwiczenie 5: policz, ile osób jest w Lalce wymienionych jako "pan Jakiśtam"
### Przyjmijmy, że interesują nas tylko wyrażenia mianownikowe, w których słowo po "pan" zaczyna się wielką literą.
Oczywiście pan Wokulski i pan Stanisław to na potrzeby tego ćwiczenia dwie różne "postaci".

Zrób to w komórce poniżej.

## Następne zajęcia: 5 grudnia 2017, 16:30
### Praca domowa znajduje się w pliku `2017-11-21/praca_domowa.ipynb`
Proszę o wrzucenie jej do swojego repozytorium do 2 grudnia 2017 (sobota), do godziny 23:59.

Ten sam termin obowiązuje na poprawki poprzedniej pracy domowej.