# StyloMetrix Tutorial
W tym notatniku przedstawiona jest pełna instrukcja użytkowania StyloMetrixa wraz z przykładami.

## 1. Szybki start

StyloMetrix jest narzędziem do analizy stylometrycznej tekstów. Opiera się na Spacy oraz wspiera trzy języki. Do poprawnego działania narzędzia potrzebny jest odpowiedni model językowy. Poniżej lista wspieranych języków oraz odpowiadające im modele:
- polski     [pl_nask-0.0.7](http://mozart.ipipan.waw.pl/~rtuora/spacy/)
- angielski  [en_core_web_trf](https://spacy.io/models/en)
- ukraiński  [uk_core_web_trf](https://spacy.io/models/uk)

Model należy pobrać oraz zainstalować w środowisku w którym SM będzie używany. StyloMetrix instalujemy za pomocą `pip install stylo_metrix`.

Poniżej przedstawione zostało, jak w szybki sposób obliczyć metryki dla kilku tekstów:

In [1]:
# importowanie biblioteki
import stylo_metrix as sm

In [2]:
# przykładowe teksty
texts = ['Panno święta, co Jasnej bronisz Częstochowy I w Ostrej świecisz Bramie! Ty, co gród zamkowy Nowogródzki ochraniasz z jego wiernym ludem! Jak mnie dziecko do zdrowia powróciłaś cudem (Gdy od płaczącej matki, pod Twoją opiekę',
        'Ofiarowany, martwą podniosłem powiekę; I zaraz mogłem pieszo, do Twych świątyń progu Iść za wrócone życie podziękować Bogu), Tak nas powrócisz cudem na Ojczyzny łono.  Tymczasem przenoś moją duszę utęsknioną',
        'W ludziach straty nie było. Ale wszystkie ławy Miały zwichnione nogi; stół także kulawy, Obnażony z obrusa, poległ na talerzach Zlanych winem, jak rycerz na krwawych puklerzach, Między licznymi kurcząt i jendyków ciały, W których piersi widelce świeżo wbite tkwiały.']

In [3]:
# liczenie metryk
stylo = sm.StyloMetrix('pl')
metrics = stylo.transform(texts)
metrics

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.12it/s]


Unnamed: 0,text,DESC_ADJ,DESC_ADV,DESC_NVA,DESC_NVN,G_ADJ,G_ADV,G_N,G_PRO,G_PRO_DEM,...,WF_ADJE_SKI,WF_NE_ARZ,WF_NE_EK,WF_NE_IK,WF_NE_IYCIEL,WF_NE_KA,WF_NE_KO,WF_NE_OSC,WF_NE_OWICZ,WF_NE_OWIEC
0,"Panno święta, co Jasnej bronisz Częstochowy I ...",0.0,0.0,0.0,0.0,0.121951,0.02439,0.268293,0.170732,0.0,...,0.0,0.0,0.0,0.0,0.0,0.04878,0.02439,0.0,0.0,0.0
1,"Ofiarowany, martwą podniosłem powiekę; I zaraz...",0.0,0.0,0.0,0.0,0.027778,0.083333,0.25,0.111111,0.027778,...,0.0,0.0,0.0,0.0,0.0,0.027778,0.0,0.0,0.0,0.0
2,W ludziach straty nie było. Ale wszystkie ławy...,0.0,0.0,0.0,0.0,0.0625,0.020833,0.3125,0.0625,0.0,...,0.0,0.0,0.020833,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Obliczanie metryk równie dobrze odbywa się dla jednego tekstu:

In [4]:
# do .transform wprowadzamy albo str, albo list(str)
metrics_for_one = stylo.transform(texts[0])
metrics_for_one

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  7.25it/s]


Unnamed: 0,text,DESC_ADJ,DESC_ADV,DESC_NVA,DESC_NVN,G_ADJ,G_ADV,G_N,G_PRO,G_PRO_DEM,...,WF_ADJE_SKI,WF_NE_ARZ,WF_NE_EK,WF_NE_IK,WF_NE_IYCIEL,WF_NE_KA,WF_NE_KO,WF_NE_OSC,WF_NE_OWICZ,WF_NE_OWIEC
0,"Panno święta, co Jasnej bronisz Częstochowy I ...",0.0,0.0,0.0,0.0,0.121951,0.02439,0.268293,0.170732,0.0,...,0.0,0.0,0.0,0.0,0.0,0.04878,0.02439,0.0,0.0,0.0


## 2. Tworzenie obiektu StyloMetrixa

W tym rozdziale szczegółowo opisane są parametry klasy `sm.StyloMetrix`.

- Podstawą do zbudowania obiektu SM jest określenie języka w jakim są napisane przetwarzane teksty. Odbywa się to wproadzając parametr **`lang`** typu `string`, np. dla angielskiego może to być `"en"`, bądź `"eng"` i tym podobne. Rozpoznawane są najbardziej popularne określenia i skróty dla języków. Zostało to przedstawione już poprzednio.

- Dosyć ważnym parametrem jest **`debug`**, który przyjmuje wartości boolean. Gdy ustawimy go na `True`, wynikiem operacji `transform` będą dwa obiekty DataFrame - pierwszy to wyniki obliczenia  metryk, w drugim znajduje się informacja, jakie tokeny zostały wzięte pod uwagę podczas liczenia metryk.

In [5]:
stylo = sm.StyloMetrix('pl', debug=True) 
metrics, debug = stylo.transform(texts)
debug

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.48it/s]


Unnamed: 0,text,DESC_ADJ,DESC_ADV,DESC_NVA,DESC_NVN,G_ADJ,G_ADV,G_N,G_PRO,G_PRO_DEM,...,WF_ADJE_SKI,WF_NE_ARZ,WF_NE_EK,WF_NE_IK,WF_NE_IYCIEL,WF_NE_KA,WF_NE_KO,WF_NE_OSC,WF_NE_OWICZ,WF_NE_OWIEC
0,"Panno święta, co Jasnej bronisz Częstochowy I ...",{'TOKENS': []},{'TOKENS': []},{'TOKENS': []},{'TOKENS': []},"{'VALUES': [święta, Ostrej, zamkowy, Nowogródz...",{'VALUES': [Gdy]},"{'VALUES': [Panno, Jasnej, Częstochowy, Bramie...","{'VALUES': [co, Ty, co, jego, Jak, mnie, Twoją]}",{'VALUES': []},...,{},{},{},{},{},{},{},{},{},{}
1,"Ofiarowany, martwą podniosłem powiekę; I zaraz...",{'TOKENS': []},{'TOKENS': []},{'TOKENS': []},{'TOKENS': []},{'VALUES': [martwą]},"{'VALUES': [zaraz, pieszo, Tymczasem]}","{'VALUES': [powiekę, świątyń, progu, życie, Bo...","{'VALUES': [Twych, Tak, nas, moją]}",{'VALUES': [Tak]},...,{},{},{},{},{},{},{},{},{},{}
2,W ludziach straty nie było. Ale wszystkie ławy...,{'TOKENS': []},{'TOKENS': []},{'TOKENS': []},{'TOKENS': []},"{'VALUES': [kulawy, krwawych, licznymi]}",{'VALUES': [świeżo]},"{'VALUES': [ludziach, straty, ławy, nogi, stół...","{'VALUES': [wszystkie, jak, których]}",{'VALUES': []},...,{},{},{},{},{},{},{},{},{},{}


- Jeżeli chcemy, aby nasze wyniki się zapisywały automatycznie, należy ustawić parametr **`save_path`**. Przyjmuje on wartości typu `string`, które oznaczają ścieżkę do istniejącego katalogu, w którym mają zapisywać się DataFrame w postaci csv.

In [6]:
path = '.\\'
stylo = sm.StyloMetrix('pl', debug=True, save_path=path)

# możemy również zapisać w taki sposób:

metrics.to_csv('metrics.csv')
debug.to_csv('debug.csv')

- Dodatkowo jest możliwość ustawienia parametru **`nlp`**, który oznacza customowy model Spacy.
- Domyślnie liczone są wszystkie dostępne metryki w danym języku. Parametry **`metrics`** oraz **`exceptions`** dają możliwość modyfikacji tego. Możemy wybrać sobie zestaw metryk, który chcemy aby był obliczany i przypisać go do `metrics`. Równie dobrze jest mozliwość wybrania wszystkich metryk z wyjątkiem danego zestawu, wtedy taki zestaw przypisujemy do `exceptions`. W następnym rozdziale zostanie pokazane w jaki sposób możemy wybierać metryki.

## 3. Wybieranie metryk

Aby wybrać metryki najpierw należy sprawdzić co mamy do wyboru. Możemy się tego dowiedzieć w następujący sposób:

In [7]:
# patrzymy jakie mamy dostępne wszystkie metryki w danym języku:
metrics = sm.get_all_metrics('pl')
print(metrics)

0  |  Destriptive  |  DESC_ADJ  |  Adjectival description of qualities
1  |  Destriptive  |  DESC_ADV  |  Adverbial description of qualities
2  |  Destriptive  |  DESC_NVA  |  
3  |  Destriptive  |  DESC_NVN  |  
4  |  GrammaticalForms  |  G_ADJ  |  Adjectives
5  |  GrammaticalForms  |  G_ADV  |  Adverbs
6  |  GrammaticalForms  |  G_N  |  Nouns
7  |  GrammaticalForms  |  G_PRO  |  Pronouns
8  |  GrammaticalForms  |  G_PRO_DEM  |  Demonstrative pronouns
9  |  GrammaticalForms  |  G_V  |  Verb
10  |  Graphical  |  GR_UPPER  |  Capital letters
11  |  Inflection  |  IN_ADJ_COM  |  Adjectives in comparative degree
12  |  Inflection  |  IN_ADJ_POS  |  Adjectives in positive degree
13  |  Inflection  |  IN_ADJ_SUP  |  Adjectives in superlative degree
14  |  Inflection  |  IN_ADV_COM  |  Adverbs in comparative degree
15  |  Inflection  |  IN_ADV_POS  |  Adverbs in positive degree
16  |  Inflection  |  IN_ADV_SUP  |  Adverbs in superlative degree
17  |  Inflection  |  IN_N_1M  |  Nouns in nomin

Powyżej znajdują się następujące informacje (od lewej):
- **liczba porządkowa** - metrics to obiekt `MetricGroup`, z którego możemy wybierać pojedyncze metryki, bądź wycinki np. `metrics[0]`, lub `metrics[10:20]`
- **kategoria** - każda metryka jest przyporządkowana do kategorii tematycznej
- **kod metryki** - jest to unikalny ciąg znaków dla każdej metryki wyświetlany w DataFrame
- **nazwa** - rozszerzona nazwa metryki

Do metryk można dotrzeć też w inny sposób:

In [8]:
# patrzymy na dostępne w języku kategorie tematyczne
categories = sm.get_all_categories('pl')
print(categories)

[Destriptive, GrammaticalForms, Graphical, Inflection, Lexical, Psycholinguistic, Punctuation, Syntactic, WordFormation]


In [9]:
# wybieramy interesującą nas kategorię
category = categories[5]

# podglądamy jakie są dostępne metryki w obrębie tej kategorii
# jest to ten sam obiekt DataFrame co wcześniej i można wykonywać na nim takie same operacje
category_metrics = category.get_metrics()
print(category_metrics)

0  |  Psycholinguistic  |  PS_M_AGEa  |  Words having more than mean age of acquisition
1  |  Psycholinguistic  |  PS_M_AGEb  |  Words having less than mean age of acquisition
2  |  Psycholinguistic  |  PS_M_AROa  |  Words having more than mean arousal
3  |  Psycholinguistic  |  PS_M_AROb  |  Words having less than mean arousal
4  |  Psycholinguistic  |  PS_M_CONa  |  Words having more than mean concreteness
5  |  Psycholinguistic  |  PS_M_CONb  |  Words having less than mean concreteness
6  |  Psycholinguistic  |  PS_M_DOMa  |  Words having more than mean dominance
7  |  Psycholinguistic  |  PS_M_DOMb  |  Words having less than mean dominance
8  |  Psycholinguistic  |  PS_M_IMGa  |  Words having more than mean imageability
9  |  Psycholinguistic  |  PS_M_IMGb  |  Words having less than mean imageability
10  |  Psycholinguistic  |  PS_M_ORIa  |  Words having more than mean origin
11  |  Psycholinguistic  |  PS_M_ORIb  |  Words having less than mean origin
12  |  Psycholinguistic  |  PS

Poniżej przedstawione jest jak to działa w praktyce:

In [10]:
# wybranie metryk do analizy
metrics_to_analyse = metrics[60:100]
print(metrics_to_analyse)

0  |  Inflection  |  IN_V_PRES  |  Verbs in present tense
1  |  Inflection  |  IN_V_QUASI  |  Quasi-verbs
2  |  Lexical  |  L_CONT_A  |  Content words
3  |  Lexical  |  L_CONT_L  |  Lemmas of content words types
4  |  Lexical  |  L_CONT_T  |  Content words types
5  |  Lexical  |  L_NAME  |  Proper names
6  |  Lexical  |  L_NCONT_A  |  Non-content words
7  |  Lexical  |  L_NCONT_T  |  Non-content words types
8  |  Lexical  |  L_PERSN  |  Personal names
9  |  Lexical  |  L_PLACEN  |  Place names
10  |  Lexical  |  L_SYL_G3  |  Words formed of more than 3 syllables
11  |  Lexical  |  L_TCCT1  |  Tokens covering 1% of most common types
12  |  Lexical  |  L_TCCT5  |  Tokens covering 5% of most common types
13  |  Lexical  |  L_TTR_IA  |  Type-token ratio for inflected words
14  |  Lexical  |  L_TTR_LA  |  Type-token ratio for words lemmas
15  |  Psycholinguistic  |  PS_M_AGEa  |  Words having more than mean age of acquisition
16  |  Psycholinguistic  |  PS_M_AGEb  |  Words having less than 

In [11]:
# jednocześnie nie chcemy, aby analizowane były metryki z kategorii Psycholinguistic
stylo = sm.StyloMetrix('pl', metrics=metrics_to_analyse, exceptions=category_metrics)
metrics = stylo.transform(texts)
metrics

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.79it/s]


Unnamed: 0,text,IN_V_PRES,IN_V_QUASI,L_CONT_A,L_CONT_L,L_CONT_T,L_NAME,L_NCONT_A,L_NCONT_T,L_PERSN,...,L_TTR_LA,PUNCT_BI_NOUN,PUNCT_BI_VERB,PUNCT_TOTAL,SY_COND,SY_COORD,SY_INV_EP,SY_INV_OBJ,SY_MOD,SY_NOM_SENT
0,"Panno święta, co Jasnej bronisz Częstochowy I ...",0.073171,0.0,0.707317,0.682927,0.682927,0.097561,0.146341,0.146341,0.0,...,0.829268,0.195122,0.0,0.146341,0.0,0.02439,0.146341,0.0,0.195122,0.0
1,"Ofiarowany, martwą podniosłem powiekę; I zaraz...",0.0,0.0,0.722222,0.722222,0.722222,0.027778,0.111111,0.111111,0.027778,...,0.833333,0.111111,0.0,0.166667,0.0,0.027778,0.0,0.0,0.111111,0.0
2,W ludziach straty nie było. Ale wszystkie ławy...,0.0,0.0,0.625,0.625,0.625,0.0,0.166667,0.125,0.0,...,0.75,0.208333,0.083333,0.166667,0.0,0.041667,0.0,0.0,0.208333,0.0


In [12]:
# można też obliczyć wartość dla jednej metryki, jednakże uprzednio wkładając ją do listy
# można w liście zgromadzić też kilka różnych, pojedynczych metryk a także grupy metryk
stylo = sm.StyloMetrix('pl', metrics=[metrics_to_analyse[0]])
metrics = stylo.transform(texts)
metrics

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.07it/s]


Unnamed: 0,text,IN_V_PRES
0,"Panno święta, co Jasnej bronisz Częstochowy I ...",0.073171
1,"Ofiarowany, martwą podniosłem powiekę; I zaraz...",0.0
2,W ludziach straty nie było. Ale wszystkie ławy...,0.0


Grupy metryk można dodawać oraz odejmować:

In [13]:
metrics = sm.get_all_metrics('pl')
group1 = metrics[20:30]
group2 = metrics[50:70]
group3 = metrics[25:55]
final_group = group1 + group2 - group3
print(final_group)

0  |  Inflection  |  IN_N_4B  |  Nouns in accusative case
1  |  Inflection  |  IN_N_5MSC  |  Nouns in instrumental case
2  |  Inflection  |  IN_N_6N  |  Nouns in locative case
3  |  Inflection  |  IN_N_7W  |  Nouns in vocative case
4  |  Inflection  |  IN_PRO_1M  |  Pronouns in nominative case
5  |  Inflection  |  IN_V_PASS  |  Verbs in passive voice
6  |  Inflection  |  IN_V_PAST  |  Verbs in past tense
7  |  Inflection  |  IN_V_PCON  |  Present adverbial participles
8  |  Inflection  |  IN_V_PERF  |  Verbs in perfective aspect
9  |  Inflection  |  IN_V_PPAS  |  Passive adjectival participles
10  |  Inflection  |  IN_V_PRES  |  Verbs in present tense
11  |  Inflection  |  IN_V_QUASI  |  Quasi-verbs
12  |  Lexical  |  L_CONT_A  |  Content words
13  |  Lexical  |  L_CONT_L  |  Lemmas of content words types
14  |  Lexical  |  L_CONT_T  |  Content words types
15  |  Lexical  |  L_NAME  |  Proper names
16  |  Lexical  |  L_NCONT_A  |  Non-content words
17  |  Lexical  |  L_NCONT_T  |  Non-

## 4. Tworzenie nowych metryk
Tworzenie swoich metryk odbywa się na 2 sposoby:
- za pomocą dekoratora **`custom_metric`** - dekorowana jest wtedy funkcja, która przyjmuje `doc` (przetworzony przez spacy tekst, podzielony na tokeny) Funkcja powinna zwracać wynik z zakresu [0, 1] oraz debug.

In [14]:
from stylo_metrix import custom_metric

@custom_metric('pl')
def SAMPL1(doc):
    result = 0.9
    debug = [doc[0], doc[1], doc[3]]
    return result, debug

- za pomocą mechanizmu dziedziczenia po klasie **`Metric`**. Należy zwrócić uwagę na to, że pola `category`, oraz `name_en` i `name_local` są wymagane do poprawnego działania. Obiekt kategorii należy wtedy pobrać z listy dostępnej przez `sm.get_all_categories()` lub trzeba stworzyć nową. Sam sposób liczenia implementuje się w metodzie `count(doc)`

In [15]:
categories = sm.get_all_categories('pl')
category = categories[5]

class SAMPL2(sm.Metric):
    category = category
    name_en = "abc"
    name_local = "abc"
    
    def count(doc):
        result = 0.1
        debug = [doc[2], doc[3], doc[4]]
        return result, debug

In [16]:
# tworzenie nowej kategorii - należy wskazać język, do którego należy dana kategoria
# (tak samo jak przy get_all_metrics() itp.)

class C1(sm.Category):
    lang = 'pl'        # określenie języka
    name_en = "C1"     # pełna nazwa po angielsku
    name_local = "C1"  # pełna nazwa w języku w jakim jest napisana kategoria

    
class SAMPL3(sm.Metric):
    category = C1
    name_en = "abc"
    name_local = "abc"
    
    def count(doc):
        result = 0.99
        debug = [doc[9], doc[0], doc[1]]
        return result, debug

Utworzone metryki są automatycznie zapisywane po wywołaniu kodu w którym są definiowane. Więc po wywołaniu powyższych komórek jesteśmy w stanie z nich już skorzystać. Widać to po zajrzeniu do wszystkich dostępnych metryk.

In [17]:
print(sm.get_all_metrics('pl'))

0  |  C1  |  SAMPL3  |  abc
1  |  CUSTOM  |  SAMPL1  |  Custom
2  |  Destriptive  |  DESC_ADJ  |  Adjectival description of qualities
3  |  Destriptive  |  DESC_ADV  |  Adverbial description of qualities
4  |  Destriptive  |  DESC_NVA  |  
5  |  Destriptive  |  DESC_NVN  |  
6  |  GrammaticalForms  |  G_ADJ  |  Adjectives
7  |  GrammaticalForms  |  G_ADV  |  Adverbs
8  |  GrammaticalForms  |  G_N  |  Nouns
9  |  GrammaticalForms  |  G_PRO  |  Pronouns
10  |  GrammaticalForms  |  G_PRO_DEM  |  Demonstrative pronouns
11  |  GrammaticalForms  |  G_V  |  Verb
12  |  Graphical  |  GR_UPPER  |  Capital letters
13  |  Inflection  |  IN_ADJ_COM  |  Adjectives in comparative degree
14  |  Inflection  |  IN_ADJ_POS  |  Adjectives in positive degree
15  |  Inflection  |  IN_ADJ_SUP  |  Adjectives in superlative degree
16  |  Inflection  |  IN_ADV_COM  |  Adverbs in comparative degree
17  |  Inflection  |  IN_ADV_POS  |  Adverbs in positive degree
18  |  Inflection  |  IN_ADV_SUP  |  Adverbs in su

## 5. Integracja ze scikit-learn
StyloMetrix jest tak skonstruowany, by możliwa była integracja z popularnym narzędziem do uczenia maszynowego - scikit-learn. Moduł stylometrixa można ustawić jako jeden z kroków pipeline sklearn.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_20newsgroups
from sklearn.ensemble import RandomForestClassifier
import numpy as np

newsgroups = fetch_20newsgroups(subset='train')
X = newsgroups['data'][:500]
y = newsgroups['target'][:500]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

stylo = sm.StyloMetrix('en')
clf = RandomForestClassifier(max_depth=4, random_state=42)
pipe = Pipeline([('stylo', stylo), ('rmf', clf)])
pipe.fit(X=X_train, y=y_train)
pipe.score(X=X_test, y=y_test)

  0%|                                                                                                                                              | 0/375 [00:00<?, ?it/s]Token indices sequence length is longer than the specified maximum sequence length for this model (1530 > 512). Running this sequence through the model will result in indexing errors
 53%|██████████████████████████████████████████████████████████████████████▍                                                             | 200/375 [31:39<01:59,  1.47it/s]