# Machine Learning - przykład rzeczywisty
_Mikołaj Leszczuk_
![](https://miro.medium.com/max/1400/1*hXK4F_vFtG-fh2BrxDolFg.jpeg)

## Konspekt

* Rozpoznawanie treści generowanych profesjonalnie (ang. _Professionally-Generated Content_, PGC) i treści generowanych przez użytkowników (ang. _User-Generated Content_, UGC)
* Precision, recall i f-measure
* Wizualizacja

## Rozpoznawanie treści generowanych profesjonalnie (ang. _Professionally-Generated Content_, PGC) i treści generowanych przez użytkowników (ang. _User-Generated Content_, UGC)

Według Cisco:
* 3-krotny wzrost ruchu IP w ciągu ostatnich 5 lat (od 2017 r.)
* 82% całego ruchu IP stanowi ruch wideo IP (w 2022 r.)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/cisco1.png)

Według Cisco:
* przeciętny internauta generuje 84,6 GB ruchu miesięcznie (w 2022 r.)
* wzrost o 194% z 28,8 GB w 2017 r.

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/cisco2.png)

Ale jak zdecydować, czy treść jest generowana profesjonalnie (ang. _Professionally-Generated Content_, PGC), czy też treści jest generowana przez użytkowników (ang. _User-Generated Content_, UGC)?

Będziemy budować model klasyfikacji PGC i UGC dla zbioru danych wartości [wskaźników wizyjnych](https://qoe.agh.edu.pl/pl/indicators/) przy użyciu algorytmu lasu losowego i drzewa decyzyjnego.

### Importowanie bibliotek

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from numpy import genfromtxt

### Załadowanie zestawu danych [wskaźników wizyjnych](https://qoe.agh.edu.pl/pl/indicators/) i przypisywanie zmiennych *wejściowych* i *wyjściowych*

Przypiszmy zmienne wejściowe do `X`, a zmienną wyjściową (etykieta klasy) do `Y`.

In [2]:
X = genfromtxt('all_DB_data.csv', delimiter=',')
Y = genfromtxt('all_DB_target.csv', delimiter=',')

### Spojrzenie na dane


Zestaw danych [wskaźników wizyjnych](https://qoe.agh.edu.pl/pl/indicators/) zawiera 10 cech wejściowych i 1 zmienną wyjściową (etykieta klasy).

#### Funkcje wejściowe

In [3]:
print(X)

[[0.42023877 0.17962744 0.16311312 ... 0.24321119 0.09477947 0.201723  ]
 [0.43812    0.74582444 0.03507615 ... 0.22986513 0.09828435 0.19951571]
 [0.3492819  0.58402545 0.00573687 ... 0.23238309 0.11824139 0.18131   ]
 ...
 [0.52334382 0.21054967 0.11818424 ... 0.06661224 0.35351478 0.71705261]
 [0.48324383 0.33718266 0.20005494 ... 0.0613669  0.12846367 0.60291138]
 [0.63388889 0.56643939 0.12348311 ... 0.07854606 0.12509758 0.39223   ]]


```python
[
    'Blockiness',
    'SA',
    'Blockloss', 
    'Blur',
    'TA',
    'Exposure',
    'Contrast',
    'Noise',
    'Slice',
    'Flickering'
]
```

#### Funkcje (zmienne) wyjściowe (etykieta klasy)

In [4]:
print(Y)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.

##### Treści generowane profesjonalnie (ang. _Professionally-Generated Content_, PGC)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/full-pgc.png)

##### Treści generowane przez użytkowników (ang. _User-Generated Content_, UGC)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/full-ugc.png)

#### Przyjrzyjmy się wymiarowi danych

In [5]:
print(X.shape)

(408, 10)


In [6]:
print(Y.shape)

(408,)


### Zbudujmy model klasyfikacji za pomocą lasu losowego

In [7]:
clf = RandomForestClassifier()

In [8]:
clf.fit(X, Y)

RandomForestClassifier()

### Znaczenie funkcji

In [9]:
print(clf.feature_importances_)

[0.10525944 0.02850768 0.07015881 0.01636713 0.06214204 0.02996933
 0.04031778 0.27135587 0.01789041 0.35803151]


### Podział danych (stosunek 80/20)

In [10]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

In [11]:
print(X_train.shape, Y_train.shape)

(326, 10) (326,)


In [12]:
print(X_test.shape, Y_test.shape)

(82, 10) (82,)


### Przebudujmy model lasu losowego i  wykonajmy prognozę na zbiorze testowym

In [13]:
clf.fit(X_train, Y_train)

RandomForestClassifier()

#### *Przewidywane etykiety klas*

In [14]:
print(clf.predict(X_test))

[0. 1. 0. 0. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 0. 0. 0. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 0. 1. 1. 1.]


#### *Rzeczywiste etykiety klas*

In [15]:
print(Y_test)

[0. 1. 0. 0. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 0. 0. 0. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 1. 1. 1. 0. 1. 1. 0.
 1. 1. 1. 1. 0. 1. 0. 1. 1. 1.]


### Wydajność modelu

In [16]:
print(clf.score(X_test, Y_test))

0.9512195121951219


### Zbudujmy model klasyfikacji za pomocą drzewa decyzyjnego

In [17]:
clf = DecisionTreeClassifier()

In [18]:
clf.fit(X, Y)

DecisionTreeClassifier()

### Znaczenie funkcji

In [19]:
print(clf.feature_importances_)

[0.03475113 0.         0.09402132 0.         0.0171123  0.
 0.06489025 0.58431755 0.02588235 0.17902511]


### Podział danych (stosunek 80/20)

In [20]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

In [21]:
print(X_train.shape, Y_train.shape)

(326, 10) (326,)


In [22]:
print(X_test.shape, Y_test.shape)

(82, 10) (82,)


### Przebudujmy model drzewa decyzyjnego i  wykonajmy prognozę na zbiorze testowym

In [23]:
clf.fit(X_train, Y_train)

DecisionTreeClassifier()

#### *Przewidywane etykiety klas*

In [24]:
print(clf.predict(X_test))

[1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 1. 0. 1. 1. 1. 1. 1. 1. 1.
 0. 1. 0. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1.
 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1.
 1. 1. 0. 0. 1. 1. 1. 0. 1. 1.]


#### *Rzeczywiste etykiety klas*

In [25]:
print(Y_test)

[1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 1. 0. 1. 1. 1. 1. 1. 1. 1.
 0. 1. 0. 1. 1. 1. 1. 1. 1. 0. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1.
 1. 1. 0. 1. 1. 1. 1. 1. 1. 0. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 0. 0. 1. 1. 1. 0. 1. 1.]


### Wydajność modelu

In [26]:
print(clf.score(X_test, Y_test))

0.9634146341463414


## Precision, recall i f-measure

W **rozpoznawaniu wzorców**, **odzyskiwaniu** i **klasyfikowaniu informacji (uczeniu maszynowym)**, **precision** i **recall** to metryki wydajności, które mają zastosowanie do danych pobieranych z **kolekcji**, **korpusu** lub **przestrzeni próbek**.

**Precision** (nazywana również **dodatnią wartością predykcyjną**) to ułamek odpowiednich instancji wśród pobranych instancji, natomiast **recall** (znane również jako **czułość**) to ułamek istotnych instancji, które zostały pobrane. Zarówno precyzja, jak i przypomnienie są zatem oparte na **trafności**.

![](https://upload.wikimedia.org/wikipedia/commons/2/26/Precisionrecall.svg)

**Czułość i swoistość (testu diagnostycznego)** – wartości opisujące zdolność testu do wykrycia badanej cechy (czułość) lub wykrycia jej braku (swoistość). Pojęcia czułości i swoistości stosuje się głównie w **badaniach naukowych** oraz **diagnostyce medycznej**.

**Czułość testu** to stosunek wyników prawdziwie dodatnich do sumy prawdziwie dodatnich i fałszywie ujemnych. Czułość 100% w przypadku testu medycznego oznaczałaby, że wszystkie osoby chore lub ogólnie z konkretnymi poszukiwanymi zaburzeniami zostaną rozpoznane. Pojęcie interpretuje się jako zdolność testu do prawidłowego rozpoznania choroby tam, gdzie ona występuje.

**Swoistość testu** to stosunek wyników prawdziwie ujemnych do sumy prawdziwie ujemnych i fałszywie dodatnich. Swoistość 100% oznaczałaby, że wszyscy ludzie zdrowi w wykonanym teście diagnostycznym zostaną oznaczeni jako zdrowi.

![](https://upload.wikimedia.org/wikipedia/commons/5/5a/Sensitivity_and_specificity_1.01.svg)

Miarą, która łączy precision i recall, jest średnia harmoniczna precision i recall - f-measure:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/dd577aee2dd35c5b0e349327528a5ac606c7bbbf)

[sklearn.metrics.precision_recall_fscore_support](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html)

In [27]:
from sklearn.metrics import precision_recall_fscore_support

In [28]:
precision_recall_fscore_support(Y_test, clf.predict(X_test), average='binary')

(0.9710144927536232, 0.9852941176470589, 0.9781021897810219, None)

## Wizualizacja

### Drukowanie reprezentacji tekstowej

Eksportowanie Drzewa Decyzyjnego do reprezentacji tekstowej może być przydatne podczas pracy na aplikacjach bez interfejsu użytkownika lub gdy chcemy zapisywać informacje o modelu do pliku tekstowego. Można sprawdzić szczegóły dotyczące `export_text` w [dokumentacji](https://scikit-learn.org/stable/modules/generated/sklearn.tree.export_text.html#sklearn.tree.export_text) `sklearn`.

In [29]:
from sklearn import tree

In [30]:
text_representation = tree.export_text(
    clf,
    feature_names=[
        'Blockiness',
        'SA',
        'Blockloss',
        'Blur',
        'TA',
        'Exposure',
        'Contrast',
        'Noise',
        'Slice',
        'Flickering'
    ]
)

In [31]:
print(text_representation)

|--- Noise <= 0.14
|   |--- Contrast <= 0.03
|   |   |--- class: 0.0
|   |--- Contrast >  0.03
|   |   |--- Noise <= 0.13
|   |   |   |--- class: 1.0
|   |   |--- Noise >  0.13
|   |   |   |--- TA <= 0.15
|   |   |   |   |--- Blur <= 0.58
|   |   |   |   |   |--- class: 0.0
|   |   |   |   |--- Blur >  0.58
|   |   |   |   |   |--- class: 1.0
|   |   |   |--- TA >  0.15
|   |   |   |   |--- class: 1.0
|--- Noise >  0.14
|   |--- Flickering <= 0.34
|   |   |--- Contrast <= 0.32
|   |   |   |--- class: 1.0
|   |   |--- Contrast >  0.32
|   |   |   |--- Blockiness <= 0.63
|   |   |   |   |--- TA <= 0.03
|   |   |   |   |   |--- class: 1.0
|   |   |   |   |--- TA >  0.03
|   |   |   |   |   |--- TA <= 0.56
|   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |--- TA >  0.56
|   |   |   |   |   |   |--- class: 1.0
|   |   |   |--- Blockiness >  0.63
|   |   |   |   |--- class: 1.0
|   |--- Flickering >  0.34
|   |   |--- Contrast <= 0.58
|   |   |   |--- class: 1.0
|   |   |--- Contr

### Wykreślanie drzewa decyzyjnego z pakietem `dtreeviz`

Pakiet `dtreeviz` jest dostępny na [github](https://github.com/parrt/dtreeviz). Można go zainstalować za pomocą `pip install dtreeviz`. Wymaga [zainstalowania](https://graphviz.org/download/) (i ewentualnie także [skonfigurowania](https://stackoverflow.com/questions/35064304/runtimeerror-make-sure-the-graphviz-executables-are-on-your-systems-path-aft)) programu `graphviz`.

In [32]:
from dtreeviz.trees import dtreeviz

Aby wykreślić drzewo, po prostu uruchomia się:

In [33]:
viz = dtreeviz(
    clf,
    X_test,
    Y_test,
    target_name="target",
    feature_names=[
        'Blockiness',
        'SA',
        'Blockloss',
        'Blur',
        'TA',
        'Exposure',
        'Contrast',
        'Noise',
        'Slice',
        'Flickering'
    ],
    class_names=['PGC', 'UGC']
)

Zapisywanie wizualizacji do pliku:

In [34]:
viz.save("decision_tree.svg")

![](decision_tree.svg)