# Machine Learning - przykład rzeczywisty
_Mikołaj Leszczuk_
![](https://miro.medium.com/max/1400/1*hXK4F_vFtG-fh2BrxDolFg.jpeg)

## Konspekt

* Rozpoznawanie treści generowanych profesjonalnie (ang. _Professionally-Generated Content_, PGC) i treści generowanych przez użytkowników (ang. _User-Generated Content_, UGC)
* Precision, recall i f-measure
* Wizualizacja

## Rozpoznawanie treści generowanych profesjonalnie (ang. _Professionally-Generated Content_, PGC) i treści generowanych przez użytkowników (ang. _User-Generated Content_, UGC)

Według Cisco:
* 3-krotny wzrost ruchu IP w ciągu ostatnich 5 lat (od 2017 r.)
* 82% całego ruchu IP stanowi ruch wideo IP (w 2022 r.)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/cisco1.png)

Według Cisco:
* przeciętny internauta generuje 84,6 GB ruchu miesięcznie (w 2022 r.)
* wzrost o 194% z 28,8 GB w 2017 r.

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/cisco2.png)

Ale jak zdecydować, czy treść jest generowana profesjonalnie (ang. _Professionally-Generated Content_, PGC), czy też treści jest generowana przez użytkowników (ang. _User-Generated Content_, UGC)?

Będziemy budować model klasyfikacji PGC i UGC dla zbioru danych wartości [wskaźników wizyjnych](https://qoe.agh.edu.pl/pl/indicators/) przy użyciu algorytmu drzewa decyzyjnego.

### Importowanie bibliotek

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from numpy import genfromtxt

### Załadowanie zestawu danych [wskaźników wizyjnych](https://qoe.agh.edu.pl/pl/indicators/) i przypisywanie zmiennych *wejściowych* i *wyjściowych*

Przypiszmy zmienne wejściowe do `X`, a zmienną wyjściową (etykieta klasy) do `Y`.

In [None]:
X = genfromtxt('all_DB_data.csv', delimiter=',')
Y = genfromtxt('all_DB_target.csv', delimiter=',')

### Spojrzenie na dane


Zestaw danych [wskaźników wizyjnych](https://qoe.agh.edu.pl/pl/indicators/) zawiera 10 cech wejściowych i 1 zmienną wyjściową (etykieta klasy).

#### Funkcje wejściowe

In [None]:
print(X)

```python
[
    'Blockiness',
    'SA',
    'Blockloss', 
    'Blur',
    'TA',
    'Exposure',
    'Contrast',
    'Noise',
    'Slice',
    'Flickering'
]
```

#### Funkcje (zmienne) wyjściowe (etykieta klasy)

In [None]:
print(Y)

##### Treści generowane profesjonalnie (ang. _Professionally-Generated Content_, PGC)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/full-pgc.png)

##### Treści generowane przez użytkowników (ang. _User-Generated Content_, UGC)

![](https://raw.githubusercontent.com/miklesz/Courses/main/Machine%20Learning/full-ugc.png)

#### Przyjrzyjmy się wymiarowi danych

In [None]:
X.shape

In [None]:
Y.shape

### Zbudujmy model klasyfikacji za pomocą lasu losowego

In [None]:
clf = RandomForestClassifier()

In [None]:
clf.fit(X, Y)

### Znaczenie funkcji

In [None]:
print(clf.feature_importances_)

### Podział danych (stosunek 80/20)

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

In [None]:
X_train.shape, Y_train.shape

In [None]:
X_test.shape, Y_test.shape

### Przebudujmy model drzewa decyzyjnego i  wykonajmy prognozę na zbiorze testowym

In [None]:
clf.fit(X_train, Y_train)

#### *Przewidywane etykiety klas*

In [None]:
print(clf.predict(X_test))

#### *Rzeczywiste etykiety klas*

In [None]:
print(Y_test)

### Wydajność modelu

In [None]:
print(clf.score(X_test, Y_test))

### Zbudujmy model klasyfikacji za pomocą drzewa decyzyjnego

In [None]:
clf = DecisionTreeClassifier()

In [None]:
clf.fit(X, Y)

### Znaczenie funkcji

In [None]:
print(clf.feature_importances_)

### Podział danych (stosunek 80/20)

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

In [None]:
X_train.shape, Y_train.shape

In [None]:
X_test.shape, Y_test.shape

### Przebudujmy model drzewa decyzyjnego i  wykonajmy prognozę na zbiorze testowym

In [None]:
clf.fit(X_train, Y_train)

#### *Przewidywane etykiety klas*

In [None]:
print(clf.predict(X_test))

#### *Rzeczywiste etykiety klas*

In [None]:
print(Y_test)

### Wydajność modelu

In [None]:
print(clf.score(X_test, Y_test))

## Precision, recall i f-measure

W **rozpoznawaniu wzorców**, **odzyskiwaniu** i **klasyfikowaniu informacji (uczeniu maszynowym)**, **precision** i **recall** to metryki wydajności, które mają zastosowanie do danych pobieranych z **kolekcji**, **korpusu** lub **przestrzeni próbek**.

**Precision** (nazywana również **dodatnią wartością predykcyjną**) to ułamek odpowiednich instancji wśród pobranych instancji, natomiast **recall** (znane również jako **czułość**) to ułamek istotnych instancji, które zostały pobrane. Zarówno precyzja, jak i przypomnienie są zatem oparte na **trafności**.

![](https://upload.wikimedia.org/wikipedia/commons/2/26/Precisionrecall.svg)

**Czułość i swoistość (testu diagnostycznego)** – wartości opisujące zdolność testu do wykrycia badanej cechy (czułość) lub wykrycia jej braku (swoistość). Pojęcia czułości i swoistości stosuje się głównie w **badaniach naukowych** oraz **diagnostyce medycznej**.

**Czułość testu** to stosunek wyników prawdziwie dodatnich do sumy prawdziwie dodatnich i fałszywie ujemnych. Czułość 100% w przypadku testu medycznego oznaczałaby, że wszystkie osoby chore lub ogólnie z konkretnymi poszukiwanymi zaburzeniami zostaną rozpoznane. Pojęcie interpretuje się jako zdolność testu do prawidłowego rozpoznania choroby tam, gdzie ona występuje.

**Swoistość testu** to stosunek wyników prawdziwie ujemnych do sumy prawdziwie ujemnych i fałszywie dodatnich. Swoistość 100% oznaczałaby, że wszyscy ludzie zdrowi w wykonanym teście diagnostycznym zostaną oznaczeni jako zdrowi.

![](https://upload.wikimedia.org/wikipedia/commons/5/5a/Sensitivity_and_specificity_1.01.svg)

Miarą, która łączy precision i recall, jest średnia harmoniczna precision i recall - f-measure:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/dd577aee2dd35c5b0e349327528a5ac606c7bbbf)

[sklearn.metrics.precision_recall_fscore_support](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html)

In [None]:
from sklearn.metrics import precision_recall_fscore_support

In [None]:
precision_recall_fscore_support(Y_test, clf.predict(X_test), average='binary')

## Wizualizacja

### Drukowanie reprezentacji tekstowej

Eksportowanie Drzewa Decyzyjnego do reprezentacji tekstowej może być przydatne podczas pracy na aplikacjach bez interfejsu użytkownika lub gdy chcemy zapisywać informacje o modelu do pliku tekstowego. Można sprawdzić szczegóły dotyczące `export_text` w [dokumentacji](https://scikit-learn.org/stable/modules/generated/sklearn.tree.export_text.html#sklearn.tree.export_text) `sklearn`.

In [None]:
from sklearn import tree

In [None]:
text_representation = tree.export_text(
    clf,
    feature_names=[
        'Blockiness',
        'SA',
        'Blockloss',
        'Blur',
        'TA',
        'Exposure',
        'Contrast',
        'Noise',
        'Slice',
        'Flickering'
    ]
)

In [None]:
print(text_representation)

### Wykreślanie drzewa decyzyjnego z pakietem `dtreeviz`

Pakiet `dtreeviz` jest dostępny na [github](https://github.com/parrt/dtreeviz). Można go zainstalować za pomocą `pip install dtreeviz`. Wymaga [zainstalowania](https://graphviz.org/download/) programu `graphviz`.

In [None]:
from dtreeviz.trees import dtreeviz

Aby wykreślić drzewo, po prostu uruchomia się:

In [None]:
viz = dtreeviz(
    clf,
    X_test,
    Y_test,
    target_name="target",
    feature_names=[
        'Blockiness',
        'SA',
        'Blockloss',
        'Blur',
        'TA',
        'Exposure',
        'Contrast',
        'Noise',
        'Slice',
        'Flickering'
    ],
    class_names=['PGC', 'UGC']
)

Zapisywanie wizualizacji do pliku:

In [None]:
viz.save("decision_tree.svg")

![](decision_tree.svg)