# Projekt: YouTube trending videos

### Wstęp

Celem projektu jest przeprowadzenie procesu **odkrywania wiedzy** z danych dotyczących **filmów z serwisu YouTube**.
Należy wskazać, jakie atrybuty powinien mieć przysłany film, aby trafił na **kartę `"na czasie"`**.

## Etap 4 - Wykorzystanie uczenia pół-nadzorowanego, uzupełnienie kategorii



### 1. Brakujące atrybuty
Przed zastosowaniem uczenia pół-nadzorowanego, sytuacja z kategoriami wygląda następująco:

* Brakujące w **GB_videos_5: 37004**
* Brakujące w **US_videos_5: 38929**

In [80]:
from utils.plot_util import PlotUtil
plotUtil = PlotUtil(["data/GB_videos_5p.csv", "data/US_videos_5p.csv"],'categories_missing.json') 

In [81]:
plotUtil.plot_table("CommonWordsAnalyzer")

In [82]:
plotUtil.plot_graph("CommonWordsAnalyzer")


In [83]:
import numpy as np
import csv
import re
import sklearn
from sklearn import datasets
from sklearn.semi_supervised import LabelPropagation, LabelSpreading
from collections import defaultdict, Counter
import json

MAX = 10000

columns = defaultdict(list)

def rbf_kernel_safe(X, Y=None, gamma=None): 
    X, Y = sklearn.metrics.pairwise.check_pairwise_arrays(X, Y) 
    if gamma is None: 
        gamma = 1.0 / X.shape[1] 
    K = sklearn.metrics.pairwise.euclidean_distances(X, Y, squared=True) 
    K *= -gamma 
    K -= K.max()
    np.exp(K, K)    # exponentiate K in-place 
    return K

def load_data(filename, _max=MAX):
    columns = defaultdict(list)
    with open(filename, newline='', encoding='utf-8', errors='replace') as f:
        reader = csv.DictReader(f, skipinitialspace=True, delimiter=';')
        i = 0
        for row in reader:
            for (k,v) in row.items():
                val = v[0:10].replace(',', '.')
                val = re.sub(r'[\[\]]+', '0', val)
                if val == '':
                    val = 0
                columns[k].append(float(val))
            i+=1
            if _max and i > _max:
                break

        labels = np.copy([int(c) for c in columns['5']])
    #     print(labels[0:1000])
        del columns['5']
        data = []
        for key, value in columns.items():
            data.append(value)

        data = np.array(data)
        print(data.T.shape, labels.shape)
    #     print(data[0:1000])
        return (data, labels)

    
def propagation(data, labels):
    label_prop_model = LabelPropagation(kernel='knn') #rbf/knn
    label_prop_model.fit(data.T, labels)

    p = label_prop_model.predict(data.T)
    predictions = [str(int(pred)) for pred in p]
#     print('propagation:', predictions[0:100])
    return predictions

def spreading(data, labels, alpha=0.2, kernel='rbf'):
    label_spread_model = LabelSpreading(kernel=kernel, alpha=alpha)
    label_spread_model.fit(data.T, labels)
    p = label_spread_model.predict(data.T)
    predictions = [str(int(pred)) for pred in p]
#     print('spreading:', predictions[0:100])
    return predictions

def prepare_json(filename, subname, predictions, result):
    if not result:
        result = {}
    if not filename in result:
        result[filename] = {}
    if not subname in result[filename]:
        result[filename][subname] = {}
    if not "categories" in result[filename][subname]:
        result[filename][subname]["categories"] = {}

    count = Counter(predictions)
    for label, c in count.items():
        result[filename][subname]["categories"][label] = c
    
    
#     json_result = json.dumps(result, indent = 4)
#     print(json_result)
    return result

files = ["summary_GB_videos_5p.csv"] #, "summary_US_videos_5p.csv"]

result = {}
for filename in files:   
    data, labels = load_data(filename)

    p_predictions = propagation(data, labels)
    
    result = prepare_json(filename, "propagation", p_predictions, result)

    s_predictions = spreading(data, labels)
    result = prepare_json(filename, "spreading", s_predictions, result)

json_result = json.dumps(result, indent = 4)
print(json_result)
with open("categories_prediction.json", "w+") as f:
    f.write(json_result)

(10001, 6) (10001,)



invalid value encountered in true_divide


max_iter=1000 was reached without convergence.



{
    "summary_GB_videos_5p.csv": {
        "propagation": {
            "categories": {
                "1": 8543,
                "10": 491,
                "23": 132,
                "26": 147,
                "24": 269,
                "22": 141,
                "17": 93,
                "28": 27,
                "20": 79,
                "25": 41,
                "27": 27,
                "2": 11
            }
        },
        "spreading": {
            "categories": {
                "10": 977,
                "1": 6283,
                "17": 169,
                "24": 1485,
                "22": 378,
                "23": 132,
                "26": 322,
                "20": 142,
                "25": 36,
                "28": 38,
                "15": 2,
                "27": 20,
                "2": 17
            }
        }
    }
}



invalid value encountered in true_divide



### 2. Zastosowanie sklearn.semi_supervised.LabelPropagation

#### Opis

**LabelPropagation** jest wariantem uczenia pół-nadzorowanego i pozwala na przewidzenie brakujących etykiet, nawet w sytuacji, w której posiadamy bardzo mało danych.
Macierz podobieństwa nie jest tutaj modyfikowana - powstaje wprost z otrzymanych danych.

Do grupowania użyto kernel KNN z domyślną wartością sąsiadów: 8.

In [84]:
plotUtil = PlotUtil(files, "categories_prediction.json")

plotUtil.plot_table("propagation")
plotUtil.plot_graph("propagation")


#### Wyniki

Widać znaczą dominację kategorii o id=1.
Może to wynikać ze złego doboru wykorzystanych atrybutów oraz braku wprowadzenia wag.

### 3. Zastosowanie sklearn.semi_supervised.LabelSpreading

#### Opis

**LabelSpreading** w przeciwieństwie do *LabelPropagation* wprowadza możliwość dodawania wag poszczególnych atrybutów. 
W tym wypadku użyto kernela RBF, niestety nie wpływa to korzystnie na wykorzystanie pamięci.

In [85]:
plotUtil = PlotUtil(files, "categories_prediction.json")

plotUtil.plot_table("spreading")
plotUtil.plot_graph("spreading")

#### Wyniki

Nadal widać dominację kategorii o id=1, lecz znajduje się w niej mniej filmów.  
Najwyraźniej wymagana jest zmiana parametru, który uniemożliwia całkowite wyeliminowanie pewnych atrybutów, poprzez wyzerowanie ich wagi.

### 4. Podsumowanie - wybór ostatecznej metody oraz wyniki dla danych GB i US


**LabelSpreading** ma znaczną przewagę nad **LabelPropagation** - umożliwia ustawianie wag.
Jest to główny powód, dla którego zostanie wybrana właśnie ta metoda.  

Trzeba jednak dostosować parametry, aby mniej filmów otrzymało przydział do kategorii 1.
Dodatkowo, zostanie zmieniony kernel z RBF na KNN, aby zmniejszyć zapotrzebowanie pamięci.

W poniższych wynikach wyłączono limit wierszy oraz dodano wyniki z bazy filmów US.

In [86]:
import pickle
result = {}
files = ["summary_GB_videos_5p.csv", "summary_US_videos_5p.csv"]
for filename in files:   
    data, labels = load_data(filename, None)
    s_predictions = spreading(data, labels, alpha=0.99, kernel='knn')
    
    with open(filename + '_predictions','wb') as f:
        pickle.dump(s_predictions, f)
    
    result = prepare_json(filename, "spreading_final", s_predictions, result)

json_result = json.dumps(result, indent = 4)
print(json_result)
with open("categories_prediction_final.json", "w+") as f:
    f.write(json_result)

(35666, 6) (35666,)



max_iter=30 was reached without convergence.


invalid value encountered in true_divide



(38703, 30) (38703,)



max_iter=30 was reached without convergence.



{
    "summary_GB_videos_5p.csv": {
        "spreading_final": {
            "categories": {
                "1": 20423,
                "17": 785,
                "24": 4323,
                "22": 1157,
                "10": 5463,
                "23": 1081,
                "26": 693,
                "25": 483,
                "20": 508,
                "28": 158,
                "27": 214,
                "29": 32,
                "15": 293,
                "19": 24,
                "2": 29
            }
        }
    },
    "summary_US_videos_5p.csv": {
        "spreading_final": {
            "categories": {
                "23": 2082,
                "1": 17519,
                "24": 5350,
                "27": 845,
                "20": 583,
                "17": 1258,
                "22": 2047,
                "28": 1355,
                "26": 2159,
                "10": 3388,
                "2": 180,
                "15": 519,
                "25": 1190,
                "19":


invalid value encountered in true_divide



In [87]:
plotUtil = PlotUtil(files, "categories_prediction_final.json")

plotUtil.plot_table("spreading_final")
plotUtil.plot_graph("spreading_final")