##Konstrukce příznaků z textových dokumentů

###Bag of words

Dokument je reprezentován jako multi-set slov. Při klasifikaci dokumentů se používá frekvence slov jako příznak pro model ML.


(1) John likes to watch movies. Mary likes movies too.

(2) John also likes to watch football games.

[
    "John",
    "likes",
    "to",
    "watch",
    "movies",
    "also",
    "football",
    "games",
    "Mary",
    "too"
]

(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1]

(2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

###n-gramy

N-gram je definován jako sled n po sobě jdoucích položek (slov, písmen) z dané posloupnosti. Při řešení úloh z oblasti počítačového zpracování přirozeného jazyka se na reprezentaci textu využívají ve většině případů slova nebo n-gramy slov.

[
    "John likes",
    "likes to",
    "to watch",
    "watch movies",
    "Mary likes",
    "likes movies",
    "movies too",
]


###TF-IDF:  term frequency–inverse document frequency

Dokumenty $D = \{ d_1, d_2, \ldots, d_n \}$, termíny $t$

TF - frekvence slova v dokumentu (různě škálovaná případně)

IDF - logaritmus poměru všech dokumentu ku dokumentům obsahujícím slovo

$\mathrm{tf}(t,d) = \sum\limits_{x\in d} \mathrm{fr}(x, t)   $

$\mathrm{fr}(x,t) =   \begin{cases}   1, & \mbox{if } x = t \\   0, & \mbox{otherwise} \\   \end{cases}   $



$\mathrm{idf}(t) = \log{\frac{\left|D\right|}{1+\left|\{d : t \in d\}\right|}}$  

$\mathrm{tf\mbox{-}idf}(t) = \mathrm{tf}(t, d) \times \mathrm{idf}(t)  $


In [6]:
from sklearn.feature_extraction.text import CountVectorizer
train_set = ("The sky is blue.", "The sun is bright.")
test_set = ("The sun in the sky is bright.", "We can see the shining sun, the bright sun.")

count_vectorizer = CountVectorizer()
count_vectorizer.fit_transform(train_set)
print ("Slovník:\n", count_vectorizer.vocabulary_)
freq_term_matrix = count_vectorizer.transform(test_set)
print ("Frekvenční matice:\n",freq_term_matrix.todense())

from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer(norm="l2")
tfidf.fit(freq_term_matrix)
print ("IDF:\n", tfidf.idf_)

tf_idf_matrix = tfidf.transform(freq_term_matrix)
print ("TF_IDF:\n",tf_idf_matrix.todense())



Slovník:
 {'blue': 0, 'is': 2, 'sun': 4, 'sky': 3, 'the': 5, 'bright': 1}
Frekvenční matice:
 [[0 1 1 1 1 2]
 [0 1 0 0 2 2]]
IDF:
 [ 2.09861229  1.          1.40546511  1.40546511  1.          1.        ]
TF_IDF:
 [[ 0.          0.31701073  0.44554752  0.44554752  0.31701073  0.63402146]
 [ 0.          0.33333333  0.          0.          0.66666667  0.66666667]]


##Doporučená literatura


1. Peter Flach. Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Cambridge University Press. 2012. ISBN 1-107-42222-1

2. Christopher Bishop. Pattern recognition and machine learning. Berlin: Springer. 2006. ISBN 0-387-31073-8.