<h1> Wektorowa reprezentacja tekstu</h1>

W najprostszym przypadku budowanie reprezentacji wektorowej polega na zliczaniu ilości słów (ciągów). Każde słowo to atrybut a wartość w danym atrybucie to ilość wystąpniń tego słowa. 


Najprostsza reprezentacja to reprezentacja bag-of-words: https://en.wikipedia.org/wiki/Bag-of-words_model. Kazdy wektor zapisany jest w rzadkiej reprezentacji jako że słownik może być duży a dokument mały.

ZADANIE: Weźmy tekst i podzielmy na tokeny. Proszę stworzyć słownik słów oraz policzyć częstości każdego słowa. Można użyć Counter - daje nam słownik: https://docs.python.org/2/library/collections.html#collections.Counter


In [12]:
text = "I need to write a program in NLTK that breaks a corpus (a large collection of txt files) into unigrams, bigrams, trigrams, fourgrams and fivegrams. I need to write a program in NLTK that breaks a corpus"


#TODO

In [19]:
import nltk
from nltk import word_tokenize
from nltk.util import ngrams
from collections import Counter

tokens = nltk.word_tokenize(text)
unigrams = set(tokens)
print("-----słownik----")
print(unigrams)



print("-----licznik----")
counts1 = Counter(tokens)
print(counts1)
print("-----klucze---")
print(counts1.keys())
print("----wartości--")
print(counts1.values())
print("--miejsce--")
print(counts1['I'])

-----słownik----
{'large', 'a', '.', 'that', 'files', 'into', 'in', 'corpus', 'program', 'unigrams', 'I', 'trigrams', 'NLTK', 'fourgrams', 'to', ')', 'breaks', 'bigrams', 'of', 'collection', ',', '(', 'and', 'fivegrams', 'need', 'txt', 'write'}
-----licznik----
Counter({'a': 5, ',': 3, 'I': 2, 'need': 2, 'to': 2, 'write': 2, 'program': 2, 'in': 2, 'NLTK': 2, 'that': 2, 'breaks': 2, 'corpus': 2, '(': 1, 'large': 1, 'collection': 1, 'of': 1, 'txt': 1, 'files': 1, ')': 1, 'into': 1, 'unigrams': 1, 'bigrams': 1, 'trigrams': 1, 'fourgrams': 1, 'and': 1, 'fivegrams': 1, '.': 1})
-----klucze---
dict_keys(['I', 'need', 'to', 'write', 'a', 'program', 'in', 'NLTK', 'that', 'breaks', 'corpus', '(', 'large', 'collection', 'of', 'txt', 'files', ')', 'into', 'unigrams', ',', 'bigrams', 'trigrams', 'fourgrams', 'and', 'fivegrams', '.'])
----wartości--
dict_values([2, 2, 2, 2, 5, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 1, 1, 1, 1, 1, 1])
--miejsce--
2


ZADANIE: Zostańmy przy unigramach. Proszę napisać reprezentację bag-of-words. W tym celu:

-tworzymy słownik słów na podstawie zdanego tekstu (metoda fit)

-dla stokenizowanego dokumentu, tworzymy macierz częstości

In [25]:
import numpy as np

def fit(tokens):
    words = set(token)
    return words

def transform(sentence_words, words):
    # frequency word count
    bag = np.zeros(len(words))
    for sw in sentence_words:
        for i,word in enumerate(words):
            if word == sw: 
                bag[i] += 1
                
    return np.array(bag)

words = fit(tokens)
print(words)
representation = transform(tokens, words)
print(representation)

{'large', 'a', '.', 'that', 'files', 'into', 'in', 'corpus', 'program', 'unigrams', 'I', 'trigrams', 'NLTK', 'fourgrams', 'to', ')', 'breaks', 'bigrams', 'of', 'collection', ',', '(', 'and', 'fivegrams', 'need', 'txt', 'write'}
[ 1.  5.  1.  2.  1.  1.  2.  2.  2.  1.  2.  1.  2.  1.  2.  1.  2.  1.
  1.  1.  3.  1.  1.  1.  2.  1.  2.]


Teksto można reprezentaować też jako ciągi - co daje reprezentacja tekstu przez dłuższe ciągi? 

In [20]:


import nltk
from nltk import word_tokenize
from nltk.util import ngrams
from collections import Counter

text = "I need to write a program in NLTK that breaks a corpus (a large collection of txt files) into unigrams, bigrams, trigrams, fourgrams and fivegrams. I need to write a program in NLTK that breaks a corpus"
token = nltk.word_tokenize(text)

bigrams = ngrams(token,2)
trigrams = ngrams(token,3)
fourgrams = ngrams(token,4)
fivegrams = ngrams(token,5)

counts2 = Counter(bigrams)
print(counts2)



Counter({('I', 'need'): 2, ('need', 'to'): 2, ('to', 'write'): 2, ('write', 'a'): 2, ('a', 'program'): 2, ('program', 'in'): 2, ('in', 'NLTK'): 2, ('NLTK', 'that'): 2, ('that', 'breaks'): 2, ('breaks', 'a'): 2, ('a', 'corpus'): 2, ('corpus', '('): 1, ('(', 'a'): 1, ('a', 'large'): 1, ('large', 'collection'): 1, ('collection', 'of'): 1, ('of', 'txt'): 1, ('txt', 'files'): 1, ('files', ')'): 1, (')', 'into'): 1, ('into', 'unigrams'): 1, ('unigrams', ','): 1, (',', 'bigrams'): 1, ('bigrams', ','): 1, (',', 'trigrams'): 1, ('trigrams', ','): 1, (',', 'fourgrams'): 1, ('fourgrams', 'and'): 1, ('and', 'fivegrams'): 1, ('fivegrams', '.'): 1, ('.', 'I'): 1})


Do budowy reprezentacji używamy sklearn do tej samej czynności

In [26]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import sent_tokenize

EXAMPLE_TEXT = "Hello Mr. Smith, how are you doing today? The weather is great, and Python is awesome. The sky is pinkish-blue. You shouldn't eat cardboard. I'm 20 years old."
sentences = sent_tokenize(EXAMPLE_TEXT)

print(sentences)
vectorizer = CountVectorizer()
vectorizer.fit(sentences)
print( vectorizer.vocabulary_ )
bag_of_words = vectorizer.transform(sentences)
print(bag_of_words)
print(bag_of_words.todense())

['Hello Mr. Smith, how are you doing today?', 'The weather is great, and Python is awesome.', 'The sky is pinkish-blue.', "You shouldn't eat cardboard.", "I'm 20 years old."]
{'hello': 9, 'mr': 12, 'smith': 18, 'how': 10, 'are': 2, 'you': 23, 'doing': 6, 'today': 20, 'the': 19, 'weather': 21, 'is': 11, 'great': 8, 'and': 1, 'python': 15, 'awesome': 3, 'sky': 17, 'pinkish': 14, 'blue': 4, 'shouldn': 16, 'eat': 7, 'cardboard': 5, '20': 0, 'years': 22, 'old': 13}
  (0, 2)	1
  (0, 6)	1
  (0, 9)	1
  (0, 10)	1
  (0, 12)	1
  (0, 18)	1
  (0, 20)	1
  (0, 23)	1
  (1, 1)	1
  (1, 3)	1
  (1, 8)	1
  (1, 11)	2
  (1, 15)	1
  (1, 19)	1
  (1, 21)	1
  (2, 4)	1
  (2, 11)	1
  (2, 14)	1
  (2, 17)	1
  (2, 19)	1
  (3, 5)	1
  (3, 7)	1
  (3, 16)	1
  (3, 23)	1
  (4, 0)	1
  (4, 13)	1
  (4, 22)	1
[[0 0 1 0 0 0 1 0 0 1 1 0 1 0 0 0 0 0 1 0 1 0 0 1]
 [0 1 0 1 0 0 0 0 1 0 0 2 0 0 0 1 0 0 0 1 0 1 0 0]
 [0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 0 0 0]
 [0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1]
 [1 0 0 0 0 0 0 0

ZADANIE: Możemy tutaj użyć preprocessing i tokenizacje domyślną, ale można też zdefiniować własną. Proszę użyć wcześniej zdefiniowane dunkcje do przetwarzania tekstu w naszym transfromerze - zobacz: http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

In [30]:
#TODO wykorzystać poprzednie
from nltk.corpus import stopwords
import string
from nltk.stem import PorterStemmer

#tokenizer działa na tokenach już
def stemming_tokenizer(text):
    tokenized = word_tokenize(text)
    stemmer = PorterStemmer()
    return [stemmer.stem(w) for w in tokenized]

#preprocessor działa na całym dokumencie
def my_preprocessing(word):
    print(word)
    return word

vectorizer = CountVectorizer(preprocessor = my_preprocessing, tokenizer=stemming_tokenizer, stop_words=stopwords.words('english') + list(string.punctuation))

vectorizer.fit(sentences)
print( vectorizer.vocabulary_ )
print(vectorizer.transform(sentences).todense())

Hello Mr. Smith, how are you doing today?
The weather is great, and Python is awesome.
The sky is pinkish-blue.
You shouldn't eat cardboard.
I'm 20 years old.
{'hello': 7, 'mr.': 8, 'smith': 14, 'today': 15, 'weather': 16, 'great': 6, 'python': 12, 'awesom': 3, 'sky': 13, 'pinkish-blu': 11, "n't": 9, 'eat': 5, 'cardboard': 4, 'I': 2, "'m": 0, '20': 1, 'year': 17, 'old': 10}
Hello Mr. Smith, how are you doing today?
The weather is great, and Python is awesome.
The sky is pinkish-blue.
You shouldn't eat cardboard.
I'm 20 years old.
[[0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0]
 [0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0]
 [0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [1 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1]]


Vectorizer buduje nam słownik, czyli definiuje poszczególne wymiary. Mając taki słownik możemy transfromować nowe zdania.

ZADANIE: stworzyć słownik w oparciu o zadany tekstu. Następnie wziąć dokument który zawiera słowa niebędące w słowniku - jak wygląda jego reprezentacja?

In [31]:
new_sentence = ["hello ms. smith"]
vectorizer.transform(new_sentence).todense()

hello ms. smith


matrix([[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0]], dtype=int64)

ZADANIE (dla chętnych): Jeśli będzie czas to można zobaczyć na inne vektoryzery: http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html. Można też spróbować wykorzystać POS do tworzenia reprezentacji: https://stackoverflow.com/questions/24002485/python-how-to-use-pos-part-of-speech-features-in-scikit-learn-classfiers-svm