# Wektorowa reprezentacja tekstu

W najprostszym przypadku budowanie reprezentacji wektorowej polega na zliczaniu ilości słów (ciągów). Każde słowo to atrybut a wartość w danym atrybucie to ilość wystąpniń tego słowa. 


## bag-of-words

Najprostsza reprezentacja to reprezentacja bag-of-words: https://en.wikipedia.org/wiki/Bag-of-words_model. 

Kazdy wektor zapisany jest w rzadkiej reprezentacji jako że słownik może być duży a dokument mały.

# Zad 

* Weźmy tekst i podzielmy na tokeny. 

* Proszę stworzyć słownik słów oraz policzyć częstości każdego słowa. 

* Można użyć Counter - daje nam słownik: https://docs.python.org/2/library/collections.html#collections.Counter


In [1]:
text = "I need to write a program in NLTK that breaks a corpus (a large collection of txt files) into unigrams, bigrams, trigrams, fourgrams and fivegrams. I need to write a program in NLTK that breaks a corpus"
print(text)

I need to write a program in NLTK that breaks a corpus (a large collection of txt files) into unigrams, bigrams, trigrams, fourgrams and fivegrams. I need to write a program in NLTK that breaks a corpus


In [2]:
import nltk
from nltk import word_tokenize
from collections import Counter

tokens = nltk.word_tokenize(text)
unigrams = set(tokens)
print("-----słownik----")
print(unigrams)

-----słownik----
{'corpus', 'to', 'fourgrams', 'bigrams', 'unigrams', 'fivegrams', 'NLTK', ',', 'a', 'files', 'I', 'of', 'breaks', 'trigrams', 'txt', 'that', 'program', 'write', 'need', '.', 'and', 'large', ')', '(', 'collection', 'into', 'in'}


In [3]:
print("-----licznik----")
counts1 = Counter(tokens)
print(counts1)

-----licznik----
Counter({'a': 5, ',': 3, 'I': 2, 'need': 2, 'to': 2, 'write': 2, 'program': 2, 'in': 2, 'NLTK': 2, 'that': 2, 'breaks': 2, 'corpus': 2, '(': 1, 'large': 1, 'collection': 1, 'of': 1, 'txt': 1, 'files': 1, ')': 1, 'into': 1, 'unigrams': 1, 'bigrams': 1, 'trigrams': 1, 'fourgrams': 1, 'and': 1, 'fivegrams': 1, '.': 1})


In [8]:
print("-----klucze---")
print(counts1.keys())
print("----wartości--")
print(counts1.values())

-----klucze---
dict_keys(['I', 'need', 'to', 'write', 'a', 'program', 'in', 'NLTK', 'that', 'breaks', 'corpus', '(', 'large', 'collection', 'of', 'txt', 'files', ')', 'into', 'unigrams', ',', 'bigrams', 'trigrams', 'fourgrams', 'and', 'fivegrams', '.'])
----wartości--
dict_values([2, 2, 2, 2, 5, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 1, 1, 1, 1, 1, 1])


In [9]:
print("--miejsce--")
print(counts1['I'])

--miejsce--
2


# Zad (dla chętnych)

Zostańmy przy unigramach. Proszę napisać reprezentację bag-of-words własnoręcznie. 

W tym celu:

 * tworzymy słownik słów na podstawie zdanego tekstu (metoda fit)

 * dla stokenizowanego dokumentu, tworzymy macierz częstości

In [10]:
import numpy as np

def fit(tokens):
    ??

def transform(sentence_words, words):
    ??

words = fit(tokens)
print(words)
print("--reprezentacja--")
representation = transform(tokens, words)
print(representation)

{'txt', ',', 'of', 'and', 'fourgrams', 'write', 'corpus', 'that', 'in', ')', 'breaks', '(', 'NLTK', 'fivegrams', 'need', 'to', 'collection', 'bigrams', 'into', 'I', 'unigrams', 'program', 'large', 'trigrams', 'a', 'files', '.'}
--reprezentacja--
[1. 3. 1. 1. 1. 2. 2. 2. 2. 1. 2. 1. 2. 1. 2. 2. 1. 1. 1. 2. 1. 2. 1. 1.
 5. 1. 1.]


# ngrams

Teksto można reprezentaować też jako ciągi czyli n-gramy

In [7]:
import nltk
from nltk import word_tokenize
from nltk.util import ngrams
from collections import Counter

In [8]:
text = "I need to write a program in NLTK that breaks a corpus (a large collection of txt files) into unigrams, bigrams, trigrams, fourgrams and fivegrams. I need to write a program in NLTK that breaks a corpus"
print(text)

I need to write a program in NLTK that breaks a corpus (a large collection of txt files) into unigrams, bigrams, trigrams, fourgrams and fivegrams. I need to write a program in NLTK that breaks a corpus


In [9]:
token = nltk.word_tokenize(text)

bigrams = ngrams(token,2)
trigrams = ngrams(token,3)
fourgrams = ngrams(token,4)
fivegrams = ngrams(token,5)

In [10]:
counts2 = Counter(bigrams)
print(counts2)

Counter({('I', 'need'): 2, ('need', 'to'): 2, ('to', 'write'): 2, ('write', 'a'): 2, ('a', 'program'): 2, ('program', 'in'): 2, ('in', 'NLTK'): 2, ('NLTK', 'that'): 2, ('that', 'breaks'): 2, ('breaks', 'a'): 2, ('a', 'corpus'): 2, ('corpus', '('): 1, ('(', 'a'): 1, ('a', 'large'): 1, ('large', 'collection'): 1, ('collection', 'of'): 1, ('of', 'txt'): 1, ('txt', 'files'): 1, ('files', ')'): 1, (')', 'into'): 1, ('into', 'unigrams'): 1, ('unigrams', ','): 1, (',', 'bigrams'): 1, ('bigrams', ','): 1, (',', 'trigrams'): 1, ('trigrams', ','): 1, (',', 'fourgrams'): 1, ('fourgrams', 'and'): 1, ('and', 'fivegrams'): 1, ('fivegrams', '.'): 1, ('.', 'I'): 1})


In [11]:
counts3 = Counter(trigrams)
print(counts3)

Counter({('I', 'need', 'to'): 2, ('need', 'to', 'write'): 2, ('to', 'write', 'a'): 2, ('write', 'a', 'program'): 2, ('a', 'program', 'in'): 2, ('program', 'in', 'NLTK'): 2, ('in', 'NLTK', 'that'): 2, ('NLTK', 'that', 'breaks'): 2, ('that', 'breaks', 'a'): 2, ('breaks', 'a', 'corpus'): 2, ('a', 'corpus', '('): 1, ('corpus', '(', 'a'): 1, ('(', 'a', 'large'): 1, ('a', 'large', 'collection'): 1, ('large', 'collection', 'of'): 1, ('collection', 'of', 'txt'): 1, ('of', 'txt', 'files'): 1, ('txt', 'files', ')'): 1, ('files', ')', 'into'): 1, (')', 'into', 'unigrams'): 1, ('into', 'unigrams', ','): 1, ('unigrams', ',', 'bigrams'): 1, (',', 'bigrams', ','): 1, ('bigrams', ',', 'trigrams'): 1, (',', 'trigrams', ','): 1, ('trigrams', ',', 'fourgrams'): 1, (',', 'fourgrams', 'and'): 1, ('fourgrams', 'and', 'fivegrams'): 1, ('and', 'fivegrams', '.'): 1, ('fivegrams', '.', 'I'): 1, ('.', 'I', 'need'): 1})


In [12]:
counts4 = Counter(fourgrams)
print(counts4)

Counter({('I', 'need', 'to', 'write'): 2, ('need', 'to', 'write', 'a'): 2, ('to', 'write', 'a', 'program'): 2, ('write', 'a', 'program', 'in'): 2, ('a', 'program', 'in', 'NLTK'): 2, ('program', 'in', 'NLTK', 'that'): 2, ('in', 'NLTK', 'that', 'breaks'): 2, ('NLTK', 'that', 'breaks', 'a'): 2, ('that', 'breaks', 'a', 'corpus'): 2, ('breaks', 'a', 'corpus', '('): 1, ('a', 'corpus', '(', 'a'): 1, ('corpus', '(', 'a', 'large'): 1, ('(', 'a', 'large', 'collection'): 1, ('a', 'large', 'collection', 'of'): 1, ('large', 'collection', 'of', 'txt'): 1, ('collection', 'of', 'txt', 'files'): 1, ('of', 'txt', 'files', ')'): 1, ('txt', 'files', ')', 'into'): 1, ('files', ')', 'into', 'unigrams'): 1, (')', 'into', 'unigrams', ','): 1, ('into', 'unigrams', ',', 'bigrams'): 1, ('unigrams', ',', 'bigrams', ','): 1, (',', 'bigrams', ',', 'trigrams'): 1, ('bigrams', ',', 'trigrams', ','): 1, (',', 'trigrams', ',', 'fourgrams'): 1, ('trigrams', ',', 'fourgrams', 'and'): 1, (',', 'fourgrams', 'and', 'fivegra

In [13]:
counts5 = Counter(fivegrams)
print(counts5)

Counter({('I', 'need', 'to', 'write', 'a'): 2, ('need', 'to', 'write', 'a', 'program'): 2, ('to', 'write', 'a', 'program', 'in'): 2, ('write', 'a', 'program', 'in', 'NLTK'): 2, ('a', 'program', 'in', 'NLTK', 'that'): 2, ('program', 'in', 'NLTK', 'that', 'breaks'): 2, ('in', 'NLTK', 'that', 'breaks', 'a'): 2, ('NLTK', 'that', 'breaks', 'a', 'corpus'): 2, ('that', 'breaks', 'a', 'corpus', '('): 1, ('breaks', 'a', 'corpus', '(', 'a'): 1, ('a', 'corpus', '(', 'a', 'large'): 1, ('corpus', '(', 'a', 'large', 'collection'): 1, ('(', 'a', 'large', 'collection', 'of'): 1, ('a', 'large', 'collection', 'of', 'txt'): 1, ('large', 'collection', 'of', 'txt', 'files'): 1, ('collection', 'of', 'txt', 'files', ')'): 1, ('of', 'txt', 'files', ')', 'into'): 1, ('txt', 'files', ')', 'into', 'unigrams'): 1, ('files', ')', 'into', 'unigrams', ','): 1, (')', 'into', 'unigrams', ',', 'bigrams'): 1, ('into', 'unigrams', ',', 'bigrams', ','): 1, ('unigrams', ',', 'bigrams', ',', 'trigrams'): 1, (',', 'bigrams',

# Zad 

Do budowy reprezentacji dla wielu tekstów można użyć sklearn do tej samej czynności:

In [14]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import sent_tokenize

EXAMPLE_TEXT = "Hello Mr. Smith, how are you doing today? The weather is great, and Python is awesome. The sky is pinkish-blue. You shouldn't eat cardboard. I'm 20 years old."
sentences = sent_tokenize(EXAMPLE_TEXT)

print(sentences)

['Hello Mr. Smith, how are you doing today?', 'The weather is great, and Python is awesome.', 'The sky is pinkish-blue.', "You shouldn't eat cardboard.", "I'm 20 years old."]


In [15]:
vectorizer = CountVectorizer()
vectorizer.fit(sentences)
print( vectorizer.vocabulary_ )

{'hello': 9, 'mr': 12, 'smith': 18, 'how': 10, 'are': 2, 'you': 23, 'doing': 6, 'today': 20, 'the': 19, 'weather': 21, 'is': 11, 'great': 8, 'and': 1, 'python': 15, 'awesome': 3, 'sky': 17, 'pinkish': 14, 'blue': 4, 'shouldn': 16, 'eat': 7, 'cardboard': 5, '20': 0, 'years': 22, 'old': 13}


In [16]:
bag_of_words = vectorizer.transform(sentences)
print(bag_of_words)

  (0, 2)	1
  (0, 6)	1
  (0, 9)	1
  (0, 10)	1
  (0, 12)	1
  (0, 18)	1
  (0, 20)	1
  (0, 23)	1
  (1, 1)	1
  (1, 3)	1
  (1, 8)	1
  (1, 11)	2
  (1, 15)	1
  (1, 19)	1
  (1, 21)	1
  (2, 4)	1
  (2, 11)	1
  (2, 14)	1
  (2, 17)	1
  (2, 19)	1
  (3, 5)	1
  (3, 7)	1
  (3, 16)	1
  (3, 23)	1
  (4, 0)	1
  (4, 13)	1
  (4, 22)	1


In [17]:
print(bag_of_words.todense())

[[0 0 1 0 0 0 1 0 0 1 1 0 1 0 0 0 0 0 1 0 1 0 0 1]
 [0 1 0 1 0 0 0 0 1 0 0 2 0 0 0 1 0 0 0 1 0 1 0 0]
 [0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 0 0 0]
 [0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0]]


# Zad:

Możemy tutaj użyć preprocessing i tokenizacje domyślną, ale można też zdefiniować własną.

Proszę użyć wcześniej zdefiniowane funkcje do przetwarzania tekstu w naszym transfromerze - zobacz:

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

a następnie stworzyć reprezentację **bag-of-words**

In [18]:
from nltk.corpus import stopwords
import string
from nltk.stem import PorterStemmer

#tokenizer działa na tokenach już
def stemming_tokenizer(text):
    tokenized = word_tokenize(text)
    stemmer = PorterStemmer()
    return [stemmer.stem(w) for w in tokenized]

#preprocessor działa na całym dokumencie
def my_preprocessing(word):
    print(word)
    return word

vectorizer = CountVectorizer(preprocessor = my_preprocessing, tokenizer=stemming_tokenizer, stop_words=stopwords.words('english') + list(string.punctuation))

vectorizer.fit(sentences)
print( vectorizer.vocabulary_ )
print(vectorizer.transform(sentences).todense())

Hello Mr. Smith, how are you doing today?
The weather is great, and Python is awesome.
The sky is pinkish-blue.
You shouldn't eat cardboard.
I'm 20 years old.
{'hello': 7, 'mr.': 8, 'smith': 14, 'today': 15, 'weather': 16, 'great': 6, 'python': 12, 'awesom': 3, 'sky': 13, 'pinkish-blu': 11, "n't": 9, 'eat': 5, 'cardboard': 4, 'I': 2, "'m": 0, '20': 1, 'year': 17, 'old': 10}
Hello Mr. Smith, how are you doing today?
The weather is great, and Python is awesome.
The sky is pinkish-blue.
You shouldn't eat cardboard.
I'm 20 years old.
[[0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0]
 [0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0]
 [0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [1 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1]]


# Zad 
 
Proszę wykonać podstawową tekenizację biorąc pod uwagę:

 * bierzemy kolejne artykuły i dzieli go na tokeny
 * bierzemy listę tokenów i usuwamy punktory
 * bierzemy listę tokenów i usuwa liczby
 * bierzemy listę tokenów i zamieniamy na małe litery
 
a następnie stworzyć reprezentację **bag-of-words**

[[0 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0]
 [0 1 0 0 1 0 0 0 0 0 1 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0]
 [0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1]]


# Zad

Vectorizer buduje nam słownik, czyli definiuje poszczególne wymiary. Mając taki słownik możemy transformować nowe zdania.

Jaką reprezentację będą miały zdania:


 * "The weather is awesome"
 
 * "You shouldn't eat 20 20 30 cardboards"

In [68]:
new_sentences_1 = ["The weather is awesome", "You shouldn't eat 20 20 30 cardboards"]

print(vectorizer.transform(new_sentences_1).todense())

The weather is awesome
You shouldn't eat 20 20 30 cardboards
[[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0]]


# Zad 

Jaką reprezentację będą miały zdania zawierające słowo nie występujące wcześniej ("apples"):


 * "You shouldn't eat apples"
 * "Apples apples apples"