# N-gramy

## Wprowadzenie

**N-gramy** to **sekwencje następujących po sobie jednostek**, np. *znaków* lub *tokenów* w przetwarzaniu tekstów oraz *fonemów* w rozpoznawaniu mowy. **N** określa ilość elementów występujacych w sekwencji:
* 1-gram — unigram,
* 2-gram — bigram,
* 3-gram — trigram,
* 4-gram, 5-gram, itd.


**Przykład**

* Samochód osobowy przejechał na czerwonym świetle

Bigramy:
1. **[Samochód osobowy]** przejechał na czerwonym świetle
2. Samochód **[osobowy przejechał]** na czerwonym świetle
3. Samochód osobowy **[przejechał na]** czerwonym świetle
4. Samochód osobowy przejechał **[na czerwonym]** świetle
5. Samochód osobowy przejechał na **[czerwonym świetle]**

Trigramy:
1. **[Samochód osobowy przejechał]** na czerwonym świetle
2. Samochód **[osobowy przejechał na]** czerwonym świetle
3. Samochód osobowy **[przejechał na czerwonym]** świetle
4. Samochód osobowy przejechał **[na czerwonym świetle]**

**Zastosowanie:**
* podobieństwo dokumentów — jako cechy dokumentu uwzględniające powiązania między słowami,
* modelowanie języka — rozkład prawdopodobieństwa wystąpienia słowa po n-gramie słów wykorzystuje się m.in. do:
  * generowania/uzupełniania tekstów — np. uzupełnienie zapytania wpisywanego do wyszukiwarki internetowej,
  * korygowania błędów językowych — np. poprzez sprawdzenie występowania określonych konstrukcji językowych w danych wzorcowych.

N-gramy dla słów mogą być używane zarówno dla **form tekstowych**, jak i dla **lematów** i **znaczników morfologicznych**.

## Generowanie n-gramów

In [1]:
tokens = "Samochód osobowy przejechał na czerwonym świetle".split(" ")

n = 3

```
    Samochód osobowy przejechał na czerwonym świetle

[0] Samochód osobowy przejechał na
[1]          osobowy przejechał na czerwonym
[2]                  przejechał na czerwonym świetle
```

In [2]:
sequences = [tokens[i:i+len(tokens)-n+1] for i in range(n)]
sequences

[['Samochód', 'osobowy', 'przejechał', 'na'],
 ['osobowy', 'przejechał', 'na', 'czerwonym'],
 ['przejechał', 'na', 'czerwonym', 'świetle']]

```
[0] Samochód    osobowy     przejechał  na
[1] osobowy     przejechał  na          czerwonym
[2] przejechał  na          czerwonym   świetle
    |           |
    |           V
    |           (osobowy, przejechał, na)
    V
    (Samochód, osobowy, przejechał)
                   
```

In [3]:
# zip(*sequences) == zip(sequences[0], sequences[1], sequences[2])
[gram for gram in zip(*sequences)]  

[('Samochód', 'osobowy', 'przejechał'),
 ('osobowy', 'przejechał', 'na'),
 ('przejechał', 'na', 'czerwonym'),
 ('na', 'czerwonym', 'świetle')]

**Metody ngrams, bigrams, trigrams i everygrams z NLTK**

In [4]:
from nltk.util import ngrams

print(*ngrams(tokens, 3), sep="\n")

('Samochód', 'osobowy', 'przejechał')
('osobowy', 'przejechał', 'na')
('przejechał', 'na', 'czerwonym')
('na', 'czerwonym', 'świetle')


In [5]:
from nltk.util import trigrams

print(*trigrams(tokens), sep="\n")

('Samochód', 'osobowy', 'przejechał')
('osobowy', 'przejechał', 'na')
('przejechał', 'na', 'czerwonym')
('na', 'czerwonym', 'świetle')


In [6]:
from nltk.util import bigrams

print(*bigrams(tokens), sep="\n")

('Samochód', 'osobowy')
('osobowy', 'przejechał')
('przejechał', 'na')
('na', 'czerwonym')
('czerwonym', 'świetle')


In [7]:
from nltk.util import everygrams

print(*everygrams(tokens, 1, 3), sep="\n")

('Samochód',)
('osobowy',)
('przejechał',)
('na',)
('czerwonym',)
('świetle',)
('Samochód', 'osobowy')
('osobowy', 'przejechał')
('przejechał', 'na')
('na', 'czerwonym')
('czerwonym', 'świetle')
('Samochód', 'osobowy', 'przejechał')
('osobowy', 'przejechał', 'na')
('przejechał', 'na', 'czerwonym')
('na', 'czerwonym', 'świetle')


## Podobieństwo dokumentów


In [8]:
texts = [
  "domek na drzewie odwiedza dużo ptaków",
  "domek na drzewie jest marzeniem każdego dziecka",
  "jako dziecko chciałem mieć domek na drzewie",
  "domek dla ptaków jest na drzewie",
  "na drzewie siedzi chłopiec i montuje domek dla ptaków"
]

In [9]:
from sklearn.feature_extraction.text import CountVectorizer

### unigramy

In [10]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)
print(X.toarray())

[[0 0 0 1 1 1 0 0 0 0 0 0 0 0 1 1 1 0]
 [0 0 0 1 1 0 1 0 0 1 1 1 0 0 1 0 0 0]
 [1 0 0 1 1 0 0 1 1 0 0 0 1 0 1 0 0 0]
 [0 0 1 1 1 0 0 0 0 1 0 0 0 0 1 0 1 0]
 [0 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1]]


In [11]:
from sklearn.metrics.pairwise import cosine_similarity

sim_matrix = cosine_similarity(X, X)
sim_matrix

array([[1.        , 0.46291005, 0.46291005, 0.66666667, 0.57735027],
       [0.46291005, 1.        , 0.42857143, 0.6172134 , 0.40089186],
       [0.46291005, 0.42857143, 1.        , 0.46291005, 0.40089186],
       [0.66666667, 0.6172134 , 0.46291005, 1.        , 0.72168784],
       [0.57735027, 0.40089186, 0.40089186, 0.72168784, 1.        ]])

In [12]:
sim_text = zip([sim_matrix[0][n] for n in range(0, len(texts))], texts)

for sim, text in sorted(sim_text, reverse=True):
  print(f"{sim:<7.04}  {text}")

1.0      domek na drzewie odwiedza dużo ptaków
0.6667   domek dla ptaków jest na drzewie
0.5774   na drzewie siedzi chłopiec i montuje domek dla ptaków
0.4629   jako dziecko chciałem mieć domek na drzewie
0.4629   domek na drzewie jest marzeniem każdego dziecka


### bigramy

In [13]:
vectorizer_bigrams = CountVectorizer(ngram_range=(1,2))
X_bigrams = vectorizer_bigrams.fit_transform(texts)
print(X_bigrams.toarray())

[[0 0 0 0 0 0 1 0 1 1 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1
  0 0 0]
 [0 0 0 0 0 0 1 0 1 1 1 0 0 0 0 1 0 0 0 0 1 1 0 1 1 1 1 0 0 0 0 1 1 0 0 0
  0 0 0]
 [1 1 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 1 1 0 0 1 1 0 0 0
  0 0 0]
 [0 0 0 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 1 0 0 1
  1 0 0]
 [0 0 1 1 1 1 1 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 1
  0 1 1]]


In [14]:
vectorizer_bigrams.get_feature_names()

['chciałem',
 'chciałem mieć',
 'chłopiec',
 'chłopiec montuje',
 'dla',
 'dla ptaków',
 'domek',
 'domek dla',
 'domek na',
 'drzewie',
 'drzewie jest',
 'drzewie odwiedza',
 'drzewie siedzi',
 'dużo',
 'dużo ptaków',
 'dziecka',
 'dziecko',
 'dziecko chciałem',
 'jako',
 'jako dziecko',
 'jest',
 'jest marzeniem',
 'jest na',
 'każdego',
 'każdego dziecka',
 'marzeniem',
 'marzeniem każdego',
 'mieć',
 'mieć domek',
 'montuje',
 'montuje domek',
 'na',
 'na drzewie',
 'odwiedza',
 'odwiedza dużo',
 'ptaków',
 'ptaków jest',
 'siedzi',
 'siedzi chłopiec']

In [15]:
sim_matrix_bigrams = cosine_similarity(X_bigrams, X_bigrams)
sim_matrix_bigrams

array([[1.        , 0.41812101, 0.41812101, 0.45454545, 0.38924947],
       [0.41812101, 1.        , 0.38461538, 0.41812101, 0.28644595],
       [0.41812101, 0.38461538, 1.        , 0.3344968 , 0.28644595],
       [0.45454545, 0.41812101, 0.3344968 , 1.        , 0.62279916],
       [0.38924947, 0.28644595, 0.28644595, 0.62279916, 1.        ]])

In [16]:
sim_text_bigrams = zip([sim_matrix_bigrams[0][n] for n in range(0, len(texts))], texts)

for sim, text in sorted(sim_text_bigrams, reverse=True):
  print(f"{sim:<7.04}  {text}")

1.0      domek na drzewie odwiedza dużo ptaków
0.4545   domek dla ptaków jest na drzewie
0.4181   jako dziecko chciałem mieć domek na drzewie
0.4181   domek na drzewie jest marzeniem każdego dziecka
0.3892   na drzewie siedzi chłopiec i montuje domek dla ptaków


### trigramy

In [17]:
vectorizer_trigrams = CountVectorizer(ngram_range=(1,3))
X_trigrams = vectorizer_trigrams.fit_transform(texts)
print(X_trigrams.toarray())

[[0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 0 1 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 1 1 1 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 0 0 1
  1 1 1 1 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0]
 [1 1 1 0 0 0 0 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0
  0 0 0 0 1 1 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0
  0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 1 0 0 0]
 [0 0 0 1 1 1 1 1 0 1 1 1 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 1 1 1 1 1 0 0 1 0 0 0 1 0 0 1 1 1]]


In [18]:
print(vectorizer_trigrams.get_feature_names())

['chciałem', 'chciałem mieć', 'chciałem mieć domek', 'chłopiec', 'chłopiec montuje', 'chłopiec montuje domek', 'dla', 'dla ptaków', 'dla ptaków jest', 'domek', 'domek dla', 'domek dla ptaków', 'domek na', 'domek na drzewie', 'drzewie', 'drzewie jest', 'drzewie jest marzeniem', 'drzewie odwiedza', 'drzewie odwiedza dużo', 'drzewie siedzi', 'drzewie siedzi chłopiec', 'dużo', 'dużo ptaków', 'dziecka', 'dziecko', 'dziecko chciałem', 'dziecko chciałem mieć', 'jako', 'jako dziecko', 'jako dziecko chciałem', 'jest', 'jest marzeniem', 'jest marzeniem każdego', 'jest na', 'jest na drzewie', 'każdego', 'każdego dziecka', 'marzeniem', 'marzeniem każdego', 'marzeniem każdego dziecka', 'mieć', 'mieć domek', 'mieć domek na', 'montuje', 'montuje domek', 'montuje domek dla', 'na', 'na drzewie', 'na drzewie jest', 'na drzewie odwiedza', 'na drzewie siedzi', 'odwiedza', 'odwiedza dużo', 'odwiedza dużo ptaków', 'ptaków', 'ptaków jest', 'ptaków jest na', 'siedzi', 'siedzi chłopiec', 'siedzi chłopiec montu

In [19]:
sim_matrix_trigrams = cosine_similarity(X_trigrams, X_trigrams)
sim_matrix_trigrams

array([[1.        , 0.36514837, 0.36514837, 0.33333333, 0.28171808],
       [0.36514837, 1.        , 0.33333333, 0.30429031, 0.2057378 ],
       [0.36514837, 0.33333333, 1.        , 0.24343225, 0.2057378 ],
       [0.33333333, 0.30429031, 0.24343225, 1.        , 0.50709255],
       [0.28171808, 0.2057378 , 0.2057378 , 0.50709255, 1.        ]])

In [20]:
sim_text_trigrams = zip([sim_matrix_trigrams[0][n] for n in range(0, len(texts))], texts)

for sim, text in sorted(sim_text_trigrams, reverse=True):
  print(f"{sim:<7.04}  {text}")

1.0      domek na drzewie odwiedza dużo ptaków
0.3651   jako dziecko chciałem mieć domek na drzewie
0.3651   domek na drzewie jest marzeniem każdego dziecka
0.3333   domek dla ptaków jest na drzewie
0.2817   na drzewie siedzi chłopiec i montuje domek dla ptaków


## Modelowanie języka

Chcemy sprawdzić, która konstrukcja językowa jest częstsza, np. **podatek od X** czy **podatek za X**. Do modelowania należy wykorzystać możliwie duży zbiór tekstów reprezentatywnych dla danego języka. 

PolEval 2018 — Task 3: Language Models

In [21]:
!wget http://2018.poleval.pl/task3/task3_test.txt.gz

--2020-12-07 10:06:10--  http://2018.poleval.pl/task3/task3_test.txt.gz
Resolving 2018.poleval.pl (2018.poleval.pl)... 213.135.36.94
Connecting to 2018.poleval.pl (2018.poleval.pl)|213.135.36.94|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 142279320 (136M) [application/x-gzip]
Saving to: ‘task3_test.txt.gz’


2020-12-07 10:06:17 (21.1 MB/s) - ‘task3_test.txt.gz’ saved [142279320/142279320]



In [22]:
!gunzip task3_test.txt.gz -f

In [23]:
text = open("task3_test.txt", "r").read()
print(len(text))

316361968


In [24]:
from nltk.tokenize import WordPunctTokenizer

tokens = WordPunctTokenizer().tokenize(text)
print(len(tokens))

51244079


In [25]:
!pip install nltk -U

Requirement already up-to-date: nltk in /usr/local/lib/python3.6/dist-packages (3.5)


In [26]:
from nltk.util import trigrams
from nltk.lm.counter import NgramCounter

ngram_counts = NgramCounter([trigrams(tokens)])

In [27]:
ngram_counts[('podatek', 'od',)].most_common(20)

[('towarów', 66),
 ('nieruchomości', 63),
 ('środków', 19),
 ('dochodów', 18),
 ('wartości', 14),
 ('osób', 13),
 ('czynności', 8),
 ('sprzedaży', 8),
 ('kopalin', 7),
 ('transakcji', 6),
 ('wydobycia', 6),
 ('gier', 5),
 ('dochodu', 4),
 ('tej', 3),
 ('zysków', 3),
 ('tych', 3),
 ('spadków', 3),
 ('spadku', 3),
 ('wzrostu', 3),
 ('wynagrodzeń', 3)]

In [28]:
ngram_counts[('podatek', 'za',)].most_common(10)

[('granicą', 1),
 ('korzystanie', 1),
 ('2013', 1),
 ('połączenia', 1),
 ('następny', 1),
 ('media', 1),
 ('miesiąc', 1),
 ('sprawiedliwy', 1),
 ('pracę', 1),
 ('wygranę', 1)]

## Podsumowanie

1.   N-gramy — są to n-elementowe sekwencje, np. liter, słów, fonemów.
2.   Dla słów n-gramy mogą być używane zarówno dla form tekstowych, lematów i znaczników gramatycznych.
3.   Wykorzystuje się je w m.in. w porównywaniu dokumentów oraz modelowaniu języka.

