# Reprezentacja tekstu

In [1]:
import pandas as pd
import spacy

nlp = spacy.load("pl_core_news_md")

In [2]:
corpus = ["Przetwarzanie tekstu to świetna zabawa", 
          "Lubię pracować z tekstem", 
          "Python świetnie nadaje się do przetwarzania tekstu"]

In [3]:
doc_corpus = list(nlp.pipe(corpus, disable=["ner"]))

In [4]:
norm_corpus = [[token.lemma_ for token in doc if token.is_alpha] for doc in doc_corpus]

In [5]:
norm_corpus

[['przetwarzanie', 'tekst', 'to', 'świetny', 'zabawa'],
 ['lubić', 'pracować', 'z', 'tekst'],
 ['python', 'świetnie', 'nadawać', 'się', 'do', 'przetwarzanie', 'tekst']]

## Bag of Words

In [6]:
from collections import Counter

In [7]:
Counter(["a", "a", "b", "c", "c", "c"])

Counter({'a': 2, 'b': 1, 'c': 3})

In [8]:
bow = [Counter(text) for text in norm_corpus]

In [9]:
bow

[Counter({'przetwarzanie': 1, 'tekst': 1, 'to': 1, 'świetny': 1, 'zabawa': 1}),
 Counter({'lubić': 1, 'pracować': 1, 'z': 1, 'tekst': 1}),
 Counter({'python': 1,
          'świetnie': 1,
          'nadawać': 1,
          'się': 1,
          'do': 1,
          'przetwarzanie': 1,
          'tekst': 1})]

## Document-Term Matrix

In [10]:
uniq_tokens = list(set([word for text in norm_corpus for word in text]))
uniq_tokens

['nadawać',
 'tekst',
 'to',
 'do',
 'się',
 'lubić',
 'przetwarzanie',
 'zabawa',
 'świetnie',
 'pracować',
 'z',
 'świetny',
 'python']

In [11]:
def make_dtm(corpus, uniq_tokens):
    out = []
    for text in corpus:
        c = Counter(text)
        dt = []
        for token in uniq_tokens:
            dt.append(c.get(token, 0))
        out.append(dt)
    return out

In [12]:
bow_dtm = make_dtm(norm_corpus, uniq_tokens)
bow_dtm

[[0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0],
 [0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0],
 [1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1]]

In [13]:
df = pd.DataFrame(bow_dtm, columns=uniq_tokens)
df

Unnamed: 0,nadawać,tekst,to,do,się,lubić,przetwarzanie,zabawa,świetnie,pracować,z,świetny,python
0,0,1,1,0,0,0,1,1,0,0,0,1,0
1,0,1,0,0,0,1,0,0,0,1,1,0,0
2,1,1,0,1,1,0,1,0,1,0,0,0,1


In [14]:
stopwords = set(pd.read_csv("https://raw.githubusercontent.com/bieli/stopwords/master/polish.stopwords.txt", 
                            header=None).values[:,0])

In [15]:
norm_corpus

[['przetwarzanie', 'tekst', 'to', 'świetny', 'zabawa'],
 ['lubić', 'pracować', 'z', 'tekst'],
 ['python', 'świetnie', 'nadawać', 'się', 'do', 'przetwarzanie', 'tekst']]

In [16]:
sw_norm_corpus = [[token for token in doc if token not in stopwords] for doc in norm_corpus]

In [17]:
sw_norm_corpus

[['przetwarzanie', 'tekst', 'świetny', 'zabawa'],
 ['lubić', 'pracować', 'tekst'],
 ['python', 'świetnie', 'nadawać', 'przetwarzanie', 'tekst']]

In [18]:
uniq_tokens = list(set([word for text in sw_norm_corpus for word in text]))
uniq_tokens

['nadawać',
 'tekst',
 'lubić',
 'przetwarzanie',
 'zabawa',
 'świetnie',
 'pracować',
 'świetny',
 'python']

In [19]:
bow_dtm = make_dtm(sw_norm_corpus, uniq_tokens)
bow_dtm

[[0, 1, 0, 1, 1, 0, 0, 1, 0],
 [0, 1, 1, 0, 0, 0, 1, 0, 0],
 [1, 1, 0, 1, 0, 1, 0, 0, 1]]

In [20]:
pd.DataFrame(bow_dtm, columns=uniq_tokens)

Unnamed: 0,nadawać,tekst,lubić,przetwarzanie,zabawa,świetnie,pracować,świetny,python
0,0,1,0,1,1,0,0,1,0
1,0,1,1,0,0,0,1,0,0
2,1,1,0,1,0,1,0,0,1


In [21]:
df

Unnamed: 0,nadawać,tekst,to,do,się,lubić,przetwarzanie,zabawa,świetnie,pracować,z,świetny,python
0,0,1,1,0,0,0,1,1,0,0,0,1,0
1,0,1,0,0,0,1,0,0,0,1,1,0,0
2,1,1,0,1,1,0,1,0,1,0,0,0,1
