In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
feature_names = vectorizer.get_feature_names_out()

print(X.shape)

(4, 9)


In [None]:
feature_names

array(['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third',
       'this'], dtype=object)

In [None]:
X.todense()

matrix([[0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
         0.        , 0.38408524, 0.        , 0.38408524],
        [0.        , 0.6876236 , 0.        , 0.28108867, 0.        ,
         0.53864762, 0.28108867, 0.        , 0.28108867],
        [0.51184851, 0.        , 0.        , 0.26710379, 0.51184851,
         0.        , 0.26710379, 0.51184851, 0.26710379],
        [0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
         0.        , 0.38408524, 0.        , 0.38408524]])

In [None]:
import math

In [None]:
corpus = [
    "Ala ma kota, wybierają się na wakacje.",
    "Bartosz ma psa. Jego pies nazywa się Kubuś. Kubuś dobrze aportuje",
    "Stanisław lubi spędzać wakacje nad morzem, stanisław ma psa Reksia",
]

In [None]:
corpus = [
    t.replace(',', '').replace('.', '')  for t in corpus
]

In [None]:
corpus

['Ala ma kota wybierają się na wakacje',
 'Bartosz ma psa Jego pies nazywa się Kubuś Kubuś dobrze aportuje',
 'Stanisław lubi spędzać wakacje nad morzem stanisław ma psa Reksia']

In [None]:
corpus = [
    t.lower() for t in corpus
]

In [None]:
corpus

['ala ma kota wybierają się na wakacje',
 'bartosz ma psa jego pies nazywa się kubuś kubuś dobrze aportuje',
 'stanisław lubi spędzać wakacje nad morzem stanisław ma psa reksia']

In [None]:
corpus_splitted = []
for text in corpus:
  word_list = text.split(' ')
  corpus_splitted.append(word_list)

In [None]:
len(corpus_splitted)

3

In [None]:
corpus = corpus_splitted

In [None]:
corpus

[['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje'],
 ['bartosz',
  'ma',
  'psa',
  'jego',
  'pies',
  'nazywa',
  'się',
  'kubuś',
  'kubuś',
  'dobrze',
  'aportuje'],
 ['stanisław',
  'lubi',
  'spędzać',
  'wakacje',
  'nad',
  'morzem',
  'stanisław',
  'ma',
  'psa',
  'reksia']]

In [None]:
list_of_all_words = []

In [None]:
list_of_all_words

[]

In [None]:
from itertools import chain

In [None]:
list(chain(*corpus))

['ala',
 'ma',
 'kota',
 'wybierają',
 'się',
 'na',
 'wakacje',
 'bartosz',
 'ma',
 'psa',
 'jego',
 'pies',
 'nazywa',
 'się',
 'kubuś',
 'kubuś',
 'dobrze',
 'aportuje',
 'stanisław',
 'lubi',
 'spędzać',
 'wakacje',
 'nad',
 'morzem',
 'stanisław',
 'ma',
 'psa',
 'reksia']

In [None]:
list_of_all_words = []
for word_list in corpus:
  list_of_all_words += word_list


In [None]:
list_of_all_words = list(set(list_of_all_words))

In [None]:
list_of_all_words

['kubuś',
 'pies',
 'kota',
 'morzem',
 'ma',
 'wybierają',
 'psa',
 'się',
 'na',
 'dobrze',
 'lubi',
 'nazywa',
 'nad',
 'spędzać',
 'bartosz',
 'jego',
 'stanisław',
 'ala',
 'wakacje',
 'reksia',
 'aportuje']

In [None]:
len(list_of_all_words)

21

In [None]:
from typing import List

In [None]:
def num_occurrances(word: str, text: List[str]):
  n = 0
  for w2 in text:
    if w2 == word:
      n += 1
  return n


In [None]:
def num_of_words_vectorizer(text, list_of_all_words):
  vector = [0]*len(list_of_all_words)
  for i, word in enumerate(list_of_all_words):
    n = num_occurrances(word, text)
    vector[i] = n
  return vector

In [None]:
vector = num_of_words_vectorizer(corpus[2], list_of_all_words)

In [None]:
vector

[0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 2, 0, 1, 1, 0]

In [None]:
for word, count in zip(list_of_all_words, vector):
  if count > 0:
    print(count, word)

1 morzem
1 ma
1 psa
1 lubi
1 nad
1 spędzać
2 stanisław
1 wakacje
1 reksia


In [None]:
corpus[2]

['stanisław',
 'lubi',
 'spędzać',
 'wakacje',
 'nad',
 'morzem',
 'stanisław',
 'ma',
 'psa',
 'reksia']

In [None]:
def tf_vectorizer(text, list_of_all_words):
  vector = num_of_words_vectorizer(text, list_of_all_words)
  num_words = len(text)
  tf_vector = [n/num_words for n in vector]
  return tf_vector

In [None]:
tf_vector = tf_vectorizer(corpus[2], list_of_all_words)

In [None]:
tf_vector

[0.0,
 0.0,
 0.0,
 0.1,
 0.1,
 0.0,
 0.1,
 0.0,
 0.0,
 0.0,
 0.1,
 0.0,
 0.1,
 0.1,
 0.0,
 0.0,
 0.2,
 0.0,
 0.1,
 0.1,
 0.0]

In [None]:
len(corpus[2])

10

In [None]:
def df(word: str, corpus: List[List[str]]):
    n = 0
    for text in corpus:
      if word in text:
        n += 1
    return n

In [None]:
def idf(word: str, corpus: List[List[str]]):
  df_value = df(word, corpus)
  n = len(corpus)
  idf = math.log(n/df_value)
  return idf

In [None]:
list_of_all_words[4]

'ma'

In [None]:
for word in list_of_all_words:
    print(word, idf(word, corpus))

kubuś 1.0986122886681098
pies 1.0986122886681098
kota 1.0986122886681098
morzem 1.0986122886681098
ma 0.0
wybierają 1.0986122886681098
psa 0.4054651081081644
się 0.4054651081081644
na 1.0986122886681098
dobrze 1.0986122886681098
lubi 1.0986122886681098
nazywa 1.0986122886681098
nad 1.0986122886681098
spędzać 1.0986122886681098
bartosz 1.0986122886681098
jego 1.0986122886681098
stanisław 1.0986122886681098
ala 1.0986122886681098
wakacje 0.4054651081081644
reksia 1.0986122886681098
aportuje 1.0986122886681098


In [None]:
for word in list_of_all_words:
  document_frequency = df(word, corpus)
  print(f'slowo {word} wystepuje w {document_frequency} dokumentach')

slowo kubuś wystepuje w 1 dokumentach
slowo pies wystepuje w 1 dokumentach
slowo kota wystepuje w 1 dokumentach
slowo morzem wystepuje w 1 dokumentach
slowo ma wystepuje w 3 dokumentach
slowo wybierają wystepuje w 1 dokumentach
slowo psa wystepuje w 2 dokumentach
slowo się wystepuje w 2 dokumentach
slowo na wystepuje w 1 dokumentach
slowo dobrze wystepuje w 1 dokumentach
slowo lubi wystepuje w 1 dokumentach
slowo nazywa wystepuje w 1 dokumentach
slowo nad wystepuje w 1 dokumentach
slowo spędzać wystepuje w 1 dokumentach
slowo bartosz wystepuje w 1 dokumentach
slowo jego wystepuje w 1 dokumentach
slowo stanisław wystepuje w 1 dokumentach
slowo ala wystepuje w 1 dokumentach
slowo wakacje wystepuje w 2 dokumentach
slowo reksia wystepuje w 1 dokumentach
slowo aportuje wystepuje w 1 dokumentach


In [None]:
def tf_idf(
    word: str,
    corpus: List[List[str]],
    text: str,
    list_of_all_words: List[str]
):
  tf_vector = tf_vectorizer(text, list_of_all_words)
  tf_value = tf_vector[list_of_all_words.index(word)]
  idf_value = idf(word, corpus)
  return tf_value * idf_value

In [None]:
for word in corpus[0]:
    print(word, tf_idf(word, corpus, corpus[0], list_of_all_words))

ala 0.15694461266687282
ma 0.0
kota 0.15694461266687282
wybierają 0.15694461266687282
się 0.05792358687259491
na 0.15694461266687282
wakacje 0.05792358687259491


In [None]:
def tf_idf_vectorizer(text: List[str], corpus: List[List[str]], list_of_all_words: List[str]):
  tf_idf_vector = [0]*len(list_of_all_words)
  for word in text:
      tf_idf_value = tf_idf(word, corpus, text, list_of_all_words)
      tf_idf_vector[list_of_all_words.index(word)] = tf_idf_value
  return tf_idf_vector

In [None]:
tf_idf_vector = tf_idf_vectorizer(corpus[0], corpus, list_of_all_words)
print(tf_idf_vector)

[0, 0, 0.15694461266687282, 0, 0.0, 0.15694461266687282, 0, 0.05792358687259491, 0.15694461266687282, 0, 0, 0, 0, 0, 0, 0, 0, 0.15694461266687282, 0.05792358687259491, 0, 0]


In [None]:
for word, value in zip(list_of_all_words, tf_idf_vector):
  print(f'TF-IDF dla slowa   {word}  w tekscie  {corpus[0]}  wynosi {value}')

TF-IDF dla slowa   kubuś  w tekscie  ['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje']  wynosi 0
TF-IDF dla slowa   pies  w tekscie  ['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje']  wynosi 0
TF-IDF dla slowa   kota  w tekscie  ['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje']  wynosi 0.15694461266687282
TF-IDF dla slowa   morzem  w tekscie  ['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje']  wynosi 0
TF-IDF dla slowa   ma  w tekscie  ['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje']  wynosi 0.0
TF-IDF dla slowa   wybierają  w tekscie  ['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje']  wynosi 0.15694461266687282
TF-IDF dla slowa   psa  w tekscie  ['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje']  wynosi 0
TF-IDF dla slowa   się  w tekscie  ['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje']  wynosi 0.05792358687259491
TF-IDF dla slowa   na  w tekscie  ['ala', 'ma', 'kota', 'wybierają', 'się', 'na', 'wakacje']  wynosi

In [None]:
def add(a,b):
   return a + b

In [None]:
def test_add():
  test_a = 9
  test_b = 12
  expected_result = 21
  actual_result = add(test_a, test_b)
  if expected_result != actual_result:
    raise Exception(f'Powinno byc {expected_result}, a jest {actual_result}')

In [None]:
test_add()

In [None]:
lista_test = ['ala', 'ma', 'kota', 'kot', 'chwycil', 'mysz']

In [None]:
lista_test.index('chwycil')

4