# Analiza dokumentów tekstowych	

## Zastosowania
### NLP - Natural Language Processing

NLP zajmuje się zdolnością komputera do rozumienia, analizowania, manipulowania i potencjalnego generowania ludzkiego języka.

* Wyszukiwanie informacji (Google finds relevant and similar results, "Wyszukiwanie pełnotekstowe Elasticsearch")
* Ekstrakcja informacji (Adresy, naswy, złożone struktury tj. listy, tabele)
* Analiza sentymentu
* Generowanie streszczeń (https://smmry.com/)
* Klasyfikacja
* Predykcja, podpowiadanie następnego elementu w zdaniu
* Auto korekta
* Rozpoznawanie mowy
* Generowanie Tekstu



## Dane
### Structured data
* Dane ustrukturyzowane
* Usystematyzowane zgodnie z zadanym schematem
* Dobrze zorganizowane
* Restrykcyjne reguły walidacji
* Łatwa manipulacja, syszukiwanie, porównywanie modyfikacja

### Semi structured data
* Zorganizowane w grupy / kategorie 
* Elementy kolekcji mogą się wewnetrznie różnić
* Posiadają wspólne cechy
* Email (nadawca, odbiorca, lista załączników?, tekst?)

### Unstructured data
* Zawierają dane, tj liczby, fakty.
* Trudne do usystematyzowania
* Posty, korespondencja, dane cyfrowe, nagrania audio / video
* Potrzeba ustrukturyzowania do dalszej analizy

## Analiza tekstu

### Dane tekstowe
Przykłady danych nieustrukturyzowanych obejmują 
* dokumenty biznesowe i prawne
  * forma papierowa
  * elektoroniczne formaty wymiany danych
* nagrania audio
* czaty
* wideo
* obrazy
* tekst na stronie internetowej
* korespondencję 
* zgłoszenia w systemach CRM 

### Cel

Wykorzystanie informacji ukrytych w danych
* Ekstrakcja informacji z dokumentów
  * Dane o klientach
  * Dane o produktach
  * Dane o cenach
* Poznawanie opinni o produktach / markach
  * Wykrywanie nastawienia konsumentów
  * Przyśpieszenie reakcja na negatywne sygnały
* Zwiększenie skuteczności w komunikacji z klientem
  * Analiza ankiet, zgłoszeń, opinni, korespondencji
* Rozpoznawanie intencji
  * Chęć zakupu
  * Reklamacja
* Monitorowanie sentymentu dot. marki
  * Brand24

## Charakterystyka tekstów 

* składnia - relacje między słowami w zdaniu mogą być często określone na kilka sposobów, co prowadzi do różnych interpretacji tekstu,
* semantyka - to samo słowo może mieć wiele znaczeń, w zależności od kontekstu,
* występowanie metafor, tautologii, ironii itp.
* znaki diakrytyczne, takie jak: ą, ć, ę, ł, ń, ó, ś, ź, ż,
* homonimy - wyrazy o tej samej formie językowej, ale pochodzące od wyrazów o innym znaczeniu,
* synonimy - różne wyrazy o tym samym lub bardzo podobnym znaczeniu,
* idiomy - wyrażenia, których znaczenie jest inne niż to, które powinno być mu przypisane, biorąc pod uwagę jego części składowe i zasady składni,
* ponad 150 tys. słów w słowniku podstawowym.


## Narzędzia

* Python
* biblioteki data science
  * scipy
  * scikitlearn
  * pandas
  * tensorflow
  * ...

## Proces
* Pozyskiwanie danych
  * Czytanie plików
  * Czytanie stron www (web scrapping)
  * Odczytywanie tekstów z obrazka
* Oczyszczanie danych
  * literówki
  * usuwanie nieznaczących słów
  * interpunkcja
  * podział na tokeny
    * słowa
    * zdania
    * N-gramy
* Transformacja danych
  * Stemming
  * Lemmatisation
* Analiza zbioru danych
  * bazowe statystyki
    * długości słów
    * częstość słów
  * wizualizacje
    * word cloud
* Wektoryzacja
  * one-hot encoding
  * częstość (Count)
  * częstość ważona (tf-idf)
  * word2vec
  * doc2vec
* Modele
  * Klasyfikacja / Klasteryzacja dokumentów
  * Generowanie tekstu
  * Podobieństwo dokumentów
  * Podobieństwo słów


# Python

- Intro to python (https://github.com/jkanclerz/intro-to-python)
- Python code catas (https://www.codewars.com/)

In [None]:
print("Hello World")

Hello World


In [None]:
name = "John Snow"
print("Hello {}".format(name))

Hello John Snow


In [None]:
type(name)

str

In [None]:
x = ["john", "doe"]
type(x)

list

In [None]:
x = ("john", "doe")
type(x)

tuple

In [None]:
import itertools

x = itertools.chain(['A', 'B', 'C'], ['X', 'Y', 'Z'])
type(x)

itertools.chain

In [None]:
x_as_list = list(x)
type(x_as_list)
print(x_as_list)

['A', 'B', 'C', 'X', 'Y', 'Z']


In [None]:
x = [item for item in range(1, 10)]
type(x)
print(x)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


In [None]:
x = (item for item in range(1, 10))
type(x)
print(x)

<generator object <genexpr> at 0x7fedcb88eed0>


In [None]:
x = (item for item in range(1, 10))
type(x)
print(list(x))

[1, 2, 3, 4, 5, 6, 7, 8, 9]


# Writing / Reading / Loading

https://github.com/git-podrecznik/wiersze

https://raw.githubusercontent.com/git-podrecznik/wiersze/master/Julian%20Tuwim%20-%20Lokomotywa.txt

## writing / reading file

In [None]:
text = '''
Stoi na stacji lokomotywa,
Ciężka, ogromna i pot z niej spływa:
Tłusta oliwa.
Stoi i sapie, dyszy i dmucha,
Żar z rozgrzanego jej brzucha bucha:
Buch - jak gorąco!
Uch - jak gorąco!
Puff - jak gorąco!
Uff - jak gorąco!
Już ledwo sapie, już ledwo zipie,
A jeszcze palacz węgiel w nią sypie.

Wagony do niej podoczepiali
Wielkie i ciężkie, z żelaza, stali,
I pełno ludzi w każdym wagonie,
A w jednym krowy, a w drugim konie,
A w trzecim siedzą same grubasy,
Siedzą i jedzą tłuste kiełbasy,
A czwarty wagon pełen bananów,
A w piątym stoi sześć fortepianów,
W szóstym armata - o! jaka wielka!
Pod każdym kołem żelazna belka!
W siódmym dębowe stoły i szafy,
W ósmym słoń, niedźwiedź i dwie żyrafy,
W dziewiątym - same tuczone świnie,
W dziesiątym - kufry, paki i skrzynie.
A tych wagonów jest ze czterdzieści,
Sam nie wiem, co się w nich jeszcze mieści.
Lecz choćby przyszło tysiąc atletów
I każdy zjadłby tysiąc kotletów,
I każdy nie wiem jak się wytężał,
To nie udźwigną, taki to ciężar.

Nagle - gwizd!
Nagle - świst!
Para - buch!
Koła - w ruch!

Najpierw - powoli - jak żółw – ociężale,
Ruszyła - maszyna - po szynach - ospale,
Szarpnęła wagony i ciągnie z mozołem,
I kręci się, kręci się koło za kołem,
I biegu przyspiesza, i gna coraz prędzej,
I dudni, i stuka, łomoce i pędzi,
A dokąd? A dokąd? A dokąd? Na wprost!
Po torze, po torze, po torze, przez most,
Przez góry, przez tunel, przez pola, przez las,
I spieszy się, spieszy, by zdążyć na czas,
Do taktu turkoce i puka, i stuka to:
Tak to to, tak to to , tak to to, tak to to.
Gładko tak, lekko tak toczy się w dal,
Jak gdyby to była piłeczka, nie stal,
Nie ciężka maszyna, zziajana, zdyszana,
Lecz fraszka, igraszka, zabawka blaszana.

A skądże to, jakże to, czemu tak gna?
A co to to, co to to, kto to tak pcha,
Że pędzi, że wali, że bucha buch, buch?
To para gorąca wprawiła to w ruch,
To para, co z kotła rurami do tłoków,
A tłoki kołami ruszają z dwóch boków
I gnają, i pchają, i pociąg się toczy,
Bo para te tłoki wciąż tłoczy i tłoczy,
I koła turkocą, i puka, i stuka to:
Tak to to, tak to to, tak to to, tak to to!
'''

In [None]:
!mkdir -p var

In [None]:
with open('var/lokomotywa.txt', 'w+') as f:
  f.write(text)

In [None]:
!cat var/lokomotywa.txt


Stoi na stacji lokomotywa,
Ciężka, ogromna i pot z niej spływa:
Tłusta oliwa.
Stoi i sapie, dyszy i dmucha,
Żar z rozgrzanego jej brzucha bucha:
Buch - jak gorąco!
Uch - jak gorąco!
Puff - jak gorąco!
Uff - jak gorąco!
Już ledwo sapie, już ledwo zipie,
A jeszcze palacz węgiel w nią sypie.

Wagony do niej podoczepiali
Wielkie i ciężkie, z żelaza, stali,
I pełno ludzi w każdym wagonie,
A w jednym krowy, a w drugim konie,
A w trzecim siedzą same grubasy,
Siedzą i jedzą tłuste kiełbasy,
A czwarty wagon pełen bananów,
A w piątym stoi sześć fortepianów,
W szóstym armata - o! jaka wielka!
Pod każdym kołem żelazna belka!
W siódmym dębowe stoły i szafy,
W ósmym słoń, niedźwiedź i dwie żyrafy,
W dziewiątym - same tuczone świnie,
W dziesiątym - kufry, paki i skrzynie.
A tych wagonów jest ze czterdzieści,
Sam nie wiem, co się w nich jeszcze mieści.
Lecz choćby przyszło tysiąc atletów
I każdy zjadłby tysiąc kotletów,
I każdy nie wiem jak się wytężał,
To nie udźwigną, taki to ciężar.

Nagle - gwizd

In [None]:
with open("var/lokomotywa.txt") as f:
  x = f.read()
  print(type(x))

<class 'str'>


In [None]:
with open("var/lokomotywa.txt") as f:
  x = f.readlines()
  print(type(x))

<class 'list'>


In [None]:
lines = (line for line in open("var/lokomotywa.txt"))
type(lines)

generator

In [None]:
next(lines),next(lines),next(lines),next(lines)

('Tłusta oliwa.\n',
 'Stoi i sapie, dyszy i dmucha,\n',
 'Żar z rozgrzanego jej brzucha bucha:\n',
 'Buch - jak gorąco!\n')

## reading www

https://uek.krakow.pl/artykuly/nauka/blockchain-moze-pomoc-zwalczac-fake-newsy

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

https://docs.python-requests.org/en/latest/

In [None]:
pip install requests beautifulsoup4



In [None]:
import requests
URL = "https://uek.krakow.pl/artykuly/nauka/blockchain-moze-pomoc-zwalczac-fake-newsy"
response = requests.get(URL)

In [None]:
text = response.text

In [None]:
print(text)

<!DOCTYPE html>

<html lang="pl">
    <head>
        <meta charset="UTF-8">
<meta name="locale" content="pl"/>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" />
<meta name="viewport" content="width=device-width, user-scalable=yes, initial-scale=1.0, maximum-scale=7.0, minimum-scale=1.0">
<title>Uniwersytet Ekonomiczny w Krakowie - Blockchain może pomóc zwalczać fake newsy</title>
<meta name="description" content="Nieprawdziwe wiadomości zwykle nie są związane z wiarygodnym źródłem ani autorytetem. Można je eliminować używając metody przypominającej zakłady bukmacherskie."/>
<meta property="og:title" content="Uniwersytet Ekonomiczny w Krakowie - Blockchain może pomóc zwalczać fake newsy"/>
<meta property="og:description" content="Nieprawdziwe wiadomości zwykle nie są związane z wiarygodnym źródłem ani autorytetem. Można je eliminować używając metody przypominającej zakłady bukmacherskie."/>
<meta property="og:im

In [None]:
pip install 



In [None]:
from bs4 import BeautifulSoup

In [None]:
soup = BeautifulSoup(text)

In [None]:
selector = "body > article"

In [None]:
article = soup.select_one(selector)

In [None]:
article.get_text()

'\n\n\nBlockchain może pomóc zwalczać fake newsy\nNieprawdziwe wiadomości zwykle nie są związane z wiarygodnym źródłem ani autorytetem. Można je eliminować używając metody przypominającej zakłady bukmacherskie.\n\n\n\nDezinformacja i zjawisko fake news są jednymi z największych zagrożeń dla współczesnego społeczeństwa opartego na informacji. Aktualnie w Internecie zarejestrowanych jest około miliarda domen, każdego dnia przybywa 100 tysięcy nowych witryn, a każdej sekundy ilość danych wzrasta o 50 tysięcy gigabajtów. Nawet jeśli tylko ułamek tych danych jest nieprawdziwy, to w tej skali urasta on do olbrzymich rozmiarów.\nTa sama technologia informatyczna daje jednak pewną nadzieję na uratowanie ludzkości przed zalewem fałszywych informacji. Tak przynajmniej uważa Radosław Nicieja, student II stopnia Informatyki stosowanej, który wraz ze studentami Uniwersytetu Ekonomicznego w Krakowie oraz innych uczelni polskich i zagranicznych uczestniczył w 11. Międzynarodowej Konferencji Naukowej 

### Web scrapping

In [None]:
import requests
from bs4 import BeautifulSoup
from collections import namedtuple

URL_BASE = "https://www.wykop.pl/strona/{}/"
PAGE_TO_BE_SCRAPED = 4

In [None]:
Wykop = namedtuple('Wykop', ['id', 'text', 'tags'])

In [None]:
pages_urls = [URL_BASE.format(i) for i in range(1, PAGE_TO_BE_SCRAPED)]

In [None]:
responses = (requests.get(url) for url in pages_urls)

In [None]:
hrefs_batches = (BeautifulSoup(r.text).select('#itemsStream li h2 a') for r in responses)

In [None]:
import itertools

In [None]:
hrefs = itertools.chain.from_iterable(hrefs_batches)

In [None]:
item_urls = (a['href'] for a in hrefs)

In [None]:
item_responses = (requests.get(url) for url in item_urls)

In [None]:
item_contents = (r.text for r in item_responses)

In [None]:
item_soups = (BeautifulSoup(text) for text in item_contents)

In [None]:

test_soup = next(item_soups)

In [None]:
def extract_item(item_soup):
  if item_soup.select_one('div.article') is None:
    return None

  id = item_soup.select_one('div.article')['data-id']
  text = item_soup.select_one('div.article .text').get_text().strip()
  tags = list(map(lambda tag: tag.get_text(), item_soup.select('a.tag')))
  return Wykop(id, text, tags)

In [None]:
extract_item(test_soup)


Wykop(id='6331319', text='Operacja „Market Garden” była śmiałą operacją wojskową na terenie Holandii, której inicjatorem był brytyjski generał Bernard Montgomery. Kiedy cała akcja zakończyła się kompletnym niepowodzeniem, Brytyjczycy całą winę za klęskę zrzucili na generała Stanisława Sosabowskiego.', tags=['europa', 'ciekawostki', 'ciekawostkihistoryczne', 'historia', 'iiwojnaswiatowa', 'codziennawojna', 'hardware', 'humor', 'internet', 'technologia', 'rozrywka', 'nauka', 'programowanie', 'software', 'sztuka', 'bekazpisu', 'ciekawostki', 'covid19', 'ekonomia', 'europa', 'finanse', 'gospodarka', 'heheszki', 'historia', 'koronawirus', 'kultura', 'medycyna', 'motoryzacja', 'muzyka', 'neuropa', 'pieniadze', 'polityka', 'polska', 'prawo', 'samochody', 'sport', 'swiat', 'szczepienia', 'usa', 'wydarzenia', 'zainteresowania', 'zdrowie'])

In [None]:
wykops = (extract_item(item_soup) for item_soup in item_soups if item_soup is not None)
wykops_skip_broken = (wykop for wykop in wykops if wykop is not None)

In [None]:
pip install pandas




In [None]:
wykops_as_list = list(wykops_skip_broken)

In [None]:
wykops_as_list[:3]


[Wykop(id='6330721', text='Hasco-lek, Adam Kostrzewa i umowa-widmo.', tags=['polska', 'praca', 'oszustwo', 'prawnik', 'pensja', 'wroclaw', 'hardware', 'humor', 'internet', 'technologia', 'rozrywka', 'nauka', 'programowanie', 'software', 'sztuka', 'bekazpisu', 'ciekawostki', 'covid19', 'ekonomia', 'europa', 'finanse', 'gospodarka', 'heheszki', 'historia', 'koronawirus', 'kultura', 'medycyna', 'motoryzacja', 'muzyka', 'neuropa', 'pieniadze', 'polityka', 'polska', 'prawo', 'samochody', 'sport', 'swiat', 'szczepienia', 'usa', 'wydarzenia', 'zainteresowania', 'zdrowie']),
 Wykop(id='6330581', text='Kolczatka ustawiona przed szkołą muzyczną w Olsztynie okazała się nie lada przeszkodą dla kierowcy, który stracił na niej opony i napisał w tej sprawie do lokalnego "Ukiel Magazine". Mężczyzna skarżył się, że dyrekcja korzysta z "wyrafinowanych metod drogowego terroru".', tags=['polska', 'olsztyn', 'polskiedrogi', 'motoryzacja', 'hardware', 'humor', 'internet', 'technologia', 'rozrywka', 'nauka',

In [None]:
import pandas as pd

X = pd.DataFrame(wykops_as_list)

In [None]:

X.head()

Unnamed: 0,id,text,tags
0,6330721,"Hasco-lek, Adam Kostrzewa i umowa-widmo.","[polska, praca, oszustwo, prawnik, pensja, wro..."
1,6330581,Kolczatka ustawiona przed szkołą muzyczną w Ol...,"[polska, olsztyn, polskiedrogi, motoryzacja, h..."
2,6330625,Bezpieczny sport? Zawodnik musiał przejść cięż...,"[polska, sport, punchdown, hardware, humor, in..."
3,6331281,Polakom zaczyna brakować strategicznych surowc...,"[polska, ekonomia, hardware, humor, internet, ..."
4,6330841,Ministerstwo Zdrowia notorycznie manipuluje in...,"[polska, covid, pis, hardware, humor, internet..."


In [None]:
X.to_csv("var/wykops.csv")

In [None]:
loaded_X = pd.read_csv("var/wykops.csv")

In [None]:
type(X['tags'][10])

list

In [None]:
type(loaded_X['tags'][10])

str

In [None]:
X.to_parquet("var/wykops.parquet")

In [None]:
loaded_parquet = pd.read_parquet("var/wykops.parquet")

In [None]:
type(loaded_parquet['tags'][10])

numpy.ndarray

## OCR image

image or images

https://sg-cdn.uek.krakow.pl/thumbnail/cache/article/d91b4258-20b6-422e-92d3-15e7fa4e064a/pl/infografika_raport25.png

In [None]:
!sudo apt install tesseract-ocr

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following additional packages will be installed:
  tesseract-ocr-eng tesseract-ocr-osd
The following NEW packages will be installed:
  tesseract-ocr tesseract-ocr-eng tesseract-ocr-osd
0 upgraded, 3 newly installed, 0 to remove and 37 not upgraded.
Need to get 4,795 kB of archives.
After this operation, 15.8 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 tesseract-ocr-eng all 4.00~git24-0e00fe6-1.2 [1,588 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/universe amd64 tesseract-ocr-osd all 4.00~git24-0e00fe6-1.2 [2,989 kB]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 tesseract-ocr amd64 4.00~git2288-10f4998a-2 [218 kB]
Fetched 4,795 kB in 0s (19.9 MB/s)
debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5

In [None]:
pip install pytesseract



In [None]:
!wget -O var/image.png https://sg-cdn.uek.krakow.pl/thumbnail/cache/article/d91b4258-20b6-422e-92d3-15e7fa4e064a/pl/infografika_raport25.png

--2021-10-24 07:30:51--  https://sg-cdn.uek.krakow.pl/thumbnail/cache/article/d91b4258-20b6-422e-92d3-15e7fa4e064a/pl/infografika_raport25.png
Resolving sg-cdn.uek.krakow.pl (sg-cdn.uek.krakow.pl)... 149.156.208.22
Connecting to sg-cdn.uek.krakow.pl (sg-cdn.uek.krakow.pl)|149.156.208.22|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5770295 (5.5M) [image/png]
Saving to: ‘var/image.png’


2021-10-24 07:30:51 (19.5 MB/s) - ‘var/image.png’ saved [5770295/5770295]



In [None]:
import pytesseract
from PIL import Image

In [None]:
text = pytesseract.image_to_string(Image.open('var/image.png'))

In [None]:
text

' \n\nRAPORT\n\nCYFRYZACJA\n| RYNEK PRACY\n\nMatgorzata Cwiek e Marek Cwiklicki e Dariusz Firszt e\nMarek Jabtonski e Norbert Laurisz e Agnieszka Pacut e\nMariusz Sottysik\n\x0c'

## All files at once

In [None]:
!mkdir -p var/nested/a/b/c/d/e/f

In [None]:
!echo "level 1" > var/nested/a/level.txt
!echo "level 2" > var/nested/a/b/level.txt
!echo "level 3" > var/nested/a/b/c/level.txt
!echo "level 4" > var/nested/a/b/c/d/level.txt
!echo "level 5" > var/nested/a/b/c/d/e/level.txt
!echo "level 6" > var/nested/a/b/c/d/e/f/level.txt
!echo "example doc x" > var/nested/a/b/c/d/e/f/level.docx

In [None]:
import glob

In [None]:
paths = glob.glob('./var/nested/**/*.txt', recursive=True)

In [None]:
contents = [open(path) for path in paths]
contents = map(lambda f: f.readlines(), contents)
content = itertools.chain.from_iterable(contents)
content = list(content)

In [None]:
from pprint import pprint as pp

In [None]:
display("".join(content))

'level 1\nlevel 2\nlevel 3\nlevel 4\nlevel 5\nlevel 6\n'

# Klasyfikacja przykład

Potencjalne zastosowania: 
* Segregowanie zleceń CRM
* wykrywanie tagów
* przypisywanie kategorii
* wykrywanie tekstów o określonej treści
  * fake-news
* profil autora na podstawie tekstu
  * płeć
  * wiek
  * stopień zdenerwowania piszącego
* Pokrewne
  * budowanie streszczeń na podstawie treści


## Pobieranie danych

In [None]:
books = {
  "Zeromski": [
    "https://wolnelektury.pl/media/book/txt/zeromski-oko-za-oko.txt",
    "https://wolnelektury.pl/media/book/txt/wszystko-i-nic.txt",
    "https://wolnelektury.pl/media/book/txt/zeromski-rozdziobia-nas-kruki-wrony.txt",
    "https://wolnelektury.pl/media/book/txt/silaczka.txt",
    "https://wolnelektury.pl/media/book/txt/syzyfowe-prace.txt",
  ],
 "Mickiewicz": [
    "https://wolnelektury.pl/media/book/txt/pan-tadeusz.txt",
    "https://wolnelektury.pl/media/book/txt/dziady-dziady-widowisko-czesc-i.txt",
    "https://wolnelektury.pl/media/book/txt/dziady-dziadow-czesci-iii-ustep-do-przyjaciol-moskali.txt",
    "https://wolnelektury.pl/media/book/txt/ballady-i-romanse-pani-twardowska.txt",
    "https://wolnelektury.pl/media/book/txt/ballady-i-romanse-powrot-taty.txt",
    "https://wolnelektury.pl/media/book/txt/ballady-i-romanse-switez.txt",
    "https://wolnelektury.pl/media/book/txt/dziady-dziady-poema-dziady-czesc-iv.txt",
 ],
 "Sienkiewicz": [
  "https://wolnelektury.pl/media/book/txt/quo-vadis.txt",
  "https://wolnelektury.pl/media/book/txt/sienkiewicz-we-mgle.txt",
  "https://wolnelektury.pl/media/book/txt/potop-tom-pierwszy.txt",
  "https://wolnelektury.pl/media/book/txt/potop-tom-drugi.txt",
  "https://wolnelektury.pl/media/book/txt/potop-tom-trzeci.txt",
 ],
 "Orzeszkowa": [
    "https://wolnelektury.pl/media/book/txt/orzeszkowa-kto-winien.txt",
    "https://wolnelektury.pl/media/book/txt/nad-niemnem-tom-pierwszy.txt",
    "https://wolnelektury.pl/media/book/txt/nad-niemnem-tom-drugi.txt",
    "https://wolnelektury.pl/media/book/txt/nad-niemnem-tom-trzeci.txt",
    "https://wolnelektury.pl/media/book/txt/gloria-victis-dziwna-historia.txt",
    "https://wolnelektury.pl/media/book/txt/z-pozogi.txt",
    "https://wolnelektury.pl/media/book/txt/pani-dudkowa.txt",
    "https://wolnelektury.pl/media/book/txt/dymy.txt",
    "https://wolnelektury.pl/media/book/txt/syn-stolarza.txt",
    "https://wolnelektury.pl/media/book/txt/dobra-pani.txt",
    "https://wolnelektury.pl/media/book/txt/cnotliwi.txt",
    "https://wolnelektury.pl/media/book/txt/kilka-slow-o-kobietach.txt",
    "https://wolnelektury.pl/media/book/txt/patryotyzm-i-kosmopolityzm.txt",
    "https://wolnelektury.pl/media/book/txt/julianka.txt",
 ],
 "Prus": [
  "https://wolnelektury.pl/media/book/txt/lalka-tom-drugi.txt",
  "https://wolnelektury.pl/media/book/txt/lalka-tom-pierwszy.txt",
  "https://wolnelektury.pl/media/book/txt/antek.txt",
  "https://wolnelektury.pl/media/book/txt/katarynka.txt",
  "https://wolnelektury.pl/media/book/txt/prus-anielka.txt",
  "https://wolnelektury.pl/media/book/txt/prus-placowka.txt",
 
 ],
 "Reymont": [
    "https://wolnelektury.pl/media/book/txt/ziemia-obiecana-tom-pierwszy.txt",
    "https://wolnelektury.pl/media/book/txt/chlopi-czesc-pierwsza-jesien.txt",
    "https://wolnelektury.pl/media/book/txt/reymont-chlopi-zima.txt",
    "https://wolnelektury.pl/media/book/txt/chlopi-czesc-trzecia-wiosna.txt",
    "https://wolnelektury.pl/media/book/txt/chlopi-czesc-czwarta-lato.txt",
 ]
}

In [None]:
items_batches = ([(author, url) for url in urls] for author, urls in books.items())

In [None]:
items = itertools.chain.from_iterable(items_batches)

In [None]:
next(items)

('Zeromski', 'https://wolnelektury.pl/media/book/txt/zeromski-oko-za-oko.txt')

In [None]:
responses = ((author, url.replace("https://wolnelektury.pl/media/book/txt/", ""), requests.get(url)) for author, url in items)

In [None]:
texts = ((author, filename, r.text if r.status_code == 200 else None) for author, filename, r in responses)

In [None]:
valid = ((author, filename, content) for author, filename, content in texts if content is not None)

In [None]:
BOOKS = pd.DataFrame(valid, columns=['author', 'filename', 'content'])

In [None]:
BOOKS.head()

Unnamed: 0,author,filename,content
0,Mickiewicz,dziady-dziady-widowisko-czesc-i.txt,"Adam Mickiewicz\r\n\r\nDziady. Widowisko, częś..."
1,Mickiewicz,dziady-dziadow-czesci-iii-ustep-do-przyjaciol-...,Adam Mickiewicz\r\n\r\nDziadów części III Ustę...
2,Mickiewicz,ballady-i-romanse-pani-twardowska.txt,Adam Mickiewicz\r\n\r\nBallady i romanse\r\nPa...
3,Mickiewicz,ballady-i-romanse-powrot-taty.txt,Adam Mickiewicz\r\n\r\nBallady i romanse\r\nPo...
4,Mickiewicz,ballady-i-romanse-switez.txt,Adam Mickiewicz\r\n\r\nBallady i romanse\r\nŚw...


In [None]:
BOOKS['content'][0]

'Adam Mickiewicz\r\n\r\nDziady. Widowisko, część I\r\n\r\n\r\n\r\n/ Prawa strona teatru — Dziewica w samotnym pokoju — na boku ksiąg mnóstwo, fortepiano, okno z lewej strony w pole; na prawej wielkie zwierciadło; świeca gasnąca na stole i księga rozłożona (romans Valerie). /\r\n\r\n\r\nDZIEWICA\r\n\r\n/ wstaje od stołu /\r\n\r\nŚwieco niedobra! właśnie pora była zgasnąć!\r\nI nie mogłam doczytać — czyż podobna zasnąć?\r\nWaleryjo! Gustawie! anielski Gustawie!\r\nAch, tak mi często o was śniło się na jawie,\r\nA przez sen — będę z wami, Pan Bóg wie dopóki!\r\nSmutne dzieje! Jak smutnej są źródłem nauki!\r\n\r\n/ po pauzie, z niesmakiem /\r\n\r\nPo co czytam? Już koniec przezieram z daleka!\r\nTakich kochanków tutaj\r\n\r\n/ wskazuje ziemię /\r\n\r\n                        cóż innego czeka?\r\nWaleryjo! ty przecież spomiędzy ziemianek\r\nZazdrości godna! Ciebie ubóstwiał kochanek,\r\nO którym inna próżno całe życie marzy,\r\nKtórego rysów szuka w każdej nowej twarzy,\r\nI w każdym nowym 

In [None]:
BOOKS.shape

(36, 3)

In [None]:
BOOKS.dtypes

author      object
filename    object
content     object
dtype: object

In [None]:
BOOKS.groupby('author').count()

Unnamed: 0_level_0,filename,content
author,Unnamed: 1_level_1,Unnamed: 2_level_1
Mickiewicz,6,6
Orzeszkowa,14,14
Prus,6,6
Reymont,5,5
Sienkiewicz,5,5


In [None]:
BOOKS.content.isnull().sum()

0

## Czyszczenie danych
* istotne z perspektywy uwydatnienia poszukiwanych informacji


## Stemming
bazując na definicji z angielskiej wikipedii jest to proces polegający na wydobyciu z wybranego wyrazu tzw. rdzenia, a więc tej jego części, która jest odporna na odmiany przez przyimki, rodzaje itp.



## Lematyzacja

pojęcie to jest bardzo podobne do powyższego, a oznacza sprowadzenie grupy wyrazów stanowiących odmianę danego zwrotu do wspólnej postaci, umożliwiającej traktowanie ich wszystkich jako te samo słowo.

## Znaki specjalne, nadmiarowe spacje, znaczniki HTML, inne jeżeli potrzeba

In [None]:
test_text = '''
Adam Mickiewicz\r\n\r\nDziady. Widowisko, część I\r\n\r\n\r\n\r\n/ Prawa strona teatru — Dziewica w samotnym pokoju — na boku ksiąg mnóstwo, fortepiano, okno z lewej strony w pole; na prawej wielkie zwierciadło; świeca gasnąca na stole i księga rozłożona (romans Valerie). /\r\n\r\n\r\nDZIEWICA\r\n\r\n/ wstaje od stołu /\r\n\r\nŚwieco niedobra! właśnie pora była zgasnąć!\r\nI nie mogłam doczytać — czyż podobna zasnąć?\r\nWaleryjo! Gustawie! anielski Gustawie!\r\nAch, tak mi często o was śniło się na jawie,\r\nA przez sen — będę z wami, Pan Bóg wie dopóki! -----\r\nTa lektura, podobnie jak tysiące innych, dostępna jest na stronie wolnelektury.pl.\r\nWersja lektury w opracowaniu merytorycznym i krytycznym (przypisy i motywy) dostępna jest na stronie http://wolnelektury.pl/katalog/lektura/dziady-dziady-widowisko-czesc-i.\r\n\r\n
'''


In [None]:
import re
def preprocess_text(text):
    text = re.sub(r"^.*\n","", text)
    text = re.sub(u"[ \n]+", " ", text) # newlines -> spaces
    text = re.sub(u"[ \r]+", " ", text) # \r -> spaces
    text = text.strip()
    text = re.sub(r"----- Ta lektura.*","", text)


    return text


assert ('\n' not in preprocess_text(test_text))
assert ('\r' not in preprocess_text(test_text))
assert ('  ' not in preprocess_text(test_text))
assert ('Ta lektura,' not in preprocess_text(test_text))


In [None]:
preprocess_text(test_text)

'Adam Mickiewicz Dziady. Widowisko, część I / Prawa strona teatru — Dziewica w samotnym pokoju — na boku ksiąg mnóstwo, fortepiano, okno z lewej strony w pole; na prawej wielkie zwierciadło; świeca gasnąca na stole i księga rozłożona (romans Valerie). / DZIEWICA / wstaje od stołu / Świeco niedobra! właśnie pora była zgasnąć! I nie mogłam doczytać — czyż podobna zasnąć? Waleryjo! Gustawie! anielski Gustawie! Ach, tak mi często o was śniło się na jawie, A przez sen — będę z wami, Pan Bóg wie dopóki! '

In [None]:
def split_to_sentences(text):
  return [re.sub(r"^ ","",l) for l in re.split('\.|,|\?|!|:', text)]

assert(['hello world', "Hello John"] == split_to_sentences("hello world! Hello John"))

###interpunkcja

In [None]:
import string 
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [None]:
def remove_punct(text):
    text_nopunct = "".join([char for char in text if char not in string.punctuation])
    return text_nopunct

In [None]:
assert(remove_punct("hello, world!") == "hello world")

### Stop words

In [None]:
stop_words = (requests
         .get('https://raw.githubusercontent.com/bieli/stopwords/master/polish.stopwords.txt')
         .text
         .split('\n'))

In [None]:

stop_words[:10]

['a', 'aby', 'ach', 'acz', 'aczkolwiek', 'aj', 'albo', 'ale', 'alez', 'ależ']

In [None]:
def remove_stop_words(text):
  return " ".join([word for word in text.split(' ') if word not in stop_words])

assert "Cześć czołem" == remove_stop_words("Cześć i czołem")

In [None]:
BOOKS['content_txt'] = (BOOKS.content
                             .apply(preprocess_text)
                             .apply(lambda s: s.lower())
                             .apply(remove_stop_words)
                             .apply(split_to_sentences)
                            )

In [None]:
BOOK_LINES = BOOKS[['author', 'content_txt']].explode('content_txt')

In [None]:
BOOK_LINES = BOOK_LINES.reset_index(drop=True)

In [None]:
BOOK_LINES.head()

Unnamed: 0,author,content_txt
0,Mickiewicz,adam mickiewicz dziady
1,Mickiewicz,widowisko
2,Mickiewicz,część i / prawa strona teatru — dziewica w sam...
3,Mickiewicz,fortepiano
4,Mickiewicz,okno z lewej strony w pole; na prawej wielkie ...


In [None]:
BOOK_LINES.groupby('author').count()

Unnamed: 0_level_0,content_txt
author,Unnamed: 1_level_1
Mickiewicz,3214
Orzeszkowa,73332
Prus,69622
Reymont,77587
Sienkiewicz,105748


Duża różnica w elementach danej klasy!! Może mieć wpływ na rezultaty

In [None]:
BOOK_LINES['words'] = BOOK_LINES.content_txt.apply(lambda s: len(s.split()))

In [None]:
BOOK_LINES.groupby('author')['words'].describe()


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
author,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Mickiewicz,3214.0,4.471998,3.049798,0.0,2.0,4.0,6.0,27.0
Orzeszkowa,73332.0,5.971636,4.34881,0.0,3.0,5.0,8.0,64.0
Prus,69622.0,5.758482,3.888227,0.0,3.0,5.0,7.0,51.0
Reymont,77587.0,5.2901,3.479665,0.0,3.0,5.0,7.0,55.0
Sienkiewicz,105748.0,5.425994,3.506715,0.0,3.0,5.0,7.0,44.0


In [None]:
BOOK_LINES = BOOK_LINES[BOOK_LINES['words'] != 0]

In [None]:
BOOK_LINES.groupby('author')['words'].quantile(0.98)

author
Mickiewicz     13.0
Orzeszkowa     18.0
Prus           17.0
Reymont        15.0
Sienkiewicz    15.0
Name: words, dtype: float64

In [None]:
BOOK_LINES.groupby('author')['words'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
author,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Mickiewicz,3206.0,4.483157,3.045397,1.0,2.0,4.0,6.0,27.0
Orzeszkowa,73230.0,5.979954,4.346119,1.0,3.0,5.0,8.0,64.0
Prus,69588.0,5.761295,3.887092,1.0,3.0,5.0,7.0,51.0
Reymont,77560.0,5.291942,3.47887,1.0,3.0,5.0,7.0,55.0
Sienkiewicz,105626.0,5.432261,3.503884,1.0,3.0,5.0,7.0,44.0


# Podział na zbiory
  * train
  * test
  * validation
  * dev

In [None]:
pip install sklearn



In [None]:
from sklearn.model_selection import train_test_split

In [None]:
train_test_split?

In [None]:
BOOK_LINES.groupby('author').count()

Unnamed: 0_level_0,content_txt,words
author,Unnamed: 1_level_1,Unnamed: 2_level_1
Mickiewicz,3206,3206
Orzeszkowa,73230,73230
Prus,69588,69588
Reymont,77560,77560
Sienkiewicz,105626,105626


In [None]:
train_df, test_df = train_test_split(
    BOOK_LINES, 
    test_size=0.1,
    stratify=BOOK_LINES['author']
)

In [None]:
train_df.groupby('author').count()

Unnamed: 0_level_0,content_txt,words
author,Unnamed: 1_level_1,Unnamed: 2_level_1
Mickiewicz,2886,2886
Orzeszkowa,65907,65907
Prus,62629,62629
Reymont,69804,69804
Sienkiewicz,95063,95063


# Reprezentacja numeryczna

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction.text

In [None]:
from sklearn.feature_extraction.text import  CountVectorizer

## Bag of words
Pozwala reprezentować dane tekstowe jako wektor cech(ang. feature vector). Reprezentacja bag-of-words jest niezwykle prosta, sprowadza się do 2 kroków. 1. Stworzenie słownika unikalnych wyrazów - zbiór wyrazów z całej kolekcji dokumentów 2. Stworzenie reprezentacji wektorowej dla każdego z dokumentów zawierającej częstość wystąpień dla poszczególnych wyrazów

Jako, że pojedyńczy dokument zawiera wyłącznie mały wycinek z całego zbioru dostępnych wyrazów, wektor cech zawiera głównie 0. Często nazywany rzadkim (ang. sparse vector)

In [None]:
documents = [
    "Care About Your Craft",
    "Make Quality a Requirements Issue",
    "Don't Repeat Yourself",
    "Always Design for Concurrency",
    "Sign Your Work",
    "Refactor Early, Refactor Often",
]

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

In [None]:
cv = CountVectorizer(binary=True)
cv.fit(documents)
X = cv.transform(documents)

In [None]:
DF = pd.DataFrame(X.toarray(), columns=cv.get_feature_names())
display(DF[:2], DF[4:6])

Unnamed: 0,about,always,care,concurrency,craft,design,don,early,for,issue,make,often,quality,refactor,repeat,requirements,sign,work,your,yourself
0,1,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0
1,0,0,0,0,0,0,0,0,0,1,1,0,1,0,0,1,0,0,0,0


Unnamed: 0,about,always,care,concurrency,craft,design,don,early,for,issue,make,often,quality,refactor,repeat,requirements,sign,work,your,yourself
4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0
5,0,0,0,0,0,0,0,1,0,0,0,1,0,1,0,0,0,0,0,0


Transformacja pozwoliła uzyskać strukturę w której każdy wiersz reprezentuje dokument, każda kolumna określa częstość wystąpienia danego tokenu

## Wektor częstości

In [None]:
cv = CountVectorizer(binary=False)
cv.fit(documents)
X = cv.transform(documents)
DF = pd.DataFrame(X.toarray(), columns=cv.get_feature_names())
display(DF[:2], DF[4:6])

Unnamed: 0,about,always,care,concurrency,craft,design,don,early,for,issue,make,often,quality,refactor,repeat,requirements,sign,work,your,yourself
0,1,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0
1,0,0,0,0,0,0,0,0,0,1,1,0,1,0,0,1,0,0,0,0


Unnamed: 0,about,always,care,concurrency,craft,design,don,early,for,issue,make,often,quality,refactor,repeat,requirements,sign,work,your,yourself
4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0
5,0,0,0,0,0,0,0,1,0,0,0,1,0,2,0,0,0,0,0,0


### zalety
+ Jest prostą numeryczną reprezentacją danych tekstowych.

### wady

- Problem stanowi rozmiar wektora który jest równy długości całego słownika.
- Nie uwzględnia relacji pomiędzy semantyką wyrazów
- relacje pomiędzy słowami - rózne interpretacje
- znaczenie – te same słowa różne znaczenie
- metafory, tautologie, ironie
- znaki specialne
- homonimy - to samo brzmienie inne znaczenia
- synonimy, idiomy
- 150k słów w słowniku


## Ważony wektor częstości
 

TF-IDF Term Frequency - Inverse Document Frequency pozwala uzyskać wartość określającą istotność danego tokenu w kontekście całego dokumentu. 
Wartość częstości (TF) nie uwzględnia różnicy w wartości informacyjnej jaką niosą ze sobą poszczególne wyrazy.
IDF - pozwala tą różnicę uchwycić.

Innymi słowy metodad TF-IDF pozwala wzmocnić znaczenie tokenu wraz ze wzrostem ilości wystąpień w dokumencie. Jednocześnie niwelując efekt wzmocnienia jeżeli dany token występuje równie często w pozostałych dokumentach stanowiących korpus.

Wartość tf-idf może być policzona przez mnożenie wartości tf oraz idf

$$ TfIdf(t,d) = tf(t,d)*idf(t,d)$$


$tf(t,d)$ jest częstością występowania tokenu w dokumencie
$idf(t,d)$ obliczany jest wg wzoru

$$ idf(t,d) = log\frac{n_d}{1+df(d,t)}$$
$n_d$ - liczba wystąpień w korpusie

$df(d,t)$ - liczba kokumentów gdzie występuje token t

$1$ - stała 1 jest opcjonalna, niemniej pozwala uzyskać niezerowe wartości dla tokenów występujących we wszystkich dokumentach


Implementacja TF-IDF w scikit-learn różni się jednak od powyższej definicji jest liczony następująco:
$$ TfIdf(t,d) = tf(t,d)*(idf(t,d) + 1)$$
$$ idf(t,d) = log\frac{1 + n_d}{1+df(d,t)}$$


In [None]:
documents = [
    "Test Early. Test Often. Test Automatically!",
    "Refactor Early, Refactor Often, Just as you might!",
    "Abstractions Live Longer than Details",
    "Use Saboteurs to Test Your Testing",
    "Keep Knowledge in Plain Text",
]

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

tdif = TfidfVectorizer()
X = tdif.fit(documents)
X = tdif.transform(documents)
DF = pd.DataFrame(X.toarray(), columns=tdif.get_feature_names())
DF

Unnamed: 0,abstractions,as,automatically,details,early,in,just,keep,knowledge,live,longer,might,often,plain,refactor,saboteurs,test,testing,text,than,to,use,you,your
0,0.0,0.0,0.350068,0.0,0.282433,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.282433,0.0,0.0,0.0,0.847299,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.327881,0.0,0.0,0.264532,0.0,0.327881,0.0,0.0,0.0,0.0,0.327881,0.264532,0.0,0.655761,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.327881,0.0
2,0.447214,0.0,0.0,0.447214,0.0,0.0,0.0,0.0,0.0,0.447214,0.447214,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.447214,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.420669,0.339393,0.420669,0.0,0.0,0.420669,0.420669,0.0,0.420669
4,0.0,0.0,0.0,0.0,0.0,0.447214,0.0,0.447214,0.447214,0.0,0.0,0.0,0.0,0.447214,0.0,0.0,0.0,0.0,0.447214,0.0,0.0,0.0,0.0,0.0


### zalety

* wielkość dokumentu nie ma wpływu wartość, tfifd która jest normalizowana
* uwzględnia różnice w znaczeniu tokenów dla znaczenia dokumentu

### wady

- Nie uwzględnia relacji pomiędzy semantyką wyrazów
- relacje pomiędzy słowami - rózne interpretacje
- znaczenie – te same słowa różne znaczenie
- homonimy - to samo brzmienie inne znaczenia
- ignoruje kolejność wyrazów w dokumencie

## Wektory - odległość

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cosine.html

### Podobieństwo wektorów / odległość kosinusowa

Jest metryką pozwalającą zmierzyć jak 2 wektory są podobne względem siebie. Wartość otrzymujemy obliczając wartość kosinusa konta pomiędzy wektorami w przestrzeni. Odległosć kosinusowa pozwala zniwelować wartości wynikające z położenia wektorów w przestrzeni, zachowując interpretowalną statystykę podobieństwa. Zakres wartości (0,1)



![cosine](http://blog.jkan.pl/images/cosine-distance.svg)

$ A = (3,3)$
$ B = (5,2)$
$ C = (5,0.5)$

$$Cos\theta = \frac{\vec{a} * \vec{b}}{||\vec{a}|| ||\vec{b}||} = \frac{\sum_1^n a_ib_i}{\sqrt{\sum_1^na_i^2} * \sqrt{\sum_1^nb_i^2}}$$
$$Cos\theta = \frac{15 + 6}{\sqrt{18} * \sqrt{29}}$$
$$Cos\theta = 0,9191$$

$$cos(90) = 0$$
$$cos(0) = 1$$
Kosunius przyjmuje wartość ``0`` dla wektorów prostopadłych (ortogonalnych) i wartość ``1`` dla wektorów równoległych. Im wartość kosinusa bliższa ``1`` tym mniejszy kont pomiędzy wektorami

Wykorzystując metodę cosine z ``scipy.spatial.distance`` musimy pamiętać o przekształceniu wg wzoru: 

$$Cosine Distance = 1 − Cosine Similarity$$

Oczekujemy że $podobieństwo(A,B) > podobieństwo(A,C)$ ponieważ kąt pomiędzy wektorami A,B jest mniejszy



In [None]:
from scipy.spatial.distance import cosine
A = (3,3)
B = (5,2)
C = (5,0.5)
display(1 - cosine(A,B))
display(1 - cosine(A,C))

0.9191450300180578

0.7739572992033211

In [None]:
A = (1,0,0)
B = (0,1,0)
1 - cosine(A,B)
0.0

0.0

In [None]:
A = (1,0,0)
1 - cosine(A,A)
1.0

1.0

## Inne metryki
* Manhattan distance
* Euclidean distance
* Minkowski distance
* Jaccard similarity

In [None]:
from scipy.spatial.distance import jaccard
from scipy.spatial.distance import minkowski
from scipy.spatial.distance import euclidean
from scipy.spatial.distance import cityblock
from scipy.spatial.distance import cosine

A = (3, 22, 55, 13)
B = (1, 12, 40, 5)

jaccard(A,B), minkowski(A,B), euclidean(A,B), cityblock(A,B), cosine(A,B)
(1.0, 19.82422760159901, 19.82422760159901, 35, 0.008847457489864041)

(1.0, 19.82422760159901, 19.82422760159901, 35, 0.008847457489864041)

## Reprezentacja wektorowa

In [None]:
BOOK_LINES.head()

Unnamed: 0,author,content_txt,words
0,Mickiewicz,adam mickiewicz dziady,3
1,Mickiewicz,widowisko,1
2,Mickiewicz,część i / prawa strona teatru — dziewica w sam...,16
3,Mickiewicz,fortepiano,1
4,Mickiewicz,okno z lewej strony w pole; na prawej wielkie ...,19


In [None]:
vectorizer = CountVectorizer() # Binary False
vectorizer.fit(train_df['content_txt'])

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [None]:
sample = train_df.iloc[120]['content_txt']

In [None]:
sample

'tam i przyjaźni prawdziwej być nie może'

In [None]:
vector = vectorizer.transform([sample])

In [None]:
list(vector)

[<1x127720 sparse matrix of type '<class 'numpy.int64'>'
 	with 6 stored elements in Compressed Sparse Row format>]

In [None]:
len(vectorizer.vocabulary_)

127720

In [None]:
X_train = vectorizer.transform(train_df['content_txt'])
X_test = vectorizer.transform(test_df['content_txt'])
Y_train = train_df['author']
Y_test = test_df['author']

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
model = LogisticRegression(class_weight='balanced', dual=True)

Pierwszy z parametrów pomaga zrównoważyć nierównomierne ilości tekstów poszczególnych autorów przypisując im wagi odwrotnie proporcjonalne do częstotliwości występowania danej klasy. Drugi pozwala na wewnętrzne wykorzystanie innego sposobu implementacji algorytmu regresji logistycznej, który jest znacznie szybszy jeśli liczba cech przewyższa ilość próbek

In [None]:
X_train.shape, Y_train.shape

((296289, 127720), (296289,))

In [None]:
len(vectorizer.vocabulary_) > len(train_df)

False

In [None]:

X_train

<296289x127720 sparse matrix of type '<class 'numpy.int64'>'
	with 1429080 stored elements in Compressed Sparse Row format>

In [None]:

model = LogisticRegression(class_weight='balanced', dual=False, solver="liblinear")

In [None]:

model

LogisticRegression(C=1.0, class_weight='balanced', dual=False,
                   fit_intercept=True, intercept_scaling=1, l1_ratio=None,
                   max_iter=100, multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='liblinear', tol=0.0001, verbose=0,
                   warm_start=False)

In [None]:
model.fit(X_train, Y_train)

LogisticRegression(C=1.0, class_weight='balanced', dual=False,
                   fit_intercept=True, intercept_scaling=1, l1_ratio=None,
                   max_iter=100, multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='liblinear', tol=0.0001, verbose=0,
                   warm_start=False)

## Ocena modelu

In [None]:
model.score(X_test, test_df['author'])

0.6492816135597339

Trzeba też pamiętać, że accuracy bardzo często nie jest dobrą miarą oceny jakości modelu. Bez wchodzenia w zbyt wiele detali nadmienię że podobnie jest w naszym przypadku. Jako przykład niech posłużą bardziej szczegółowe wyniki miar precision, recall (inaczej sensitivity, czułość), i F1 dla poszczególnych klas:

https://en.wikipedia.org/wiki/Precision_and_recall

https://en.wikipedia.org/wiki/Sensitivity_and_specificity

https://en.wikipedia.org/wiki/F1_score


In [None]:
from sklearn import metrics
target = test_df['author']
predicted = model.predict(X_test)
print (metrics.classification_report(target, predicted, digits=4))

              precision    recall  f1-score   support

  Mickiewicz     0.1138    0.3219    0.1682       320
  Orzeszkowa     0.6379    0.6237    0.6307      7323
        Prus     0.6165    0.5621    0.5880      6959
     Reymont     0.6434    0.6987    0.6699      7756
 Sienkiewicz     0.7310    0.6981    0.7142     10563

    accuracy                         0.6493     32921
   macro avg     0.5485    0.5809    0.5542     32921
weighted avg     0.6594    0.6493    0.6532     32921



In [None]:
BOOK_LINES.groupby('author').count()

Unnamed: 0_level_0,content_txt,words
author,Unnamed: 1_level_1,Unnamed: 2_level_1
Mickiewicz,3206,3206
Orzeszkowa,73230,73230
Prus,69588,69588
Reymont,77560,77560
Sienkiewicz,105626,105626


# Wykorzystanie innych modeli

In [None]:
from sklearn.naive_bayes import MultinomialNB

model = MultinomialNB()
model.fit(X_train, Y_train)
model.score(X_test, test_df['author'])



0.6658971477172625

In [None]:
from sklearn import metrics

target = test_df['author']
predicted = model.predict(X_test)
print (metrics.classification_report(target, predicted, digits=4))

              precision    recall  f1-score   support

  Mickiewicz     0.7500    0.0094    0.0185       320
  Orzeszkowa     0.6859    0.5954    0.6374      7323
        Prus     0.6317    0.5545    0.5906      6959
     Reymont     0.7125    0.6706    0.6909      7756
 Sienkiewicz     0.6463    0.8046    0.7168     10563

    accuracy                         0.6659     32921
   macro avg     0.6853    0.5269    0.5308     32921
weighted avg     0.6686    0.6659    0.6596     32921



In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC

model = LinearSVC()
model.fit(X_train, Y_train)
model.score(X_test, test_df['author'])

target = test_df['author']
predicted = model.predict(X_test)
print (metrics.classification_report(target, predicted, digits=4))

              precision    recall  f1-score   support

  Mickiewicz     0.3864    0.1594    0.2257       320
  Orzeszkowa     0.6476    0.5918    0.6185      7323
        Prus     0.6138    0.5498    0.5800      6959
     Reymont     0.6767    0.6756    0.6761      7756
 Sienkiewicz     0.6630    0.7608    0.7085     10563

    accuracy                         0.6527     32921
   macro avg     0.5975    0.5475    0.5618     32921
weighted avg     0.6497    0.6527    0.6490     32921



# zadania do wykonania

Pobierz zbiór danych dotyczących sentymentu wypowiedzi dla tekstów w języku polskim

http://blog.jkan.pl/polish_sentiment_dataset.csv

Opracuj model klasyfikujący sentyment wypowiedzi dla 3 grup
* pozytywne
* neutralne
* 


In [None]:
!wget http://blog.jkan.pl/polish_sentiment_dataset.csv -O var/polish_sentiment.csv

--2021-10-24 11:03:01--  http://blog.jkan.pl/polish_sentiment_dataset.csv
Resolving blog.jkan.pl (blog.jkan.pl)... 85.128.239.15
Connecting to blog.jkan.pl (blog.jkan.pl)|85.128.239.15|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 95240804 (91M) [text/csv]
Saving to: ‘var/polish_sentiment.csv’


2021-10-24 11:03:02 (104 MB/s) - ‘var/polish_sentiment.csv’ saved [95240804/95240804]



In [None]:
X = pd.read_csv('var/polish_sentiment.csv')

In [None]:
X

Unnamed: 0,description,length,rate
0,Polecam nie pierwszy i nie ostatni raz!,39.0,1.0
1,Bardzo dobra komunikacja sms i telefoniczna. Z...,121.0,1.0
2,Polecam zakupy w tym sklepie. Są dostępne częś...,87.0,1.0
3,0,0.0,0.0
4,Jestem w pełni zadowolona z przebiegu transakcji,48.0,1.0
...,...,...,...
936878,Coraz lepiej wygląda,,-1.0
936879,JA SRAM NA TEN PIERSCIONEK I NA CIEBIE CHWILE ...,,-1.0
936880,Rafatus do Marleny Ty kurwo bez honoru ...,,-1.0
936881,matka Marleny prosi o pomoc,,-1.0
