# Sentiment analýza

V tomto notebooku se budeme věnovat analýze textu - konkrétně recenzím z csfd.cz. Naším cílem bude odhadnout z textu uživatelova literárního počinu, kolik hvězdiček určitému filmu dal.  
Jaké balíčky použijeme? S daty budeme pracovat v pandích datasetech, tudíž Pandas bude nepostradatelný. První dataset je uložen v xml souboru, který nějak do pand musíme dostat - proto ElementTree. Druhý dataset si nascrapujeme přímo z webu. Jelikož to se bude odehrávat v separátním skriptu a nikoli v notebooku, balíček, který nám tuto operaci umožní, se v následující importovací buňce nenalézá. Nicméně pokud si to budete chtít zkusit, musíte si nainstalovat *scrapy*. 
Pro konverzi textu na vektory, které jsou pro počítač přeci jen přirozenější, jakožto i pro výpočet modelů nad oněmi vektory, použijeme balíček scikit-learn. Předtím bude ale třeba slova v recenzních lemmatizovat - na to se použije Morphodita. Ostatní importované balíčky jsou použity už jenom minoritně.  
Pozn.: soubor "czech-morfflex-161115.dict" se dá stáhnout z http://ufal.mff.cuni.cz/morphodita#download.

In [13]:
import pandas as pd
import xml.etree.ElementTree as etree
import string

import sklearn
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression

import ufal.morphodita as ufm
morpho = ufm.Morpho.load("czech-morfflex-161115.dict")

import re
import collections
import random

## Dataset s obecnými recenzemi

"Obecné" recenze pocházejí z datasetu dostupného na http://liks.fav.zcu.cz/sentiment/. Jsou uloženy v xml-ku, tudíž si je nejdříve musíme převést na několik listů a z těch si pak vytvořit dataframe.

In [2]:
tree = etree.parse("csfd-90k-reviews-ranlp2013.xml")
root = tree.getroot()
reviews = root.findall(".//review")

name = []
rating = []
text = []
for review in reviews:
    rating.append(review.attrib["origRating"])
    name.append(review.attrib["product"])
    text.append(review.find("./text").text)

general_reviews = pd.DataFrame({"name":name, "rating":rating, "text":text})

Podívejme se, jak vlastně dataset vypadá. Zdálo by se, že ve sloupci rating jsou integery. To zrovna nechceme - mezi jednotlivými známkami neplánujeme definovat sčítání anebo odečítání. Nicméně funkce info nám prozradí, že Python je zjevně přečetl jako stringy. K jejich seznamu se dostaneme skrze funkci unique. Další analýzou se dá ukázat, že '0' odpovídá hodnocení "Odpad" a -1 značí "Nehodnoceno".

In [3]:
general_reviews.head()

Unnamed: 0,name,rating,text
0,Mein langsames Leben (2001),5,Druhý film Angely Schanelec o počasí. :) Po zh...
1,Mein langsames Leben (2001),2,U Pomalého života jsem strávil 80 minut a teď ...
2,Můj otec / Mein Vater (TV film) (2003),2,"Nevím, jestli je to nepovedeným dabingem, otra..."
3,Můj otec / Mein Vater (TV film) (2003),5,"Upřímný a velice smutný film, chvílemi tak dep..."
4,Můj otec / Mein Vater (TV film) (2003),2,"Možná to bude trochu divný komentář, ale nemůž..."


In [4]:
general_reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92398 entries, 0 to 92397
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    92398 non-null  object
 1   rating  92398 non-null  object
 2   text    92398 non-null  object
dtypes: object(3)
memory usage: 2.1+ MB


In [6]:
general_reviews["rating"].unique()

array(['5', '2', '0', '4', '1', '-1', '3'], dtype=object)

In [7]:
zero_rating_amount = len(general_reviews[general_reviews["rating"]=='0'])
minus_one_rating_amount = len(general_reviews[general_reviews["rating"]=='-1'])
print(f"Amount of zero rating: {zero_rating_amount}")
print(f"Amount of minus one rating: {minus_one_rating_amount}")

Amount of zero rating: 29808
Amount of minus one rating: 6


In [8]:
general_reviews[general_reviews["rating"]=='-1']

Unnamed: 0,name,rating,text
1517,Torontské stíny / Blue Murder (TV seriál) (2001),-1,Jen další z řad kriminálních příběhů...
31536,LazyTown / LazyTown (TV seriál) (2004),-1,Nehodnotitelné.
33941,Zákon a pořádek: Zločinné úmysly / Law & Order...,-1,Jen další z řad kriminálních příběhů...
37983,Můj přítel Monk / Monk (TV seriál) (2002),-1,"Další krimi seriál, kterých je už víc než dost..."
46754,"Vy nám taky, šéfe! (2008)",-1,HUDBA: Tomáš Polák
58192,1000 Frames (1960),-1,Nehodnotitelné.


Nyní si každou recenzi převedeme na malá písmena. Následně si recenze a jejich hodnocení rozdělíme na trénovací a testovací data. Jelikož zde chci ukázat, co se v kterém bodě děje, a chci, abyste měli i vy při svých experimentech stejné výsledky, nastavuji natvrdo random_state na určitou konstantní hodnotu.

In [9]:
gen_review_strings = [text.strip().lower() for text in general_reviews["text"]]

x_train, x_test, y_train, y_test = train_test_split(
     gen_review_strings, 
     general_reviews["rating"], 
     test_size=0.2, 
     random_state=42
)

Připravíme si pomocnou funkci, která v dalším kroku převede recenzi coby spojitý text na list tokenů - jednotlivých slov recenze. Se slovy se navíc odehraje několik dalších věcí. Je odstraněna interpunkce. Pravě proto, že někde potřebujeme vzít seznam všech možných interpunkčích znaků, jsme importovali balíček string. 
Ze seznamu slov vyhazujeme tzv. stopwords alias slova, která se vyskytují tak často, že víceméně nenesou žádnou podstatnou informaci. Popravdě zde moc stop slov nemám - snad postupně budu jejich seznam doplňovat. Na internetu se dá pravda i pro češtinu najít řada seznamů takovýchto slov. Nicméně některá z nich mi přijdou pro potřeby recenzí vcelku důležitá (např. nula, musí, dobrý atd.).
Krom toho všechno v pomocné funkci probíhá i lematizace - koneckonců podle toho se funkce i jmenuje. Co to lematizace znamená? Jedná se o převod různých tvarů téhož slova na slovo jedno. Například "já", "byl" či "budete" se všechny převedou na "být".Díky této operaci se faktický počet slov z recenzí snižuje, aniž by se redukoval význam v těchto slovech schovaný.

In [10]:
PUNCTUATIONS = string.punctuation
NUMBER_OF_PUN_CHARS = len(PUNCTUATIONS)
PUN_REPLACING_STRING = " " * NUMBER_OF_PUN_CHARS
STOPWORDS = ["a", "i", "nebo", "proto"]

def remove_punctuation(text):
    return text.translate(str.maketrans(PUNCTUATIONS, PUN_REPLACING_STRING, ""))

def lemmatize_review(review_text):
    lemmas = ufm.TaggedLemmas()
    lemmas_list = []
    review_text_no_pun = remove_punctuation(review_text)
    tokens = review_text_no_pun.split()
    filtered_tokens = [token for token in tokens if token not in STOPWORDS]
    for token in filtered_tokens:
        morpho.analyze(token, morpho.GUESSER, lemmas)
        lemmas_list.append(lemmas[0].lemma)
    return lemmas_list

Pomocnou funkci lemmatize_review využijeme jako tokenizer ve vektorizéru TfidfVectorizer. Co předchozí věta vlastně znamenala? Počítač sám o sobě se slovy moc dobře pracovat neumí, musí se mu převést na nějakou posloupnost čísel - na vektory (fakticky asi pole či něco podobného, ale to zde nemá cenu řešit). Velikost vektorů je dána počtem slov v celém konglomerátu dokomentů (zde recenzí). Samotný dokument je pak reprezentován takovouto posloupností čísel, z nichž každé je navázáno na určité slovo a udává v tom nejjednoduším případě, kolikrát se ono slovo v recenzi vyskytuje.  
Uvedmě si příklad. Mějme balík dvou dokumentů: "skákal skákal pes přes oves" a "pes oves nebaští". V balíku se vyskytuje celkem pět slov, to bude tedy i délka vektoru. První číslo vektoru bude navázáno na "skákal", druhé na "pes", třetí na "přes", čtvrté na "oves" a páté na "nebaští". Vektor prvního dokumentu tedy vypadá jako [2,1,1,1,0], vektor druhého dokumentu má podobu [0,1,0,1,1].  
Výše uvedenou transformaci dělá CountVectorizer. Nicméně v kódu je TfidfVectorizer. V dokumentaci byste si mohli přečíst, že de facto platí TfidfVectorizer =  CountVectorizer + TfidfTransformer. K čemu ta Tfidf věc je? Jedná se o zkratku term frequency-inverse document frequency. Jde prakticky o to, že váha určitého slova pro analýzu roste s počtem jeho výskytů v dokumentu. Na druhou stranu některá slova se vyskytují téměř v každém dokumentu a tudíž nám toho o konkrétním dokumentu mnoho neřeknou (například spojky či předložky). Bylo by tedy užitečné čísla ve vektorech nějak nanormovat, aby slova charakteristická pro několik málo dokumentů měla větší váhu než slova, která díky své vysoké frekvenci výskytu nemohou charakterizovat vůbec nic. No a to dělá právě TfidfTransformer.  
Vektorizér by sám od sebe pouze oddělovat jednotlivá slova podle mezer. Můžeme mu ale předat svou vlastní funkci, která krom oddělení slov od sebe s nimi udělá ještě něco jiného - v našem případě lematizaci a odstranění interpunkce.
V parametrech TfidfVectorizer jsou kromě tokenizeru použity i další parametry: ngram_range a min_df. Parametr min_df slouží k omezení velikosti vektorů - z celkového "slovníku" vytvořeného ze všech slov všech dokumentů totiž vyhodí ta slova, která se prakticky vůbec nevyskytují (zde ta, která se objeví ve všech dokumentech dohromady maximálně čtyřikrát). Co se ngram_range týče, některá slova mají v souvislosti se slovy jinými speciální význam - např "galerie" a "Národní galerie". To druhé se nazývá bigram, shluk pravidleně se společně vyskytujících tří slov nese označení trigram. Slovo stojící samostatně je unigram. Rozsah ngramů ve tvaru (1,3) pak znamená, že se do slovníku dostanu nejen slova jednotlivá, ale i dvojice a trojice.  
V prvním řádku v následující buňce se sice vytváří vektorizér, nicméně recenze se na vektory převedou až na řádkce následující. Na ní se na trénovací recenze vypouští funkce fit_transform. Tu lze pojmout jako součet funkcí fit a transform. Právě funkce fit slouží k tomu, aby se model slova "naučil" - namapoval je na určitou polohu v později vytvářených vektorech. Následně funkce transform převádí jednotlivé dokumenty-recenze na ony vektory. Všimněte si, že zatímco na trénovací data je vypuštena funkce fit_transfor, na data testovací data už působí pouze funkce transform. Důvodem je konzistence. Na to, abychom mohli později vytvořený ML model vypustit na nová testovací data, musí být slovník převádějící slova na vektory stejný jak pro trénovací, tak pro testovací záznamy. Jinými slovy převodní slovník si vytvoříme pouze jednou a poté ho aplikujeme na všechna data, která nám přidou pod ruku.  
<font color="red">POZOR</font> - pokud se v importovací buňce na začátku nepodaří načíst soubor *czech-morfflex-161115.dict* (třeba proto, že jste si ho zapomenuli ze stránek http://ufal.mff.cuni.cz/morphodita#download stáhnout), error na vás v oné fázi nevyskyčí. Problém se objeví až při spuštění buňky níže.

In [14]:
vectorizer = TfidfVectorizer(tokenizer = lemmatize_review, ngram_range=(1,3), min_df=5) 
vectorized_train = vectorizer.fit_transform(x_train)
vectorized_test = vectorizer.transform(x_test)

Model, který použijeme k odhadu počtu hvězdiček, patří mezi ty nejprimitivnější - jde o logistickou regresi. Při inicializaci modelu mu říkáme, že má použít solver saga. Solver je matematický algoritmus, který se snaží nastavit parametry našeho modelu tak, aby v kombinaci se zdrojovými daty co možná nejlépe sedly na očekávané výsledné hodnoty. Problém s defaultním solverem je v tom, že se pro velké matice se zdrojovými daty zadýchává a nechce moc konvergovat. Oproti tomu saga solver by měl být pro velké matice (ideálně skládající se z valné části z nul) ideální. V našem případě vedou oba solvery ke zhroba stejné hodnotě přesnosti, avšak saga je hotová za 20s, zatímco defaultní solver skončí po 35 sekundách a navích s warning hláškou.

In [15]:
logist_model = LogisticRegression(solver="saga")
logist_model.fit(vectorized_train, y_train)

prediction = logist_model.predict(vectorized_test)

accuracy = sklearn.metrics.accuracy_score(y_test, prediction)
accuracy

0.8103896103896104

In [16]:
comparison = pd.DataFrame({"predikce":prediction, "realita":y_test, "text":x_test})
comparison.head()

Unnamed: 0,predikce,realita,text
38331,5,5,mám za sebou k dnešnímu dni celkem 5 projekcí....
72181,2,0,není to zklamání de nira. na vině byl tentokrá...
20691,0,2,"z transek atd. je mi na blití. což o to, otrlý..."
32674,0,0,29.8.2007 11:00 - právě běží na nově tento fil...
72135,0,0,pcha! a pak ze nejde natocit opravdovou zmrdov...


Pro rozumnější srovnání bude lepší použít confusion matici. To je tabulka čísel, kde ve sloupcích jsou ukázány reálná hodnocení, zatímco na řádcích jsou predikovaná hodnocení. V matici v následující buňce odpovídá první řádek/sloupec hodnocení "odpad", druhý řádek/sloupec jedné hvězdičce, poslední řádek/sloupec pěti hvězdičkám. Číslo na prvním řádku prvního sloupce nám tedy prozrazuje, že u 4710 recenzí bylo správně predikováno hodnocení odpad. Cifra na třetím řádku a prvním sloupci zase říká, že 964 recenzí mělo sice fakticky hodnocení odpad, ale podle predikce měly tyto recenze mít dvě hvězdičky. Ideální situace by u konfidenční matice byla taková, kdyby všechna čísla ležela v její stopě (tj. v diagonále jdoucí z levého horního rohu do pravého dolního rohu).

In [17]:
conf_matrix = sklearn.metrics.confusion_matrix(y_test, prediction)
conf_matrix

array([[4710,    0,  928,    0,    0,  316],
       [   6,    0,    0,    0,    0,    0],
       [ 964,    0, 4742,    2,    0,  496],
       [   1,    0,    4,    9,    0,    0],
       [   0,    0,    0,    0,    3,   15],
       [ 309,    0,  458,    0,    5, 5512]], dtype=int64)

Vytvořili jsme sice predikční model, ale je lepší než náhodné hádání? To zjistíme tak, že si toto náhodné hádání nasimulujeme. Nejprve se podíváme, jaký je v původních datech (před dělením na trénovací a testovací) počet jednotlivých typů hodnocení.

In [18]:
ratings_freq = collections.Counter(general_reviews["rating"])
ratings_freq

Counter({'5': 31468,
         '2': 30902,
         '0': 29808,
         '4': 102,
         '1': 34,
         '-1': 6,
         '3': 78})

Následně si vytvoříme list skládající se z odpovídajícího počtu jednotlivých hodnocení. Ten promícháme s pomocí funkce random.shuffle a vybereme z něj prvních X elementů, kde X je rovno počtu testovacích recenzí.

In [19]:
random_with_real_freq = ['-1']*6 + ['0']*29808 + ['1']*34 + ['2']*30902 + ['3']*78 + ['4']*102 + ['5']*31468
random.shuffle(random_with_real_freq)
fake_prediction = random_with_real_freq[:len(y_test)]

Nyní můžeme jednak spočítat "náhodnou" accuracy, jednak si zobrazit "náhodnou" confusion matrix. Je patrné, že přesnost modelu je mnohem lepší než náhodné tipování.

In [20]:
print(sklearn.metrics.accuracy_score(y_test, fake_prediction))
conf_matrix = sklearn.metrics.confusion_matrix(y_test, fake_prediction)
conf_matrix

0.3377705627705628


array([[   0,    0,    0,    0,    0,    0,    0],
       [   0, 1906,    2, 2044,    5,    8, 1989],
       [   0,    0,    0,    2,    0,    0,    4],
       [   1, 1975,    5, 2111,    3,    7, 2102],
       [   0,    5,    0,    6,    0,    0,    3],
       [   0,    6,    0,    4,    0,    0,    8],
       [   0, 1984,    2, 2062,    3,    8, 2225]], dtype=int64)

Vytvořme si nyní dataframe ukazující, jaký vliv má přítomnost určitého slova na umístění recenze do určité třídy. 
Tento dataframe vytvoříme pomocí slovníku vektorizéru a koeficientů z logistické regrese pro jednotlivé třídy (každá třída reprezentuje jiný počet hvězd). Musíme však zajistit, aby byly slova a jejich koeficienty na sebe správně navázány.
Slovník vektorizéru má podobu slovníku (překvapivě...), kde klíčem je slovo a hodnotou jeho index. Tento slovník - vlastně slovníky obecně - ale nejsou uspořádány a to je problém. Koeficienty totiž uspořádány jsou a to právě podle indexu slova.  

In [25]:
vectorizer.vocabulary_

{'zapomenutelný_^(*6out)': 136385,
 'film': 29645,
 'belmondo_;S': 7547,
 'být': 9691,
 'totiž-1': 118017,
 'pan_^(oslovení)': 77324,
 'herec': 33452,
 'obvzlášť-1': 72835,
 'pobavit_:W': 79236,
 'scéna': 95236,
 's-1': 93518,
 'ferrari_^(vozidlo)': 29517,
 'jeho_^(přivlast.)': 41319,
 'replika': 91212,
 'já': 44252,
 'ženská_^(osoba)': 145489,
 'no': 68595,
 'fuj': 32431,
 'zapomenutelný_^(*6out) film': 136391,
 'belmondo_;S být': 7548,
 'být totiž-1': 15141,
 'pan_^(oslovení) herec': 77335,
 'scéna s-1': 95424,
 'já ženská_^(osoba)': 46070,
 'ženská_^(osoba) no': 145505,
 'no fuj': 68642,
 'chytnout_:W': 18743,
 'ten': 111197,
 'už-1': 122277,
 'několikrát': 71086,
 'muset': 59314,
 'říci': 142908,
 'že-1': 144147,
 'tenhle': 115840,
 'opravdu-1': 75455,
 'hodný-1_^(být_hoden)': 35552,
 'přesto-1': 88745,
 'ala-1_,t_^(místnost_v_starořím._obydlí;;vojenská_jednotka_ve_st._Římě;;boční_loď_v_bazilice)': 2790,
 'nejeden': 66780,
 'on-1': 74517,
 'rozesmát': 92425,
 'rozesmívat_:T': 92433

Musíme tedy slovník jednak převést na list, jednak v tomto listu uspořádat podle hodnoty hodnoty.

In [26]:
sorted(vectorizer.vocabulary_, key=lambda x: vectorizer.vocabulary_[x])[:20]

['0',
 '0 0',
 '0 10',
 '0 10 hudba',
 '0 5',
 '0 5 10',
 '0 být',
 '0 jeden`1',
 '0 odpad',
 '0 ten',
 '00',
 '000',
 '000 000',
 '000 dolar_;b',
 '000 člověk',
 '007',
 '01',
 '02',
 '03',
 '03 2009']

Nyní již vytvoření dataframu nic nebrání. Koeficienty bereme z model2.coef_, které je listem listů, až od indexu 1 - nula se týká extrémně řídce zastoupené třídy "Nehodnoceno". Sloupeček "goodness" si definujeme jako míru, zda má slovo při binárním rozhodování odpad/5 hvězd kladné či záporné znaménko. 

In [27]:
word_weight = pd.DataFrame({
    "word":sorted(vectorizer.vocabulary_, key=lambda x: vectorizer.vocabulary_[x]),
    "class_0": logist_model.coef_[1],
    "class_1": logist_model.coef_[2],
    "class_2": logist_model.coef_[3],
    "class_3": logist_model.coef_[4],
    "class_4": logist_model.coef_[5],
    "class_5":logist_model.coef_[6],
    "goodness": logist_model.coef_[6]-logist_model.coef_[1]
})
word_weight

Unnamed: 0,word,class_0,class_1,class_2,class_3,class_4,class_5,goodness
0,0,6.960368,-0.020338,-3.989895,-0.025570,-0.035279,-2.882896,-9.843264
1,0 0,-0.477822,-0.000366,0.307349,-0.000475,-0.000646,0.172078,0.649900
2,0 10,1.731523,-0.004002,-0.918587,-0.005257,-0.007340,-0.795018,-2.526541
3,0 10 hudba,0.140257,-0.000121,-0.107259,-0.000148,-0.000206,-0.032479,-0.172736
4,0 5,0.543329,-0.001677,-0.169803,-0.002074,-0.002958,-0.366289,-0.909618
...,...,...,...,...,...,...,...,...
146105,♥,-0.062854,-0.000572,-0.181651,-0.000806,-0.002201,0.248267,0.311121
146106,♥♥♥,-0.407955,-0.000844,-0.310724,-0.001123,-0.001503,0.722426,1.130381
146107,♫,-0.422855,-0.001500,-0.309609,-0.002094,-0.002850,0.739363,1.162218
146108,♫ hodnocený_^(*4tit),-0.049661,-0.000202,-0.051178,-0.000273,-0.000357,0.101741,0.151402


Proveďme sanity check - podívejme se na slova a sousloví obsahující slovo "hnusný". Zdá se, že všechno funguje - většinově zde vidíme příspěvky do odpadu.

In [28]:
word_weight[word_weight["word"].str.contains("hnusný")]

Unnamed: 0,word,class_0,class_1,class_2,class_3,class_4,class_5,goodness
10704,být fakt-1 hnusný,0.013193,-0.000142,0.022074,-0.000181,-0.00024,-0.034656,-0.047849
10864,být hnusný,0.444174,-0.001608,-0.25643,-0.002096,-0.002818,-0.180692,-0.624866
14305,být taka-1_;L hnusný,-0.120712,-0.000305,0.063819,-0.000368,-0.000492,0.058163,0.178875
14609,být ten hnusný,0.040619,-0.000437,0.089276,-0.000557,-0.000727,-0.128027,-0.168646
29156,fakt-1 hnusný,0.013193,-0.000142,0.022074,-0.000181,-0.00024,-0.034656,-0.047849
34882,hnusný,2.127319,-0.015542,-0.696658,-0.019693,-0.027198,-1.363338,-3.490657
34883,"hnusný ala-1_,t_^(místnost_v_starořím._obydlí;...",-0.240479,-0.000557,0.24205,-0.000748,-0.00098,0.000903,0.241382
34884,hnusný film,0.102557,-0.001173,-0.06291,-0.001393,-0.001832,-0.034911,-0.137467
34885,hnusný hudba,0.088514,-0.000219,-0.062118,-0.000307,-0.000382,-0.025417,-0.113931
34886,hnusný ten,-0.414067,-0.000577,0.233225,-0.000713,-0.000975,0.1833,0.597367


Podívejme se nyní na slova, která nejvíce do odpadu přispívají.

In [30]:
pd.set_option('display.max_rows', 100)
word_weight.sort_values(by=["goodness"], ascending=True).head(100)

Unnamed: 0,word,class_0,class_1,class_2,class_3,class_4,class_5,goodness
73665,odpad,12.620467,-0.057804,-5.394869,-0.074205,-0.102239,-6.972347,-19.592813
118400,trapný,5.415494,-0.066539,0.636552,-0.085297,-0.116255,-5.762752,-11.178246
143575,špatný,4.913805,-0.102958,1.790911,-0.131996,-0.183938,-6.252348,-11.166153
104846,sračka,6.460763,-0.034336,-2.568715,-0.044101,-0.017318,-3.785445,-10.246208
0,0,6.960368,-0.020338,-3.989895,-0.02557,-0.035279,-2.882896,-9.843264
69344,nudný,2.617225,-0.074786,4.056821,-0.095842,-0.066908,-6.413037,-9.030262
69140,nuda,1.911275,0.303956,5.051087,-0.100808,-0.136064,-7.004695,-8.91597
106116,stupidní,3.98596,-0.02791,-0.155307,-0.036094,-0.04937,-3.708242,-7.694202
8125,"blbost_,h_^(*3ý)",3.20088,1.239543,0.051855,-0.070411,-0.095333,-4.309415,-7.510294
90457,příšerný,3.729516,-0.031399,0.067033,-0.040668,-0.055404,-3.658999,-7.388515


In [None]:
Pokud máme jednu jedinou recenzi a chceme ukázat predikované hodnocení, použijeme následující postup.

In [31]:
logist_model.predict(vectorizer.transform(["To byl ten nejlepší film, který jsem kdy viděl."]))

array(['5'], dtype=object)

In [32]:
logist_model.predict(vectorizer.transform(["Že já blbec do toho kina vůbec lezl."]))

array(['0'], dtype=object)

## České filmy

Výše používaný dataset byl poněkud zvláštní - primárně se v něm vyskytovaly recenze s hodnocením odpad, dvě hvězdy a pět hvězd. Zkusme tedy úlohu replikovat na nascrapovaných datech. Konkrétně se budeme věnovat recenzím českých filmů. Ne že bych byl kdovíjak velký fanoušek naší kinematografie, ale recenzí na vyhodnocení bude mnohem méně než dejme tomu při snaze scrapovat sci-fi filmy.
Níže se naléza scrapovací program:
```python
import scrapy
from scrapy.crawler import CrawlerProcess

class ReviewsSpider(scrapy.Spider):
    name = "mega_recenze"
    start_urls = [
         "https://www.csfd.cz/podrobne-vyhledavani/?type%5B%5D=0&genre%5Btype%5D=2&genre%5Binclude%5D%5B%5D=&genre%5Bexclude%5D%5B%5D=&origin%5Btype%5D=2&origin%5Binclude%5D%5B%5D=1&origin%5Bexclude%5D%5B%5D=&year_from=&year_to=&rating_from=&rating_to=&actor=&director=&composer=&screenwriter=&author=&cinematographer=&production=&edit=&sound=&scenography=&mask=&costumes=&tag=&ok=Hledat&_form_=film"
         ]
    
    def parse(self, response):
        films = response.css("table tbody")[0]
        films_core_parts = films.css("tr td a ::attr(href)").extract()
        for part in films_core_parts:
            print("part: ", part)
            film_link = "https://www.csfd.cz" + part + "komentare/"
            print("link: ", film_link)
            yield response.follow (film_link, self.parse_one_film)
        next_page = response.css("div a.button ::attr(href)").extract()[-1]
        if next_page:
            yield scrapy.Request(response.urljoin(next_page), callback=self.parse)        
   
    def parse_one_film(self, response):
        film_name = response.css("title ::text").extract_first()
        film_name = film_name.replace(" | ČSFD.cz", "")
        reviews = response.css("ul.ui-posts-list li")
        for review in reviews:
            yield {
                "film_name":film_name,
                "author":review.css("h5.author a ::text").extract(),
                "stars":review.css("img.rating ::attr(alt)").extract(),
                "word_rating":review.css("strong.rating ::text").extract(),
                "review_text": review.css("p.post ::text").extract(),
            }
        next_film_page = response.css("a.next ::attr(href)").extract_first()
        print(str(next_film_page))
        if next_film_page:
            yield scrapy.Request(response.urljoin(next_film_page), callback=self.parse_one_film)        

if __name__ == "__main__":
    crawler = CrawlerProcess(
        {
            "USER_AGENT": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
            "FEED_FORMAT": "csv",
            "FEED_URI": f"scrapped_reviews.csv",
            "LOG_LEVEL": "WARN",
        }
    )
    print("Scrapping starts.")
    crawler.crawl(ReviewsSpider)
    crawler.start()
    print("Scrapping ends.")
```

Jakmile máme data na disku, můžeme si je načíst do pandího dataframu a zběžně prohlédnout. Zde je asi na místě poznamenat, že hodnocení "Odpad!" a hvězdy jsou na stránkách umístěné v jiných html tazích. Tím pádem se musely brát informace z obou tagů a pokud tag zorva nebyl přítomen, dostala se nám do dat hodnota NaN.

In [34]:
czech_films_dataset = pd.read_csv("scrapped_reviews.csv", sep=",", header=0)
czech_films_dataset.head()

Unnamed: 0,film_name,author,stars,word_rating,review_text
0,Pelíšky (1999),golfista,*****,,"Skvělý film se skvělou atmosférou těch ""podiv..."
1,Pelíšky (1999),KevSpa,*****,,Herecký koncert našich nejlepších herců a nez...
2,Pelíšky (1999),Houdini,****,,"Křišťálový glóbus - výběr, Český Lev 1 : Here..."
3,Pelíšky (1999),Galadriel,*****,,"Nádherný film, který ač vypráví o době hodně ..."
4,Pelíšky (1999),Gemini,*****,,"Slabé místo by se určitě našlo, ale nějak si ..."


Nahraďme tedy ve sloupcích "stars" a "word_rating" NaN za prázdný string (""). Následně si vytvořme sloupec "rating" jako slepeninu oněch dvou původních sloupců s hodnoceními.

In [35]:
czech_films_dataset["stars"] = czech_films_dataset["stars"].fillna("")
czech_films_dataset["word_rating"] = czech_films_dataset["word_rating"].fillna("")
czech_films_dataset["rating"] = czech_films_dataset["stars"] + czech_films_dataset["word_rating"]
czech_films_dataset = czech_films_dataset.drop(["stars", "word_rating"], axis=1)
czech_films_dataset.head()

Unnamed: 0,film_name,author,review_text,rating
0,Pelíšky (1999),golfista,"Skvělý film se skvělou atmosférou těch ""podiv...",*****
1,Pelíšky (1999),KevSpa,Herecký koncert našich nejlepších herců a nez...,*****
2,Pelíšky (1999),Houdini,"Křišťálový glóbus - výběr, Český Lev 1 : Here...",****
3,Pelíšky (1999),Galadriel,"Nádherný film, který ač vypráví o době hodně ...",*****
4,Pelíšky (1999),Gemini,"Slabé místo by se určitě našlo, ale nějak si ...",*****


Jak tedy vlastně dataset vypadá? Počet unikátních jmen rovný 1000 je hodně podezřelý. Nicméně kdyby člověk vlezl na csfd.cz na "podrobné vyhledávání" (úplně nahoře pod hledacím textboxem), pustil by ho interface maximálně na stránku 20. No a na každé stránce je 50 filmů, takže celkový počet recenzovaných filmů rovný tisícovce odpovídá.
Trochu divné je, že nejčastější recenze se vyskytuje 37 a nejedná se o recenzi práznou či jednoslovné zvolání, ale o dosti komplexně vypadající text.

In [36]:
czech_films_dataset.describe()

Unnamed: 0,film_name,author,review_text,rating
count,197235,197235,197235,197235
unique,1000,21497,196566,7
top,Pelíšky (1999),zette,"No paráda. Sranda! 85%,(29.8.2010)",****
freq,1778,501,37,49164


Jenže když se na situaci podíváme podrobně, zjistíme, že jsme nenarazili na chybu programu, ale na realitu. Opravdu lidé v jeden den (v tomto kroku je stále datum napsání recenze součástí textu recenze) dokáží stejně ohodnotit X filmů. Zejména se jedná o animované pohádky (recenze ve výstupu funkce describe patří Patovi a Matovi) anebo o Kameňáky...

In [37]:
pd.set_option('display.max_rows', 100)
czech_films_dataset[czech_films_dataset["review_text"].duplicated(keep=False)].sort_values(by="review_text").head(100)

Unnamed: 0,film_name,author,review_text,rating
106914,Tajnosti (2007),DENIROSIS,"***3/4.,(27.7.2007)",***
45149,Marcela (2006),DENIROSIS,"***3/4.,(27.7.2007)",****
153852,Anděl Páně 2 (2016),TuT,",80 %,(28.12.2017)",****
189078,Anděl Páně (2005),TuT,",80 %,(28.12.2017)",****
137499,Knoflíkáři (1997),Gianni_B,",Hudba:, Aleš Březina,(1.9.2010)",
116935,Kráska v nesnázích (2006),Gianni_B,",Hudba:, Aleš Březina,(1.9.2010)",****
179319,Obsluhoval jsem anglického krále (2006),Gianni_B,",Hudba:, Aleš Březina,(1.9.2010)",****
180665,Musíme si pomáhat (2000),Gianni_B,",Hudba:, Aleš Březina,(1.9.2010)",****
166059,Horem pádem (2004),Gianni_B,",Hudba:, Aleš Březina,(1.9.2010)",
35682,Pat a Mat: Trezor (1994),MikeCool,",Krátkometrážní snímek., Každý z dílů Pata a ...",***


Hodnocení alternující mezi hvězdičkami a slovy je poněkud nekonzistentní - pojďme ho konvertovat na čísla či spíše na kategorie reprezentované čísly. To, že tu z čísel -1 až 5 děláme kategorická data znamená, že je nepůjde sčítat, násobit či dělit.

In [38]:
czech_films_dataset["rating"].unique()

array(['*****', '****', '***', 'odpad!', '*', '**', ''], dtype=object)

In [39]:
dict_for_replacing = {"*****":5, "****":4, "***":3, "**":2, "*":1, "odpad!":0, "":-1}
czech_films_dataset["rating"] = czech_films_dataset["rating"].replace(dict_for_replacing)
czech_films_dataset["rating"]= czech_films_dataset["rating"].astype("category")
czech_films_dataset

Unnamed: 0,film_name,author,review_text,rating
0,Pelíšky (1999),golfista,"Skvělý film se skvělou atmosférou těch ""podiv...",5
1,Pelíšky (1999),KevSpa,Herecký koncert našich nejlepších herců a nez...,5
2,Pelíšky (1999),Houdini,"Křišťálový glóbus - výběr, Český Lev 1 : Here...",4
3,Pelíšky (1999),Galadriel,"Nádherný film, který ač vypráví o době hodně ...",5
4,Pelíšky (1999),Gemini,"Slabé místo by se určitě našlo, ale nějak si ...",5
...,...,...,...,...
197230,Van Helsing (2004),JC_Gucci,"Tento film je buď strašná blbost, nebo geniál...",0
197231,Van Helsing (2004),detrew,Pokud od tohohle snímku neočekáváte víc než j...,3
197232,Van Helsing (2004),SANNY22,"Príbeh, efekty, proste všetko to bolo nechutn...",0
197233,Van Helsing (2004),Gappard,"Sice je to maraz jak po dějové stránce, tak i...",5


Podívejme se na celý text jedné recenze. Informace o datu recenze, tj. ",(24.12.2019)", pro nás nemá význam a tak bychom ji rádi odstranili.

In [40]:
czech_films_dataset["review_text"].iloc[0]

' Skvělý film se skvělou atmosférou těch "podivných" let našeho života. Vždy při jeho sledování obdivuju, jak to všechno mohl s takovou přesností vystihnout režisér, který v té době zrovna přicházel na svět ?! Klobouk dolů pane Hřebejk.,(11.2.2003)'

To půjde nejsnáze s pomocí metody str.replace. Ta má jako první parametr slovo/pattern, který se má nahradit. Druhým  parametrem je pak string, který původní řetězec nahrazuje. Co se týče podoby samotného patternu, "\(", "\)" a "\." reprezentují závorky a tečku - ty mají v rámci regulárních výrazů specifické významy a proto, pokud je člověk opravdu chce použít jako znaky, musí je escapovat zpětným lomítkem. "\d" reprezentuje číslovky. Složené závorky zase říkají, kolikrát se elementy před nimi vyskytující má objevit (to když obsahují jedno číslo), resp. specifikují interval počtu výskytů (když obsahují čísla dvě).

In [41]:
pattern = ",\(\d{1,2}\.\d{1,2}\.\d{4}\)"
czech_films_dataset["review_text"] = czech_films_dataset["review_text"].str.replace(pattern, "")
czech_films_dataset["review_text"].iloc[0]

' Skvělý film se skvělou atmosférou těch "podivných" let našeho života. Vždy při jeho sledování obdivuju, jak to všechno mohl s takovou přesností vystihnout režisér, který v té době zrovna přicházel na svět ?! Klobouk dolů pane Hřebejk.'

Použijme nyní stejný postup jako u předchozích dat. Pouze se musíme omezit na unigramy - ngram_range=(1,3) můj počítač už nezvládal.

In [42]:
czech_films_dataset_strings = [text.strip().lower() for text in czech_films_dataset["review_text"]]

x_train, x_test, y_train, y_test = train_test_split(
     czech_films_dataset_strings, 
     czech_films_dataset["rating"], 
     test_size=0.2, 
     random_state=42
)

In [43]:
vectorizer = TfidfVectorizer(tokenizer = lemmatize_review, ngram_range=(1,1), min_df=10) 
vectorized_train = vectorizer.fit_transform(x_train)
vectorized_test = vectorizer.transform(x_test)

In [44]:
logist_model = LogisticRegression(solver="saga")
logist_model.fit(vectorized_train, y_train)

prediction = logist_model.predict(vectorized_test)

accuracy = sklearn.metrics.accuracy_score(y_test, prediction)
accuracy

0.5158060182016376

In [45]:
conf_matrix = sklearn.metrics.confusion_matrix(y_test, prediction)
conf_matrix

array([[  42,   67,   26,   25,   57,   63,   26],
       [   6, 2150,  692,  371,  251,  223,   77],
       [   8,  826, 1525, 1019,  576,  334,  135],
       [   8,  348,  716, 2380, 1867,  642,  166],
       [   8,  203,  246, 1017, 5530, 2259,  323],
       [   8,  151,  141,  308, 1897, 6146, 1174],
       [   3,  146,   69,  104,  386, 2128, 2574]], dtype=int64)

Vidíme, že přesností už to tak slavné není - pouze cca 52%. Nicméně pohledem na confusion patrix lze nalhédnout, že model zase tak špatný není. Model si často o recenzi za 4* myslí, že je za 5* či za 3*, nicméně odpad jí většinou nepřisuzuje.

In [46]:
ratings_freq = collections.Counter(czech_films_dataset["rating"])
ratings_freq

Counter({5: 27189, 4: 49164, 3: 47657, 0: 18978, 1: 22183, 2: 30497, -1: 1567})

In [47]:
random_with_real_freq = ['-1']*1567 + ['0']*18978 + ['1']*22183 + ['2']*30497 + ['3']*47657 + ['4']*49164 + ['5']*27189
random.shuffle(random_with_real_freq)
fake_prediction = random_with_real_freq[:len(y_test)]

In [48]:
print(sklearn.metrics.accuracy_score(y_test.astype("str"), fake_prediction))
conf_matice = sklearn.metrics.confusion_matrix(y_test.astype("str"), fake_prediction)
conf_matice

0.18744137703754404


array([[   0,   39,   32,   53,   70,   78,   34],
       [  31,  376,  399,  630,  908,  932,  494],
       [  32,  421,  490,  738, 1098, 1045,  599],
       [  52,  582,  693,  941, 1441, 1591,  827],
       [  69,  917, 1023, 1500, 2375, 2388, 1314],
       [  63,  940, 1063, 1534, 2372, 2457, 1396],
       [  44,  549,  605,  819, 1281, 1357,  755]], dtype=int64)

Vidíme tedy, že náš model je o více jak 30% lepší než náhodné tipování.

Pokud bychom chtěli explicitně vidět, jakou pravděpodobnost u každné recenze model přisuzoval jednotlivému počtu hvězd, použijeme predict_proba funkci.

In [49]:
probabilities = logist_model.predict_proba(vectorized_test)
probabilities

array([[0.00153077, 0.00769514, 0.01157841, ..., 0.07112496, 0.57068923,
        0.3102471 ],
       [0.02381004, 0.1534802 , 0.1570239 , ..., 0.0753457 , 0.33580667,
        0.04711476],
       [0.00235394, 0.3568338 , 0.45256013, ..., 0.02592623, 0.01489059,
        0.02273162],
       ...,
       [0.00294555, 0.0299406 , 0.01507752, ..., 0.14995961, 0.20259152,
        0.5604896 ],
       [0.0207906 , 0.03226541, 0.08759031, ..., 0.3473001 , 0.26762637,
        0.11581153],
       [0.00312473, 0.00227574, 0.00334998, ..., 0.03140718, 0.79439677,
        0.13808157]])

In [50]:
probab_m1 = [review[0] for review in probabilities]
probab_0 = [review[1] for review in probabilities]
probab_1 = [review[2] for review in probabilities]
probab_2 = [review[3] for review in probabilities]
probab_3 = [review[4] for review in probabilities]
probab_4 = [review[5] for review in probabilities]
probab_5 = [review[6] for review in probabilities]

In [55]:
reviews_probability = pd.DataFrame({
   "text": x_test,
   "real_rating": y_test,
   "predicted_rating": prediction,
   "class_m1": probab_m1,
   "class_0": probab_0,
   "class_1": probab_1,
   "class_2": probab_2,
   "class_3": probab_3,
   "class_4": probab_4,
   "class_5": probab_5
})
reviews_probability.head(20)

Unnamed: 0,text,real_rating,predicted_rating,class_m1,class_0,class_1,class_2,class_3,class_4,class_5
153167,"jednoduchá zápletka, skvělá muzika. takovéhle ...",5,4,0.001531,0.007695,0.011578,0.027134,0.071125,0.570689,0.310247
184197,tohle teda gilliamovi fest ujelo. objektivně (...,3,4,0.02381,0.15348,0.157024,0.207419,0.075346,0.335807,0.047115
166315,ani můj komparzistický herecký výkon tenhle fi...,0,1,0.002354,0.356834,0.45256,0.124704,0.025926,0.014891,0.022732
22725,tohle je skvělej film z české kuchyně a kdo ne...,5,5,0.019636,0.083318,0.050434,0.048229,0.040878,0.20714,0.550365
55827,"než jsem si zvykl na poněkud zvláštní animaci,...",3,3,0.001767,0.005833,0.028111,0.093413,0.644219,0.220564,0.006093
11686,bohužel tento dokument nepřináší moc nových in...,3,3,0.004383,0.006162,0.020611,0.34389,0.549771,0.064734,0.01045
117676,"ten film má o kolečko a kotka víc, než potřebuje.",2,3,0.010298,0.100634,0.188618,0.195864,0.279884,0.140164,0.084539
64826,to strašně bolí.,3,0,0.009389,0.546273,0.181024,0.115438,0.083598,0.035977,0.028302
79798,"nic moc zpracováním, je to televizní dokument,...",2,2,0.015951,0.036207,0.179994,0.291235,0.228847,0.15083,0.096935
165288,proč to nedostane oscara? protože první půlka ...,3,3,0.001439,0.001605,0.005406,0.03588,0.859051,0.087951,0.008667


Když tedy budeme chtt vidět všechny recenze, které měly v reálu pět hvězd, ale model jim dal nulu, napíšeme následující:

In [56]:
mistakes = reviews_probability[(reviews_probability["real_rating"]==5) & (reviews_probability["predicted_rating"]==0)]
mistakes.head(20)

Unnamed: 0,text,real_rating,predicted_rating,class_m1,class_0,class_1,class_2,class_3,class_4,class_5
172336,naprosto přesná studie ubohohého xenofobního a...,5,0,0.011482,0.305048,0.117837,0.123272,0.092077,0.194223,0.156061
176760,"naprosto uzasna komedie!!! miluju babovrsky, h...",5,0,0.011954,0.331093,0.132089,0.072674,0.084352,0.098189,0.269649
62911,jak můžete sledovat takový bezduchý brak?proč ...,5,0,0.014501,0.515348,0.229782,0.087986,0.095192,0.033229,0.023963
37746,zeman je zmrd!,5,0,0.037438,0.34425,0.02874,0.057174,0.066112,0.332097,0.134189
98770,mohlo by se točit víc takových filmů místo těc...,5,0,0.008956,0.425731,0.311366,0.138467,0.061847,0.033393,0.02024
190430,"nechapu nektere komentare. ""je to kyc"", ""herci...",5,0,0.021111,0.253651,0.090144,0.242896,0.141736,0.085335,0.165126
83896,"všichni kdo dali známku odpad, film zřejmě nev...",5,0,0.022044,0.638957,0.288995,0.013049,0.01874,0.008198,0.010017
153532,je to dobrota plná ptákovin .... odpady nejs...,5,0,0.022944,0.297159,0.198356,0.099638,0.15836,0.099118,0.124425
25488,všetci čo filmu môj pes killer dali hodnotenie...,5,0,0.031613,0.351009,0.114814,0.120411,0.098739,0.186262,0.097153
25400,lepsie by som to ani ja nenatocil. :o),5,0,0.024168,0.313137,0.097258,0.172335,0.104861,0.202863,0.085377


Občas se holt v recenzi použije tolik negativních slov, že i když je recenze pozitivní, odhad jde do odpadu. Možná by pomohlo použití bi a trigramů (kdyby to počítač zvládl).

In [57]:
mistakes["text"].iloc[4]

'mohlo by se točit víc takových filmů místo těch hovadin co se u nás většinou točí.tenhle dokazuje že to jde a nemusí to skončit jako trapas.'

Dobrá, tahle recenze vypadá velice pozitivně, ale model jí dal nulu. Že by autora podezříval ze sarkasmu? Níže je patrné, že za obrat může slovo "troska", která má takovou váhu, že z recenze 5 udělala recenzi 0 :D. Nicméně když se podíváme na pravděpodobnosti, tak 5* je hned za odpadem...

In [54]:
mistakes["text"].iloc[1]

'naprosto uzasna komedie!!! miluju babovrsky, hraji tam mi oblibei herci a je to mnohem lepsi nez slunce seno nebo kamenak... proste pan troska stvoril o5 neco uchvatnyho... tesim se na dvojku! :) tolik srandy jsem jeste nezazila...'

In [59]:
word_weight = pd.DataFrame({
    "word":sorted(vectorizer.vocabulary_, key=lambda x: vectorizer.vocabulary_[x]),
    "class_0": logist_model.coef_[1],
    "class_1": logist_model.coef_[2],
    "class_2": logist_model.coef_[3],
    "class_3": logist_model.coef_[4],
    "class_4": logist_model.coef_[5],
    "class_5":logist_model.coef_[6],
    "goodness": logist_model.coef_[6]-logist_model.coef_[1]
})
word_weight[word_weight["word"].str.contains("troska")]

Unnamed: 0,word,class_0,class_1,class_2,class_3,class_4,class_5,goodness
24747,troska,1.391458,-0.864828,-0.394201,0.068725,-0.188526,-0.592343,-1.983801


Bez slova "troska"

In [60]:
logist_model.predict(vectorizer.transform(["naprosto uzasna komedie!!! miluju babovrsky, hraji tam mi oblibei herci a je to mnohem lepsi nez slunce seno nebo kamenak...proste pan "]))

array([5], dtype=int64)

Se slovek "troska"

In [61]:
logist_model.predict(vectorizer.transform(["naprosto uzasna komedie!!! miluju babovrsky, hraji tam mi oblibei herci a je to mnohem lepsi nez slunce seno nebo kamenak...proste pan troska "]))

array([0], dtype=int64)