# klasyfikacja tekstu
## Wstęp
W tym dokumencie zostanie opisana klasyfikacja tekstu recenzji z [datasetu scale dataset v1.0](http://www.cs.cornell.edu/people/pabo/movie-review-data). 
## Analiza eksploracyjna zbioru danych
Na początku wczytajmy dane z wstępnie przetworzonych artykułów (wyrzuciłem słowa nie znajdujące się w słowniku języka angielskiego)

In [7]:
import pandas as pd
reviews = pd.read_csv('.\\scale_data\\scaledata\\subj.txt', 
                error_bad_lines=False, delimiter='\t', header=None, names =['review'])
labels = pd.read_csv('.\\scale_data\\scaledata\\label.3class.txt', 
                error_bad_lines=False, delimiter='\t', header=None, names =['label'])
data = pd.concat([labels, reviews], axis='columns')
data

Unnamed: 0,label,review
0,0,i didn't expect ghost in the machine to be thi...
1,0,admittedly with a title like the mangler you'r...
2,0,cast lambert director producers tom screenplay...
3,0,inevitably someone is going to ask me why i su...
4,0,the one-joke concept that refuses to die no ma...
...,...,...
5001,2,the conventional wisdom is that movie sequels ...
5002,2,mesmerizing 1971 film walkabout exists on a di...
5003,2,the movie air force one should require a docto...
5004,2,well at least you haven't forgotten how to sho...


**Następnie zbadajmy średnie długości artykułów.**

In [12]:
lengths = []
for line in data['review']:
    words = line.split(' ')
    lengths.append(len(words))
lengths

[411,
 365,
 465,
 547,
 386,
 396,
 305,
 273,
 229,
 445,
 496,
 338,
 462,
 301,
 485,
 464,
 330,
 451,
 442,
 292,
 403,
 263,
 345,
 581,
 242,
 265,
 282,
 433,
 292,
 463,
 373,
 566,
 616,
 450,
 414,
 432,
 343,
 309,
 325,
 357,
 323,
 417,
 385,
 352,
 319,
 483,
 463,
 377,
 362,
 361,
 441,
 380,
 353,
 422,
 386,
 299,
 323,
 454,
 416,
 607,
 561,
 443,
 415,
 324,
 542,
 765,
 379,
 405,
 305,
 369,
 384,
 226,
 383,
 359,
 375,
 322,
 467,
 395,
 403,
 353,
 376,
 553,
 365,
 314,
 309,
 413,
 374,
 382,
 442,
 385,
 523,
 242,
 403,
 427,
 193,
 366,
 337,
 521,
 636,
 416,
 390,
 277,
 428,
 562,
 370,
 311,
 255,
 362,
 423,
 337,
 226,
 352,
 343,
 449,
 402,
 361,
 483,
 425,
 575,
 580,
 411,
 438,
 431,
 341,
 310,
 388,
 269,
 381,
 362,
 475,
 291,
 318,
 368,
 237,
 334,
 597,
 305,
 269,
 408,
 481,
 522,
 677,
 369,
 624,
 471,
 446,
 485,
 603,
 414,
 535,
 414,
 691,
 440,
 493,
 315,
 453,
 412,
 310,
 381,
 407,
 405,
 338,
 338,
 215,
 368,
 350,
 366

In [13]:
max(lengths)

2268

In [14]:
min(lengths)

4

In [15]:
import numpy as np
np.average(lengths)

359.1662005593288

**Znajdźmy najczęściej i najrzadziej występujące słowa**

In [16]:
words_count = {}
for line in data['review']:
    words = line.split(' ')
    for word in words:
        if word in words_count:
            words_count[word] += 1
        else:
            words_count[word] = 1
words_count

{'i': 10897,
 "didn't": 789,
 'expect': 486,
 'ghost': 75,
 'in': 28447,
 'the': 112068,
 'machine': 56,
 'to': 43916,
 'be': 12045,
 'this': 15713,
 'bad': 1731,
 'going': 1138,
 'was': 7616,
 'aware': 111,
 'that': 24343,
 'it': 26123,
 "wasn't": 351,
 'likely': 573,
 'make': 2487,
 'top': 754,
 '10': 289,
 'list': 224,
 'but': 13553,
 'curious': 64,
 'about': 6322,
 'how': 2942,
 'hi-tech': 2,
 'horror': 382,
 'concept': 192,
 'implemented': 2,
 'never': 2464,
 'my': 3073,
 'darkest': 16,
 'nightmares': 26,
 'did': 1086,
 'imagine': 194,
 'what': 4515,
 'waiting': 188,
 'ambush': 5,
 'darkened': 20,
 'theater': 512,
 'first': 1996,
 'of': 55398,
 'all': 5729,
 'is': 39547,
 'not': 10411,
 'an': 8864,
 'fools': 27,
 'review': 406,
 'up': 3636,
 'above': 274,
 'plot': 1549,
 'although': 1802,
 'admit': 112,
 'sounds': 269,
 'far': 1051,
 'too': 3255,
 'stupid--even': 1,
 'by': 7940,
 'standards--to': 1,
 'have': 8317,
 'made': 1712,
 'screen': 1284,
 'considering': 218,
 'low': 284,
 

In [17]:
sorted_words = sorted(words_count, key=words_count.get, reverse=True)

**100 najczęściej występujących słów:**

In [18]:
sorted_words[0:100]

['the',
 'of',
 'a',
 'and',
 'to',
 'is',
 'in',
 'it',
 'that',
 'for',
 'as',
 'with',
 'this',
 'film',
 'but',
 'be',
 'are',
 'i',
 'not',
 'one',
 'movie',
 'an',
 'on',
 'you',
 'have',
 'by',
 'was',
 'his',
 'more',
 'has',
 'at',
 'he',
 'about',
 'or',
 'its',
 "it's",
 'like',
 'all',
 'from',
 'than',
 'there',
 'so',
 'story',
 'which',
 '',
 'if',
 'most',
 'who',
 'would',
 'what',
 'they',
 'some',
 'much',
 'even',
 'no',
 'just',
 'any',
 'up',
 'their',
 'will',
 'can',
 'when',
 'only',
 'time',
 'show',
 'out',
 'into',
 'see',
 'films',
 'director',
 'too',
 'characters',
 'been',
 'my',
 'her',
 'little',
 'how',
 'good',
 'picture',
 'do',
 'them',
 'many',
 'we',
 'those',
 'make',
 'other',
 'never',
 'could',
 "don't",
 'me',
 'few',
 'character',
 'your',
 'way',
 'had',
 'does',
 'script',
 'best',
 'two',
 "doesn't"]

**Oraz 100 najrzadszych słów**

In [19]:
sorted_words[-1:-100:-1]

['holdout',
 'deliberations',
 'concocting',
 "case's",
 'quasi-code',
 'skipper',
 'reconnect',
 'flared',
 'aborigine',
 'repertory',
 "first's",
 'sequencing',
 'interlacing',
 'cadences',
 'coworker',
 'undershirt',
 'sleeveless',
 '25th',
 'remastering',
 're-recorded',
 'redesigned',
 'likens',
 'dam',
 'hoover',
 'reminisces',
 'ballgames',
 'mulligan',
 "sawyer's",
 'fellowman',
 'crummy',
 'imaged',
 'quiver',
 'environmentally',
 'rupture',
 'circumstantial',
 "prosecution's",
 'envoy',
 'flickers',
 'folios',
 'harps',
 'rose-hued',
 'adulterers',
 'geographers',
 'rota',
 'twenty-seventh',
 'donation',
 'simulators',
 'peep',
 'non-investigation',
 'pseudo-football',
 'clutching',
 'mini-review',
 'caging',
 'planetary',
 'crusher',
 'appliance',
 'overheats',
 'obnoxiousness',
 "adolescence's",
 'tormentors',
 'yokel',
 'renumbered',
 'delighting',
 'freeborn',
 "solo's",
 'branding',
 'despondently',
 'saleable',
 'coquettish',
 'quasi-cowboy',
 'clumps',
 'glazed',
 'lif

**Jak widać słowa te nie są związane z byciem pozytywną lub negatywną recenzją. Stąd wniosek, że należy odrzucić słowa o zbyt dużym lub zbyt małym frequency.**

**Następnie przyjrzyjmy się rozkładowi negatywnych i pozytywnych recenzji z wiedzą, że 0 odpowiada ocenie <=0.4, 1 ocenie pomiędzy 0.4 i 0.7 oraz 2 pozostałym ocenom**

In [20]:
data.groupby('label').describe()

Unnamed: 0_level_0,review,review,review,review
Unnamed: 0_level_1,count,unique,top,freq
label,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,1197,1184,it seems there's a serial killer on the loose ...,2
1,1915,1897,locally the ballad of jack has been attracting...,2
2,1894,1878,caught is a powerful character study and devas...,3


**Jak widać więcej jest pozytywnych niż negatywnych ocen**

## Ekstracja cech

In [23]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(ngram_range=(1,1), max_df=0.8, min_df=0.15)
X = vectorizer.fit_transform(data['review'])
X.toarray()

array([[2, 0, 0, ..., 1, 2, 0],
       [2, 1, 0, ..., 0, 2, 0],
       [2, 1, 0, ..., 1, 0, 0],
       ...,
       [0, 1, 3, ..., 2, 3, 1],
       [0, 0, 2, ..., 0, 2, 1],
       [3, 1, 0, ..., 0, 3, 1]], dtype=int64)

In [24]:
vectorizer.get_feature_names()

['about',
 'acting',
 'action',
 'actors',
 'after',
 'all',
 'almost',
 'also',
 'although',
 'always',
 'an',
 'another',
 'any',
 'anything',
 'around',
 'at',
 'audience',
 'average',
 'bad',
 'because',
 'been',
 'before',
 'being',
 'best',
 'better',
 'between',
 'big',
 'both',
 'by',
 'can',
 'cast',
 'character',
 'characters',
 'cinematography',
 'come',
 'comedy',
 'comes',
 'could',
 'did',
 'director',
 'do',
 'does',
 'doesn',
 'don',
 'down',
 'end',
 'enjoyable',
 'enough',
 'even',
 'ever',
 'every',
 'excellent',
 'far',
 'feel',
 'few',
 'films',
 'find',
 'fine',
 'first',
 'from',
 'funny',
 'get',
 'give',
 'gives',
 'go',
 'going',
 'good',
 'great',
 'had',
 'hard',
 'has',
 'have',
 'he',
 'her',
 'here',
 'him',
 'his',
 'how',
 'however',
 'humor',
 'if',
 'interesting',
 'into',
 'isn',
 'its',
 'just',
 'kids',
 'kind',
 'know',
 'language',
 'last',
 'least',
 'less',
 'life',
 'like',
 'line',
 'little',
 'long',
 'look',
 'lot',
 'love',
 'made',
 'make

**W przypadku korzystania z Bernoulli Niave Bayes należy wszystkie wartości nie będące 0 zmienić na zera**