# Text mining

Pobierz dokumentów ze zbioru tekstów z list dyskusyjnych (http://qwone.com/~jason/20Newsgroups/) – podziel je jako na część uczącą i testującą i dokonaj klasyfikacji zbioru testującego z użyciem algorytmu najbliższego sąsiada (odległość euklidesowa). Jak zmieni się ona dla:
a)	zmiany liczby sąsiadów k=1, 5, 10
b)	zmiany metryki
c)	zapisu macierzy wystąpień słów w postaci TF-IDF
Do zbioru możemy się „dobrać” na dwa sposoby – ściągnąć manualnie (sekcja Matlab/Octave; 20news-bydate-matlab.tgz) albo, tylko w Pythonie, z użyciem sklearn.datasets.fetch_20newsgroups, potem HashingVectorizer – by uzyskać macierz częstości słów). Potem dla TF-IDF: http://www.cad.zju.edu.cn/home/dengcai/Data/code/tfidf.m (MATLAB) lub TfidfTransformer (Python)

Uwagi
W Pythonie mamy funkcję pozwalającą na ściągnięcie obu części zbioru. Jest też funkcja pobierająca dane tekstowe w postaci zwektoryzowanej (ale jedynie TF). 
W przypadku manualnego ściągnięcia; możemy skorzystać tylko ze zbioru testowego:
Plik zawiera pliki test.data i test.label. Oba pliki definiują zbiór tekstów wiadomości z 20 różnych list dyskusyjnych (listę słów w słowniku można znaleźć w pliku vocabulary.txt, a list dyskusyjnych – test.map). 
Pierwszy z plików (test.data) opisuje wystąpienia słów w poszczególnych dokumentach, wg. wzorca:
DOKUMENT ID_SŁOWA CZĘSTOŚĆ
Drugi (test.label) każdemu dokumentowi przypisuje etykietę listy. 
W Matlabie aby uzyskać reprezentację częstości słów trzeba wczytane trójki przekonwertować 
S = spconvert(T)
S jest macierzą wystąpień słów (tzn. wiersz to wiadomość, kolumna – wystąpienia słów). Podobna funkcja w Pythonie to coo_matrix. 

In [1]:
import pandas as pd
from sklearn.datasets import fetch_20newsgroups

In [2]:
newsgroups_train = fetch_20newsgroups(subset='train')

In [3]:
newsgroups_train

{'data': ["From: lerxst@wam.umd.edu (where's my thing)\nSubject: WHAT car is this!?\nNntp-Posting-Host: rac3.wam.umd.edu\nOrganization: University of Maryland, College Park\nLines: 15\n\n I was wondering if anyone out there could enlighten me on this car I saw\nthe other day. It was a 2-door sports car, looked to be from the late 60s/\nearly 70s. It was called a Bricklin. The doors were really small. In addition,\nthe front bumper was separate from the rest of the body. This is \nall I know. If anyone can tellme a model name, engine specs, years\nof production, where this car is made, history, or whatever info you\nhave on this funky looking car, please e-mail.\n\nThanks,\n- IL\n   ---- brought to you by your neighborhood Lerxst ----\n\n\n\n\n",
  "From: guykuo@carson.u.washington.edu (Guy Kuo)\nSubject: SI Clock Poll - Final Call\nSummary: Final call for SI clock reports\nKeywords: SI,acceleration,clock,upgrade\nArticle-I.D.: shelley.1qvfo9INNc3s\nOrganization: University of Washingto

In [4]:
newsgroups_test = fetch_20newsgroups(subset='test')

In [5]:
newsgroups_test

{'data': ['From: v064mb9k@ubvmsd.cc.buffalo.edu (NEIL B. GANDLER)\nSubject: Need info on 88-89 Bonneville\nOrganization: University at Buffalo\nLines: 10\nNews-Software: VAX/VMS VNEWS 1.41\nNntp-Posting-Host: ubvmsd.cc.buffalo.edu\n\n\n I am a little confused on all of the models of the 88-89 bonnevilles.\nI have heard of the LE SE LSE SSE SSEI. Could someone tell me the\ndifferences are far as features or performance. I am also curious to\nknow what the book value is for prefereably the 89 model. And how much\nless than book value can you usually get them for. In other words how\nmuch are they in demand this time of year. I have heard that the mid-spring\nearly summer is the best time to buy.\n\n\t\t\tNeil Gandler\n',
  'From: Rick Miller <rick@ee.uwm.edu>\nSubject: X-Face?\nOrganization: Just me.\nLines: 17\nDistribution: world\nNNTP-Posting-Host: 129.89.2.33\nSummary: Go ahead... swamp me.  <EEP!>\n\nI\'m not familiar at all with the format of these "X-Face:" thingies, but\nafter se

In [6]:
from sklearn.feature_extraction.text import HashingVectorizer

In [7]:
hvectorizer = HashingVectorizer() 
X = hvectorizer.fit_transform(newsgroups_test)

In [8]:
X.shape

(5, 1048576)

## zmiany liczby sąsiadów k=1, 5, 10

In [9]:
from sklearn.neighbors import NearestNeighbors
nbrs = NearestNeighbors(n_neighbors=1).fit(X)
distances, indices = nbrs.kneighbors(X)
distances

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.]])

In [10]:
indices

array([[0],
       [1],
       [2],
       [3],
       [4]], dtype=int64)

In [11]:
nbrs = NearestNeighbors(n_neighbors=5).fit(X)
distances, indices = nbrs.kneighbors(X)

In [12]:
distances

array([[0.        , 1.41421356, 1.41421356, 1.41421356, 1.41421356],
       [0.        , 1.41421356, 1.41421356, 1.41421356, 1.41421356],
       [0.        , 1.41421356, 1.41421356, 1.41421356, 1.41421356],
       [0.        , 1.41421356, 1.41421356, 1.41421356, 1.41421356],
       [0.        , 1.41421356, 1.41421356, 1.41421356, 1.41421356]])

In [13]:
indices

array([[0, 1, 2, 3, 4],
       [1, 0, 2, 3, 4],
       [2, 0, 1, 3, 4],
       [3, 0, 1, 2, 4],
       [4, 0, 1, 2, 3]], dtype=int64)

In [14]:
nbrs = NearestNeighbors(n_neighbors=10).fit(X)
distances, indices = nbrs.kneighbors(X)

ValueError: Expected n_neighbors <= n_samples,  but n_samples = 5, n_neighbors = 10

In [None]:
distances

In [None]:
indices

## zapisu macierzy wystąpień słów w postaci TF-IDF

In [20]:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
tfIdfTransformer = TfidfTransformer(use_idf=True)
countVectorizer = CountVectorizer()
wordCount = countVectorizer.fit_transform(newsgroups_test)
newTfIdf = tfIdfTransformer.fit_transform(wordCount)
df = pd.DataFrame(newTfIdf[0].T.todense(), index=countVectorizer.get_feature_names(), columns=["TF-IDF"])
df = df.sort_values('TF-IDF', ascending=False)
print (df.head(25))

              TF-IDF
data             1.0
descr            0.0
filenames        0.0
target           0.0
target_names     0.0
