# MinHASH LSH

wyszukiwanie podobnych dokumentow i duplukatow uzywajac wyjątkowo małej reprezentacji dokumentów

In [1]:
# importujemy pyspark oraz tworzyny nowy kontekst (reprezentujący połączenie z serwerem spark). W tym przypadku
# serwer zostanie wystartowny automatycznie

import pyspark 
import pyspark.sql as psql

sc = pyspark.SparkContext()
spark_session = psql.SparkSession(sc)

Pierwszym krokiem jest tokenizacja [link](https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html]). Zrobimy to na zabawkowym przykładzie ale z wykorzystaniem rozproszenia oferowanego przez spark.

In [2]:
from pyspark.sql.functions import udf, col

# zbior dokumentow jako DataFrame a kazdy wiersz to bag-of-words

raw_docs = spark_session.createDataFrame([
    ("Ala ma kota a kot ma ale", ),
    ("Hania ma kangura ale nie ma kota", ),
    ("A to jest zupelnie inne zdanie", )
], ["text"])

raw_docs.show()

tokenizer = udf(lambda text: text.split()) #stworzmy tokenizer i zdefinujmy go jako user-defined-function

#nowa kolumna na podstawie 
tokenized_docs = raw_docs.withColumn('tokenized', tokenizer(col('text')))

tokenized_docs.show()
print (tokenized_docs.first())

+--------------------+
|                text|
+--------------------+
|Ala ma kota a kot...|
|Hania ma kangura ...|
|A to jest zupelni...|
+--------------------+

+--------------------+--------------------+
|                text|           tokenized|
+--------------------+--------------------+
|Ala ma kota a kot...|[Ala, ma, kota, a...|
|Hania ma kangura ...|[Hania, ma, kangu...|
|A to jest zupelni...|[A, to, jest, zup...|
+--------------------+--------------------+

Row(text='Ala ma kota a kot ma ale', tokenized='[Ala, ma, kota, a, kot, ma, ale]')


### Zadanie 1
wykorzystaj gotowy tokenizer z biblioteki ml.feature

In [3]:
import pyspark.ml.feature as feature

tokenizer = feature.Tokenizer(inputCol="text", outputCol="tokenized")

tokenized_docs = tokenizer.transform(raw_docs)

tokenized_docs.show()

# Przkład, na bazie którego się uczyłem (zakładka Python):
# https://spark.apache.org/docs/latest//ml-features.html#tokenizer

+--------------------+--------------------+
|                text|           tokenized|
+--------------------+--------------------+
|Ala ma kota a kot...|[ala, ma, kota, a...|
|Hania ma kangura ...|[hania, ma, kangu...|
|A to jest zupelni...|[a, to, jest, zup...|
+--------------------+--------------------+



Tak jak na zajęciach WDAM, pracowaliśmy z wektorową reprezentacją dokumentów [Vector-Space Model](https://en.wikipedia.org/wiki/Vector_space_model) tutaj zrobimy to samo przy uzyciu sparkowej biblioteki do uczenia maszynkowego (mllib), lecz zamiast znanego nam modelu TF-IDF uzyjemy skip-n-gram modelu [link](https://towardsdatascience.com/skip-gram-nlp-context-words-prediction-algorithm-5bbf34f84e0c) zaimplementowanego w obiekcie Word2Vec. Odsylam do dokumentacji [tutaj](https://spark.apache.org/docs/2.2.0/mllib-feature-extraction.html).

In [4]:
from pyspark.mllib.feature import Word2Vec

rdd = sc.parallelize( [
    "Ala ma kota a kot ma ale".lower().split(' '),
    "Hania ma kangura ale nie ma kota".lower().split(' '), 
    "A to jest zupelnie inne zdanie".lower().split(' ') ])
#mozemy uzyc pre-trenowanego modelu, ale w konteksice naszego problemu o wiele lepiej znalezc parametry modelu samemu
model = Word2Vec().setVectorSize(4).setMinCount(1)
model = model.fit(rdd)

print ('Zobaczmy jak wyglada wektorowa reprezentacja slow:')
print (model.getVectors())

#reprezentacja slowa jest zwrona jako gestwy wektor wielkosci 3
model.transform('ala')

Zobaczmy jak wyglada wektorowa reprezentacja slow:
{'nie': [-0.12096006, -0.07376015, 0.06414847, -0.054982137], 'kangura': [-0.092503026, -0.041992985, 0.05138157, 0.049292855], 'inne': [0.05887832, -0.07352105, 0.12002677, -0.04434246], 'jest': [-0.049551904, -0.09689385, -0.06582698, 0.103375256], 'a': [0.086889826, 0.080413036, 0.039353184, 0.055977847], 'zupelnie': [0.10638169, -0.092406146, 0.11710746, 0.015190171], 'ma': [-0.0801062, -0.12025679, 0.08287904, -0.084533386], 'to': [-0.02409116, -0.07899488, 0.09550898, 0.12307345], 'kota': [0.068966985, 0.07459682, 0.12357131, -0.038191374], 'ale': [-0.061938643, -0.08345687, 0.11839861, -0.054773048], 'kot': [-0.0077602034, -0.0011759367, 0.11759224, 0.0828641], 'ala': [0.10962323, -0.0016566998, 0.104222566, 0.008013899], 'hania': [0.096656516, 0.107498996, 0.11271782, 0.040471867], 'zdanie': [-0.07931474, 0.11996545, -0.00759946, 0.084347636]}


DenseVector([0.1096, -0.0017, 0.1042, 0.008])

W naszym zabawkowym przykladzie Vec2Model jest zbyt zlozonym modelem. Sprobjmy wykorzystac bardzo prosta reprezetancje wektorowa zliczajaca slowa w dokumencie 

In [5]:
from pyspark.ml.feature import CountVectorizer

cv_model = CountVectorizer(inputCol='tokenized', outputCol='features', 
                            minDF=1.0, vocabSize=100)
cv_model = cv_model.fit(tokenized_docs)
features_df = cv_model.transform(tokenized_docs)

features_df.show()

print (features_df.head())
print (cv_model.vocabulary)
print ('\nPierwszy dokument ma nastepujace zakodowane (w postaci rzadkiej reprezentacji) slowa')
print (features_df.first()['features'])
print ('to jest obiekt sparseVector, ktory reprezentuje wiersz rzadkiej macierzy o 14-tu kolumnach z wartosciami niezerowymi w [0,1,2,3,6,8]')

+--------------------+--------------------+--------------------+
|                text|           tokenized|            features|
+--------------------+--------------------+--------------------+
|Ala ma kota a kot...|[ala, ma, kota, a...|(14,[0,1,2,3,5,12...|
|Hania ma kangura ...|[hania, ma, kangu...|(14,[0,2,3,4,8,9]...|
|A to jest zupelni...|[a, to, jest, zup...|(14,[1,6,7,10,11,...|
+--------------------+--------------------+--------------------+

Row(text='Ala ma kota a kot ma ale', tokenized=['ala', 'ma', 'kota', 'a', 'kot', 'ma', 'ale'], features=SparseVector(14, {0: 2.0, 1: 1.0, 2: 1.0, 3: 1.0, 5: 1.0, 12: 1.0}))
['ma', 'a', 'kota', 'ale', 'nie', 'ala', 'zupelnie', 'to', 'kangura', 'hania', 'zdanie', 'inne', 'kot', 'jest']

Pierwszy dokument ma nastepujace zakodowane (w postaci rzadkiej reprezentacji) slowa
(14,[0,1,2,3,5,12],[2.0,1.0,1.0,1.0,1.0,1.0])
to jest obiekt sparseVector, ktory reprezentuje wiersz rzadkiej macierzy o 14-tu kolumnach z wartosciami niezerowymi w [0,1,2,3

In [6]:
from pyspark.ml.feature import MinHashLSH

mh_model = MinHashLSH(inputCol='features', outputCol='hashes', 
                      numHashTables=2)

#mh_model = MinHashLSH(inputCol='features', outputCol='hashes', numHashTables=6) #"startowo"

mh_model = mh_model.fit(features_df)

similarity = mh_model.approxSimilarityJoin(features_df, features_df, 1, distCol='JaccardDistance')

similarity.show()

+--------------------+--------------------+------------------+
|            datasetA|            datasetB|   JaccardDistance|
+--------------------+--------------------+------------------+
|[Ala ma kota a ko...|[Ala ma kota a ko...|               0.0|
|[Hania ma kangura...|[Hania ma kangura...|               0.0|
|[Ala ma kota a ko...|[Hania ma kangura...|0.6666666666666667|
|[Hania ma kangura...|[Ala ma kota a ko...|0.6666666666666667|
|[A to jest zupeln...|[A to jest zupeln...|               0.0|
+--------------------+--------------------+------------------+



### Zadanie 2
Jaka jest minimalna ilosc fukcji haszujacych aby wychwycic podobienstow 0.666(6) miedzy pierwszym a drugim dokumentem?

In [None]:
Minimalna ilość fukcji haszujacych, aby
wychwycić podobieństwo 0.(6) między pierwszym,
a drugim dokumentem to: numHashTables=2.
    
Dla numHashTables=1 JaccardDistance daje
jeszcze wszędzie 0.0.

### Zadanie 3
wykorzystaj mh_model.approxNearestNeighbors aby znalezc 'podobny' dokument do new_doc


In [13]:
import pyspark.ml.feature as feature
from pyspark.ml.feature import CountVectorizer

new_doc = "Ala ma psa a nie ma kota"

new_doc_df = spark_session.createDataFrame([(new_doc, )], ["text"])

tokenizer_new = feature.Tokenizer(inputCol="text", outputCol="tokenized")
tokenized_docs_new = tokenizer_new.transform(new_doc_df)
tokenized_docs_new.show()

new_doc_features = cv_model.transform(tokenized_docs_new)

ret = mh_model.approxNearestNeighbors(features_df, new_doc_features.first()['features'],  5)

for row in ret.collect():
    print ('Dokument: ' + row['text'] +', podobieśstwo: '+ str(row['distCol']))

+--------------------+--------------------+
|                text|           tokenized|
+--------------------+--------------------+
|Ala ma psa a nie ...|[ala, ma, psa, a,...|
+--------------------+--------------------+

dokument:Ala ma kota a kot ma ale, podobienstwo = 0.4285714285714286
dokument:Hania ma kangura ale nie ma kota, podobienstwo = 0.625


### Zadanie 4 (duże)

Pobierz zbior danych z rosyjskiej gazety pravda [link](http://fizyka.umk.pl/~mich/pravda_extracted.tar.gz) zebranej podczas ataku Rosji na Ukraine. 
* wczytaj te dokumenty do DataFrame
* zaaplikuj tokenizacje (sprobuje RegexTokenizer)
* usun duplikaty uzywajac MinHashLSH