# Demo for Text Summarization

## English and Arabic

### Steps
1. Preprocessing
    * Split text to sentences
    * Get Sentences Tokens
    * Remove stop words
2. Loading Word2Vec
3. Define a threshold
4. Identify Centroid Sentence
5. TF-IDF 
6. Similarity between all phrases and centroid sentence
7. Sort and Select the phrases with high similarity
8. Rearrange following the original order

### Import Packages

In [1]:
from sumrized import Sumrized 
import gensim.models.keyedvectors as word2vec
from helper import Helper
import nltk, os

### Article Language

In [2]:
lang = "ar"

### Loading Word2Vec

#### Path to word2vec folder

In [3]:
tools = 'path/to/word2vec/folder'
tools = 'tools/' # in my case, the folder './tools/' contain simlinks

#### English


In [4]:
word2vecEnPath = tools + 'wiki.en/wiki.en.vec'
word2vecEn = word2vec.KeyedVectors.load_word2vec_format(word2vecEnPath, 
                                                      binary=True, 
                                                      unicode_errors='ignore',
                                                      limit=50000
                                                       )

#### Arabic

In [5]:
word2vecArPath = tools + 'wiki.ar/wiki.ar.vec' 
word2vecAr = word2vec.KeyedVectors.load_word2vec_format(word2vecArPath, 
                                                      binary=True, 
                                                      unicode_errors='ignore',
                                                      limit=50000)

In [6]:
word2vec = word2vecEn if lang=="en" else word2vecAr

### Preprocessing

In [7]:
help = Helper(lang=lang)
testingArticles = [
    'article1.txt',
    'article2.txt',
    'article3.txt',
    'article4.txt',
    'article5.txt'
]
articlePath = 'articles/'+lang+'/'+testingArticles[3]
content = help.getArticleContent(articlePath)

### Define Summary size (percent %)

In [8]:
sentences = help.getArticleSentences(content)
summarySize = 30 # [10, 100]
limit = ( summarySize * len(sentences) ) / 100

### Generate Summary

In [9]:
sumrized = Sumrized(lang, word2vec)
summary = sumrized.summarize(content, limit)
summary

'عندما عاد المنتخب الوطني من مونديال البرازيل 2014 بتأهل تاريخي للدور الثاني، كنت أعتقد يومها وبصدق أن الكرة الجزائرية ستعطي دفعا كبيرا لكل الرياضات الأخرى من أجل التألق، بغية المساهمة في رفع الراية الوطنية في مختلف المنافسات الإقليمية والدولية، خاصة أن جميع الجزائريين ودون استثناء وضعوا ثقتهم كاملة في المسؤولين الذين أوكلت إليهم مهمة تسيير الرياضة الجزائرية. لكن الحقيقة المرة التي لا بد من أن نقف عندها اليوم هي أن الرياضة الجزائرية تراجعت كثيرا جراء الصراعات بين أبناء وطن واحد، ما تسبب في تقهقرها بشكل يدعو إلى الخوف والقلق، وهذا رغم الإمكانات التي تمنحها الدولة الجزائرية لهذا القطاع، والأموال الطائلة التي وجهت إلى العديد من المشاريع التي بقيت إلى يومنا هذا معطلة إلى إشعار آخر، ولن تعرف الفرج ما لم يجد صُنّاع القرار حلولا سريعة لإنقاذ ما يمكن إنقاذه.'