# پیش پردازش متون فارسی با استفاده از فارسی‌یار

In [None]:
#https://app.text-mining.ir/CustomerPanel

In [1]:
import requests
import json

def callApi(url, data, tokenKey):
    headers = {
        'Content-Type': "application/json",
        'Authorization': "Bearer " + tokenKey,
        'Cache-Control': "no-cache"
    }
    response = requests.request("POST", url, data=data.encode("utf-8"), headers=headers)
    return response.text

##################### Get Token by Api Key ##########################


baseUrl = "http://api.text-mining.ir/api/"
url = baseUrl + "Token/GetToken"
querystring = {"apikey":"51f75c8d-367d-eb11-80ee-98ded002619b"}
response = requests.request("GET", url, params=querystring)
data = json.loads(response.text)
tokenKey = data['token']
#print (tokenKey)

# (Normalizer) نرمال ساز متن

In [2]:
baseUrl = "http://api.text-mining.ir/api/"
url =  baseUrl + "PreProcessing/NormalizePersianWord"
text = "ك - ک - می خواهم - ایده ی خوب"
payload = u"{\"text\":\""+text+"\", \"refineSeparatedAffix\":true}"
print(callApi(url, payload, tokenKey))

ک- ک- می‌خواهم- ایده‌ی خوب


# (Sentence Splitter and Tokenizer) تقطیع جملات و واژه ها

In [3]:
url =  baseUrl + "PreProcessing/SentenceSplitterAndTokenize"
payload = u'''{\"text\": \"او یک دانشجو است. در ایران درس میخواند\",

    \"checkSlang\": true,

    \"normalize\": true,

    \"normalizerParams\": {

        \"text\": \"don't care\",

        \"replaceWildChar\": true,

        \"replaceDigit\": true,

        \"refineSeparatedAffix\": true,

        \"refineQuotationPunc\": false

    },

    \"complexSentence\": true

}'''
print(callApi(url, payload, tokenKey))

[["او","یک","دانشجو","است","."],["در","ایران","درس","می‌خواند"]]


#  (Spell Correction) تصحیح خطای املایی

In [4]:
url =  baseUrl + "TextRefinement/SpellCorrector"
payload = u'''{\"text\": \"آب مبات خیلی چوشمزه ست\",

            \"checkSlang\": true,

            \"normalize\": true,

            \"candidateCount\": 3}'''
print(callApi(url, payload, tokenKey))

آب {نبات,مبرات,مباد} {خیلی,خلیلی,تخیلی} {چوش مزه,خوشمزه} {ست,است}


# تبدیل محاوره به رسمی
کلمات محاوره‌ای درون متن به شکل (معادل) رسمی آنها تبدیل می‌شود

In [5]:
url =  baseUrl + "TextRefinement/FormalConverter"
payload = u'''"میخوام بگم"'''
print(callApi(url, payload, tokenKey))

می‌خواهم بگویم


# تعیین برچسب نقش ادات سخن
این تابع عملیات برچسب زنی نقش (اسم، ضمیر، صفت، قید، فعل، …) کلمات در جمله را انجام می دهد

In [6]:
url =  baseUrl + "PosTagger/GetPos"
payload = u'"دانشجویان در کلاس هستند"'
result = json.loads(callApi(url, payload, tokenKey))
for phrase in result:
    print("("+phrase['word']+","+phrase['tags']['POS']['item1']+") ")

(دانشجویان,N) 
(در,P) 
(کلاس,N) 
(هستند,V) 
(.,) 


# ریشه‌یابی کلمات یا بن‌واژه‌یاب

In [7]:
url =  baseUrl + "Stemmer/LemmatizeWords2Phrase"
payload = u'["دریانوردانی", "جزایر", "فرشتگان", "تنها", "کتابها"]'
result = json.loads(callApi(url, payload, tokenKey))
for phrase in result:
    print("("+phrase['word']+":"+phrase['firstRoot']+") ")

(دریانوردانی:دریانورد) 
(جزایر:جزیره) 
(فرشتگان:فرشته) 
(تنها:تنها) 
(کتابها:کتاب) 


# NER تشخیص موجودیت های نامدار 

In [9]:
url =  baseUrl + "NamedEntityRecognition/Detect"
payload = u'"هانی محفوض به تحصیالت خود در دانشگاه اصفهان در ایران ادامه داد"'
result = json.loads(callApi(url, payload, tokenKey))
for phrase in result:
    print("("+phrase['word']+","+phrase['tags']['NER']['item1']+") ")

(هانی,B-PER) 
(محفوض,I-PER) 
(به,O) 
(تحصیالت,O) 
(خود,O) 
(در,O) 
(دانشگاه,B-LOC) 
(اصفهان,I-LOC) 
(در,O) 
(ایران,B-LOC) 
(ادامه,O) 
(داد,O) 


# استخراج مترادف‌ها
این تابع کلمات هم‌معنی (معادل مفهومی) با کلمه ورودی در فرهنگ لغت‌های مختلف را برمی‌گرداند

In [11]:
url =  baseUrl + "TextSimilarity/ExtractSynonyms"
payload = u"\"دوست\""
print(callApi(url, payload, tokenKey))

["دوست","آشنا","تاش","حبیب","حریف","حمیم","خلیل","یار","همدم","معشوق","رفیق","صدوق","صدیق","محب","محبوب","مصاحب","معاشر","ولی","ولی‌","دوستی","ایاغ","عیاق","رفاقت","ایاق"]


# شناسایی نوع زبان

In [12]:
url =  baseUrl + "LanguageDetection/Predict"
payload = u'"I go to school"'
print(callApi(url, payload, tokenKey))

en
