# How to work with Hazm

In [None]:
import pandas as pd
import os
import pathlib
import pyarrow

In [None]:

path = 'e:/data/advertor_phoneless_imbalance_r60_p40_1400/'

file_path_dict = {
    'advertor': path+'Advertor_Advers_Imbalance_R60_P40_1400_1.parquet'}

df_list = []
for source, filepth in file_path_dict.items():
    df = pd.read_parquet(filepth,  engine='pyarrow')
    df_list.append(df[['AdverText', 'City_Id', 'IsRealtor_New']])

df = pd.concat(df_list)
print(df.iloc[0])
df.head()

In [None]:
from hazm import *

# Transform a text into a standard form.
print(Normalizer().normalize("چه گل های زیبایی."))
# چه گل‌های زیبایی

# Extract the root of word (more speed, less accuracy).
print(Stemmer().stem("کتاب‌هایشان"))
# کتاب

# Extract the root of word (more accuracy, less speed).
print(Lemmatizer().lemmatize("می‌روم"))
# رفت#رو

# Split text into individual sentences.
print(SentenceTokenizer().tokenize("بسیار خوشحال بود! پرسید، چرا دیروز نیامدی ؟"))
# ['پرسید، چرا دیروز نیامدی ؟','! بسیار خوشحال بود']

# Split text into individual words.
print(WordTokenizer().tokenize("پرسید، چرا دیروز نیامدی؟"))
# ['پرسید', '،', 'چرا', 'دیروز', 'نیامدی', '؟']

# Assigns parts of speech to each word, such as noun, verb, adjective, etc.
tagger = POSTagger(model='resources/postagger.model')
print(tagger.tag(WordTokenizer().tokenize("ما بسیار کتاب می‌خوانیم")))
# [('ما', 'PRO'), ('بسیار', 'ADV'), ('کتاب', 'N'), ('می‌خوانیم', 'V')]

# Segments a sentence into its subconstituents, such as noun (NP), verb (VP), etc.
chunker = Chunker(model='resources/chunker.model')
tagged = tagger.tag(word_tokenize('کتاب خواندن را دوست داریم'))
tree2brackets(chunker.parse(tagged))
# '[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'

# Identify semantic relations between words in a sentence.
parser = DependencyParser(tagger=tagger, lemmatizer=lemmatizer)
parser.parse(word_tokenize('زنگ‌ها برای که به صدا درمی‌آید؟'))
# <DependencyGraph with 8 nodes>