# Turkish News Category Classification (2. Feature Extraction)
## Import Packages

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import pickle

In [2]:
PATH_ROOT = r'../' 

#  load dataset
def load_data(path):
    with open(PATH_ROOT + path, 'rb') as handle:
        dataset = pickle.load(handle)
    return dataset

## Load Cleaned Train&Test Dataset

In [3]:
df_train = load_data(r"datasets/interpress_news_category_tr_lite_train_cleaned.pkl")
df_test = load_data(r"datasets/interpress_news_category_tr_lite_test_cleaned.pkl")

df_all = pd.concat([df_train, df_test], ignore_index=True)

In [4]:
df_test

Unnamed: 0,content,category,clean_content
0,50 yıldır yükselen enerji: Aygaz TÜRK HALKINI ...,1,yıldır yükselen enerji aygaz türk halkini tüpg...
1,Onur Akyıl Bir insan kadar mutsuzBir insan kad...,0,onur akyıl insan mutsuzbir insan mutsuzi onur ...
2,. yolculuk GÜNEYLİ SARIŞIN: REESE WITHERSPOON ...,0,yolculuk güneyli̇ sarişin reese witherspoon ya...
3,Doğru tercih yapan hiçbir aday açıkta kalmayac...,3,doğru tercih yapan aday açıkta kalmayacak aday...
4,De Jong için sıraya girdiler SERİE A ekipler...,5,jong sıraya girdiler seri̇e ekiplerinden lan b...
...,...,...,...
54716,"SAMBACI JAJA ALKOL ENGELİNE TAKILDI .m, TRABZO...",5,sambaci jaja alkol engeli̇ne takildi trabzonsp...
54717,"Gıda Tarım ve Hayvancılık Bakanı Faruk Çelik, ...",1,gıda tarım hayvancılık bakanı faruk çelik ekme...
54718,PANORAMA Uftk. Uluslararası Whitley Doğa Korum...,0,panorama uftk uluslararası whitley doğa koruma...
54719,Patates tüketiminin artırılması hedefleniyor A...,1,patates tüketiminin artırılması hedefleniyor a...


In [5]:
df_train

Unnamed: 0,content,category,clean_content
0,Tarihten Sınıfta Kaldık Bugün tarihe damgasını...,0,tarihten sınıfta kaldık bugün tarihe damgasını...
1,"clş ve yatırım ortamı iyileştiriliyor, bürokra...",1,clş yatırım ortamı iyileştiriliyor bürokrasi a...
2,Animasyon meraklıları için! Yönetmen: Jennifer...,0,animasyon meraklıları yönetmen jenniferyuh ses...
3,İTİ BEEF JJ SVftSL ff 44 BEEFSFISH 16)2016...,0,i̇ti̇ beef svftsl beefsfish kirmizi eti̇n fran...
4,LPG Dolum - Boşaltım kursu KTSO da yapıldı Kar...,1,lpg dolum boşaltım kursu ktso yapıldı karaman ...
...,...,...,...
218875,Begüm-Mert Yazıcıoğiu çiftinin ikinci bebekler...,7,begümmert yazıcıoğiu çiftinin ikinci bebekleri...
218876,AKRAPOVIC FULL MOON Fiyat açıklanmadı (konsept...,6,akrapovic full moon fiyat açıklanmadı konsept ...
218877,Babil gibi bal Notlar Bugün Şenkaya ilçesine b...,0,babil bal notlar bugün şenkaya ilçesine bağlı ...
218878,ÇEVRE İSTATİSTİKLERİNİN ÖZETLERİ YAYINLANDI Tü...,1,çevre i̇stati̇sti̇kleri̇ni̇n özetleri̇ yayinla...


In [6]:
df_all

Unnamed: 0,content,category,clean_content
0,Tarihten Sınıfta Kaldık Bugün tarihe damgasını...,0,tarihten sınıfta kaldık bugün tarihe damgasını...
1,"clş ve yatırım ortamı iyileştiriliyor, bürokra...",1,clş yatırım ortamı iyileştiriliyor bürokrasi a...
2,Animasyon meraklıları için! Yönetmen: Jennifer...,0,animasyon meraklıları yönetmen jenniferyuh ses...
3,İTİ BEEF JJ SVftSL ff 44 BEEFSFISH 16)2016...,0,i̇ti̇ beef svftsl beefsfish kirmizi eti̇n fran...
4,LPG Dolum - Boşaltım kursu KTSO da yapıldı Kar...,1,lpg dolum boşaltım kursu ktso yapıldı karaman ...
...,...,...,...
273596,"SAMBACI JAJA ALKOL ENGELİNE TAKILDI .m, TRABZO...",5,sambaci jaja alkol engeli̇ne takildi trabzonsp...
273597,"Gıda Tarım ve Hayvancılık Bakanı Faruk Çelik, ...",1,gıda tarım hayvancılık bakanı faruk çelik ekme...
273598,PANORAMA Uftk. Uluslararası Whitley Doğa Korum...,0,panorama uftk uluslararası whitley doğa koruma...
273599,Patates tüketiminin artırılması hedefleniyor A...,1,patates tüketiminin artırılması hedefleniyor a...


In [7]:
df_all.shape

(273601, 3)

### TF-IDF Word Vectors (2000 Features)

In [8]:
#  word vectorizer and fit
vectorizer_word = TfidfVectorizer(max_features=2000, analyzer='word', ngram_range = (1,3), min_df=3, sublinear_tf=1)
featured_tfidf_word = vectorizer_word.fit(df_all['clean_content'])

#  save word vectorize
with open(PATH_ROOT + 'vectors/interpress_news_category_tr_lite_train_cleaned_tfidf_word_2000.pkl', 'wb') as handle:
    pickle.dump(featured_tfidf_word, handle, protocol=pickle.HIGHEST_PROTOCOL)
print("word feature extracted")

word feature extracted


In [9]:
del vectorizer_word
del featured_tfidf_word

### TF-IDF Char Vectors (2000 Features)

In [14]:
#  char vectorizer and fit the data
vectorizer_char = TfidfVectorizer(max_features=2000, analyzer='char', ngram_range = (2,6), sublinear_tf=True, min_df=3)
featured_tfidf_char = vectorizer_char.fit(df_all['clean_content'])
print("char feature extracted")

#  save char vectorizer
with open(PATH_ROOT + 'vectors/interpress_news_category_tr_lite_train_cleaned_tfidf_char_2000.pkl', 'wb') as handle:
    pickle.dump(featured_tfidf_char, handle, protocol=pickle.HIGHEST_PROTOCOL)

char feature extracted


In [15]:
del vectorizer_char
del featured_tfidf_char