In [1]:
import os
import pandas as pd

pd.set_option('display.max_rows', None)
pd.set_option("max_colwidth", None)

In [2]:
# DergiPark 

In [3]:
df_dict = {}
folder_names = os.listdir("DergiPark/dataset_csv")

for folder in folder_names:
    df_dict[folder] = pd.read_csv(f"DergiPark/dataset_csv/{folder}/{folder}_all.csv")

DP_all = pd.concat(df_dict.values())

In [4]:
DP_all.info()

<class 'pandas.core.frame.DataFrame'>
Index: 21020 entries, 0 to 48
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Page_Number      21020 non-null  int64 
 1   Searching        21020 non-null  object
 2   Article_Name     21020 non-null  object
 3   Article_Journal  20993 non-null  object
 4   Article_Volume   20940 non-null  object
 5   Article_PDF_URL  20916 non-null  object
dtypes: int64(1), object(5)
memory usage: 1.1+ MB


In [5]:
# Drop null values (in PDF)

In [6]:
DP_all = DP_all.dropna(subset = ["Article_PDF_URL"])
DP_all.reset_index(drop = True,inplace = True)

In [7]:
DP_all.sample(1)

Unnamed: 0,Page_Number,Searching,Article_Name,Article_Journal,Article_Volume,Article_PDF_URL
5743,25,Hak,Vatandaşların Anayasal Hak ve Özgürlüklerinin Korunmasında Belarus Anayasa Mahkemesi’nin Rolü,Anayasa Yargısı,Cilt: 28 Sayı: 1,https://dergipark.org.tr/tr/download/article-file/939410


In [8]:
# Drop duplicated (in PDF)

In [9]:
DP_all.duplicated(subset = ["Article_PDF_URL"]).sum()

4254

In [10]:
DP_all.drop_duplicates(subset = ["Article_PDF_URL"], inplace=True)
DP_all.reset_index(drop = True,inplace = True)

In [11]:
DP_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16662 entries, 0 to 16661
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Page_Number      16662 non-null  int64 
 1   Searching        16662 non-null  object
 2   Article_Name     16662 non-null  object
 3   Article_Journal  16662 non-null  object
 4   Article_Volume   16611 non-null  object
 5   Article_PDF_URL  16662 non-null  object
dtypes: int64(1), object(5)
memory usage: 781.2+ KB


In [12]:
DP_vCount = DP_all.Article_Journal.value_counts()

In [13]:
DP_vCount.head()

Article_Journal
İstanbul Üniversitesi Hukuk Fakültesi Mecmuası                      1066
Marmara Üniversitesi Hukuk Fakültesi Hukuk Araştırmaları Dergisi     897
Ankara Hacı Bayram Veli Üniversitesi Hukuk Fakültesi Dergisi         770
Milletlerarası Hukuk ve Milletlerarası Özel Hukuk Bülteni            703
Ankara Üniversitesi Hukuk Fakültesi Dergisi                          669
Name: count, dtype: int64

In [14]:
total = 0
for i in range(1,5):
    total += (i*len(DP_vCount[DP_vCount == i]))

In [15]:
total

1716

In [16]:
drop_less = DP_vCount[DP_vCount < 5].index

In [17]:
DP_cleared = DP_all[~DP_all["Article_Journal"].isin(drop_less)]

In [18]:
DP_cleared.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14946 entries, 0 to 16661
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Page_Number      14946 non-null  int64 
 1   Searching        14946 non-null  object
 2   Article_Name     14946 non-null  object
 3   Article_Journal  14946 non-null  object
 4   Article_Volume   14903 non-null  object
 5   Article_PDF_URL  14946 non-null  object
dtypes: int64(1), object(5)
memory usage: 817.4+ KB


In [19]:
DP_cleared["Source"] = "DergiPark"

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  DP_cleared["Source"] = "DergiPark"


In [20]:
DP_cleared.sample(10)

Unnamed: 0,Page_Number,Searching,Article_Name,Article_Journal,Article_Volume,Article_PDF_URL,Source
12929,393,Hukuk,Tasarruf Finansman Sözleşmesi,Necmettin Erbakan Üniversitesi Hukuk Fakültesi Dergisi,Cilt: 4 Sayı: 2,https://dergipark.org.tr/tr/download/article-file/1769674,DergiPark
7857,152,Hukuk,Yüklenicinin Eserde Meydana Gelen Ayıplardan Sorumlu Olmadığı Haller,Maltepe Üniversitesi Hukuk Fakültesi Dergisi,Sayı: 2,https://dergipark.org.tr/tr/download/article-file/2857372,DergiPark
1955,82,Adalet,‘Doğu Sorunu’ ve ‘Sosyal Adalet:’ Talebi Bağlamında Alman Radikal Solu ve PDS (1990-2007),Ankara Üniversitesi SBF Dergisi,Cilt: 76 Sayı: 1,https://dergipark.org.tr/tr/download/article-file/1157596,DergiPark
9696,239,Hukuk,Bağlılık Kuralı Kapsamında Nitelikli Hallerin Suç Ortaklarına Etkisi,İstanbul Medeniyet Üniversitesi Hukuk Fakültesi Dergisi,Cilt: 8 Sayı: 2,https://dergipark.org.tr/tr/download/article-file/3397882,DergiPark
5159,26,Hukuk,TÜRK HUKUKUNDA İSNADIN İSPATI HAKKININ ÇOK BOYUTLU HUKUK KAVRAYIŞI BAKIMINDAN ANALİZİ,İstanbul Üniversitesi Hukuk Fakültesi Mecmuası,Cilt: 72 Sayı: 1,https://dergipark.org.tr/tr/download/article-file/97893,DergiPark
12870,390,Hukuk,AVRUPA VATANDAŞLIK SÖZLEŞMESİ VE\r\nKKTC YURTTAŞLIK HUKUKUNDA\r\nYURTTAŞLIĞIN KAYBI,Dokuz Eylül Üniversitesi Hukuk Fakültesi Dergisi,Cilt: 19 Sayı: 1,https://dergipark.org.tr/tr/download/article-file/753615,DergiPark
10229,265,Hukuk,Anonim Şirketlerde Tek Pay Sahibinin Genel Kurulu Toplantıya Çağrı Yetkisi (TTK m. 410/II),Ankara Hacı Bayram Veli Üniversitesi Hukuk Fakültesi Dergisi,Cilt: 19 Sayı: 4,https://dergipark.org.tr/tr/download/article-file/789042,DergiPark
2377,15,Anayasa,"BİR KLASİK ESER OLARAK CARL SCHMİTT’İN “ANAYASA ÖĞRETİSİ""",İstanbul Üniversitesi Hukuk Fakültesi Mecmuası,Cilt: 73 Sayı: 1,https://dergipark.org.tr/tr/download/article-file/230778,DergiPark
12960,394,Hukuk,"H2000/43, 2000/78, 2006/54 SAYILI AB DİREKTİFLERİ ÇERÇEVESİNDE İŞ HUKUKUNDA AYRIMCILIKLA MÜCADELE VE TÜRKİYE’DEKİ UYGULAMALAR",Dokuz Eylül Üniversitesi Hukuk Fakültesi Dergisi,Cilt: 15 Özel Sayı,https://dergipark.org.tr/tr/download/article-file/756544,DergiPark
11910,345,Hukuk,Sözleşmenin Niteliğine ve İşin Özelliğine Yabancı Olan Genel İşlem Koşulları (6089 sayılı Tbk.M.21/2),İnönü Üniversitesi Hukuk Fakültesi Dergisi,Cilt: 3 Sayı: 1,https://dergipark.org.tr/tr/download/article-file/208406,DergiPark


In [21]:
# TRDizin

In [22]:
TRDizin_all = pd.read_csv("TRDizin/dataset/dataset_csv.csv")

In [23]:
TRDizin_all.sample(10)

Unnamed: 0,Page_Number,Article_Name,Article_Journal,Article_PDF_URL,Article_Detail
2724,28,BANGLADEŞMYANMAR DENİZ ALANLARININ SINIRLANDIRILMASI DAVASI IŞIĞINDA ULUSLARARASI DENİZ HUKUKU MAHKEMESİ'NİN KURULUŞUNA İLİŞKİN BİR DEĞERLENDİRME,Ankara Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('fc988d07-84d8-4815-a99a-bbabd99dd9d1', '184328');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/184328/bangladesmyanmar-deniz-alanlarinin-sinirlandirilmasi-davasi-isiginda-uluslararasi-deniz-hukuku-mahkemesinin-kurulusuna-iliskin-bir-degerlendirme
2101,22,İDARİ YARGILAMA HUKUKUNDA MAHKEME KARARLARININ AÇIKLANMASI,Selçuk Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('2e65d56d-8089-403a-b719-6316644c0951', '279722');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/279722/idari-yargilama-hukukunda-mahkeme-kararlarinin-aciklanmasi
2785,28,TÜRK BORÇLAR KANUNU VE OLE LANDO İLKELERİ'NDE SÖZLEŞMENİN DEVRİ,İnönü Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('ba7eaaa9-7013-4739-afab-3823f3664f9e', '240688');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/240688/turk-borclar-kanunu-ve-ole-lando-ilkelerinde-sozlesmenin-devri
2963,30,AB vatandaşlığının ab içerisinde serbest dolaşım ve ikamet hakkı yönünden temel statü olması,Türkiye Adalet Akademisi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('bd5fddee-4692-457f-b4f1-0b62ac4c2f42', '158786');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/158786/ab-vatandasliginin-ab-icerisinde-serbest-dolasim-ve-ikamet-hakki-yonunden-temel-statu-olmasi
2725,28,KARDEŞLER ARASINDA NAFAKA YÜKÜMLÜLÜĞÜ,Ankara Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('ccec7ade-39a5-4ca0-9af9-ce41aa8e2d33', '184290');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/184290/kardesler-arasinda-nafaka-yukumlulugu
857,9,TÜRK İDARİ YARGI SİSTEMİNDE DAVALARIN\rBİRLEŞTİRİLMESİ USULÜ ÜZERİNE BİR İNCELEME,Akdeniz Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('c0480984-a3f4-4423-a9ce-59838cc41573', '509855');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/509855/turk-idari-yargi-sisteminde-davalarin-birlestirilmesi-usulu-uzerine-bir-inceleme
349,4,KONUT VE ÇATILI İŞYERİ KİRALARINDA KİRA BEDELİNDE ARTIŞA İLİŞKİN 7161 SAYILI KANUN’LA GETİRİLEN DEĞİŞİKLİKLERİN DEĞERLENDİRİLMESİ,SÜLEYMAN DEMİREL ÜNİVERSİTESİ HUKUK FAKÜLTESİ DERGİSİ,"<a class=""me-4"" href=""javascript:openPDF('b987bb4d-d794-4033-a2d4-6e55c9c6363c', '524215');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/524215/konut-ve-catili-isyeri-kiralarinda-kira-bedelinde-artisa-iliskin-7161-sayili-kanunla-getirilen-degisikliklerin-degerlendirilmesi
1465,15,İSVİÇRE BORÇLAR VE TİCARET HUKUKUNDA ZAMANAŞIMI REVİZYONU,Ankara Hacı Bayram Veli Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('df6940be-317a-4808-be75-9870f6454161', '375836');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/375836/isvicre-borclar-ve-ticaret-hukukunda-zamanasimi-revizyonu
2108,22,"AVRUPA BİRLİĞİ KONSEYİ 2016/1104 SAYILI TÜZÜK HÜKÜMLERİ ÇERÇEVESİNDE KAYITLI BİRLİKTELİK KURMUŞ ÇİFTLERİN MALVARLIĞINA UYGULANACAK HUKUK, YETKİLİ MAHKEME ve TANIMA-TENFİZ MESELELERİ",İnönü Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('c9758f82-cbd9-47ca-b72c-b7bee372d784', '277351');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/277351/avrupa-birligi-konseyi-20161104-sayili-tuzuk-hukumleri-cercevesinde-kayitli-birliktelik-kurmus-ciftlerin-malvarligina-uygulanacak-hukuk-yetkili-mahkeme-ve-tanima-tenfiz-meseleleri
611,7,‘Çocuk Teslimi ve Çocukla Kişisel İlişki Kurulmasına İlişkin Mahkeme Kararlarının Yerine Getirilmesi: Karşılaştırmalı Hukuk ve 7343 Sayılı Kanun'un Getirdiği Değişiklikler Çerçevesinde Değerlendirmeler',Ankara Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('339b015b-31a2-43fb-8fbb-f3399885e46f', '1133455');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/1133455/cocuk-teslimi-ve-cocukla-kisisel-iliski-kurulmasina-iliskin-mahkeme-kararlarinin-yerine-getirilmesi-karsilastirmali-hukuk-ve-7343-sayili-kanunun-getirdigi-degisiklikler-cercevesinde-degerlendirmeler


In [24]:
TRDizin_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3580 entries, 0 to 3579
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Page_Number      3580 non-null   int64 
 1   Article_Name     3580 non-null   object
 2   Article_Journal  3580 non-null   object
 3   Article_PDF_URL  3580 non-null   object
 4   Article_Detail   3580 non-null   object
dtypes: int64(1), object(4)
memory usage: 140.0+ KB


In [25]:
TRDizin_all = TRDizin_all.dropna(subset = ["Article_PDF_URL"])
TRDizin_all = TRDizin_all.drop_duplicates(subset = ["Article_PDF_URL"])

In [26]:
TRDizin_cleared = TRDizin_all[TRDizin_all.Article_PDF_URL.str.find("aria") == -1]

In [27]:
TRDizin_cleared.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3227 entries, 0 to 3579
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Page_Number      3227 non-null   int64 
 1   Article_Name     3227 non-null   object
 2   Article_Journal  3227 non-null   object
 3   Article_PDF_URL  3227 non-null   object
 4   Article_Detail   3227 non-null   object
dtypes: int64(1), object(4)
memory usage: 151.3+ KB


In [28]:
TRDizin_cleared["Source"] = "TRDizin"

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  TRDizin_cleared["Source"] = "TRDizin"


In [29]:
TRDizin_cleared.sample(3)

Unnamed: 0,Page_Number,Article_Name,Article_Journal,Article_PDF_URL,Article_Detail,Source
1416,15,ANONİM ŞİRKET GENEL KURUL KARARININ İPTALİNDE DAVA DİLEKÇESİNİN ISLAHI,İnönü Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('f2f9964d-5598-49eb-8cd5-7526b23b97a9', '393656');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/393656/anonim-sirket-genel-kurul-kararinin-iptalinde-dava-dilekcesinin-islahi,TRDizin
1161,12,Amerikan Hukuk Sistemini Yerel Siyaset Üzerinden Okumak,Anadolu Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('5a0c6b0c-03ef-4703-931b-fb2b300c3591', '1055905');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/1055905/amerikan-hukuk-sistemini-yerel-siyaset-uzerinden-okumak,TRDizin
1726,18,ANONİM ŞİRKETLERDE PAY SAHİPLERİNİN TASFİYE PAYI ALMA HAKKI*,Ankara Hacı Bayram Veli Üniversitesi Hukuk Fakültesi Dergisi,"<a class=""me-4"" href=""javascript:openPDF('c4775ada-9320-4c82-96a1-d668181d937a', '317148');""> <i class=""far fa-file me-2""></i>Full Text </a>",https://search.trdizin.gov.tr/en/yayin/detay/317148/anonim-sirketlerde-pay-sahiplerinin-tasfiye-payi-alma-hakki,TRDizin


In [30]:
# Concat TRDizin and DergiPark

In [31]:
DP_cleared.columns

Index(['Page_Number', 'Searching', 'Article_Name', 'Article_Journal',
       'Article_Volume', 'Article_PDF_URL', 'Source'],
      dtype='object')

In [32]:
TRDizin_cleared.columns

Index(['Page_Number', 'Article_Name', 'Article_Journal', 'Article_PDF_URL',
       'Article_Detail', 'Source'],
      dtype='object')

In [33]:
all_sources = pd.concat([DP_cleared, TRDizin_cleared])

In [34]:
all_sources.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18173 entries, 0 to 3579
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Page_Number      18173 non-null  int64 
 1   Searching        14946 non-null  object
 2   Article_Name     18173 non-null  object
 3   Article_Journal  18173 non-null  object
 4   Article_Volume   14903 non-null  object
 5   Article_PDF_URL  18173 non-null  object
 6   Source           18173 non-null  object
 7   Article_Detail   3227 non-null   object
dtypes: int64(1), object(7)
memory usage: 1.2+ MB


In [35]:
all_sources.Article_Name = all_sources.Article_Name.str.lower()

In [36]:
all_sources.reset_index(drop = True, inplace = True)

In [37]:
# Look at duplicated

In [38]:
(all_sources.duplicated(subset = ["Article_Name"])).sum() # Check it is different sources

1584

In [39]:
duplicated = all_sources[all_sources.duplicated(subset = ["Article_Name"],keep = False)].sort_values("Article_Name")

In [40]:
duplicated.head(8)

Unnamed: 0,Page_Number,Searching,Article_Name,Article_Journal,Article_Volume,Article_PDF_URL,Source,Article_Detail
15012,1,,(birinci ve i̇kinci) cumhuriyetin korunmasına dair kanun,Türk-Alman Üniversitesi Hukuk Fakültesi Dergisi,,"<a class=""me-4"" href=""javascript:openPDF('123c85f5-9d8c-476c-a78b-d9510c50ef49', '1217528');""> <i class=""far fa-file me-2""></i>Full Text </a>",TRDizin,https://search.trdizin.gov.tr/en/yayin/detay/1217528/birinci-ve-ikinci-cumhuriyetin-korunmasina-dair-kanun
9264,253,Hukuk,(birinci ve i̇kinci) cumhuriyetin korunmasına dair kanun,Türk-Alman Üniversitesi Hukuk Fakültesi Dergisi,Cilt: 5 Sayı: 2,https://dergipark.org.tr/tr/download/article-file/3627685,DergiPark,
11687,371,Hukuk,.,İstanbul Üniversitesi Hukuk Fakültesi Mecmuası,Cilt: 73 Sayı: 2,https://dergipark.org.tr/tr/download/article-file/230756,DergiPark,
12311,400,Hukuk,.,İstanbul Üniversitesi Hukuk Fakültesi Mecmuası,Cilt: 74 Sayı: 1,https://dergipark.org.tr/tr/download/article-file/292227,DergiPark,
15166,3,,01.01.2020 tarihli i̇sviçre zamanaşımı hukuku revizyonu kapsamında i̇sviçre borçlar kanunu’nda haksız fiil ve sözleşme sorumluluğu zamanaşımı (özellikle ölüm ve bedensel zararlarda maddi ve manevi tazminat talepleri) (i̇sviçre borçlar kanunu (or) m. 60 ve or m. 128a),Marmara Üniversitesi Hukuk Fakültesi Hukuk Araştırmaları Dergisi,,"<a class=""me-4"" href=""javascript:openPDF('ae75d41e-c14b-406f-9194-0d5ecd0b7dd4', '1191205');""> <i class=""far fa-file me-2""></i>Full Text </a>",TRDizin,https://search.trdizin.gov.tr/en/yayin/detay/1191205/01012020-tarihli-isvicre-zamanasimi-hukuku-revizyonu-kapsaminda-isvicre-borclar-kanununda-haksiz-fiil-ve-sozlesme-sorumlulugu-zamanasimi-ozellikle-olum-ve-bedensel-zararlarda-maddi-ve-manevi-tazminat-talepleri-isvicre-borclar-kanunu-or-m-60-ve-or-m-128a
5476,71,Hukuk,01.01.2020 tarihli i̇sviçre zamanaşımı hukuku revizyonu kapsamında i̇sviçre borçlar kanunu’nda haksız fiil ve sözleşme sorumluluğu zamanaşımı (özellikle ölüm ve bedensel zararlarda maddi ve manevi tazminat talepleri) (i̇sviçre borçlar kanunu (or) m. 60 ve or m. 128a),Marmara Üniversitesi Hukuk Fakültesi Hukuk Araştırmaları Dergisi,Cilt: 29 Sayı: 1,https://dergipark.org.tr/tr/download/article-file/2964312,DergiPark,
16092,12,,19. ve 20. yüzyilda osmanli hukuk si̇stemi̇ni̇n irak’ta uygulanmasi,Yıldırım Beyazıt Hukuk Dergisi,,"<a class=""me-4"" href=""javascript:openPDF('33150b34-ed30-405a-a811-02d49fa209c8', '1114967');""> <i class=""far fa-file me-2""></i>Full Text </a>",TRDizin,https://search.trdizin.gov.tr/en/yayin/detay/1114967/19-ve-20-yuzyilda-osmanli-hukuk-sisteminin-irakta-uygulanmasi
4639,30,Hukuk,19. ve 20. yüzyilda osmanli hukuk si̇stemi̇ni̇n irak’ta uygulanmasi,Yıldırım Beyazıt Hukuk Dergisi,Sayı: 1,https://dergipark.org.tr/tr/download/article-file/1097440,DergiPark,


In [41]:
dupİndexTR = duplicated[duplicated.Source == "TRDizin"].index

In [42]:
dupİndexTR

Index([15012, 15166, 16092, 15200, 15276, 15609, 16946, 16334, 15871, 17213,
       ...
       15577, 16399, 17055, 15128, 16160, 15557, 15296, 15510, 16679, 15002],
      dtype='int64', length=1362)

In [43]:
all_sources_cleared = all_sources.drop(index = dupİndexTR)

In [44]:
all_sources_cleared.reset_index(drop = True, inplace = True)

In [45]:
all_sources_cleared.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16811 entries, 0 to 16810
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Page_Number      16811 non-null  int64 
 1   Searching        14946 non-null  object
 2   Article_Name     16811 non-null  object
 3   Article_Journal  16811 non-null  object
 4   Article_Volume   14903 non-null  object
 5   Article_PDF_URL  16811 non-null  object
 6   Source           16811 non-null  object
 7   Article_Detail   1865 non-null   object
dtypes: int64(1), object(7)
memory usage: 1.0+ MB


In [46]:
all_vCount = all_sources_cleared.Article_Journal.value_counts()

In [47]:
all_vCount.tail(20)

Article_Journal
Batı Anadolu Eğitim Bilimleri Dergisi                                 5
Organizasyon ve Yönetim Bilimleri Dergisi                             5
Kırklareli Üniversitesi Hukuk Fakültesi Dergisi                       5
Birey ve Toplum Sosyal Bilimler Dergisi                               5
Finans Ekonomi ve Sosyal Araştırmalar Dergisi                         5
darulfunun ilahiyat                                                   5
İlahiyat Tetkikleri Dergisi                                           5
Finans Politik ve Ekonomik Yorumlar                                   5
Kişisel Verileri Koruma Dergisi                                       5
Balıkesir İlahiyat Dergisi                                            5
Trabzon İlahiyat Dergisi                                              5
Aydın İnsan ve Toplum Dergisi                                         5
Sakarya University Journal of Education                               5
Bayburt Üniversitesi İlahiyat Fakültesi Dergisi 

In [48]:
drop_less = all_vCount[all_vCount < 12].index

In [49]:
drop_less

Index(['Ankara Üniversitesi Dil ve Tarih-Coğrafya Fakültesi Dergisi',
       'Akademik Hassasiyetler',
       'Çukurova Üniversitesi Sosyal Bilimler Enstitüsü Dergisi',
       'Süleyman Demirel Üniversitesi İlahiyat Fakültesi Dergisi',
       'Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü Dergisi',
       'Bingöl Üniversitesi Sosyal Bilimler Enstitüsü Dergisi',
       'Erzincan Üniversitesi Sosyal Bilimler Enstitüsü Dergisi',
       'Tasavvur / Tekirdağ İlahiyat Dergisi', 'İnsan Hakları Yıllığı',
       'Katre Uluslararası İnsan Araştırmaları Dergisi',
       ...
       'Trabzon İlahiyat Dergisi', 'Aydın İnsan ve Toplum Dergisi',
       'Sakarya University Journal of Education',
       'Bayburt Üniversitesi İlahiyat Fakültesi Dergisi',
       'Dokuz Eylül Üniversitesi İktisadi İdari Bilimler Fakültesi Dergisi',
       'BELLETEN', 'Türkiye Klinikleri Tıp Etiği-Hukuku Tarihi Dergisi',
       'Erzincan Binali Yıldırım Üniversitesi Hukuk Fakültesi dergisi',
       'Sakarya Hukuk 

In [50]:
all_sources_cleared = all_sources_cleared[~all_sources_cleared["Article_Journal"].isin(drop_less)]

In [51]:
all_sources_cleared.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14804 entries, 0 to 16805
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Page_Number      14804 non-null  int64 
 1   Searching        12985 non-null  object
 2   Article_Name     14804 non-null  object
 3   Article_Journal  14804 non-null  object
 4   Article_Volume   12948 non-null  object
 5   Article_PDF_URL  14804 non-null  object
 6   Source           14804 non-null  object
 7   Article_Detail   1819 non-null   object
dtypes: int64(1), object(7)
memory usage: 1.0+ MB


In [52]:
# Is it turkish

In [53]:
from langdetect import detect

In [54]:
def is_not_specific_languages(sentence):
    try:
        detected_lang = detect(sentence)

        return detected_lang not in ['en', 'fr', 'ar', 'fa']
    except:
        return False

In [55]:
all_sources_cleared = all_sources_cleared[all_sources_cleared['Article_Journal'].apply(is_not_specific_languages)]

In [56]:
all_sources_cleared.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14759 entries, 0 to 16805
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Page_Number      14759 non-null  int64 
 1   Searching        12940 non-null  object
 2   Article_Name     14759 non-null  object
 3   Article_Journal  14759 non-null  object
 4   Article_Volume   12903 non-null  object
 5   Article_PDF_URL  14759 non-null  object
 6   Source           14759 non-null  object
 7   Article_Detail   1819 non-null   object
dtypes: int64(1), object(7)
memory usage: 1.0+ MB


In [57]:
all_sources_cleared.reset_index(drop = True, inplace = True)

In [58]:
all_jr = all_sources_cleared.Article_Journal.value_counts()

In [65]:
all_jr.to_excel("all_found.xlsx",index = True)

In [63]:
all_sources_cleared.to_csv("TRDizin_DergiPark.csv",index = False)