# How to select adequate journals and conferences relevant to software engineering?
First, let's identify how many unique container_titles (venues) are in the dataset.

In [1]:
from alexandria3k.data_sources.crossref import Crossref
from random import random, seed
from natsort import natsorted

seed("test")
crossref_instance = Crossref('April 2023 Public Data File from Crossref', lambda _name: random() < 0.01)  # 1% of the data

In [2]:
# get unique venues
unique_venues = list(crossref_instance.query("SELECT DISTINCT container_title FROM works"))
unique_venues = [venue[0] for venue in unique_venues if venue[0] is not None]  # remove None values and convert tuples to list
print(f'Number of unique venues: {len(unique_venues)}')

Number of unique venues: 108741


In [3]:
# filter out non-English venues from the title
non_english_venues = []
for venue in unique_venues:
    if all(ord(char) < 128 or char == '—' or char == '–' for char in venue):
        pass
    else:
        print(venue)
        non_english_venues.append(venue)

Die Vermögensrechnung des Bundes
مجلة البشائر الاقتصادية
Boletín Económico de ICE
Normes et transgressions dans l’Europe de la première modernité
Einführung in die Laryngaltheorie
مجلة جيل الدراسات الأدبية والفكرية
América Latina y el Caribe 2019
Funktion und Berechnung der elementaren Geräte
MATERIAŁY BUDOWLANE
Aufgabensammlung zu den gewöhnlichen und partiellen Diffenrentialgleichungen
Sammlung Göschen
مجلة إقتصاديات شمال إفريقيا
Enfermería Clínica
Eigenschaften, Grundzüge der Form- und Zustandsgebung
المجلة المصرية للدراسات القانونية والاقتصادية
مجلة الأكاديمية للدراسات الاجتماعية والإنسانية
Charles Collé (1709-1783)
مجلة جيل الدراسات السياسية والعلاقات الدولية
Filosofia, Política, Educação, Direito e Sociedade 4
مجلة جيل حقوق الإنسان
Kartenaufnahme, Netzentwürfe, Gestaltungsmerkmale, topographische Karten
Women’s and Gender Studies in India
Molekülbau
§§ 179–410. Einführungsgesetz. Sachverzeichnis
Rückerstattung feststellbarer Vermögensgegenstände
Neugriechisch-Deutsches Gesprächsb

In [4]:
print(f'Number of non-English venues: {len(non_english_venues)} ({len(non_english_venues) / len(unique_venues) * 100:.2f}%)')

Number of non-English venues: 11937 (10.98%)


In [5]:
import pandas as pd
pd.DataFrame(natsorted(unique_venues), columns=['English Venues']).to_csv('1p-english_venues.csv', index=False)

In [6]:
# print the size of the csv file
import os
print(f'File size: {os.path.getsize("1p-english_venues.csv") / (1024 * 1024):.2f} MB')

File size: 4.51 MB
