Skip to content

weltliteratur/dnb

Repository files navigation

page lengths of novels in the DNB catalogue

We analyse the number of pages of novels (i.e., fictional literary works) in the German National Library (DNB).

It is not trivial to extract all novels from a big catalogue like that of the German National library. “Librarians estimate that genre information is present in the expected MARC field for less than a quarter of the volumes in HathiTrust Digital Library,” (Underwood et al. 2013) and we encounter the same problem, which calls for an innovative solution.

Our approach is to

  1. extract a list of writers from Wikidata together with their GND id
  2. download linked data about the DNB books
  3. join the writer list with the list of books using the GND id

This repository documents the evolution of this process, which turned out to be not as straightforward as it seems. One reason is the size of the data and the complexity of queries.

overview on aproaches

These are the different approaches we have tried, ordered chronologically:

  1. querying Wikidata using a SPARQL endpoint
  2. extracting authors from the Wikidata dump with an occupation property of a subclass of Writer
  3. restricting to authors with a page in the German Wikipedia and works classified as “Roman”

This page shows the results for the latest approach which uses the tools and methods developed before with different restrictions to authors and works. Details on data extraction, cleansing, and joining are described in one of the earlier documents.

We have also compared page lengths against the “1001 Books You Must Read Before You Die”.

data filters

We restrict our analysis to works from the DNB dump which adhere to the following conditions:

  1. They were published in or after 1913 (issued_norm >= 1913).
  2. At least one of their authors has a GND id and an occupation property in Wikidata and a sitelink to Wikipedia.
  3. The work has an extractable page number (extent matches the regex ~”\[?([0-9]+)\]? S(.|eiten?);?~).
  4. The works DNB property P60493 contains the character sequence “roman” or “Roman”.

When analysing publishers we further limit the maximal number of pages per work to 5000 to exclude errors.

Checksums:

for i in DNBTitel.rdf.gz DNBTitel_normalised_enriched.json.gz gnditems_2017-09-05_14:59.json.gz; do
  echo "$i\t" $(ls -lh $i | awk '{print $5"\t"$6,$7,$8"\t"}') $(md5sum < $i)
done
file namesizedatemd5 hash
DNBTitel.rdf.gz1.6GMay 12 13:524dce7ed7e38bdc5f61491861b4a1082c
DNBTitel_normalised_enriched.json.gz1.1GSep 5 16:298e640bca81e6ac7504da00e223d766d1
gnditems_2017-09-05_14:59.json102MSep 5 16:12943a6a50e2c19afb73fb859b64b20f06

results

novels

All values of the P60493 property for items that fulfill our conditions:

./json2json.py -f \
		 -p "issued_norm,pages_norm,P60493,creator_wd.*.sitelinks" \
		 DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913) print $3}' | sort -n | uniq -c | sort -nr\
									   > P60493.tsv

Print the top matches:

echo "Bezeichnung\tHäufigkeit"
sed -e "s/^ *//" -e "s/ /\t/" P60493.tsv \
    | awk -F'\t' '{if ($2 ~ /[rR]oman/) print $2"\t"$1}' \
    | head -n50
echo -n "*Gesamtsumme*\t"
sed -e "s/^ *//" -e "s/ /\t/" P60493.tsv \
    | awk -F'\t' '{if ($2 ~ /[rR]oman/) sum+=$1} END {print sum}'
BezeichnungHäufigkeit
Roman120985
Kriminalroman8657
[Roman]2671
roman2657
Science-fiction-Roman986
historischer Roman937
Kriminal-Roman903
Western-Roman760
Roman aus d. amerikan. Westen408
heiterer Roman405
Ein Roman403
Westernroman315
Arztroman313
ein Roman274
romanzo259
Fantasy-Roman250
Science-Fiction-Roman248
histor. Roman241
[roman]228
Abenteuerroman221
romanas219
Horror-Roman210
Wildwestroman203
Ein heiterer Roman200
[Kriminalroman]184
Wildwest-Roman181
Roman.163
historischer Kriminalroman163
Abenteuer-Roman161
Zukunftsroman160
zwei Romane in einem Band157
Utop. Roman153
Romanzo153
Frauenroman135
Planetenroman131
e. Roman129
utop. Roman128
Histor. Roman114
Jugendroman108
Kinderroman103
ein unheimlicher Roman98
Roman ; [Thriller]97
Wild-West-Roman93
Heiterer Roman93
Detektivroman90
John-Sinclair-Roman89
Roman für Kinder87
zwei Romane86
e. klass. Western-Roman85
Detektiv-Roman85
Gesamtsumme180219

Reclamtest

./json2json.py -f \
		 -p "issued_norm,pages_norm,publisher,P60493,creator_wd.*.sitelinks" \
		 DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $3 == "Reclam") print $4}' | sort | uniq -c | sort -nr \
											  > reclam.tsv

items

Condition for all items:

  • issued_norm >= 1913

extracting data

all items with a page number

./json2json.py -f \
		  -p "issued_norm,pages_norm" \
		  DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913) print $1"\t"$2}' | sort -n \
	     > items_per_year-page.tsv

all items with a page number and an author with a Wikipedia link

./json2json.py -f \
		  -p "issued_norm,pages_norm,creator_wd.*.sitelinks" \
		  DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913) print $1"\t"$2}' | sort -n \
	     > items_per_year-page_author.tsv

all novels

./json2json.py -f \
		  -p "issued_norm,P60493" \
		  DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $2 ~ /[rR]oman/) print $1}' | sort -n \
	     > items_per_year-novel.tsv

all novels with a page number

./json2json.py -f \
		  -p "issued_norm,pages_norm,P60493" \
		  DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $3 ~ /[rR]oman/) print $1"\t"$2}' | sort -n \
	     > items_per_year-novel_page.tsv

all novels with a page number and an author with a Wikipedia link

./json2json.py -f \
		  -p "issued_norm,pages_norm,P60493,creator_wd.*.sitelinks" \
		  DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $3 ~ /[rR]oman/) print $1"\t"$2}' | sort -n \
	     > items_per_year-novel_page_author.tsv

counts

wc -l items_per_year*.tsv
filteritems
page8346148
page + author1349949
novel353498
novel + page316518
novel + page + author180219

temporal counts

reset
set encoding utf8
set grid
set datafile separator "\t"
set xrange [1913:2017]
set xtics 10,10
set xlabel 'year'
set ylabel 'items'
set key left Left reverse
set y2tics

set term pngcairo enhanced size 800,600
set out 'img/items_per_year.png'

plot \
  '< datamash -g1 count 1 < items_per_year-page.tsv'              using 1:2 with lines axes x1y2 title 'Buecher mit Seitenzahlangabe (rechte y-Achse)',\
  '< datamash -g1 count 1 < items_per_year-page_author.tsv'       using 1:2 with lines title 'Buecher mit Seitenzahlangabe und Autor*in in Wikipedia',\
  '< datamash -g1 count 1 < items_per_year-novel.tsv'             using 1:2 with lines title 'Romane',\
  '< datamash -g1 count 1 < items_per_year-novel_page.tsv'        using 1:2 with lines title 'Romane mit Seitenzahlangabe',\
  '< datamash -g1 count 1 < items_per_year-novel_page_author.tsv' using 1:2 with lines title 'Romane mit Seitenzahlangabe und Autor*in in Wikipedia'

set term svg enhanced size 800,600
set out 'img/items_per_year.svg'
replot


# relative frequency
set ylabel 'items'
set format y "%2.0f%%"

set term pngcairo enhanced size 800,600
set out 'img/items_per_year_rel.png'

plot \
  '< datamash -g1 count 1 < items_per_year-page.tsv'              using 1:(100*($2/8346148)) with lines title 'Buecher mit Seitenzahlangabe',\
  '< datamash -g1 count 1 < items_per_year-page_author.tsv'       using 1:(100*($2/1349949)) with lines title 'Buecher mit Seitenzahlangabe und Autor*in in Wikipedia',\
  '< datamash -g1 count 1 < items_per_year-novel.tsv'             using 1:(100*($2/353498))  with lines title 'Romane',\
  '< datamash -g1 count 1 < items_per_year-novel_page.tsv'        using 1:(100*($2/316518))  with lines title 'Romane mit Seitenzahlangabe',\
  '< datamash -g1 count 1 < items_per_year-novel_page_author.tsv' using 1:(100*($2/180219))  with lines title 'Romane mit Seitenzahlangabe und Autor*in in Wikipedia'

set term svg enhanced size 800,600
set out 'img/items_per_year_rel.svg'
replot

Absolute numbers: img/items_per_year.png

Relative numbers: img/tems_per_year_rel.png

pages

counts

for i in $(ls items_per_*tsv); do
  echo $i $(datamash count 1 sum 2 < $i)
done
filteritemspagesmean pages
page83461481327973922159
page + author1349949296472297220
novel3534980
novel + page31651898947311313
novel + page + author18021960717476337

Of the original 14,102,309 items, we use 180,219 items with 60,717,476 pages. Those items fulfill the following conditions:

  • We can extract the year they have been issued.
  • They have been issued in or after 1913.
  • We can extract their extent (number of pages).
  • At least one of their authors has a GND id in Wikidata and a Wikipedia page (in any Wikipedia language version).

For this set we did not require that any other values are available (e.g., publisher) but some analyses might further restrict that set.

frequency

Compute frequencies:

sort -nk2 items_per_year-novel_page_author.tsv | datamash -g2 count 2 > pages_freq.tsv

Plot distribution:

reset
set term svg enhanced size 800,600
set out 'img/pages.svg'
set grid
set xrange [0:2000]
set logscale y
set format y "10^%T"

set xlabel 'number of pages'
set ylabel 'frequency'

plot 'pages_freq.tsv' using 1:2 with lines title ''

set term pngcairo enhanced size 800,600
set out 'img/pages.png'
replot

# showing bogen boundaries
unset logscale
unset format y
set xtics 0,16

# zoom into range 400 to 600 to see 16-patterns of pages
set xrange [400:600]
set term pngcairo enhanced size 800,600
set out 'img/pages_400-600.png'
plot 'pages_freq.tsv' using 1:2 with lines title ''

set term svg enhanced size 800,600
set out 'img/pages_400-600.svg'
replot


# zoom into range 200 to 400 to see 16-patterns of pages
set xrange [200:400]
set term pngcairo enhanced size 800,600
set out 'img/pages_200-400.png'
plot 'pages_freq.tsv' using 1:2 with lines title ''

set term svg enhanced size 800,600
set out 'img/pages_200-400.svg'
replot


# zoom into range 0 to 200 to see 16-patterns of pages
set xrange [0:200]
set term pngcairo enhanced size 800,600
set out 'img/pages_000-200.png'
plot 'pages_freq.tsv' using 1:2 with lines title ''

set term svg enhanced size 800,600
set out 'img/pages_000-200.svg'
replot

histogram

Bin pages in multiples of 16:

steps = 16
limit = 1009
with open("pages_freq_" + str(steps) + ".tsv", "wt") as out:
    with open("pages_freq.tsv", "rt") as f:
        bin = 0
        binstr = ""
        sumcount = 0
        for line in f:
            page, count = map(int, line.strip().split())
            if page > limit:
                if bin != limit:
                    bin = limit
                    binstr = str(limit) + " und mehr"
            elif page > bin:
                if sumcount > 0:
                    print(binstr, sumcount, file=out, sep='\t')
                bin += steps
                binstr = str(bin-steps+1) + "-" + str(bin)
                sumcount = 0
            sumcount += count
        print(binstr, sumcount, file=out, sep='\t')
reset
set grid y
set datafile separator "\t"
set xlabel 'page ranges'
set ylabel 'number of books'
set style data histogram filled
set style fill solid 1.0 noborder lt -1
set xtics rotate

set term pngcairo enhanced size 1000,600 font "Arial,10"
set out 'img/pages_16.png'
plot 'pages_freq_16.tsv' using 2:xticlabels(1) title ''

set term svg enhanced size 1000,600 font "Arial,10"
set out 'img/pages_16.svg'
replot

img/pages_16.png

page distribution

img/pages.png

page ranges

img/pages_000-200.png

img/pages_200-400.png

img/pages_400-600.png

temporal counts

Let’s plot the median number of pages per year:

export LC_ALL=C
datamash -g1 median 2 mean 2 min 2 max 2 count 2 q1 2 q3 2 < items_per_year-novel_page_author.tsv > issued_pages_stats.tsv
reset
set encoding utf8
set term pngcairo enhanced size 800,600
set out 'img/issued_pages_decade.png'

set grid
set datafile separator "\t"
set xlabel 'year'
set ylabel 'number of pages'
set xrange [1913:2020]
set xtics 10,10

set term pngcairo enhanced size 800,600
set out 'img/issued_pages_1913.png'

plot \
  'issued_pages_stats.tsv' using 1:7:8 with filledcurves fs transparent solid 0.2 noborder lc rgb "green" title '1st and 2nd quartile',\
  'issued_pages_stats.tsv' using 1:2 with lines lw 2 lt 3 lc rgb "green" title 'median'
#,\
#  'issued_pages_stats.tsv' using 1:3 with lines lw 2 lt 3 lc rgb "blue" title 'mean'

set term svg enhanced size 800,600
set out 'img/issued_pages_1913.svg'
replot

img/issued_pages_1913.png

Plot cumulative frequency distribution of the number of pages:

reset
set encoding utf8
set term pngcairo enhanced size 800,600
set out 'img/cumulative_page_distrib.png'

set grid
set datafile separator "\t"
set xlabel 'number of pages'
set ylabel 'P[x < number of pages]'
set logscale x

# divide the y-value by the number of books in the dataset
plot \
  '../1001-books/counts.tsv' using 1:($2/1001) smooth cumulative with lines title '1001 books',\
  'pages_freq.tsv' using 1:($2/180219) smooth cumulative with lines title 'DNB'

set term svg enhanced size 800,600
set out 'img/cumulative_page_distrib.svg'
replot

img/cumulative_page_distrib.png

The page distribution for the 1001 book list is skewed towards books with longer pages. Let’s compare two specific ranges of pages: more than 1000 pages vs. between 100 and 400 pages.

echo "dataset\t>1000 pages\t100-400 pages\tratio"
for file in ../1001-books/counts.tsv pages_freq.tsv; do
    awk -F'\t' '
        {
          SUM += $2;
          if ($1 > 1000) SUMBIG += $2;
          if ($1 >= 100 && $1 <= 400) SUMSMALL += $2
        } END {
          printf("%s\t%s (%2.1f%%)\t%s (%2.1f%%)\t%2.4f\n", FILENAME, SUMBIG, SUMBIG/SUM*100, SUMSMALL, SUMSMALL/SUM*100, SUMBIG/SUMSMALL)
        }' $file
done
dataset>1000 pages100-400 pagesratio
1001 -books23 (2.3%)682 (68.1%)0.0337
DNB1056 (0.6%)129167 (71.7%)0.0082

authors

  • TODO: plot distribution of the number of authors per work
./json2json.py -f \
		 -p "issued_norm,pages_norm,P60493,creator_wd.*.name,creator_wd.*.sitelinks" \
		 -c "creator_wd.*.name,creator_wd.*.sitelinks"\
		 DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $3 ~ /[rR]oman/) {sum[$4]+=$2; count[$4]+=1}} END {for (p in sum) printf("%s\t%s\t%s\t%s\n", sum[p], count[p], int(sum[p]/count[p]), p)}' \
	    > author_pages_stats.tsv

by item count

./json2json.py -f \
		 -p "issued_norm,pages_norm,P60493,creator_wd.*.name,creator_wd.*.id,creator_wd.*.sitelinks" \
		 -c "creator_wd.*.name,creator_wd.*.id,creator_wd.*.sitelinks"\
		 DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $3 ~ /[rR]oman/) print "[[https://www.wikidata.org/wiki/"$5"]["$4"]]"}' \
    | sort -S1G | uniq -c | sort -nr | head -n50
authoritems
Heinz G. Konsalik2232
Marie Louise Fischer1264
Gert Fritz Unger1013
Georges Simenon783
Utta Danella778
Edgar Wallace654
Hedwig Courths-Mahler647
Eleanor Hibbert635
Pearl S. Buck596
Alistair MacLean582
Stephen King577
Georgette Heyer576
Agatha Christie574
Theodor Fontane565
Hans Ernst563
Lion Feuchtwanger501
Erich Maria Remarque419
Hans Hellmut Kirst411
Johannes Mario Simmel403
Hans Fallada396
Heinrich Mann394
Fyodor Dostoyevsky390
Barbara Cartland390
Nora Roberts381
Graham Greene375
A. J. Cronin370
Vicki Baum366
Thomas Mann359
Robert Ludlum358
Gerd Hafner357
Dean Koontz354
Heinrich Böll340
Alexandra Cordes325
John le Carré322
Marion Zimmer Bradley321
Jason Dark317
Willi Heinrich313
Ludwig Ganghofer311
Jack London309
Joseph Roth307
Danielle Steel299
Johanna Lindsey288
Erle Stanley Gardner287
Siegfried Lenz279
Jules Verne277
Rosamunde Pilcher274
Franz Kafka271
Ernest Hemingway271
Taylor Caldwell269
Dorothy L. Sayers269

without restriction to “[rR]oman”

./json2json.py -f \
		 -p "issued_norm,pages_norm,creator_wd.*.name,creator_wd.*.id,creator_wd.*.sitelinks" \
		 -c "creator_wd.*.name,creator_wd.*.id,creator_wd.*.sitelinks"\
		 DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913) print "[[https://www.wikidata.org/wiki/"$4"]["$3"]]"}' \
    | sort -S1G | uniq -c | sort -nr | head -n50
authoritems
Johann Wolfgang von Goethe5160
Rudolf Steiner3992
Hermann Hesse3363
Heinz G. Konsalik3190
Thomas Mann2609
Karl Marx2577
Friedrich Engels2568
Stefan Zweig2532
Friedrich Schiller2047
Franz Kafka2020
Jacob Grimm2020
Theodor Storm1967
Bertolt Brecht1948
Wilhelm Grimm1943
Erich Kästner1873
Heinrich Böll1796
Friedrich Nietzsche1788
William Shakespeare1700
Rainer Maria Rilke1689
Marie Louise Fischer1678
Gottfried Keller1666
Anselm Grün1605
Martin Luther1590
Sigmund Freud1568
Theodor Fontane1549
E. T. A. Hoffmann1533
Agatha Christie1531
Karl May1503
Heinrich Heine1388
Christine Nöstlinger1344
Hedwig Courths-Mahler1302
Wilhelm Hauff1290
Immanuel Kant1280
Gert Fritz Unger1264
Heinrich von Kleist1250
Janosch1210
Enid Blyton1210
Wilhelm Busch1191
Adalbert Stifter1184
Erich Maria Remarque1181
Vladimir Lenin1117
Johanna Spyri1106
Fyodor Dostoyevsky1088
Leo Tolstoy1082
Honoré de Balzac1081
Max Frisch1079
Jack London1071
Lion Feuchtwanger1048
Edgar Wallace1041
Carl Jung996

by page count

sort -S1G -nr author_pages_stats.tsv | head -n20
authorpagesitemsmean pages
Heinz G. Konsalik6926522232310
Colleen McCullough4199301333157
Marie Louise Fischer3313111264262
Utta Danella324470778417
Stephen King293562577508
Fyodor Dostoyevsky269869390691
Lion Feuchtwanger248688501496
Eleanor Hibbert235388635370
Johannes Mario Simmel195975403486
Thomas Mann191233359532
Gert Fritz Unger1884931013186
Pearl S. Buck185999596312
Robert Ludlum185467358518
Hedwig Courths-Mahler184677647285
Theodor Fontane173444565306
Heinrich Mann172019394436
Nora Roberts171520381450
Hans Fallada169877396428
Leo Tolstoy163126204799
Georgette Heyer159427576276

by mean page count

sort -S1G -nrk3 author_pages_stats.tsv | head -n20
authorpagesitemsmean pageswork
Pierre Alexis Ponson du Terrail320013200
Colleen McCullough4199301333157
Petra Mönter229012290
Stefano D’Arrigo147011470
Vikram Seth1120881401
Jonathan Littell414931383
Margaret George35617301187
Lucien Rebatet114211142
Miquel de Palol226621133
Cornelia Wusowski14343131103
William H. Gass218421092
William King107211072
Franz Erhard Walther107111071
Péter Nádas641461069
Gregory David Roberts425041062
Hans Albrecht Moser317131057
Francisco Casavella103811038
Susanna Clarke306831022
Baltasar Gracián101311013
Elizabeth Arthur201221006

There are probably some errors among those …

reset
set encoding utf8
set term pngcairo enhanced size 800,600
set out 'img/author_pages.png'

set grid
set datafile separator "\t"
set xrange [*:10000]
set logscale
set format y "10^%T"
set format x "10^%T"

set xlabel 'number of items'
set ylabel 'mean number of pages per item'

set label "Heinz G.\nKonsalik" left at 2232, 310 offset .5, .3
set label "Colleen McCullough" left at 133, 3157 offset .5, .3
set label "Margaret George" left at 30, 1187 offset .5, .3
# set label "Guenther Bentele" left at 27, 3842 offset .5, .3
# set label "Johann\nWolfgang\nvon\nGoethe" left at 5169, 235 offset -1.8, 3.6

plot 'author_pages_stats.tsv' using 2:3 with points pt 7 title ''

set term svg enhanced size 800,600
set out 'img/author_pages.svg'
replot

img/author_pages.png

by occupation

  • TODO: top lists for different occupations
  • TODO: item count vs. mean page count colored by occupation

works

./json2json.py -f -p "issued_norm,pages_norm,title,_id,P60493,creator_wd.*.sitelinks" \
		 DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $5 ~ /[rR]oman/) {print $2"\t[[http://d-nb.info/"$4"]["$3"]] ("$1")"}}' \
    | sort -S1G -nr | head -n100
titlepages
Tim (1992)348333
Fado Alexandrino (2002)7969
Die Waffen nieder! (2005)4292
Ohne Heimat (1935)3202
Rocambol, der Fürst der Katakomben (1925)3200
Kein fremder Land (1993)2880
Deutschland mittendrin (2006)2290
Der Mann ohne Eigenschaften (1980)2154
Der Mann ohne Eigenschaften (1979)2154
Der Zauberberg (1951)2021
Eine gute Partie (2006)1997
Eine gute Partie (2000)1997
Eine gute Partie (1999)1997
Der weisse Chauffeur (1996)1814
Parallelgeschichten (2013)1723
The stand (2016)1711
Die Elenden (1999)1684
Der Mann ohne Eigenschaften (1952)1671
Krieg und Frieden (2000)1645
Der Mann ohne Eigenschaften (1973)1632
Der Mann ohne Eigenschaften (1973)1632
Der Mann ohne Eigenschaften (1974)1632
Der Mann ohne Eigenschaften (1967)1632
Der Mann ohne Eigenschaften (1960)1632
Der Mann ohne Eigenschaften (1970)1632
Die Brüder Karamasoff (1914)1612
Krieg und Frieden (1989)1597
Krieg und Frieden (1989)1597
Krieg und Frieden (1988)1597
Krieg und Frieden (1984)1597
Krieg und Frieden (1975)1597
Krieg und Frieden (1975)1597
Krieg und Frieden (1972)1597
Krieg und Frieden (1975)1597
Krieg und Frieden (1975)1597
Krieg und Frieden (1969)1597
Krieg und Frieden (1964)1597
Krieg und Frieden (1959)1597
Krieg und Frieden (1956)1597
Krieg und Frieden (1956)1597
Krieg und Frieden (1975)1597
Gegen den Tag (2010)1595
Gegen den Tag (2008)1595
Unendlicher Spass (2009)1547
Dein Roman (1973)1539
Krieg und Frieden (1953)1533
Krieg und Frieden (1953)1533
Es (2011)1533
Krieg und Frieden (2009)1531
Krieg und Frieden (2007)1531
Krieg und Frieden (2016)1531
Die Wächter-Trilogie (2008)1530
Moskau, Stalingrad, Berlin (1966)1500
Der grosse Krieg im Osten (1966)1500
Moskau, Stalingrad, Berlin (1966)1500
Der Graf von Monte Christo (2010)1494
Der stille Don (2000)1473
Der stille Don (1993)1473
Die Brüder Karamasoff (1949)1471
Horcynus Orca (2015)1470
Die Festung (2005)1469
Die Festung (2005)1469
Die Festung (2005)1469
Die Festung (1997)1469
Die Festung (1995)1469
Die Festung (1995)1469
Das Leben des Balthasar Rüssow (1996)1465
Das Leben des Balthasar Rüssow (1995)1465
Krieg und Frieden (1979)1464
Gleiwitz (2000)1452
Gleiwitz (2000)1452
Gleiwitz (2000)1452
The stand (1992)1432
Die Orks - die Rückkehr (2012)1424
Eine gute Partie (1996)1421
Eine gute Partie (1995)1421
Eine gute Partie (1995)1421
Ravenor (2010)1408
Die Invasion (2010)1407
Küsse im Mondschein (2012)1401
Die Wohlgesinnten (2009)1383
Die Wohlgesinnten (2008)1383
Die Wohlgesinnten (2008)1383
Die Ahnen (1953)1380
Die Ahnen (1959)1380
Die Ahnen (1953)1380
Die Wundärztin (2014)1373
Limit (2011)1370
Limit (2010)1370
Der Pate von Bombay (2009)1359
Outlander - das flammende Kreuz (2016)1358
Eisenhorn (2012)1349
Liebesleben (2010)1348
Die Elenden (1995)1347
Die Elenden (1993)1347
Die Elenden (1991)1347
Die Elenden (1986)1347
Die Elenden (1985)1347
Die Elenden (1968)1347
Die Dämonen (2008)1344

Kafkatest

./json2json.py -f \
               -p "issued_norm,pages_norm,title,_id,P60493,creator_wd.*.name,creator_wd.*.sitelinks" \
               -c "creator_wd.*.name,creator_wd.*.sitelinks" \
               DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $5 ~ /[rR]oman/ && $6 == "Franz Kafka") {print $2"\t[[http://d-nb.info/"$4"]["$3"]] ("$1")"}}' \
    | sort -S1G -nr | head -n50
pagestitle (year)
Das Werk (2011)1232
Zamok (2015)702
Zamok (2005)700
Propavšij bez vesti, (Amerika) (2006)651
Amerika (1991)604
Procesas (1994)571
Das Schloss (1967)543
Das Schloss (1964)543
Das Schloss (1962)543
Das Schloss (1926)504
Das Schloss (1991)501
Das Schloss (1982)501
Das Schloss (1951)496
Process (2009)478
Zamok (2007)475
Zamok (1991)475
Das Schloss (1960)462
Prigovor (1991)461
Das Schloss (1987)458
Das Schloß (2008)446
Das Schloss (1993)431
Das Schloss (1946)429
Der Verschollene (1983)426
Das Schloß (1935)425
Das Schloß (2006)423
Das Schloss (1996)423
Het slot (1993)417
Het slot (1983)417
Das Schloß (2007)416
Zamok (2012)413
Der Prozess (1925)411
Castelul (1968)402
Das Schloß (2007)401
Das Schloß (2005)401
Das Schloss (1994)399
Das Schloss (1993)399
Das Schloss (1993)399
Das Schloss (1992)399
Das Schloss (1992)399
Das Schloss (1989)397
Das Schloss (2005)396
Das Schloss (1988)396
Das Schloß (2004)394
Das Schloß (1999)394
Das Schloß (1999)394
Amerika (1927)392
Procesas (2004)391
Das Schloß (2012)380
Amerika (2003)375
Amerika (2000)375

publishers

We additionally consider only books with no more than 5000 pages to avoid skews in the page counts due to errors.

Extract data:

./json2json.py -f -p "issued_norm,pages_norm,publisher,P60493,creator_wd.*.sitelinks" \
		 DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $4 ~ /[rR]oman/ && $2 <= 5000) print $3"\t"$2}' \
    | sort -S1G > publisher.tsv

by item count

datamash -s -g1 count 1 < publisher.tsv | sort -t$'\t' -S1G -nrk2 | head -n20
publisheritems
Heyne17249
Rowohlt9356
Goldmann8848
Ullstein4986
Dt. Taschenbuch-Verl.3864
Fischer-Taschenbuch-Verl.3612
Suhrkamp3513
RM-Buch-und-Medien-Vertrieb [u.a.]3461
Piper3363
Diogenes2303
Dt. Buch-Gemeinschaft1954
Weltbild1912
Fischer-Taschenbuch-Verlag1853
Büchergilde Gutenberg1810
Droemer Knaur1719
Rowohlt-Taschenbuch-Verl.1678
Blanvalet1630
Bastei-Verl. Lübbe1478
Zsolnay1238
Lübbe1205

After normalisation: see below

by page count

LC_ALL=C datamash -s -g1 count 1 sum 2 mean 2 < publisher.tsv | sort -t$'\t' -S1G -nrk3 | head -n20
publisheritemspage summean pages
Heyne172496066956352
Goldmann88482898130328
Rowohlt93562604056278
RM-Buch-und-Medien-Vertrieb [u.a.]34611565075452
Ullstein49861536849308
Dt. Taschenbuch-Verl.38641281876332
Fischer-Taschenbuch-Verl.36121280201354
Piper33631264808376
Suhrkamp35131071240305
Weltbild1912925697484
Blanvalet1630774248475
Dt. Buch-Gemeinschaft1954746935382
Droemer Knaur1719716908417
Diogenes2303715190311
Büchergilde Gutenberg1810679455375
Rowohlt-Taschenbuch-Verl.1678610853364
Aufbau-Verl.1205525199436
Fischer-Taschenbuch-Verlag1853519204280
Dt. Bücherbund1139514752452
Lübbe1205505148419

by mean page count

LC_ALL=C datamash -s -g1 count 1 sum 2 mean 2 < publisher.tsv | sort -t$'\t' -S1G -nrk4 | head -n20
publisheritemspage summean pages
Ander132023202
K. M. John112581258
Dörfler112321232
Wissenschaftl. Buchges.780521150
Uitg. NAS110751075
Parkland332141071
Blanvalet-Verlag110561056
Nord110321032
Wissenschaftl. Buchges220301015
Schweizer Druck- u. Verl.-haus110031003
Jokers-Ed.1989989
Zentralverl. d. NSDAP Eher1980980
Uitg.De Arbeiderspers1972972
Implex-Verl.1971971
Libr. General Française1955955
Parkland-Verlag87397925
Lesering. Das Bertelsmann Buch1924924
Roder1904904
Leon1904904
List-Taschenbuchverl.1896896

How is the number of items per publisher related to the mean number of pages per publisher?

LC_ALL=C datamash -s -g1 count 1 sum 2 mean 2 < publisher.tsv > publisher_page_stats.tsv
reset
set term pngcairo enhanced size 800,600
set out 'img/publisher_pages.png'

set grid
set datafile separator "\t"
set logscale

set xlabel 'number of items
set ylabel 'mean number of pages per item'

plot 'publisher_page_stats.tsv' using 2:4 with points pt 7 title ''

set term svg enhanced size 800,600
set out 'img/publisher_pages.svg'
replot

img/publisher_pages.png

top normalised publishers

These rankings only comprise the normalised publishers.

Cleaning up the publishers now by deleting all rows which should not be regarded the same publisher and then creating a big intermediate file:

./json2json.py -m publisher_map.tsv -f -p "issued_norm,pages_norm,publisher_norm,title,_id,P60493,creator_wd.*.name,creator_wd.*.id" \
		 DNBTitel_normalised_enriched.json.gz \
    | awk -F'\t' '{if ($1 >= 1913 && $2 <= 5000 && $6 ~ /[rR]oman/) print $0}' \
> publisher_data.tsv

by item count

cut -f3 publisher_data.tsv | sort -S1G | uniq -c | sort -nr
publisheritems
Heyne17430
Rowohlt11354
Goldmann8887
Ullstein5597
Suhrkamp3554
Piper3394
Aufbau2957
Kiepenheuer & Witsch1285
Reclam1117
Insel1063
Hoffmann und Campe988
Hanser854
Luchterhand Literaturverlag784
Manesse390
Eichborn360
Berlin Verlag238
Nagel & Kimche228
Ammann150
Schöffling & Co.147
Wallstein60
Verbrecher Verlag37
Blumenbar30
Rogner & Bernhard23
Wiesenburg20
Voland & Quist9
Urs Engeler Editor4

by page count

awk -F'\t' '{sum[$3]+=$2; count[$3]+=1} END {for (p in sum) printf("%s\t%s\t%s\t%s\n",  sum[p], count[p], int(sum[p]/count[p]), p)}'  publisher_data.tsv \
    | sort -S1G -nr
publisherpage sumitemsmean pages
Heyne614828417430352
Rowohlt331927011354292
Goldmann29116338887327
Ullstein17082275597305
Piper12749613394375
Aufbau12038912957407
Suhrkamp10862693554305
Kiepenheuer & Witsch4222371285328
Insel3823291063359
Hoffmann und Campe374922988379
Hanser298526854349
Reclam2831631117253
Luchterhand Literaturverlag253884784323
Manesse205907390527
Eichborn117060360325
Berlin Verlag72008238302
Nagel & Kimche53012228232
Schöffling & Co.48106147327
Ammann45497150303
Wallstein1433760238
Verbrecher Verlag1229037332
Rogner & Bernhard937623407
Blumenbar759530253
Wiesenburg479920239
Voland & Quist23499261
Urs Engeler Editor11974299

by mean page count

awk -F'\t' '{sum[$3]+=$2; count[$3]+=1} END {for (p in sum) printf("%s\t%s\t%s\t%s\n",  sum[p], count[p], int(sum[p]/count[p]), p)}'  publisher_data.tsv \
    | sort -S1G -nrk3
publisherpage sumitemsmean pages
Manesse205907390527
Rogner & Bernhard937623407
Aufbau12038912957407
Hoffmann und Campe374922988379
Piper12749613394375
Insel3823291063359
Heyne614828417430352
Hanser298526854349
Verbrecher Verlag1229037332
Kiepenheuer & Witsch4222371285328
Schöffling & Co.48106147327
Goldmann29116338887327
Eichborn117060360325
Luchterhand Literaturverlag253884784323
Ullstein17082275597305
Suhrkamp10862693554305
Ammann45497150303
Berlin Verlag72008238302
Urs Engeler Editor11974299
Rowohlt331927011354292
Voland & Quist23499261
Blumenbar759530253
Reclam2831631117253
Wiesenburg479920239
Wallstein1433760238
Nagel & Kimche53012228232

Average page count per year per publisher:

awk -F'\t' '{print int($1/10)"\t"$3"\t"$2}' publisher_data.tsv | sort | datamash -g1,2 mean 3 median 3 | sed "s/,/./g" | sort -n > publisher_pages_decades.tsv
reset
set encoding utf8
set term pngcairo enhanced size 800,600
set out 'img/publisher_pages_decades.png'

set grid
set datafile separator "\t"
set xlabel 'year'
set ylabel 'median number of pages'
set key top left horizontal maxcols 4

plot \
  '< grep Heyne    publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 7 lw 2 title 'Heyne',\
  '< grep Rowohlt  publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 7 lw 2 title 'Rowohlt',\
  '< grep Goldmann publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 7 lw 2 title 'Goldmann',\
  '< grep Ullstein publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 7 lw 2 title 'Ullstein',\
  '< grep Suhrkamp publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 7 lw 2 title 'Suhrkamp',\
  '< grep Piper    publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 7 lw 2 title 'Piper',\
  '< grep Aufbau   publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 8 lw 2 title 'Aufbau',\
  '< grep Kiepenheuer   publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 8 lw 2 title 'Kiepenheuer & Witsch',\
  '< grep Reclam   publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 7 lw 2 title 'Reclam',\
  '< grep Insel    publisher_pages_decades.tsv' using ($1*10):4 with linespoints pt 7 lw 2 title 'Insel'

set term svg enhanced size 800,600
set out 'img/publisher_pages_decades.svg'
replot

img/publisher_pages_decades.png

ranking per publisher

Iterate over publishers:

for publisher in $(awk -F'\t' '{print $2}' publisher_map.tsv | sort -u | sed "s/ /###/g"); do
  # get publisher name
  publisher=$(echo $publisher | sed "s/###/ /g")
  #echo "$publisher\t" $(awk -F'\t' -v p="$publisher" '{if ($3 == p) print $2"\t hier dann Titel, Autor, Jahr"}' publisher_data.tsv | wc -l)
  # extract all works
  echo "\n**** $publisher\n"
  echo "| pages | author: title (year) |"
  awk -F'\t' -v p="$publisher" '{if ($3 == p) print "| "$2" | [[https://www.wikidata.org/wiki/"$8"]["$7"]]: [[http://d-nb.info/"$5"]["$4"]] ("$1")"}' publisher_data.tsv | sort -t'|' -nrk2 | head -n20
done

Ammann

pagesauthor: title (year)
962Fyodor Dostoyevsky: Böse Geister (1998)
909Fyodor Dostoyevsky: Der Idiot (1996)
766Fyodor Dostoyevsky: Verbrechen und Strafe (1994)
652Antonio Moresco: Aufbrüche (2005)
607Svend Aage Madsen: Sieben Generationen Wahnsinn (2000)
572Ulrich Peltzer: Stefan Martinez (1995)
563Darcy Ribeiro: Migo (1994)
537Christoph Geiser: Grünsee (2006)
534Marcel Konrad: In meinem Rücken hängt das Vatertier - vor meinen Füssen liegt das Muttertier (1988)
507Éric-Emmanuel Schmitt: Adolf H.: zwei Leben (2007)
479Marcel Konrad: Stoppelfelder (1983)
478Ismail Kadare: Der Raub des königlichen Schlafs (2008)
477Steinunn Sigurðardóttir: Herzort (2001)
473Bernd Steinhardt: Der Traum der steinernen Drachen (1997)
472Bernhard Kegel: Das Ölschieferskelett (1996)
462Bernhard Kegel: Sexy Sons (2001)
459Richard Powers: Galatea 2.2 (1997)
457Bernard MacLaverty: Die Schule der Anatomie (2003)
457Ralph Ellison: Juneteenth (2000)
456Joseph O’Connor: Desperados (1996)

Aufbau

pagesauthor: title (year)
1359Vikram Chandra: Der Pate von Bombay (2009)
1291Leo Tolstoy: Krieg und Frieden (2010)
1243Hans Fallada: Wolf unter Wölfen (2011)
1227Leo Tolstoy: Anna Karenina (2008)
1211Friedrich Gorenstein: Der Platz (1995)
1200Fyodor Dostoyevsky: Die Brüder Karamasow (2008)
1183Leo Tolstoy: Anna Karenina (1996)
1133Miquel de Palol: Im Garten der sieben Dämmerungen (2007)
1133Miquel de Palol: Der Garten der sieben Dämmerungen (1999)
1087Leo Tolstoy: Krieg und Frieden (2008)
1054Aleksey Nikolayevich Tolstoy: Peter der Erste (1952)
1034Thomas Mann: Der Zauberberg (1953)
1031Hans Fallada: Wolf unter den Wölfen (1957)
1028Thomas Mann: Der Zauberberg (1979)
1028Thomas Mann: Der Zauberberg (1965)
1028Thomas Mann: Der Zauberberg (1968)
1026Thomas Mann: Der Zauberberg (1962)
1024Hans Fallada: Wolf unter Wölfen (1956)
1013Hans Fallada: Wolf unter Wölfen (1960)
1013Hans Fallada: Wolf unter Wölfen (1965)

Berlin Verlag

pagesauthor: title (year)
693Margaret Atwood: Der blinde Mörder (2000)
681Richard Ford: Die Lage des Landes (2007)
633Amir Gutfreund: Unser Holocaust (2003)
622Margaret Atwood: Alias Grace (1996)
588Richard Ford: Unabhängigkeitstag (1995)
588Mathias Énard: Zone (2010)
580Zeruya Shalev: Späte Familie (2005)
567Katharina Hartwell: Das fremde Meer (2013)
555William Boyd: Die Fotografin (2016)
553Alexis Panselinos: Zaide oder das Kamel im Schnee (2001)
538Hartwig Schultz: Schwarzer Schmetterling (2000)
530Péter Esterházy: Ein Produktionsroman (zwei Produktionsromane) (2010)
511David Guterson: Schnee, der auf Zedern fällt (1999)
511David Guterson: Schnee, der auf Zedern fällt (1995)
510Katherine Dunn: Binewskis (2013)
506Nadine Gordimer: Keine Zeit wie diese (2012)
495Patricia Duncker: James Miranda Barry (1999)
493Gila Lustiger: Die Schuld der anderen (2015)
491Michael Roes: Der Coup der Berdache (1999)
484Frances Itani: Betäubend (2003)

Blumenbar

pagesauthor: title (year)
429Tony Parsons: Als wir unsterblich waren (2007)
428Joseba Sarrionandia: Der gefrorene Mann (2007)
415Edan Lepucki: California (2015)
325Alban Lefranc: Angriffe (2008)
323Hunter S. Thompson: Rum Diary (2010)
319Paul Beatty: Slumberland (2009)
318Imran Ayata: Mein Name ist Revolution (2011)
318Leonard Cohen: Das Lieblingsspiel (2009)
317Raul Zelik: Berliner Verhältnisse (2005)
315Alexander Wall; Ingo Niermann: Deutscher Sohn (2010)
310Franz Xaver Karl: Starschnitt (2004)
286Raul Zelik: Der bewaffnete Freund (2007)
283Hunter S. Thompson: The rum diary (2004)
258Hans-Peter Kunisch: Die Verlängerung des Markts in den Abend hinein (2006)
257Thomas Palzer: Ruin (2005)
254Jasmin Ramadan: Soul kitchen (2009)
251Franz Xaver Karl: Fünf Tage im Juli (2007)
235Bov Bjerg: Auerhaus (2015)
222Leena Krohn: Stechapfel (2006)
220DBC Pierre: Frühstück mit den Borgias (2016)

Eichborn

pagesauthor: title (year)
1814Urs Richle: Der weisse Chauffeur (1996)
1081Rolf Vollmann: Die wunderbaren Falschmünzer (1997)
954Paul Verhaeghen: Omega minor (2006)
798Faye Kellerman: Becca (1993)
741Hédi Kaddour: Waltenberg (2009)
735Steffen Kopetzky: Grand Tour oder die Nacht der Großen Complication (2002)
671Neil Gaiman: American gods (2015)
655Yan Lianke: Lenins Küsse (2015)
655Redmond O’Hanlon: Kongofieber (1998)
655Petra Morsbach: Plötzlich ist es Abend (1995)
639David Gilbert: Was aus uns wird (2014)
603Gerhard Seyfried: Herero (2003)
589Roger Stern: Superman (1994)
587Thor Kunkel: Endstufe (2004)
581Sven Regener: Neue Vahr Süd (2004)
581Lindsey Davis: Bronzeschatten (1992)
580George Gissing: Zeilengeld (1993)
577Thomas Harlan: Heldenfriedhof (2006)
556Henning Boe͏̈tius: Der Gnom (1989)
554Lindsey Davis: Letzter Akt in Palmyra (1996)

Goldmann

pagesauthor: title (year)
1469Lothar-Günther Buchheim: Die Festung (1997)
1332Margaret George: Heinrich VIII. (2001)
1332Margaret George: Heinrich VIII. (1999)
1332Margaret George: Heinrich VIII. (1997)
1332Margaret George: Heinrich VIII., mein Leben (1991)
1326Dan Simmons: Endymion (2003)
1271James Clavell: Noble House (2002)
1247James Clavell: Gai-jin (2003)
1247James Clavell: Gai-jin (1997)
1247James Clavell: Gai-jin (1995)
1240William Gaddis: Die Fälschung der Welt (2000)
1225James Clavell: Shōgun (2002)
1196Diana Gabaldon: Der Ruf der Trommel (2003)
1196Diana Gabaldon: Der Ruf der Trommel (2002)
1196Diana Gabaldon: Der Ruf der Trommel (2000)
1180Charles Dickens: Die Pickwickier (1984)
1180Neal Stephenson: Cryptonomicon (2005)
1180Neal Stephenson: Cryptonomicon (2003)
1180Neal Stephenson: Cryptonomicon (2001)
1145Neal Stephenson: Quicksilver (2010)

Hanser

pagesauthor: title (year)
1465Jaan Kross: Das Leben des Balthasar Rüssow (1995)
1452Horst Bienek: Gleiwitz (2000)
1284Leo Tolstoy: Anna Karenina (2009)
1228Navid Kermani: Dein Name (2011)
1228John Cowper Powys: Glastonbury romance (1995)
1093Roberto Bolaño: 2666 (2009)
1007Charles Maturin: Melmoth der Wanderer (1969)
1007Charles Maturin: Melmoth der Wanderer (1970)
1004Julien Green: Von fernen Ländern (1988)
958Honoré de Balzac: Verlorene Illusionen (2014)
957Lars Gustafsson: Risse in der Mauer (2006)
957Hanya Yanagihara: Ein wenig Leben (2016)
907Danilo Kiš: Familienzirkus (2014)
905Martin Grzimek: Tristan (2011)
895Rafik Schami: Die dunkle Seite der Liebe (2004)
844Gustav Freytag: Soll und Haben (1977)
841Julien Green: Die Sterne des Südens (1990)
838Ivan Goncharov: Oblomow (2012)
826Charles Dickens: Große Erwartungen (2011)
797Harry Mulisch: Die Entdeckung des Himmels (1995)

Heyne

pagesauthor: title (year)
1997Vikram Seth: Eine gute Partie (1999)
1711Stephen King: The stand (2016)
1533Stephen King: Es (2011)
1530Sergey Lukyanenko: Die Wächter-Trilogie (2008)
1424Stan Nicholls: Die Orks - die Rückkehr (2012)
1408Dan Abnett: Ravenor (2010)
1407Bernard Werber: Die Invasion (2010)
1349Dan Abnett: Eisenhorn (2012)
1324Guillermo del Toro: Die Saat (2016)
1307Hans Joachim Alpers: Deutschland in den Schatten (2003)
1307Nora Roberts: Die Garten-Eden-Trilogie (2008)
1291John Grisham: Die Jury (2001)
1279Kim Newman: Die Vampire (2009)
1279Stephen King: Die Arena (2009)
1279Stephen King: Die Arena (2011)
1248Dan Abnett: Gaunts Geister (2012)
1242C. J. Cherryh: Geklont (1998)
1214Stephen King: Es (1996)
1210Jean M. Auel: Die Kinder der Erde (1994)
1202Gisbert Haefs: Alexander (2002)

Hoffmann und Campe

pagesauthor: title (year)
2880Doris Gercke: Kein fremder Land (1993)
1469Lothar-Günther Buchheim: Die Festung (1995)
1469Lothar-Günther Buchheim: Die Festung (1995)
1421Vikram Seth: Eine gute Partie (1995)
1421Vikram Seth: Eine gute Partie (1995)
926Herman Wouk: Der Feuersturm (1972)
926Herman Wouk: Der Feuersturm (1972)
861Nelson DeMille: Das Vermächtnis (2009)
819Martin Mosebach: Westend (1992)
799Tom Clancy: Ehrenschuld (1996)
799Tom Clancy: Ehrenschuld (1996)
799Tom Clancy: Ehrenschuld (1996)
783Alexandra Ripley: Scarlett (1995)
783Alexandra Ripley: Scarlett (1994)
783Alexandra Ripley: Scarlett (1992)
783Alexandra Ripley: Scarlett (1991)
783Alexandra Ripley: Scarlett (1991)
764Federica de Cesco: Silbermuschel (1996)
764Federica de Cesco: Silbermuschel (1994)
764Federica de Cesco: Silbermuschel (1994)

Insel

pagesauthor: title (year)
1267Martin Andersen Nexø: Pelle, der Eroberer (1926)
1204Leo Tolstoy: Anna Karenina (2010)
1204Leo Tolstoy: Anna Karenina (2006)
1204Leo Tolstoy: Anna Karenina (2003)
1204Leo Tolstoy: Anna Karenina (2012)
1039Franz Werfel: Die vierzig Tage des Musa Dagh (2016)
1006Charles Maturin: Melmoth der Wanderer (1991)
995Felix Braun: Agnes Altkirchner (1927)
990Thomas Mann: Der Zauberberg (2002)
967Ippolito Nievo: Pisana oder die Bekenntnisse eines Achtzigjährigen (2003)
967Ippolito Nievo: Pisana oder die Bekenntnisse eines Achtzigjährigen (1987)
967Ippolito Nievo: Pisana oder die Bekenntnisse eines Achtzigjährigen (1987)
967Ippolito Nievo: Pisana oder die Bekenntnisse eines Achtzigjährigen (1985)
967Ippolito Nievo: Pisana oder die Bekenntnisse eines Achtzigjährigen (1985)
956Leopoldo Alas: Die Präsidentin (2008)
924Elsa Morante: Lüge und Zauberei (1987)
879Elsa Morante: Lüge und Zauberei (1975)
879Elsa Morante: Lüge und Zauberei (1968)
877Johann Beer: Die teutschen Winter-Nächte & Die kurzweiligen Sommer-Täge (1985)
870Heimito von Doderer: Die Strudlhofstiege oder Melzer und die Tiefe der Jahre (2002)

Kiepenheuer & Witsch

pagesauthor: title (year)
1320Frank Schätzing: Limit (2009)
1035Manès Sperber: Wie eine Träne im Ozean (1965)
1035Manès Sperber: Wie eine Träne im Ozean (1961)
1033Erwin Strittmatter: Der Laden (1989)
1001René Schickele: Das Erbe am Rhein (1965)
997Frank Schätzing: Der Schwarm (2004)
965Don DeLillo: Unterwelt (1998)
964Frank Schätzing: Breaking News (2014)
892Maxim Biller: Biografie (2016)
874André Brink: Zeit des Terrors (1994)
861Holger Karsten Schmidt: Isenhart (2012)
858Saul Bellow: Die Abenteuer des Augie March (2008)
854Zyranna Zateli: Und beim Licht des Wolfes kehren sie wieder (1997)
831Annemarie Selinko: Désirée (2002)
829Bret Easton Ellis: Glamorama (2010)
827Bret Easton Ellis: Glamorama (2008)
811Michael Chabon: Die unglaublichen Abenteuer von Kavalier & Clay (2010)
811Michael Chabon: Die unglaublichen Abenteuer von Kavalier & Clay (2002)
808Lion Feuchtwanger: Erfolg (1989)
808Hermann Kesten: Die blaue Blume (1959)

Luchterhand Literaturverlag

pagesauthor: title (year)
925Charles Chadwick: Ein unauffälliger Mann (2007)
859Russell Banks: John Brown, mein Vater (2000)
841Richard Bausch: Die Kannibalen (2004)
793Karl Ove Knausgård: Träumen (2015)
780Aleksandr Solzhenitsyn: August vierzehn (1974)
780Aleksandr Solzhenitsyn: August vierzehn (1973)
780Aleksandr Solzhenitsyn: August vierzehn (1972)
765Alexis Jenni: Die französische Kunst des Krieges (2012)
762Karl Ove Knausgård: Lieben (2012)
749António Lobo Antunes: Guten Abend ihr Dinge hier unten (2005)
736Günter Grass: Die Blechtrommel (1959)
734Aleksandr Solzhenitsyn: Krebsstation (1974)
730Günter Grass: Die Blechtrommel (1991)
720Günter Grass: Die Blechtrommel (1984)
714Günter Grass: Die Blechtrommel (1971)
714Günter Grass: Die Blechtrommel (1966)
702Jamie O’Neill: Im Meer, zwei Jungen (2003)
700Vladimir Makanin: Underground oder ein Held unserer Zeit (2003)
700Anna Seghers: Die Toten bleiben jung (1967)
700António Lobo Antunes: Was werd ich tun, wenn alles brennt? (2003)

Manesse

pagesauthor: title (year)
1347Victor Hugo: Die Elenden (1995)
1347Victor Hugo: Die Elenden (1993)
1347Victor Hugo: Die Elenden (1991)
1347Victor Hugo: Die Elenden (1986)
1347Victor Hugo: Die Elenden (1985)
1347Victor Hugo: Die Elenden (1968)
1236Fyodor Dostoyevsky: Die Brüder Karamasow (1964)
1230Fyodor Dostoyevsky: Die Brüder Karamasow (1994)
1230Fyodor Dostoyevsky: Die Brüder Karamasow (1987)
1196Charles Dickens: David Copperfield (1994)
1196Charles Dickens: David Copperfield (1961)
1195Charles Dickens: David Copperfield (1987)
1193Thomas Wolfe: Von Zeit und Fluss (2014)
1155William Makepeace Thackeray: Jahrmarkt der Eitelkeit (1959)
1150William Makepeace Thackeray: Jahrmarkt der Eitelkeit (1995)
1145George Eliot: Middlemarch (1995)
1145George Eliot: Middlemarch (1962)
1066Ivan Goncharov: Eine alltägliche Geschichte (1960)
1062George Eliot: Daniel Deronda (1994)
990Stefan Żeromski: In Schutt und Asche (1988)
960Charlotte Brontë: Shirley (1991)
956Charlotte Brontë: Shirley (1989)
953Fyodor Dostoyevsky: Schuld und Sühne (1996)
953Fyodor Dostoyevsky: Schuld und Sühne (1993)
953Fyodor Dostoyevsky: Schuld und Sühne (1985)
919Herman Melville: Moby Dick (1994)
918Herman Melville: Moby Dick (2004)
918Herman Melville: Moby Dick (1999)
918Herman Melville: Moby Dick (1994)
904Sinclair Lewis: Main street (1996)
898Benjamin Disraeli: Tancred oder der neue Kreuzzug (2004)
893Anthony Trollope: Die Claverings (2007)
893Munshi Premchand: Godan oder Das Opfer (2006)
892Anthony Trollope: Die Türme von Barchester (2005)
885Henry Fielding: Tom Jones (1995)
879Anthony Trollope: Der Premierminister (1991)
876Émile Zola: Germinal (2002)
864Elizabeth Gaskell: Frauen und Töchter (1997)
860Leo Tolstoy: Auferstehung (1949)
857D. H. Lawrence: Liebende Frauen (2002)
846Charlotte Brontë: Villette (1991)
846Charlotte Brontë: Villette (1986)
845George Santayana: Der letzte Puritaner (1990)
845Charlotte Brontë: Villette (1984)
831Dmitry Mamin-Sibiryak: Die Priwalowschen Millionen (1953)
818Charles Dickens: Grosse Erwartungen (1993)
818Charles Dickens: Grosse Erwartungen (1947)
795Italo Svevo: Zenos Gewissen (2011)
792Christoph Martin Wieland: Geschichte des Agathon (2001)
784Alessandro Manzoni: Die Verlobten (1958)

Merve

pagesauthor: title (year)

Nagel & Kimche

pagesauthor: title (year)
772Charles Lewinsky: Melnitz (2006)
555Jakob Schaffner: Johannes (2005)
539Charles Lewinsky: Gerron (2011)
457Enrique Vila-Matas: Doktor Pasavento (2007)
455Milena Moser: Möchtegern (2010)
443John Fusco: Das Gesetz der Familie (2003)
442Simon Werle: Der Schnee der Jahre (2003)
425Gabriel Chevallier: Heldenangst (2010)
415Francine Prose: Durchtrieben (2001)
411Eduardo Mendoza Garriga: Katzenkrieg (2012)
409Hermann Burger: Schilten (2009)
399Dara Horn: Ausgelöscht sei der Tag (2002)
397Charles Lewinsky: Kastelau (2014)
396Noah Hawley: Der Vater des Attentäters (2014)
396Charles Lewinsky: Andersen (2016)
394Rolf Lappert: Die Gesänge der Verlierer (1995)
394Milena Moser: Montagsmenschen (2012)
390Lukas Hartmann: Die Tochter des Jägers (2002)
380Gottfried Keller: Martin Salander (2003)
369Ulrich Knellwolf: Auftrag in Tartu (1999)

Piper

pagesauthor: title (year)
1612Fyodor Dostoyevsky: Die Brüder Karamasoff (1914)
1471Fyodor Dostoyevsky: Die Brüder Karamasoff (1949)
1469Lothar-Günther Buchheim: Die Festung (2005)
1469Lothar-Günther Buchheim: Die Festung (2005)
1469Lothar-Günther Buchheim: Die Festung (2005)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (2008)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (2008)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (2004)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (1999)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (1996)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (1994)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (1994)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (1990)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (1987)
1325Fyodor Dostoyevsky: Die Brüder Karamasoff (1985)
1309Fyodor Dostoyevsky: Die Brüder Karamasoff (1980)
1309Fyodor Dostoyevsky: Die Brüder Karamasoff (1977)
1303Fyodor Dostoyevsky: Die Brüder Karamasoff (1977)
1303Fyodor Dostoyevsky: Die Brüder Karamasoff (1959)
1303Fyodor Dostoyevsky: Die Brüder Karamasoff (1955)

Reclam

pagesauthor: title (year)
1319Wu Cheng’en: Die Reise in den Westen (2016)
890Fyodor Dostoyevsky: Schuld und Sühne (1999)
882Johann Wolfgang von Goethe: Wilhelm Meisters Lehrjahre (1986)
761D. H. Lawrence: Söhne und Liebhaber (2011)
703Fyodor Dostoyevsky: Schuld und Sühne (Raskolnikow) (1917)
657Théophile Gautier: Kapitän Fracasse (1968)
657Théophile Gautier: Kapitän Fracasse (1964)
657Théophile Gautier: Kapitän Fracasse (1960)
653Louise von François: Stufenjahre eines Glücklichen (1924)
628Mór Jókai: Ein Goldmensch (1967)
622Émile Zola: Germinal (1994)
622Émile Zola: Germinal (1991)
622Émile Zola: Germinal (1985)
622Émile Zola: Germinal (1980)
622Émile Zola: Germinal (1974)
617Jane Austen: Mansfield Park (2008)
617Jane Austen: Mansfield Park (2016)
617Jane Austen: Mansfield Park (2013)
611Nikolai Ostrovsky: Wie der Stahl gehärtet wurde (1964)
600Jane Austen: Emma (2007)

Rogner & Bernhard

pagesauthor: title (year)
1196Tom Sharpe: Neue Sharpe-Sachen (1999)
1030Tom Sharpe: Sharpe-Sachen (1987)
559T. Coraghessan Boyle: Wassermusik (2010)
509Ragnar Hovland: Der Himmel ist leer (1999)
491Terry McMillan: Ab durch die Mitte (1993)
480Edith Wharton: Zeit der Unschuld (1986)
420Edith Wharton: Sommer (1986)
369Armistead Maupin: Die Kleine (1994)
351Pavo Pejić: Pussykiller (2009)
350Matthias Keidtel: Ein Mann wie Holm (2006)
345Tom Sharpe: FamilienBande (1989)
326William Gibson: Virtuelles Licht (1993)
314Marie Cardinal: Schattenmund (1977)
309Alexa Hennig von Lange: Relax (1997)
304Terry McMillan: Mama (1993)
304Michael Muhammad Knight: Taqwacore (2012)
304Bruce Wagner: Der Goldblütenpalast (2006)
287Zelda Fitzgerald: Schenk mir den Walzer (1984)
268Paul Nizan: Die Verschwörung (1975)
233Jean Rhys: Quartett (1978)

Rowohlt

pagesauthor: title (year)
1723Péter Nádas: Parallelgeschichten (2013)
1671Robert Musil: Der Mann ohne Eigenschaften (1952)
1632Robert Musil: Der Mann ohne Eigenschaften (1974)
1632Robert Musil: Der Mann ohne Eigenschaften (1967)
1632Robert Musil: Der Mann ohne Eigenschaften (1960)
1632Robert Musil: Der Mann ohne Eigenschaften (1970)
1595Thomas Pynchon: Gegen den Tag (2010)
1595Thomas Pynchon: Gegen den Tag (2008)
1342Harold Brodkey: Die flüchtige Seele (1997)
1342Harold Brodkey: Die flüchtige Seele (1995)
1303Péter Nádas: Buch der Erinnerung (1992)
1230Irving Stone: Der Seele dunkle Pfade (2001)
1228Navid Kermani: Dein Name (2015)
1210Rosamunde Pilcher: Heimkehr (2014)
1196Thomas Wolfe: Von Zeit und Strom (1989)
1196Thomas Wolfe: Von Zeit und Strom (1989)
1193Thomas Pynchon: Die Enden der Parabel (1998)
1193Thomas Pynchon: Die Enden der Parabel (1994)
1193Thomas Pynchon: Die Enden der Parabel (1991)
1193Thomas Pynchon: Die Enden der Parabel (1989)

Schöffling & Co.

pagesauthor: title (year)
1001Guntram Vesper: Frohburg (2016)
786Bora Ćosić: Die Tutoren (2015)
758Heinz Rein: Finale Berlin (2015)
699Ulrich Becher: Murmeljagd (2009)
653Silvia Tennenbaum: Straßen von gestern (2012)
621Rudolf Lorenzen: Alles andere als ein Held (2002)
612Miljenko Jergović: Das Walnusshaus (2008)
603Sebastian Faulks: Gesang vom großen Feuer (1997)
565Juli Zeh: Spieltrieb (2004)
559Martin Kessel: Herrn Brechers Fiasko (2001)
550Simon Urban: Plan D (2011)
547Hans Pleschinski: Brabant (1995)
541Russell Banks: Verstoßen (2015)
539Martin Kessel: Lydia Faude (2001)
537Jennifer Egan: Die Farbe der Erinnerung (1999)
535Jennifer Egan: Look at me (2002)
524Markus Orths: Alpha & Omega (2014)
506Amy Waldman: Der amerikanische Architekt (2013)
491Tanja Dückers: Hausers Zimmer (2011)
488Bernard von Brentano: Theodor Chindler (2014)

Suhrkamp

pagesauthor: title (year)
1198Peter Weiss: Die Ästhetik des Widerstands (2016)
1195Peter Weiss: Die Ästhetik des Widerstands (2005)
1162Amos Oz: Eine Geschichte von Liebe und Finsternis (2016)
1122James Joyce: Ulysses (2004)
1026William T. Vollmann: Europe Central (2014)
1025William T. Vollmann: Europe Central (2013)
1018Clemens J. Setz: Die Stunde zwischen Frau und Gitarre (2017)
987James Joyce: Ulysses (2006)
987James Joyce: Ulysses (2004)
972Ippolito Nievo: Pisana oder Die Bekenntnisse eines Achtzigjährigen (1959)
972Ippolito Nievo: Pisana oder Die Bekenntnisse eines Achtzigjährigen (1957)
972Ippolito Nievo: Pisana oder Die Bekenntnisse eines Achtzigjährigen (1957)
972Ippolito Nievo: Pisana oder Die Bekenntnisse eines Achtzigjährigen (1956)
972Uwe Tellkamp: Der Turm (2010)
972Uwe Tellkamp: Der Turm (2008)
941Jaume Cabré: Die Stimmen des Flusses (2016)
924Elsa Morante: Lüge und Zauberei (1987)
924Elsa Morante: Lüge und Zauberei (1986)
923Elsa Morante: Lüge und Zauberei (1981)
891Martin Walser: Halbzeit (1990)

Ullstein

pagesauthor: title (year)
1214Stephen King: Es (2009)
1214Stephen King: Es (2005)
1214Stephen King: Es (2003)
1149Leonie Ossowski: Weichselkirschen (2000)
1119Margaret Mitchell: Vom Winde verweht (2007)
1119Margaret Mitchell: Vom Winde verweht (2004)
1119Margaret Mitchell: Vom Winde verweht (2003)
1099Federica de Cesco: Die Tibeterin (2015)
1047Mario Puzo: Der letzte Pate (2000)
1047Richard Dübell: Der Jahrhundertsturm (2015)
1024Gerhart Hauptmann: Das Abenteuer meiner Jugend (2007)
1013Matthias Wegehaupt: Die Insel (2005)
989Meinrad Inglin: Schweizerspiegel (1998)
973Nelson DeMille: Die Mission (2005)
973Nelson DeMille: Die Mission (2004)
973Nelson DeMille: Die Mission (2002)
951James Ellroy: Perfidia (2015)
949James Ellroy: Perfidia (2016)
947Christine Brückner: Jauche und Levkojen (1994)
942Kari Köster-Lösche: Die Hakima (2006)

Urs Engeler Editor

pagesauthor: title (year)
405Wolfgang Held: Traum vom Hungerturm (2007)
295Michael Donhauser: Livia oder die Reise (2004)
282Harry Mathews: Mein Leben als CIA (2006)
215Arno Camenisch: Sez Ner (2009)

Verbrecher Verlag

pagesauthor: title (year)
1035Dietmar Dath: Für immer in Honig (2008)
815Chaim Noll: Der Kitharaspieler (2008)
701Rudolf Lorenzen: Alles andere als ein Held (2014)
686Rudolf Lorenzen: Alles andere als ein Held (2007)
583Peter O. Chotjewitz: Mein Freund Klaus (2014)
576Peter O. Chotjewitz: Mein Freund Klaus (2007)
543Christian Geissler: Das Brot mit der Feile (2016)
447Chaim Noll: Die Synagoge (2014)
414Rudolf Lorenzen: Die Beutelschneider (2007)
340Barbara Kirchner; Dietmar Dath: Schwester Mitternacht (2002)
330Dietmar Dath: Am blinden Ufer (2010)
317Enno Stahl: Winkler, Werber (2012)
316Karl-Ludwig Wetzig: Windzeit, Wolfszeit (2011)
315Georg Kreisler: Ein Prophet ohne Zukunft (2011)
299Nino Kharatishvili: Juja (2010)
283Gisela Elsner: Fliegeralarm (2009)
274Dietmar Dath: Phonon oder Staat ohne Namen (2004)
265Enno Stahl: Diese Seelen (2008)
255Gunnar Gunnarsson: Vikivaki (2011)
253Barbara Kirchner: Die verbesserte Frau (2012)

Voland & Quist

pagesauthor: title (year)
399Viktar Martsinovich: Paranoia (2014)
394Viktar Martsinovich: Mova (2016)
317Tobias Herre: Das Fehlerchen (2012)
281Volker Surmann: Extremely cold water (2014)
273Edo Popović: Die Spieler (2009)
203Volker Strübing: Das Paradies am Rande der Stadt (2013)
172Sarah Bosetti: Mein schönstes Ferienbegräbnis (2015)
171Marion Pfaus: Aus den Memoiren einer Verblühenden (2006)
139Michael Stauffer: Ansichten eines alten Kamels (2014)

Wallstein

pagesauthor: title (year)
597Karl Mickel: Lachmunds Freunde (2006)
509Patrick Roth: Sunrise (2012)
447Yi Mun-yol: Dem Kaiser! (2008)
395Stefanie von Schnurbein: Krisen der Männlichkeit (2001)
389Ernst Glaeser: Jahrgang 1902 (2013)
356Clemens Berger: Das Streichelinstitut (2010)
329Ulf Erdmann Ziegler: Hamburger Hochbahn (2007)
320Markus Gasser: Die Sprengung der platonischen Höhle (2007)
296Ulrike Kolb: Yoram (2009)
294Svealena Kutschke: Etwas Kleines gut versiegeln (2009)
287Maja Haderlap: Engel des Vergessens (2011)
280Hugo Dittberner: Wolken und Vögel und Menschentränen (1995)
278Claire Goll: Arsenik (2005)
276Gabriele Kögl: Vorstadthimmel (2011)
272Ralph Dutli: Die Liebenden von Mantua (2015)
270Ralph Dutli: Soutines letzte Fahrt (2013)
259Jörg Albrecht: Beim Anblick des Bildes vom Wolf (2012)
253Lot Vekemans: Ein Brautkleid aus Warschau (2016)
247Sybren Polet: Die andere Stadt (1999)
247Romualdas Granauskas: Das Strudelloch (2010)

Wiesenburg

pagesauthor: title (year)
384Monika Böss: Marvins Bräute (2005)
379Norbert Schmid: Norm_372n (2008)
377Wolfgang Dahms: Das richtige Wort (2007)
315Norbert Schmid: Marlies (2003)
310Hartmut Löffel: Schmerzpunkte oder die Kunst, zu überleben (2011)
309Armin Strohmeyr: Dame mit rotem Kater (2015)
304Gyde Callesen: Angst hat die Quersumme 5 (2013)
303Karl-Heinz Schreiber: Der Meerschwimmer oder Heimat für Blumberg (2005)
241Norbert Schmid: Der Tote im Park (1999)
235Rüdiger Heins: In Schweigen gehüllt (2014)
202Wolfgang Dahms: Die Abwendung (2008)
197Klaus Brunn: Blindgänger - ein Familienidyll (2007)
194Silke Heimes: Wie Nietzsche wurde, wer er war (2013)
184Michael Maria Kroehn: Scarlet Red (2009)
154Michael Mäde: Spiel mit Maurice (2001)
153Silke Heimes: Die Geigerin (2009)
146Silke Heimes: Der Antiquar (2010)
143Ralf Schwob: Geschlossene Station (2003)
140Eckhard Erxleben: Die Haut der Platane (2004)
129Dieter Günther: Blühende Landschaften (1999)