Skip to content

Commit

Permalink
added mallet texts
Browse files Browse the repository at this point in the history
  • Loading branch information
trinker committed Dec 22, 2015
1 parent b8bb830 commit 094d55a
Show file tree
Hide file tree
Showing 27 changed files with 88 additions and 0 deletions.
8 changes: 8 additions & 0 deletions data/mallet_texts/README
@@ -0,0 +1,8 @@
MALLET Sample Data Sets

/web

This sample data includes the text of 24 "featured articles"
from Wikipedia, 12 from the English version, and 12 from the
German version. They were retrieved in December 2008.
The text is in UTF-8 encoding.
4 changes: 4 additions & 0 deletions data/mallet_texts/numeric/boxes.txt
@@ -0,0 +1,4 @@
first big height=3.2 width=1.7 length=12.0 blue heavy
second small height=1.2 width=1.2 length=3 yellow light
third big height=5.1 width=5.1 length=3 red light
fourth small height=0.9 width=3.0 length=1.1 yellow heavy
38 changes: 38 additions & 0 deletions data/mallet_texts/numeric/puffins.txt
@@ -0,0 +1,38 @@
16 45 39.2 38 3
15 65 47.0 36 12
10 40 24.3 14 18
7 20 30.0 16 21
11 40 47.6 6 27
7 80 47.6 9 36
4 80 45.6 7 39
0 15 27.8 8 45
0 0 41.9 8 54
0 20 36.8 5 60
15 40 34.9 31 3
21 60 45.2 37 12
12 95 32.9 24 18
8 50 26.6 11 24
9 80 32.7 10 30
6 80 38.1 5 36
0 60 31.4 5 39
0 70 32.7 2 48
0 35 38.1 8 51
16 60 37.1 35 6
25 60 47.1 35 12
13 85 34.0 23 18
13 90 43.6 12 21
11 20 30.8 9 27
3 85 34.6 6 33
0 30 37.7 8 42
0 75 45.5 5 48
0 15 51.4 8 54
18 40 32.1 36 6
19 40 35.4 37 9
8 90 30.2 11 18
12 80 33.9 9 24
10 80 40.2 11 30
3 75 33.5 7 36
0 65 40.3 10 42
0 80 40.3 12 45
0 50 43.1 13 51
0 50 42.0 3 57
1 change: 1 addition & 0 deletions data/mallet_texts/web/de/apollo8.txt
@@ -0,0 +1 @@
Apollo 8 war der zweite bemannte Raumflug des amerikanischen Apollo-Programms und der erste bemannte Flug zum Mond und damit zu einem anderen Himmelskörper. Die drei Astronauten Frank Borman, William Anders und James Lovell waren die ersten Menschen, die mit eigenen Augen die Rückseite des Mondes sahen. Apollo 8 startete am 21. Dezember 1968 vom Kennedy Space Center in Florida und erreichte drei Tage später, am 24. Dezember 1968, die Mondumlaufbahn. Große Bekanntheit erlangte die Fernsehübertragung aus dem Mondorbit, während der die drei Astronauten die ersten Zeilen der Schöpfungsgeschichte als Weihnachtsbotschaft verlasen. Nach zehn Umkreisungen des Mondes leiteten die Astronauten am frühen Morgen des 25. Dezember die Rückkehr zur Erde ein, wo die Rückkehrkapsel am 27. Dezember im Pazifischen Ozean wasserte.
1 change: 1 addition & 0 deletions data/mallet_texts/web/de/fiv.txt
@@ -0,0 +1 @@
Das Feline Immundefizienz-Virus (FIV) ist ein Virus aus der Familie der Retroviren. Das Virus löst bei Katzen eine Immunschwächekrankheit aus, die als Felines Immundefizienzsyndrom oder umgangssprachlich als Katzen-AIDS bezeichnet wird, da sie der Erkrankung AIDS beim Menschen stark ähnelt. Menschen können sich jedoch mit FIV nicht infizieren. FIV gehört innerhalb der Retroviren zur Gattung der Lentiviren und wurde 1986, also vier Jahre nach der Entdeckung des Humanen Immundefizienz-Virus (HIV), zum ersten Mal beschrieben. Die Erkrankung ist bisher nicht wirkungsvoll behandelbar, verläuft aber oft über lange Zeit symptomlos. Langfristig wird jedoch das Immunsystem zerstört und Sekundärinfektionen führen zum Tod. Bisher wurden neun verschiedene Stämme des Virus aus elf verschiedenen Katzenarten isoliert, darunter spezifische Stämme aus Löwen und Pumas. Auch in der Tüpfelhyäne, die nicht zur Familie der Katzen gehört, wurde FIV gefunden. Neben dem Felinen Coronavirus, dem Erreger der Felinen Infektiösen Peritonitis (FIP) und dem Felinen Leukosevirus (FeLV), dem Erreger der Katzenleukämie, gehört das Virus zu den Auslösern der klinisch bedeutsamsten viralen Infektionskrankheiten bei Hauskatzen.
1 change: 1 addition & 0 deletions data/mallet_texts/web/de/habichtsadler.txt
@@ -0,0 +1 @@
Der Habichtsadler (Hieraaetus fasciatus, Synonym Aquila fasciata) ist eine Vogelart aus der Familie der Habichtartigen (Accipitridae). Dieser mittelgroße, kräftige und sehr agile Adler bewohnt trockene, felsige Regionen in Südeuropa, Nordafrika und im Süden Asiens, wo er sich von kleinen bis mittelgroßen Wirbeltieren ernährt. Der Bestand des Habichtsadlers ist in Südeuropa vor allem aufgrund illegaler Verfolgung seit Jahrzehnten rückläufig, daher gilt die Art hier als stark gefährdet.
2 changes: 2 additions & 0 deletions data/mallet_texts/web/de/hoechst.txt
@@ -0,0 +1,2 @@
Höchst am Main ist ein Stadtteil von Frankfurt am Main, hat etwa 13.500 Einwohner (Stand 31. Dezember 2006[1]) und liegt rund zehn Kilometer westlich der Frankfurter Innenstadt[2] an der Mündung der Nidda in den Main. Höchst war im Gegensatz zu den meisten anderen Stadtteilen eine alte Stadt mit Stadtrecht seit 1355 und ist bis heute das wichtigste städtische Subzentrum im Frankfurter Westen. 1928 wurde Höchst nach Frankfurt eingemeindet. Bis 1987 war Höchst Verwaltungssitz eines eigenen Landkreises, der seit 1928 den Namen Main-Taunus-Kreis trägt. Höchst ist Zentrum des Ortsbezirks Frankfurt-West mit 120.000 Einwohnern.
Der Name Höchst wurde durch die Hoechst AG (1863–1999) weltweit bekannt. Mit einer Unterbrechung von 27 Jahren zwischen 1925 und 1952 war Höchst Sitz des Chemie- und Pharmakonzerns. Dessen ehemaliges Stammwerk ist heute als Industriepark Höchst einer der größten Industriestandorte Deutschlands. Bedeutendstes Baudenkmal Höchsts ist die karolingische Justinuskirche, die in wesentlichen Teilen aus dem 9. Jahrhundert stammt. Die gut erhaltene Höchster Altstadt steht seit 1972 unter Denkmalschutz. Die meisten Fachwerkhäuser auf mittelalterlichem Stadtgrundriss stammen aus der Zeit nach dem großen Stadtbrand von 1586.
2 changes: 2 additions & 0 deletions data/mallet_texts/web/de/indogermanische.txt
@@ -0,0 +1,2 @@
Die indogermanische Ursprache (Protoindoeuropäisch, PIE), auch Indoeuropäisch oder Urindogermanisch (UIG), ist die gemeinsame Vorläuferin der indogermanischen Sprachen, wie sie vor vielleicht 5000 Jahren vermutlich in der Nähe des Schwarzen Meeres gesprochen wurde. Es ist eine der großen Leistungen der Sprachwissenschaftler seit dem Beginn des 19. Jahrhunderts, aus der Betrachtung der Gemeinsamkeiten und der systematischen Unterschiede der indogermanischen Sprachen untereinander eine plausible Beschreibung der Gestalt dieser Ursprache extrapoliert zu haben.
Der Erwerb der Sprachfähigkeit durch die Menschheit lag zur Zeit der indogermanischen Ursprache etwa 200.000 Jahre zurück; die Benennung der rekonstruierten Sprache als „indogermanische Ursprache“ impliziert daher keinesfalls, dass die Sprache in irgendeiner Hinsicht „archaisch“ oder „primitiv“ gewesen sei. Ebenso wenig handelt es sich bei ihrer Rekonstruktion um den Versuch, die sogenannte „Welt-Ursprache“ zu finden.
3 changes: 3 additions & 0 deletions data/mallet_texts/web/de/konrad.txt
@@ -0,0 +1,3 @@
Konrad I. (* um 881; † 23. Dezember 918 in Weilburg; beerdigt in Fulda) war seit 906 Herzog von Franken und von 911 bis 918 König des Ostfrankenreichs.
Adelsfehden zwischen den mächtigen Aristokratenfamilien um die Vorherrschaft in den einzelnen Stammesgebieten des ostfränkischen Reiches, die wiederholten Ungarneinfälle und die Schwäche des karolingischen Königtums führten zur Etablierung regionaler Mittelgewalten, den späteren Herzogtümern. In diese Zeit fiel der Aufstieg Konrads, der selbst ein Repräsentant dieser aufsteigenden Regionen und zugleich am Regiment des ostfränkischen Karolingers Ludwig des Kindes beteiligt war. Als König versuchte Konrad, sich der anbahnenden Auflösung des Reichsverbandes entgegen zu stellen und die Herrschaft wieder im ganzen Reich auszuüben. Seine siebenjährige Regierungszeit ist daher hauptsächlich durch die Konflikte mit den ostfränkischen Herzögen (duces) der einzelnen Teilreiche und durch die Ungarneinfälle geprägt. Konrads Herrschaft bildete den Übergang von den Karolingern zu den Ottonen, da es ihm nicht gelang, eine neue Königsdynastie zu begründen. Er führte die Herrschaftspraxis der Karolinger fort.
Seine Zeit gehört zu den quellenärmsten des gesamten Mittelalters. Während die Jahrzehnte später verfassten ottonischen Geschichtswerke Konrad noch positive Eigenschaften zuweisen, gilt er in der Forschung oftmals mit seiner ganzen Regierungszeit als gescheitert. Lange Zeit wurde die Königswahl Konrads als Beginn einer deutschen Geschichte verortet. Erst jüngst setzte sich die Auffassung durch, dass das deutsche Reich nicht in einem Akt, sondern in einem lang dauernden Prozess entstand. Gleichwohl wird Konrad als wichtiger Akteur in dieser Entwicklung angesehen.
2 changes: 2 additions & 0 deletions data/mallet_texts/web/de/marcellinus.txt
@@ -0,0 +1,2 @@
Ammianus Marcellinus (* um 330 in Antiochia am Orontes, Syrien; † um 395 [spätestens um 400] wahrscheinlich in Rom) war ein römischer Historiker. Er ist neben Prokopios von Caesarea der bedeutendste spätantike Geschichtsschreiber und schrieb in lateinischer Sprache, obwohl seine Muttersprache das Griechische war.
Seine Res gestae sind das letzte bedeutende lateinische Geschichtswerk der Antike. Die erhaltenen Teile umfassen die Jahre von 353 bis 378 und beschreiben die Zeit unmittelbar vor Beginn der großen Völkerwanderung, in der sich die antike Mittelmeerwelt grundlegend verändern sollte. Ammianus hat als Soldat unter den Kaisern Constantius II. und Julian Apostata gedient und viele der von ihm geschilderten Ereignisse selbst miterlebt. Obwohl er mehr als andere antike Geschichtsschreiber um Objektivität bemüht war, wird seine persönliche Sicht bisweilen recht deutlich. So beurteilte er etwa Constantius II. teilweise sehr negativ, während er von Julian ein ausgesprochen positives Bild zeichnete. Der Wert seiner Res gestae für die Erforschung des 4. Jahrhunderts ist dennoch unbestritten.
2 changes: 2 additions & 0 deletions data/mallet_texts/web/de/rostock.txt
@@ -0,0 +1,2 @@
Der F.C. Hansa Rostock ist ein deutscher Fußballverein aus Rostock in Mecklenburg-Vorpommern mit rund 4450 Mitgliedern.[1] Gegründet wurde der F.C. Hansa als Fußballclub am 28. Dezember 1965 mit der Ausgliederung der Fußballabteilung aus dem am 11. November 1954 gegründeten SC Empor Rostock.
Als einziger Verein aus den neuen Bundesländern spielte Hansa stets mindestens in der jeweils zweithöchsten Spielklasse der nationalen Verbände der Deutschen Demokratischen Republik und der Bundesrepublik Deutschland und verbuchte seine größten Erfolge mit dem Gewinn der 1990/91 unter der Bezeichnung NOFV-Oberliga letztmalig ausgespielten Meisterschaft sowie des 1991 unter der Bezeichnung NOFV-Pokal letztmalig ausgetragenen Pokalfinals der Deutschen Demokratischen Republik.
1 change: 1 addition & 0 deletions data/mallet_texts/web/de/sadat.txt
@@ -0,0 +1 @@
Muhammad Anwar as-Sadat, arabisch محمد أنور السادات‎, DMG Muhammad Anwar as-Sādāt, (* 25. Dezember 1918 in Mit Abul-kum, einem Dorf im Nildelta; † 6. Oktober 1981 in Kairo) war ein ägyptischer Staatsmann. Neben Nasser und anderen war er Mitgründer des Geheimbunds der Freien Offiziere, seit dem Staatsstreich 1952 bekleidete er hohe Ämter. Als Nachfolger Nassers wurde er 1970 Staatspräsident. Sadat führte Ägypten in den Jom-Kippur-Krieg 1973, löste das Land aus der engen Bindung an die Sowjetunion und schloss 1979 Frieden mit Israel. Für seine Bemühungen im Friedensprozess mit Israel erhielt er zusammen mit Menachem Begin 1978 den Friedensnobelpreis. Sadat fiel einem Attentat zum Opfer, das Gegner seiner Politik der Aussöhnung mit Israel verübten.
4 changes: 4 additions & 0 deletions data/mallet_texts/web/de/t40.txt
@@ -0,0 +1,4 @@
Der T-40 war ein sowjetischer leichter Schwimmpanzer zur Zeit des Zweiten Weltkrieges. Die damalige sowjetische Klassifikation ordnete ihn als „kleinen Panzer“ ein.
Das Konstruktionsbüro des Werks Nr. 37 in Moskau entwickelte den T-40 in der ersten Hälfte des Jahres 1939. Als Chefkonstrukteur wirkte Nikolai Alexandrowitsch Astrow, einer der damals führenden Spezialisten in der Entwicklung leichter Panzer. Die Rote Armee nahm den Panzer im Dezember 1939 an und das Werk Nr. 37 produzierte ihn bis Dezember 1941 in Serie.
Während der Serienfertigung modifizierten die Entwickler den T-40 mehrfach, sowohl um die Fertigung zu vereinfachen, als auch um Panzerung und Feuerkraft zu verstärken. Die späteren Ausführungen, in der Literatur als T-40S und T-30 bezeichnet, wiesen einen besseren Panzerschutz auf und trugen als Hauptbewaffnung eine kleinkalibrige automatische Kanone statt eines überschweren Maschinengewehrs. Gleichzeitig verloren die Panzer ihre Schwimmfähigkeit. Diese Varianten stellten Übergangsmodelle zum Nachfolger des T-40, dem leichten Panzer T-60, dar.
Die Rote Armee setzte den T-40 hauptsächlich in den Kämpfen der Anfangsphase der deutschen Invasion in der UdSSR ein. Die meisten T-40-Panzer wurden im Spätherbst des Jahres 1941 in der Schlacht um Moskau eingesetzt. Fast alle Panzer gingen hier und in Folge verloren, so dass der Typ bereits 1942 aus den Panzertruppen verschwand. Einzelne verbliebene Fahrzeuge verwendete die Armee zu Trainingszwecken bis zum Ende des Krieges.
1 change: 1 addition & 0 deletions data/mallet_texts/web/de/ulrich.txt
@@ -0,0 +1 @@
Ulrich von Wilamowitz-Moellendorff (* 22. Dezember 1848 auf Gut Markowitz, Kujawien, Provinz Posen; † 25. September 1931 in Berlin; vollständiger Name Enno [auch: Emmo] Friedrich Wichard Ulrich von Wilamowitz-Moellendorff) war ein deutscher klassischer Philologe. Er lehrte und forschte als Professor in Greifswald (1876–1883), Göttingen (1883–1897) und Berlin (1897–1921). Mit seinen Editionsprojekten, seiner Erneuerung der Textkritik und Textinterpretation, seiner Einflussnahme auf die preußische Berufungspolitik und seiner Tätigkeit als Wissenschaftsorganisator war er einer der führenden Vertreter seines Faches und prägte die Klassische Philologie des 20. Jahrhunderts im internationalen Raum nachhaltig. Durch seine Monografien zu vielen Bereichen der griechischen Literatur, seine Neudefinition des Faches und nicht zuletzt durch seine zahlreichen Schüler übte er großen Einfluss auf die Klassische Philologie aus. Als Präsident der Preußischen Akademie der Wissenschaften brachte er viele Akademievorhaben auf den Weg, besonders die Inscriptiones Graecae, die bis heute alle in Griechenland entdeckten Inschriften verzeichnen und herausgeben.
1 change: 1 addition & 0 deletions data/mallet_texts/web/de/wildenstein.txt
@@ -0,0 +1 @@
Die Burg Wildenstein liegt über dem Donaudurchbruch durch die Schwäbische Alb. Sie gehört zur Gemeinde Leibertingen im Landkreis Sigmaringen. Ihre heutige Form, insbesondere die der Außenanlage, stellt fast unverändert den Zustand zwischen 1514 und 1554 dar, als sie unter Gottfried Werner von Zimmern zu einer frühneuzeitlichen Festung umgebaut wurde. Sowohl Hauptburg als auch Vorburg stehen auf künstlich abgeschrofften Felsen und sind nur über Brücken zugänglich. Der über die gesamte Breite der Burg reichende Halsgraben mit einer Breite von 20 Metern und ursprünglichen Tiefe von ebenfalls 20 Metern hat, wie der berühmte Stich Matthäus Merians zeigt, bereits in der Vergangenheit Besucher der Burg sehr beeindruckt. Im Innern besitzt die Burg großflächige Renaissance-Wandmalereien von circa 1538 bis 1540 mit Blumenranken und Vogelmotiven, sowie, in einem Bilderzyklus, die komplette Sigenotsage.
1 change: 1 addition & 0 deletions data/mallet_texts/web/en/elizabeth_needham.txt
@@ -0,0 +1 @@
Elizabeth Needham (died 3 May 1731), also known as Mother Needham, was an English procuress and brothel-keeper of 18th-century London, who has been identified as the bawd greeting Moll Hackabout in the first plate of William Hogarth's series of satirical etchings, A Harlot's Progress. Although Needham was notorious in London at the time, little is recorded of her life, and no genuine portraits of her survive. Her house was the most exclusive in London and her customers came from the highest strata of fashionable society, but she eventually crossed the moral reformers of the day and died as a result of the severe treatment she received after being sentenced to stand in the pillory.
1 change: 1 addition & 0 deletions data/mallet_texts/web/en/equipartition_theorem.txt
@@ -0,0 +1 @@
The equipartition theorem is a formula from statistical mechanics that relates the temperature of a system with its average energies. The original idea of equipartition was that, in thermal equilibrium, energy is shared equally among its various forms; for example, the average kinetic energy in the translational motion of a molecule should equal the average kinetic energy in its rotational motion. Like the virial theorem, the equipartition theorem gives the total average kinetic and potential energies for a system at a given temperature, from which the system's heat capacity can be computed. However, equipartition also gives the average values of individual components of the energy. It can be applied to any classical system in thermal equilibrium, no matter how complicated. The equipartition theorem can be used to derive the classical ideal gas law, and the Dulong–Petit law for the specific heat capacities of solids. It can also be used to predict the properties of stars, even white dwarfs and neutron stars, since it holds even when relativistic effects are considered. Although the equipartition theorem makes very accurate predictions in certain conditions, it becomes inaccurate when quantum effects are significant, namely at low enough temperatures.
1 change: 1 addition & 0 deletions data/mallet_texts/web/en/gunnhild.txt
@@ -0,0 +1 @@
Gunnhild konungamóðir (mother of kings) or Gunnhild Gormsdóttir[1] (c. 910 – c. 980) was the wife of Erik Bloodaxe (king of Norway 930–34, "king" of Orkney c. 937–54, and king of Jórvík 948–49 and 952–54). Gunnhild is a prominent figure in many Norse sagas, including Fagrskinna, Egil's Saga, Njal's Saga, and Heimskringla. Many of the details of her life are disputed, including her parentage. Gunnhild lived during a time of great change in Norway. Her father-in-law Harald Fairhair had recently united much of Norway under his rule. Shortly after his death, Gunnhild and her husband were overthrown and exiled. She spent much of the rest of her life in exile in Orkney, Jorvik and Denmark. A number of her many children with Erik became co-rulers of Norway in the late tenth century. What details of her life are known come largely from Icelandic sources; because the Icelanders were generally hostile to her and her husband, scholars regard some of the episodes reported in them as suspect.
1 change: 1 addition & 0 deletions data/mallet_texts/web/en/hawes.txt
@@ -0,0 +1 @@
Richard Hawes (1797–1877) was a United States Representative from Kentucky and the second Confederate Governor of Kentucky. Originally a Whig, Hawes became a Democrat following the dissolution of the Whig party in the 1850s. At the outbreak of the American Civil War, Hawes was a supporter of Kentucky's doctrine of armed neutrality. When the Commonwealth's neutrality was breached in September 1861, Hawes fled to Virginia and enlisted as a brigade commissary under Confederate general Humphrey Marshall. He was elected Confederate governor of the Commonwealth following the late George W. Johnson's death at the Battle of Shiloh. Hawes and the Confederate government traveled with Braxton Bragg's Army of Tennessee, and when Bragg invaded Kentucky in October 1862, he captured Frankfort and held an inauguration ceremony for Hawes. The ceremony was interrupted, however, by forces under Union general Don Carlos Buell, and the Confederates were driven from the Commonwealth following the Battle of Perryville. Hawes relocated to Virginia, where he continued to lobby President Jefferson Davis to attempt another invasion of Kentucky. Following the war, he returned to his home in Paris, Kentucky, swore an oath of allegiance to the Union, and was allowed to return to his law practice.
1 change: 1 addition & 0 deletions data/mallet_texts/web/en/hill.txt
@@ -0,0 +1 @@
Clem Hill (1877–1945) was an Australian cricketer who played 49 Test matches as a specialist batsman between 1896 and 1912. He captained the Australian team in ten Tests, winning five and losing five. A prolific run scorer, Hill scored 3,412 runs in Test cricket—a world record at the time of his retirement—at an average of 39.21 per innings, including seven centuries. In 1902, Hill was the first batsman to make 1,000 Test runs in a calendar year, a feat that would not be repeated for 45 years. His innings of 365 scored against New South Wales for South Australia in 1900–01 was a Sheffield Shield record for 27 years. His Test cricket career ended in controversy after he was involved in a brawl with cricket administrator and fellow Test selector Peter McAlister in 1912. He was one of the "Big Six", a group of leading Australian cricketers who boycotted the 1912 Triangular Tournament in England when the players were stripped of the right to appoint the tour manager. The boycott effectively ended his Test career. After retiring from cricket, Hill worked in the horse racing industry as a stipendiary steward and later as a handicapper for races including the Caulfield Cup.

0 comments on commit 094d55a

Please sign in to comment.