Skip to content

VocabularyScraper is a Python tool to extract all kinds of vocabularies from http://www.vokabeln.de and stores each vocabularylist into a XML File.

License

Notifications You must be signed in to change notification settings

StatueFungus/VocabularyScraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

VocabularyScraper

VocabularyScraper is a Python tool to extract all kinds of vocabularies from http://www.vokabeln.de and stores each vocabularylist into a XML File.

See some example files

Installation

pip install scrapy

For more information read the official documentation. (http://www.scrapy.org)

Usage

scrapy crawl vocabularyspider

Copyright

Please note that the extracted vocabularies should only be used for non-commercial purposes.

Copyright Hinweis der Seite www.vokabeln.de:

Die Wortschätze, die auf der Internetseite www.vokabeln.de (unter "Vokabel-Download" und allen anderen Seiten und Unterseiten von www.vokabeln.de) zusammengestellt wurden, dürfen ausschließlich zu privaten Zwecken weiterverwendet werden. Das gilt auch für die "Vorschau"-Seiten und die darauf enthaltenen Wortlisten.

Falls Sie einen oder mehrere Wortschätze zu anderen (z.B. gewerblichen) Zwecken verwenden möchten, benötigen Sie dazu nicht nur die Zustimmung des jeweiligen Wortschatz-Autors, sondern auch die vorherige, ausdrückliche und schriftliche Zustimmung des Betreibers der Seite www.vokabeln.de. Das gilt insbesondere, wenn Sie die Wortschätze im Zusammenhang mit einer anderen (kommerziellen oder nicht-kommerziellen) Lernsoftware anbieten wollen.

Das liegt daran, dass alle Download-Wortschätze (auch und besonders diejenigen, die mit der Zustimmung der jeweiligen Autoren aus anderen Quellen übernommen wurden) vor der Veröffentlichung auf www.vokabeln.de z.T. sehr aufwändig weiterbearbeitet wurden, indem z.B. Rechtschreibfehler korrigiert wurden, Dubletten entfernt bzw. "zusammengelegt" wurden, einzelne Vokabeln gestrichen oder ergänzt wurden, die Sortierung der Vokabeln verändert wurde (insbesondere um eine Sortierung nach Häufigkeit zu erreichen), zusätzliche Kategorisierungen (nach Wortschatz, Lektion, Wortart etc.) vorgenommen wurden usw.

Auch das Einlesen der jeweiligen Quellen in das Datenformat des Vokabeltrainers (ebenso wie das Erstellen der HTML-Vorschauseiten und der HTML-Downloadseiten für vokabeln.de) hat erheblichen Arbeits- und Programmieraufwand bedeutet, da die Quelldaten naturgemäß in sehr unterschiedlichen Formaten vorliegen. Insgesamt stecken seitens des Betreibers von www.vokabeln.de mehrere Monate Arbeit in dieser Wortschatzsammlung, und entsprechend hoch ist der Schaden, der uns durch eine widerrechtliche Verwendung des Ergebnisses dieser Arbeit entsteht.

Der Autor eines Wortschatzes kann Ihnen daher lediglich die Zustimmung geben, die auf seiner jeweiligen Internetseite veröffentlichten Wortschatz-Daten weiterzuverwenden und weiterzubearbeiten; er kann Ihnen nicht die Zustimmung geben, die Daten in der auf www.vokabeln.de dargestellten Form weiterzuverwenden.

About

VocabularyScraper is a Python tool to extract all kinds of vocabularies from http://www.vokabeln.de and stores each vocabularylist into a XML File.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages