-
Notifications
You must be signed in to change notification settings - Fork 7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Update readme and create English translation #12
Changes from 4 commits
ff3fed6
8a2279d
0fa5297
5ba113a
36eeb12
618c452
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,15 +1,16 @@ | ||
Datensatzdokumentation | ||
# SARS-CoV-2-Sequenzdaten aus Deutschland <br/><small>SARS-CoV-2 sequences from Germany </small> | ||
# SARS-CoV-2-Sequenzdaten aus Deutschland | ||
|
||
[Robert Koch-Institut](https://grid.ac/institutes/grid.13652.33) | RKI | ||
Nordufer 20 | ||
13353 Berlin | ||
|
||
--- | ||
**You can find a english version of the readme [here](readme_en.md)** | ||
|
||
Robert Koch-Institut (2021): SARS-CoV-2-Sequenzdaten aus Deutschland, Berlin: Zenodo. [DOI: 10.5281/zenodo.5139363](https://doi.org/10.5281/zenodo.5139363) | ||
|
||
Der Datensatz "SARS-CoV-2-Sequenzdaten_aus_Deutschland" ist lizenziert unter der [Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International](https://creativecommons.org/licenses/by/4.0/deed.de) | ||
Der Datensatz "SARS-CoV-2-Sequenzdaten aus Deutschland" ist lizenziert unter der [Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International](https://creativecommons.org/licenses/by/4.0/deed.de) | ||
|
||
## Informationen zum Datensatz und Entstehungskontext | ||
|
||
|
@@ -56,9 +57,9 @@ Die hier veröffentlichten Daten können daher nicht ohne weiteres mit dem wöch | |
|
||
Der Datensatz enthält Daten über SARS-CoV-2-Sequencen in Deutschland und die in der Datenverarbeitung unterstützenden Kontextmaterialien. Im Datensatz enthalten sind: | ||
|
||
* Sequenzdaten der übermittelten SARS-CoV-2-Genomsequenzen | ||
* Metadaten zu den SARS-CoV-2-Genomsequenzen | ||
* Archiv mit der Sammlung aller bisherig übermittelten SARS-CoV-2-Genomsequenzen und der entsprechenden Metadaten | ||
* Sequenzdaten der übermittelten SARS-CoV-2-Genomsequenzen (SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz) | ||
* Metadaten zu den SARS-CoV-2-Genomsequenzen (SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz) | ||
* Informationen zu den Entwicklungslinien (PANGOLIN Lineages) der SARS-CoV-2-Genomsequenzen (SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz) | ||
* Lizenz mit der Nutzungslizenz des Datensatzes | ||
* Datensatzdokumentation und Kontextmaterialien in deutscher Sprache | ||
* Metadaten Datei zum Import in Zenodo | ||
|
@@ -82,18 +83,27 @@ Die Metadaten der Sequenzierung werden als [xz-komprimierte](https://en.wikipedi | |
* Enthaltenes Dateiformat: .csv | ||
* .csv-Trennzeichen: Komma "," | ||
|
||
Die Dateien können auf gängigen Betriebssystemen, beispielsweise mit den Programmen [7zip](https://www.7-zip.org/) oder [XZ Utils](https://tukaani.org/xz/), entpackt werden. Die Komprimirung wird vorgenommen, da insbesondere die .fasta-Dateien mehrere Gigabyte (GB) groß sind. | ||
|
||
|
||
## SARS-CoV-2-Sequenzdaten und Metadaten der Sequenzierung | ||
### Formatierung der Entwicklungslinien | ||
Die Entwicklungslinien der Sequenzierung werden als [xz-komprimierte](https://en.wikipedia.org/wiki/XZ_Utils), kommaseparierte .csv-Datei bereitgestellt. Daraus ergibt sich die Dateiendung .csv.xz. Der verwendete Zeichensatz der .csv-Datei ist UTF-8. Trennzeichen der einzelnen Werte ist ein Komma ",". Datumsangaben sind im ISO-8601-Standard formatiert. | ||
|
||
Die SARS-CoV-2-Sequenzdaten werden tagesaktuell im Hauptverzeichnis unter "SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz" bereitgestellt. Gleiches gilt für zugehörigen Metadaten, die unter "SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz" im Datensatz enthalten sind. Im Archivordner sind die täglichen Datenstände unter den Dateinamen "JJJJ-MM-TT_SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz" und "JJJJ-MM-TT_SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz" abgelegt. | ||
* Zeichensatz: UTF-8 | ||
* Datumsformat: ISO 8601 | ||
* Komprimierung: [.xz](https://en.wikipedia.org/wiki/XZ_Utils) | ||
* Enthaltenes Dateiformat: .csv | ||
* .csv-Trennzeichen: Komma "," | ||
|
||
>Aktuell_SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz | ||
>Aktuell_SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz | ||
>Archiv/JJJJ-MM-TT_SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz | ||
>Archiv/JJJJ-MM-TT_SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz | ||
Die Dateien können auf gängigen Betriebssystemen, beispielsweise mit den Programmen [7zip](https://www.7-zip.org/) oder [XZ Utils](https://tukaani.org/xz/), entpackt werden. Die Komprimirung wird vorgenommen, da insbesondere die .fasta-Dateien mehrere Gigabyte (GB) groß sind. | ||
|
||
Im Dateinamen repräsentiert die Sequenz "JJJJ-MM-TT" das Erstellungsdatum der Datei und gleichzeitig das Datum des enthaltenen Datenstands. "JJJJ" steht dabei für das Jahr, "MM" für den Monat und "TT" für den Tag der Erstellung bzw. des enthaltenen Datenstands. | ||
|
||
## SARS-CoV-2-Sequenzdaten und Metadaten der Sequenzierung | ||
|
||
Die SARS-CoV-2-Sequenzdaten werden tagesaktuell im Hauptverzeichnis unter "SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz" bereitgestellt. Gleiches gilt für zugehörigen Metadaten, die unter "SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz" und die Entwicklungslinien die unter "SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz" im Datensatz enthalten sind. **Nicht für alle SARS-CoV-2-Sequenzdaten liegen Entwicklungslinien vor.** | ||
|
||
>SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Würde ich direkt als Links anbieten:
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Doppel-Space für Zeilenumbruch am Ende nicht vergessen. |
||
>SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz | ||
>SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz | ||
|
||
Die Daten werden jeden Tag um die verarbeiteten Sequenzdaten des aktuellen Tages erweitert (Kummulation). Dabei werden nach 20:00 eingesendete Sequenzdaten erst am Folgetag verarbeitet. Der Datenstand bildet also immer den Stand des aktuellen Tages um 19:59 ab. | ||
|
||
|
@@ -121,7 +131,7 @@ GTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCTTGAAAGAGCCACCACATTTTCA | |
|
||
### Variablen und Variablenausprägungen Metadaten | ||
|
||
In den als .csv bereitgestellten Metadaten enthalten in folgender Tabelle aufgeführte Variablen als Spalten. Zentral für die Verknüpfung der Metadaten mit den Genomsequenzen ist die IMS_ID, die in beiden Daten enthalten ist. | ||
In den als .csv bereitgestellten Metadaten enthalten in folgender Tabelle aufgeführte Variablen als Spalten. Zentral für die Verknüpfung der Metadaten mit den Genomsequenzen ist die IMS_ID, die in allen drei Daten enthalten ist. | ||
|
||
|
||
| Variable | Beschreibung | Value Set | | ||
|
@@ -132,12 +142,17 @@ In den als .csv bereitgestellten Metadaten enthalten in folgender Tabelle aufgef | |
| SEQ_REASON| Der Grund für die Durchführung der Sequenzierung| [rki](https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/DESH/Anleitung-Bereitstellung-Sequenzdaten.pdf?__blob=publicationFile#page=4) | ||
| SAMPLE_TYPE| Art der Probe|[snomed](https://simplifier.net/covid-19labormeldung/materialsarscov2) | ||
| OWN_FASTA_ID | Die vom Labor genutzte FASTA ID in verschlüsselter Form| | ||
| RECEIVE_DATE | Verarbeitungsdatum im RKI (JJJJ-MM-TT). Üblicherweise <24 Stunden nach Einsendung durch die Labore| | ||
| SENDING_LAB_PC | Die Postleitzahl des sequenzierenden Labors| | ||
| PRIMEDIAGNOSTIC_LAB_PC | Die Postleitzahl des primärdiagnostischen Labors| | ||
|PROCESSING_DATE | Einsendedatum an das RKI (JJJJ-MM-TT).| | ||
| RECEIVE_DATE | Empfangsdatum im RKI (JJJJ-MM-TT). Üblicherweise <24 Stunden nach Einsendung durch die Labore| | ||
| SEQUENCING_LAB_PC | Die Postleitzahl des sequenzierenden Labors| | ||
| SENDING_LAB_PC | Die Postleitzahl des primärdiagnostischen Labors| | ||
|
||
Weitere Informationen zu den aufgeführten Variablen finden sich in der [Anleitung zur Bereitstellung der Sequenzdaten](https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/DESH/Anleitung-Bereitstellung-Sequenzdaten.html?) die auch in [Kontextmaterialien](https://github.com/robert-koch-institut/SARS-CoV-2-Sequenzdaten_aus_Deutschland/tree/master/Kontextmaterialien) hinterlegt ist. | ||
|
||
### Variablen und Variablenausprägungen Entwicklungslinien | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Ich würde vorschlagen die Pangolin Documentation der Variablen hier explizit auszuschreiben. Ist zwar nervig, aber wenn der Link sich ändert, dann geht die Information verloren. dass sollten wir vermeiden. |
||
|
||
Die bereitgestelten Informationen zu den Entwicklungslinien entsorechen dem aktuellen [PANGOLIN Lineage Format](https://cov-lineages.org/resources/pangolin/output.html). Nur die Spalte "Taxon" wurde zur einfacherer Nachnutzung in IMS_ID umbenannt. Zentral für die Verknüpfung der Entwicklungslinien mit den restlichen Daten ist die IMS_ID, die in allen drei Daten enthalten ist. | ||
|
||
## Hinweise zur Nachnutzung der Daten | ||
|
||
:warning: Der Datensatz ist keiner weitere Qualitätskontrolle durch das RKI durchlaufen. Zu beachten ist, dass Daten in diesem Datensatz zum Beispiel: | ||
|
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Ist etwas kleinlich und auch Geschmackssache, finde es aber besser hier nicht die Dateinamen mit anzugeben.
Ein Link auf den Teil der Doku wo es um die Daten geht wäre aber vielleicht ein Kompromiss?