Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Update readme and create English translation #12

Merged
merged 6 commits into from
Jan 27, 2022
Merged
Show file tree
Hide file tree
Changes from 4 commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
49 changes: 32 additions & 17 deletions Readme.md
Original file line number Diff line number Diff line change
@@ -1,15 +1,16 @@
Datensatzdokumentation
# SARS-CoV-2-Sequenzdaten aus Deutschland <br/><small>SARS-CoV-2 sequences from Germany </small>
# SARS-CoV-2-Sequenzdaten aus Deutschland

[Robert Koch-Institut](https://grid.ac/institutes/grid.13652.33) | RKI
Nordufer 20
13353 Berlin

---
**You can find a english version of the readme [here](readme_en.md)**

Robert Koch-Institut (2021): SARS-CoV-2-Sequenzdaten aus Deutschland, Berlin: Zenodo. [DOI: 10.5281/zenodo.5139363](https://doi.org/10.5281/zenodo.5139363)

Der Datensatz "SARS-CoV-2-Sequenzdaten_aus_Deutschland" ist lizenziert unter der [Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International](https://creativecommons.org/licenses/by/4.0/deed.de)
Der Datensatz "SARS-CoV-2-Sequenzdaten aus Deutschland" ist lizenziert unter der [Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International](https://creativecommons.org/licenses/by/4.0/deed.de)

## Informationen zum Datensatz und Entstehungskontext

Expand Down Expand Up @@ -56,9 +57,9 @@ Die hier veröffentlichten Daten können daher nicht ohne weiteres mit dem wöch

Der Datensatz enthält Daten über SARS-CoV-2-Sequencen in Deutschland und die in der Datenverarbeitung unterstützenden Kontextmaterialien. Im Datensatz enthalten sind:

* Sequenzdaten der übermittelten SARS-CoV-2-Genomsequenzen
* Metadaten zu den SARS-CoV-2-Genomsequenzen
* Archiv mit der Sammlung aller bisherig übermittelten SARS-CoV-2-Genomsequenzen und der entsprechenden Metadaten
* Sequenzdaten der übermittelten SARS-CoV-2-Genomsequenzen (SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz)
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ist etwas kleinlich und auch Geschmackssache, finde es aber besser hier nicht die Dateinamen mit anzugeben.
Ein Link auf den Teil der Doku wo es um die Daten geht wäre aber vielleicht ein Kompromiss?

* Metadaten zu den SARS-CoV-2-Genomsequenzen (SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz)
* Informationen zu den Entwicklungslinien (PANGOLIN Lineages) der SARS-CoV-2-Genomsequenzen (SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz)
* Lizenz mit der Nutzungslizenz des Datensatzes
* Datensatzdokumentation und Kontextmaterialien in deutscher Sprache
* Metadaten Datei zum Import in Zenodo
Expand All @@ -82,18 +83,27 @@ Die Metadaten der Sequenzierung werden als [xz-komprimierte](https://en.wikipedi
* Enthaltenes Dateiformat: .csv
* .csv-Trennzeichen: Komma ","

Die Dateien können auf gängigen Betriebssystemen, beispielsweise mit den Programmen [7zip](https://www.7-zip.org/) oder [XZ Utils](https://tukaani.org/xz/), entpackt werden. Die Komprimirung wird vorgenommen, da insbesondere die .fasta-Dateien mehrere Gigabyte (GB) groß sind.


## SARS-CoV-2-Sequenzdaten und Metadaten der Sequenzierung
### Formatierung der Entwicklungslinien
Die Entwicklungslinien der Sequenzierung werden als [xz-komprimierte](https://en.wikipedia.org/wiki/XZ_Utils), kommaseparierte .csv-Datei bereitgestellt. Daraus ergibt sich die Dateiendung .csv.xz. Der verwendete Zeichensatz der .csv-Datei ist UTF-8. Trennzeichen der einzelnen Werte ist ein Komma ",". Datumsangaben sind im ISO-8601-Standard formatiert.

Die SARS-CoV-2-Sequenzdaten werden tagesaktuell im Hauptverzeichnis unter "SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz" bereitgestellt. Gleiches gilt für zugehörigen Metadaten, die unter "SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz" im Datensatz enthalten sind. Im Archivordner sind die täglichen Datenstände unter den Dateinamen "JJJJ-MM-TT_SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz" und "JJJJ-MM-TT_SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz" abgelegt.
* Zeichensatz: UTF-8
* Datumsformat: ISO 8601
* Komprimierung: [.xz](https://en.wikipedia.org/wiki/XZ_Utils)
* Enthaltenes Dateiformat: .csv
* .csv-Trennzeichen: Komma ","

>Aktuell_SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz
>Aktuell_SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz
>Archiv/JJJJ-MM-TT_SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz
>Archiv/JJJJ-MM-TT_SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz
Die Dateien können auf gängigen Betriebssystemen, beispielsweise mit den Programmen [7zip](https://www.7-zip.org/) oder [XZ Utils](https://tukaani.org/xz/), entpackt werden. Die Komprimirung wird vorgenommen, da insbesondere die .fasta-Dateien mehrere Gigabyte (GB) groß sind.

Im Dateinamen repräsentiert die Sequenz "JJJJ-MM-TT" das Erstellungsdatum der Datei und gleichzeitig das Datum des enthaltenen Datenstands. "JJJJ" steht dabei für das Jahr, "MM" für den Monat und "TT" für den Tag der Erstellung bzw. des enthaltenen Datenstands.

## SARS-CoV-2-Sequenzdaten und Metadaten der Sequenzierung

Die SARS-CoV-2-Sequenzdaten werden tagesaktuell im Hauptverzeichnis unter "SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz" bereitgestellt. Gleiches gilt für zugehörigen Metadaten, die unter "SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz" und die Entwicklungslinien die unter "SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz" im Datensatz enthalten sind. **Nicht für alle SARS-CoV-2-Sequenzdaten liegen Entwicklungslinien vor.**

>SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Doppel-Space für Zeilenumbruch am Ende nicht vergessen.

>SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz
>SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz

Die Daten werden jeden Tag um die verarbeiteten Sequenzdaten des aktuellen Tages erweitert (Kummulation). Dabei werden nach 20:00 eingesendete Sequenzdaten erst am Folgetag verarbeitet. Der Datenstand bildet also immer den Stand des aktuellen Tages um 19:59 ab.

Expand Down Expand Up @@ -121,7 +131,7 @@ GTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCTTGAAAGAGCCACCACATTTTCA

### Variablen und Variablenausprägungen Metadaten

In den als .csv bereitgestellten Metadaten enthalten in folgender Tabelle aufgeführte Variablen als Spalten. Zentral für die Verknüpfung der Metadaten mit den Genomsequenzen ist die IMS_ID, die in beiden Daten enthalten ist.
In den als .csv bereitgestellten Metadaten enthalten in folgender Tabelle aufgeführte Variablen als Spalten. Zentral für die Verknüpfung der Metadaten mit den Genomsequenzen ist die IMS_ID, die in allen drei Daten enthalten ist.


| Variable | Beschreibung | Value Set |
Expand All @@ -132,12 +142,17 @@ In den als .csv bereitgestellten Metadaten enthalten in folgender Tabelle aufgef
| SEQ_REASON| Der Grund für die Durchführung der Sequenzierung| [rki](https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/DESH/Anleitung-Bereitstellung-Sequenzdaten.pdf?__blob=publicationFile#page=4)
| SAMPLE_TYPE| Art der Probe|[snomed](https://simplifier.net/covid-19labormeldung/materialsarscov2)
| OWN_FASTA_ID | Die vom Labor genutzte FASTA ID in verschlüsselter Form|
| RECEIVE_DATE | Verarbeitungsdatum im RKI (JJJJ-MM-TT). Üblicherweise <24 Stunden nach Einsendung durch die Labore|
| SENDING_LAB_PC | Die Postleitzahl des sequenzierenden Labors|
| PRIMEDIAGNOSTIC_LAB_PC | Die Postleitzahl des primärdiagnostischen Labors|
|PROCESSING_DATE | Einsendedatum an das RKI (JJJJ-MM-TT).|
| RECEIVE_DATE | Empfangsdatum im RKI (JJJJ-MM-TT). Üblicherweise <24 Stunden nach Einsendung durch die Labore|
| SEQUENCING_LAB_PC | Die Postleitzahl des sequenzierenden Labors|
| SENDING_LAB_PC | Die Postleitzahl des primärdiagnostischen Labors|

Weitere Informationen zu den aufgeführten Variablen finden sich in der [Anleitung zur Bereitstellung der Sequenzdaten](https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/DESH/Anleitung-Bereitstellung-Sequenzdaten.html?) die auch in [Kontextmaterialien](https://github.com/robert-koch-institut/SARS-CoV-2-Sequenzdaten_aus_Deutschland/tree/master/Kontextmaterialien) hinterlegt ist.

### Variablen und Variablenausprägungen Entwicklungslinien
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ich würde vorschlagen die Pangolin Documentation der Variablen hier explizit auszuschreiben. Ist zwar nervig, aber wenn der Link sich ändert, dann geht die Information verloren. dass sollten wir vermeiden.


Die bereitgestelten Informationen zu den Entwicklungslinien entsorechen dem aktuellen [PANGOLIN Lineage Format](https://cov-lineages.org/resources/pangolin/output.html). Nur die Spalte "Taxon" wurde zur einfacherer Nachnutzung in IMS_ID umbenannt. Zentral für die Verknüpfung der Entwicklungslinien mit den restlichen Daten ist die IMS_ID, die in allen drei Daten enthalten ist.

## Hinweise zur Nachnutzung der Daten

:warning: Der Datensatz ist keiner weitere Qualitätskontrolle durch das RKI durchlaufen. Zu beachten ist, dass Daten in diesem Datensatz zum Beispiel:
Expand Down
Loading