# Dateiformate

<!-- markdown-toc start - Don't edit this section. Run M-x markdown-toc-generate-toc again -->
## Inhalt

- [Lernziele](#Lernziele)
- [Material](#Material)
- [Aufgaben](#Aufgaben)

<!-- markdown-toc end -->



<div class="alert alert-info">

### Lernziele

- grundlegende Konzepte zu Dateiformaten kennen
- Beispiele für Dateiformate zur Repräsentation abstrakter Datenstrukturen (z.B. XML, JSON, RDF) kennen
    
</div>


## Material

<div class="alert alert-warning">

Dateien und Dateiformate (z.B. SVG oder BMP) sind uns bereits in der Lerneinheit [Repräsentation von Text, Bild, Ton](3_Repraesentation_von_Text_Bild_Ton.ipynb) begegnet. In dieser Lerneinheit befassen wir uns einerseits mit Grundkonzepten von Dateiformaten und lernen andererseits weitere Dateiformate kennen.
    
</div>

Diese Lerneinheit wird vollständig in der Präsenzzeit behandelt. Nachfolgenden finden Sie die Vortragsfolien sowie Hinweise zur Gruppenarbeit.

### Datei

![Dateien](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/beispieldateien.png)

Was ist eine Datei?
- eine Einheit in einem Dateisystem
- Folge von Bits auf dem Massenspeicher ("one-dimensional array of bytes")
- hat Name, Ort, Größe
- ggf. weitere Attribute (je nach Dateisystem)

### Dateiformat

![Dateien](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/dateien.png)

Was ist ein Dateiformat?
- Vereinbarung/Standard zur Organisation der Daten innerhalb einer Datei
- verschiedene Dateiformate für verschiedene Zwecke / Arten von Daten

Wie kann man das Format einer Datei identifizieren?
- Dateiendung, Magic Number, Kopfdaten, Dateisystem-Metadaten, (MIME-Typ), etc.

Wie kann man Dateiformate unterschieden?
- → die folgenden Folien

#### binär vs. "plain text"

<img src="https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/binaer.png" style="float:left; width:45%;" alt="Binärdatei im Texteditor"/>

<img src="https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/plaintext.png" style="float:right; width:45%;" alt='"plain text"-Datei im Texteditor'/>

#### proprietär vs. frei und offen vs. nicht öffentlich

<img title="Arten von Dateiformaten" src="https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/dateiformate.svg" style="width: 70%"/>

Siehe [WP: Open format](https://en.wikipedia.org/wiki/Open_format) und [WP: Proprietary format](https://en.wikipedia.org/wiki/Proprietary_format).

- offen: publizierte Spezifikation
- frei: keine Nutzungsbeschränkungen (z.B. durch Urheberrechte, Patente, Markenrechte)
- [Open Government Directive](https://obamawhitehouse.archives.gov/open/documents/open-government-directive): "*An open format is one that is platform independent, machine readable, and made available to the public without restrictions that would impede the re-use of that information*"

Siehe [WP: Open format](https://en.wikipedia.org/wiki/Open_format) und [WP: Proprietary format](https://en.wikipedia.org/wiki/Proprietary_format).

#### Spezifisch vs. Container

##### Spezifisch
- Festlegung auf eine Art von Daten
- oft auch genau ein Datensatz

##### Container-Dateiformate
- "Hülle" für verschieden Arten und Mengen von Daten 
- Metadaten beschreiben Inhalt
- Beispiele:
  - [Interchange File Format](https://en.wikipedia.org/wiki/Interchange_File_Format) (AIFF, RIFF, IFF-ILBM)
  - Archive (ZIP, TAR)
  - Multimedia-Dateien (TIFF, AVI, MP4, OGG)

<img src="https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/video_container.svg" alt="Video Container" style="width: 50%;"/>

https://www.w3.org/2008/Talks/24-video/Overview.html#(9)

### Beispiel: Windows Bitmap
![Beispiel: Windows Bitmap](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/beispiel1_bytes.svg)


| Eigenschaft   | Wert |
|---------------|------|
| Nutzbarkeit   | proprietär ([OSP](https://en.wikipedia.org/wiki/Microsoft_Open_Specification_Promise)), offen |
| Art des Dateiformats | binär, spezifisch |
| Art der Daten | Rastergrafik | 
| Dateiendungen | .bmp, .dib |
| MIME-Typen    | image/x-ms-bmp, image/x-bmp, image/bmp |
| Magic Number  | `424D` (hex), `BM` (ASCII) |

### Beispiel: JSON

```json
{
  "created_at": "Thu Apr 06 15:24:15 +0000 2017",
  "id_str": "850006245121695744",
  "text": "1\/ Today we\u2019re sharing our vision for the future of the Twitter API platform!\nhttps:\/\/t.co\/XweGngmxlP",
  "user": {
    "id": 2244994945,
    "name": "Twitter Dev",
    "screen_name": "TwitterDev",
    "location": "Internet",
    "url": "https:\/\/dev.twitter.com\/",
    "description": "Your official source for Twitter Platform news, updates & events. Need technical help? Visit https:\/\/twittercommunity.com\/ \u2328\ufe0f #TapIntoTwitter"
  },
  "place": { },
  "entities": {
    "hashtags": [ ],
    "urls": [
      {
        "url": "https:\/\/t.co\/XweGngmxlP",
        "unwound": {
          "url": "https:\/\/cards.twitter.com\/cards\/18ce53wgo4h\/3xo1c",
          "title": "Building the Future of the Twitter API Platform"
        }
      }
    ],
  }
}

```

In [None]:
import json

nb = json.load(open("5_Dateiformate.ipynb", "r"))
nb

In [None]:
nb.keys()

In [None]:
for c in nb["cells"]:
    if "slideshow" in c["metadata"].keys():
        print(c["metadata"]["slideshow"]["slide_type"])

### Beispiel: JSON – Diskussion

- binär oder plain text?

- proprietär oder frei?

- offen oder nicht öffentlich?

- Container oder spezifisch?

### Beschreibung von Dateiformaten

#### natürliche Sprache, Abbildungen

> "The Photoshop file format is divided into five major parts, as shown in the Photoshop file structure. The Photoshop file format has many length markers. Use these length markers to move from one section to the next. The length markers are usually padded with bytes to round to the nearest 2 or 4 byte interval."

Quelle: [Adobe Photoshop File Formats Specification, November 2019](https://www.adobe.com/devnet-apps/photoshop/fileformatashtml/#50577409_pgfId-1036097)

#### formale Sprachen

- [Backus-Naur-Form](https://de.wikipedia.org/wiki/Backus-Naur-Form) (BNF, bzw. [EBNF](https://en.wikipedia.org/wiki/Extended_Backus%E2%80%93Naur_form) oder [ABNF](https://en.wikipedia.org/wiki/Augmented_Backus%E2%80%93Naur_form)): z.B. [Rich Text Format](https://interoperability.blob.core.windows.net/files/Archive_References/%5bMSFT-RTF%5d.pdf) (RTF):

    ```EBNF
    File = "{" header document "}"
    ```
- [Abstract Syntax Notation One](https://de.wikipedia.org/wiki/Abstract_Syntax_Notation_One) (ASN.1), z.B. [RFC 5280 Internet X.509 Public Key Infrastructure Certificate and Certificate Revocation List (CRL) Profile](https://tools.ietf.org/html/rfc5280):

    ```ASN.1
    GeneralSubtree ::= SEQUENCE {
         base                    GeneralName,
         minimum         [0]     BaseDistance DEFAULT 0,
         maximum         [1]     BaseDistance OPTIONAL }
    
    BaseDistance ::= INTEGER (0..MAX)
    ```

### Best Practices

https://library.stanford.edu/research/data-management-services/data-best-practices/best-practices-file-formats

### Ausblick

- SAX-Parser, XSLT in [Operationen auf Datenstrukturen](8_Operationen_auf_Datenstrukturen.ipynb)

## Aufgaben

<div class="alert alert-success">
   

      
</div>


### Dateiformate kennenlernen I

Erarbeiten Sie in Ihrer Gruppe einen Überblick über ein konkretes Dateiformat: 
- Erkennen und beschreiben Sie **grundlegende Konzepte**, weniger die Details.
- Nutzen Sie möglichst nicht nur Wikipedia als **Quelle** sondern auch offizielle Spezifikationen (falls vorhanden).
- Jede Gruppe erhält einen Breakout-Raum, im Hauptraum stehe ich Ihnen für Fragen zur Verfügung.
- Verteilen Sie die **Aufgaben** *Moderation*, *Dokumentation*, *Präsentation* und *Zeitmanagement* in Ihrer Gruppe.
- Fassen Sie Ihre **Ergebnisse** für eine 2minütige Präsentation zusammen.
- Zur Auswahl stehen die folgenden **Dateiformate**: [HDF5](https://en.wikipedia.org/wiki/Hierarchical_Data_Format), [FITS](https://en.wikipedia.org/wiki/FITS), [Matroska](https://en.wikipedia.org/wiki/Matroska), [IFF](https://en.wikipedia.org/wiki/Interchange_File_Format), [PNG](https://en.wikipedia.org/wiki/Portable_Network_Graphics), [RTF](https://en.wikipedia.org/wiki/Rich_Text_Format), [DXF](https://en.wikipedia.org/wiki/AutoCAD_DXF), [MOD](https://en.wikipedia.org/wiki/MOD_(file_format)) 
(bzw. siehe Umfrageergebnisse)



### Dateiformate kennenlernen II

Kurzpräsentationen der Gruppen (jeweils 2 Minuten)
