# 11.2 Dateien 

Wir unterscheiden prinzipiell zwei Arten von Dateien:
* **Textdateien** sind eine **Folge von Zeichen**.
* **Binärdateien** (für Bilder, Videos und mehr) sind eine **Folge von Bytes**.

Für jede Datei, die **geöffnet** wird, erzeugt Python ein **Dateiobjekt**, das zur Interaktion mit der Datei verwendet wird.

Das erste Zeichen oder Byte in einer Datei befindet sich an Position **0**. In einer Datei mit **_n_** Zeichen oder Bytes, liegt daher das letzte Zeichen bzw. Byte an Position **_n_ - 1**.


### Textdatei
<img src="img/text_file.png" alt="Conceptual view of a file" width="550">

Ausgabe der Datei mittels `head` als Text und in byte-weise in hexadezimaler Form mittels `xxd`.

In [11]:
# macOS/Linux Users: View file contents
!head the_memoirs_of_sherlock_holmes.txt 

﻿The Project Gutenberg eBook of The Memoirs of Sherlock Holmes, by Arthur Conan Doyle

This eBook is for the use of anyone anywhere in the United States and
most other parts of the world at no cost and with almost no restrictions
whatsoever. You may copy it, give it away or re-use it under the terms
of the Project Gutenberg License included with this eBook or online at
www.gutenberg.org. If you are not located in the United States, you
will have to check the laws of the country where you are located before
using this eBook.



In [2]:
# macOS/Linux Users: View file contents
!xxd the_memoirs_of_sherlock_holmes.txt | head

00000000: efbb bf54 6865 2050 726f 6a65 6374 2047  ...The Project G
00000010: 7574 656e 6265 7267 2065 426f 6f6b 206f  utenberg eBook o
00000020: 6620 5468 6520 4d65 6d6f 6972 7320 6f66  f The Memoirs of
00000030: 2053 6865 726c 6f63 6b20 486f 6c6d 6573   Sherlock Holmes
00000040: 2c20 6279 2041 7274 6875 7220 436f 6e61  , by Arthur Cona
00000050: 6e20 446f 796c 650d 0a0d 0a54 6869 7320  n Doyle....This 
00000060: 6542 6f6f 6b20 6973 2066 6f72 2074 6865  eBook is for the
00000070: 2075 7365 206f 6620 616e 796f 6e65 2061   use of anyone a
00000080: 6e79 7768 6572 6520 696e 2074 6865 2055  nywhere in the U
00000090: 6e69 7465 6420 5374 6174 6573 2061 6e64  nited States and
xxd: Broken pipe


> Byte-Order-Marker (BOM): The UTF-8 representation of the BOM is the (hexadecimal) byte sequence EF BB BF.

### Binärdatei
<img src="img/binary_file.png" alt="Conceptual view of a file" width="550">

Ausgabe der hier gezeigten Bilddatei byte-weise in hexadezimaler Form mittels xxd.

In [3]:
!xxd img/binary_file.png | head

00000000: 8950 4e47 0d0a 1a0a 0000 000d 4948 4452  .PNG........IHDR
00000010: 0000 0bc0 0000 0352 0806 0000 0010 bb46  .......R.......F
00000020: 9600 0001 2769 4343 506b 4347 436f 6c6f  ....'iCCPkCGColo
00000030: 7253 7061 6365 4164 6f62 6552 4742 3139  rSpaceAdobeRGB19
00000040: 3938 0000 2891 6360 6052 482c 28c8 6112  98..(.c``RH,(.a.
00000050: 6060 c8cd 2b29 0a72 7752 8888 8c52 607f  ``..+).rwR...R`.
00000060: ccc0 c220 cac0 c360 c160 9898 5c5c e018  ... ...`.`..\\..
00000070: 10e0 c300 0430 1a15 7cbb c6c0 08a2 2feb  .....0..|...../.
00000080: 82cc c294 c70b b852 528b 9381 f41f 20ce  .......RR..... .
00000090: 4e2e 282a 6160 60cc 00b2 95cb 4b0a 40ec  N.(*a``.....K.@.
xxd: Broken pipe


### Dateiende (*end-of-file*)
Jedes Betriebssystem stellt einen Mechanismus zur Verfügung, um das Ende einer Datei zu kennzeichnen:
* Einige verwenden eine Dateiende-Markierung (`EOF`: *end-of-file*);
* Andere verwenden eine Zählung der gesamten Zeichen oder Bytes in der Datei.

Programmiersprachen kapseln diese Details der Betriebsysteme.

### Standard-Dateiobjekte
Wenn ein Python-Programm die Ausführung beginnt, erzeugt es drei **Standard-Dateiobjekte**:
* **`sys.stdin`** — das **Standardeingabe-Dateiobjekt**
* **`sys.stdout`** — das **Standardausgabe-Dateiobjekt**, und 
* **`sys.stderr`** — das **Standardfehler-Dateiobjekt**. 

<br>

Die Funktion **`input`** benutzt **implizit** **`sys.stdin`**, um Benutzereingaben von der Tastatur zu erhalten.

Die Funktion **`print`** gibt **implizit** an **`sys.stdout`** aus, das in der Kommandozeile erscheint.

Python gibt **Programmfehler** und den Traceback **implizit** an **`sys.stderr`** aus.

Importieren Sie das **[`sys`](https://docs.python.org/3/library/sys.html)**-Modul, wenn Sie in Ihrem Code **explizit** auf diese Objekte verweisen müssen. Dies ist jedoch selten der Fall.

In [None]:
help(print)