# **Python für Ingenieure**
<!-- Lizensiert unter (CC BY 2.0) Gert Herold, 2020 -->
# 7. Dateien lesen und schreiben

Daten können in sehr unterschiedlichen Formaten vorliegen. 
Dieses Notebook enthält Beispiele, wie man unter Python:

 * Daten aus häufig vorkommenden Dateitypen einlesen kann
 * Daten effizient abspeichern kann


## 7.1. Textdateien

Öffnen:

In [1]:
datei = open("eine_datei.txt",'w')

|Schalter|Bedeutung|
|-|-|
|`'r'`| Öffne Datei zum Lesen (Standard, Fehlermeldung, falls Datei nicht existiert)|
|`'w'`| Öffne Datei zum Schreiben (neue Datei erzeugen / bestehende Datei überschreiben) |
|`'x'`| Öffne Datei zum Schreiben (neue Datei erzeugen / Fehlermeldung, falls Datei schon existiert) |
|`'a'`| Öffne Datei zum Schreiben (bestehende Datei erweitern, Inhalte werden angehängt) |

Anmerkungen: Sollen Binärdaten abgespeichert werden, muss dem Schalter noch ein 'b' angehängt werden (z.B. `'wb'`). Wird eine Datei mit der Option '+' geöffnet (z.B. `'r+'`), kann sowohl geschrieben als auch gelesen werden.


Schließen:

In [2]:
datei.close()

Text in Datei schreiben:

In [3]:
datei = open("eine_datei.txt",'w')
datei.write('Hier steht jetzt ein Text.\nUnd hier noch Text in der zweiten Zeile.')
datei.close()

In [4]:
datei = open("eine_datei.txt",'r')
print(datei.read())

Hier steht jetzt ein Text.
Und hier noch Text in der zweiten Zeile.


Bestehende Datei erweitern:

In [5]:
datei = open("eine_datei.txt",'a')

In [6]:
datei.write('\nEine weitere Zeile hier.')

25

In [7]:
datei.close()

## 7.2. Beliebige Datenstrukturen in Dateien abspeichern

In [8]:
meine_daten = {'eins':'ein Wort',
               1: [2,3,4],
               1.2 : 3}
meine_daten

{'eins': 'ein Wort', 1: [2, 3, 4], 1.2: 3}

### 7.2.1. [*pickle*](https://docs.python.org/3/library/pickle.html)

Schreiben:

In [9]:
import pickle
datei = open('gepicklete.daten','wb')
pickle.dump(meine_daten,datei)
datei.close()

Lesen:

In [11]:
xyz = pickle.load(open('gepicklete.daten','rb'))
type(xyz)
xyz

{'eins': 'ein Wort', 1: [2, 3, 4], 1.2: 3}

### 7.2.1. [*json*](https://docs.python.org/3/library/json.html#module-json)

JSON: *JavaScript Object Notation*

Schreiben:

In [12]:
import json
datei = open('gejsonte.daten','w')
json.dump(meine_daten,datei)
datei.close()

Lesen:

In [13]:
xyz = json.load(open('gejsonte.daten','r'))
xyz

{'eins': 'ein Wort', '1': [2, 3, 4], '1.2': 3}

**Pickle vs. JSON**
  
  * json: direkt lesbar, kompatibel mit anderen Systemen
  * pickle: geringer Speicherbedarf, kann beliebige Objektstrukturen (und -typen) abbilden

## 7.3. Numpy-Arrays in Dateien speichern

In [14]:
import numpy as np

a = np.arange(5)*0.5
a

array([0. , 0.5, 1. , 1.5, 2. ])

Schreiben:

In [15]:
np.save('array_daten',a)

Lesen:

In [16]:
b = np.load('array_daten.npy')
b

array([0. , 0.5, 1. , 1.5, 2. ])

## 7.4. CSV-Dateien

CSV: "Comma-separated values" (Trennzeichen nicht notwendigerweise Kommas), Daten in Zeilen und Spalten (2D-Arrays)

In [17]:
import numpy as np

np.random.seed(1)
c = np.random.randn(20).reshape(4,5)
c

array([[ 1.62434536, -0.61175641, -0.52817175, -1.07296862,  0.86540763],
       [-2.3015387 ,  1.74481176, -0.7612069 ,  0.3190391 , -0.24937038],
       [ 1.46210794, -2.06014071, -0.3224172 , -0.38405435,  1.13376944],
       [-1.09989127, -0.17242821, -0.87785842,  0.04221375,  0.58281521]])

Schreiben: [*numpy.savetxt*](https://docs.scipy.org/doc/numpy/reference/generated/numpy.savetxt.html)

In [18]:
np.savetxt('daten.csv', c, 
           fmt='%3.3f', delimiter=',', header='Spalte 1, Spalte 2, Spalte Drei, Spalte 4, Spalte 5')

Lesen: [*numpy.loadtxt*](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html)

In [19]:
c_geladen = np.loadtxt('daten.csv', delimiter = ',')
c_geladen

array([[ 1.624, -0.612, -0.528, -1.073,  0.865],
       [-2.302,  1.745, -0.761,  0.319, -0.249],
       [ 1.462, -2.06 , -0.322, -0.384,  1.134],
       [-1.1  , -0.172, -0.878,  0.042,  0.583]])

## 7.5. [HDF5](https://www.hdfgroup.org/solutions/hdf5/)-Dateien

HDF: *Hierarchical Data Format*

Mögliche Python-Module:
  * [h5py](https://docs.h5py.org/en/stable/)
  * [tables](https://www.pytables.org/usersguide/tutorials.html) (PyTables)

In [20]:
import numpy as np
import h5py

x = 2
info = 'Infos zu den Daten'
np.random.seed(2)
die_daten = np.random.randn(24).reshape(2,3,4)
print(die_daten)

[[[-0.41675785 -0.05626683 -2.1361961   1.64027081]
  [-1.79343559 -0.84174737  0.50288142 -1.24528809]
  [-1.05795222 -0.90900761  0.55145404  2.29220801]]

 [[ 0.04153939 -1.11792545  0.53905832 -0.5961597 ]
  [-0.0191305   1.17500122 -0.74787095  0.00902525]
  [-0.87810789 -0.15643417  0.25657045 -0.98877905]]]


Schreiben:

In [21]:
datei = h5py.File('hdf_daten.h5', 'w')
datei.create_dataset('daten', data=die_daten)
datei.attrs['info']=info # metadaten
datei.attrs['nr']=x # noch mehr metadaten
datei.close()

Lesen:

In [22]:
datei = h5py.File('hdf_daten.h5', 'r')
print(datei.keys())
print(datei['daten'][:])
for key in datei.attrs.keys():
    print(key,':', datei.attrs[key])
datei.close()

<KeysViewHDF5 ['daten']>
[[[-0.41675785 -0.05626683 -2.1361961   1.64027081]
  [-1.79343559 -0.84174737  0.50288142 -1.24528809]
  [-1.05795222 -0.90900761  0.55145404  2.29220801]]

 [[ 0.04153939 -1.11792545  0.53905832 -0.5961597 ]
  [-0.0191305   1.17500122 -0.74787095  0.00902525]
  [-0.87810789 -0.15643417  0.25657045 -0.98877905]]]
info : Infos zu den Daten
nr : 2


## 7.6. Weitere Dateitypen

### 7.6.1 Matlab-Dateien

[Schreiben](https://docs.scipy.org/doc/scipy/reference/generated/scipy.io.savemat.html) und [Lesen](https://docs.scipy.org/doc/scipy/reference/generated/scipy.io.loadmat.html) alter Matlab-Dateien (bis [Version 7.2](https://de.mathworks.com/help/matlab/import_export/mat-file-versions.html))

In [23]:
from scipy.io import loadmat, savemat
# Schreiben:
savemat('datei.mat', {'daten':die_daten, 'info':info, 'nr':x})
# Lesen:
mat_dictionary = loadmat('datei.mat')
mat_dictionary

{'__header__': b'MATLAB 5.0 MAT-file Platform: nt, Created on: Sat Jun 20 13:47:49 2020',
 '__version__': '1.0',
 '__globals__': [],
 'daten': array([[[-0.41675785, -0.05626683, -2.1361961 ,  1.64027081],
         [-1.79343559, -0.84174737,  0.50288142, -1.24528809],
         [-1.05795222, -0.90900761,  0.55145404,  2.29220801]],
 
        [[ 0.04153939, -1.11792545,  0.53905832, -0.5961597 ],
         [-0.0191305 ,  1.17500122, -0.74787095,  0.00902525],
         [-0.87810789, -0.15643417,  0.25657045, -0.98877905]]]),
 'info': array(['Infos zu den Daten'], dtype='<U18'),
 'nr': array([[2]])}

MAT-Dateien ab [Version 7.3](https://de.mathworks.com/help/matlab/import_export/mat-file-versions.html) sind HDF-Dateien. Schreiben und Lesen dieser Dateien siehe oben (7.5.).

### 7.6.2. WAV-Dateien

[Schreiben](https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.io.wavfile.write.html) und [Lesen](https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.io.wavfile.read.html) mit Funktionen aus dem Modul [*scipy.io*](https://docs.scipy.org/doc/scipy/reference/io.html).

In [24]:
import numpy as np
from scipy.io.wavfile import write

fs = 44100
tn = 3
n = fs*tn

f1 = 440
f2 = f1*2**(1/3)
t = np.linspace(0,3,n,endpoint=False)
p = np.sin(2*np.pi*f1*t) + np.sin(2*np.pi*f2*t) + 0.5*np.random.randn(n)


fname = 'ton_%dHz_%dHz_rauschen.wav' % (int(f1), int(f2))
write(fname, fs, p)
#sample_rate, data = read(fname)

### 7.6.2. Excel-Dateien

Import z.B. mit der Funktion [*read_excel*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html) aus dem umfangreichen Datenanalyse-Modul [*pandas*](https://pandas.pydata.org/).

In [25]:
import pandas
xls_inhalt=pandas.read_excel('eine_datei.xlsx') # liefert die erste Tabelle
#xls_inhalt=pandas.read_excel('eine_datei.xlsx', sheet_name='Tabelle 2') # liefert "Tabelle 2"
xls_inhalt

FileNotFoundError: [Errno 2] No such file or directory: 'eine_datei.xlsx'

Darüber hinaus können mit *pandas* auch viele [weitere Dateiformate](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) verwendet werden, unter anderem auch JSON, HTML, HDF5, SQL und CSV.

In [26]:
import pandas
c_geladen_pandas=pandas.read_csv('daten.csv')
c_geladen_pandas

Unnamed: 0,# Spalte 1,Spalte 2,Spalte Drei,Spalte 4,Spalte 5
0,1.624,-0.612,-0.528,-1.073,0.865
1,-2.302,1.745,-0.761,0.319,-0.249
2,1.462,-2.06,-0.322,-0.384,1.134
3,-1.1,-0.172,-0.878,0.042,0.583


### 7.6.3. Bild-Dateien

Mehrere Module bieten passende Funktionen zum Einlesen:

  * [_**matplotlib**.pyplot.imread()_](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.imread.html)
  * [_**PIL**.Image.open()_](https://pillow.readthedocs.io/en/3.1.x/reference/Image.html)  
  * [_**cv2**.imread()_](https://docs.opencv.org/2.4/modules/highgui/doc/reading_and_writing_images_and_video.html#imread) (hierfür muss ggf. [OpenCV](https://opencv.org/) nachinstalliert werden: `conda install opencv`)