# Python Fortgeschritten: OS Schnittstellen
## Tag 5 - Notebook 28
***
In diesem Notebook wird behandelt:
- os Modul (Datei- und Verzeichnisoperationen)
- pathlib (moderne Pfadverwaltung)
- shutil (Dateioperationen)
- Datei-I/O mit os und pathlib
- Pfadoperationen
***


## 1 os Modul

Das `os` Modul bietet Funktionen zur Interaktion mit dem Betriebssystem:
- **Verzeichnisoperationen**: `getcwd()`, `chdir()`, `listdir()`, `walk()`
- **Dateioperationen**: `remove()`, `rename()`, `stat()`
- **Pfadoperationen**: `join()`, `path.exists()`, `path.isdir()`
- **Umgebungsvariablen**: `getenv()`, `environ`


In [None]:
import os

# Aktuelles Verzeichnis
print(f"Aktuelles Verzeichnis: {os.getcwd()}")

# Verzeichnis wechseln (kommentiert, um nicht zu stören)
# os.chdir('../data')

# Dateien auflisten
files = os.listdir('../data')
print(f"\nDateien in data/: {files[:5]}...")  # Erste 5

# Pfad zusammenfügen
path = os.path.join('data', 'test.txt')
print(f"\nPfad: {path}")

# Verzeichnisstruktur durchlaufen
print("\nVerzeichnisstruktur (erste 3 Einträge):")
for root, dirs, files in os.walk('../data'):
    if root == '../data':  # Nur root-Verzeichnis zeigen
        print(f"Root: {root}")
        print(f"Verzeichnisse: {dirs[:3]}")
        print(f"Dateien: {files[:3]}")
        break

# Umgebungsvariablen
print(f"\nHOME: {os.getenv('HOME') or os.getenv('USERPROFILE')}")
print(f"PATH (erste 100 Zeichen): {os.getenv('PATH', '')[:100]}...")


## 2 pathlib

`pathlib` bietet eine moderne, objektorientierte API für Pfade:
- **Pfad-Objekte**: `Path()` statt Strings
- **Methoden**: `exists()`, `is_file()`, `is_dir()`, `read_text()`, `write_text()`
- **Glob-Patterns**: `glob()`, `rglob()` für Dateisuche
- **Pfad-Eigenschaften**: `name`, `stem`, `suffix`, `parent`


In [None]:
from pathlib import Path

# Pfad erstellen
p = Path('../data') / 'test.txt'
print(f"Pfad: {p}")

# Existiert?
print(f"Existiert: {p.exists()}")
print(f"Ist Datei: {p.is_file()}")
print(f"Ist Verzeichnis: {p.is_dir()}")

# Pfad-Eigenschaften
if p.exists():
    print(f"\nName: {p.name}")
    print(f"Stem (ohne Extension): {p.stem}")
    print(f"Suffix: {p.suffix}")
    print(f"Parent: {p.parent}")
    print(f"Absolute Pfad: {p.resolve()}")

# Datei lesen/schreiben
test_file = Path('../data/test_pathlib.txt')
test_file.write_text('Hallo von pathlib!')
print(f"\nDatei geschrieben: {test_file}")
print(f"Inhalt: {test_file.read_text()}")

# Glob-Patterns
data_dir = Path('../data')
txt_files = list(data_dir.glob('*.txt'))
print(f"\nTXT-Dateien in data/: {[f.name for f in txt_files[:5]]}")

# Rekursives Glob
all_txt = list(data_dir.rglob('*.txt'))
print(f"Alle TXT-Dateien (rekursiv): {len(all_txt)} gefunden")


## 3 shutil Modul

`shutil` bietet erweiterte Datei- und Verzeichnisoperationen:
- **Kopieren**: `copy()`, `copy2()`, `copytree()`
- **Verschieben**: `move()`
- **Löschen**: `rmtree()` für Verzeichnisse
- **Archivieren**: `make_archive()`, `unpack_archive()`


In [None]:
import shutil
from pathlib import Path

# Datei kopieren
source = Path('../data/test.txt')
dest = Path('../data/test_copy.txt')

if source.exists():
    shutil.copy(source, dest)
    print(f"Datei kopiert: {source.name} -> {dest.name}")

# Verzeichnis kopieren (wenn es existiert)
test_dir = Path('../data/test_dir')
test_dir_backup = Path('../data/test_dir_backup')

if test_dir.exists() and not test_dir_backup.exists():
    shutil.copytree(test_dir, test_dir_backup)
    print(f"Verzeichnis kopiert: {test_dir.name} -> {test_dir_backup.name}")
elif not test_dir.exists():
    # Test-Verzeichnis erstellen
    test_dir.mkdir(exist_ok=True)
    (test_dir / 'file1.txt').write_text('Test 1')
    (test_dir / 'file2.txt').write_text('Test 2')
    print(f"Test-Verzeichnis erstellt: {test_dir}")

# Datei verschieben (umbenennen)
if dest.exists():
    moved = Path('../data/test_moved.txt')
    shutil.move(dest, moved)
    print(f"Datei verschoben: {dest.name} -> {moved.name}")
    
    # Aufräumen
    if moved.exists():
        moved.unlink()
        print("Test-Datei gelöscht")



## 4 Datei-I/O mit os und pathlib

Beide Module bieten Möglichkeiten zum Lesen und Schreiben von Dateien:
- **os**: Traditionelle Methoden mit `open()`
- **pathlib**: Moderne Methoden `read_text()`, `write_text()`, `read_bytes()`, `write_bytes()`


In [None]:
# Datei lesen mit os
import os

file_path_os = '../data/text_file_1.txt'
if os.path.exists(file_path_os):
    with open(file_path_os, 'r', encoding='utf-8') as f:
        content_os = f.read(100)  # Erste 100 Zeichen
    print(f"Mit os gelesen (erste 100 Zeichen):\n{content_os[:100]}...")

# Datei lesen mit pathlib
file_path = Path('../data/text_file_1.txt')
if file_path.exists():
    content = file_path.read_text(encoding='utf-8')
    print(f"\nMit pathlib gelesen (erste 100 Zeichen):\n{content[:100]}...")

# Datei schreiben mit pathlib
output_file = Path('../data/output_pathlib.txt')
output_file.write_text('Dies ist ein Test.\nZweite Zeile.', encoding='utf-8')
print(f"\nDatei geschrieben: {output_file}")
print(f"Inhalt:\n{output_file.read_text(encoding='utf-8')}")

# Datei schreiben mit os
output_file_os = '../data/output_os.txt'
with open(output_file_os, 'w', encoding='utf-8') as f:
    f.write('Dies ist ein Test mit os.\nZweite Zeile.')
print(f"\nDatei geschrieben (os): {output_file_os}")

# Log-Datei verarbeiten
log_file = Path('../data/measurements.log')
if log_file.exists():
    lines = log_file.read_text(encoding='utf-8').split('\n')[:5]
    print(f"\nErste 5 Zeilen von measurements.log:")
    for i, line in enumerate(lines, 1):
        print(f"{i}: {line}")


## 5 Pfadoperationen

Wichtige Pfadoperationen:
- **Zusammenfügen**: `/` Operator mit pathlib, `os.path.join()` mit os
- **Auflösen**: `resolve()` für absolute Pfade
- **Relative Pfade**: `relative_to()` für relative Pfade
- **Normalisieren**: `normpath()` für saubere Pfade


In [None]:
from pathlib import Path
import os.path

# Pfade zusammenfügen
# Mit pathlib
p1 = Path('../data') / 'subdir' / 'file.txt'
print(f"pathlib Pfad: {p1}")

# Mit os
p2 = os.path.join('..', 'data', 'subdir', 'file.txt')
print(f"os Pfad: {p2}")

# Absolute Pfade
abs_path = Path('../data/test.txt').resolve()
print(f"\nAbsoluter Pfad: {abs_path}")

# Relative Pfade
base = Path('../data')
file_path = Path('../data/subdir/file.txt')
if file_path.exists() or True:  # Beispiel auch wenn nicht existiert
    try:
        rel_path = file_path.relative_to(base)
        print(f"Relativer Pfad: {rel_path}")
    except ValueError:
        print("Pfad ist nicht relativ zu base")

# Pfad normalisieren
normalized = os.path.normpath('../data/./subdir/../file.txt')
print(f"\nNormalisierter Pfad: {normalized}")

# Pfad-Komponenten
example_path = Path('../data/example_file.txt')
print(f"\nPfad-Komponenten:")
print(f"  Name: {example_path.name}")
print(f"  Stem: {example_path.stem}")
print(f"  Suffix: {example_path.suffix}")
print(f"  Parent: {example_path.parent}")
print(f"  Parts: {example_path.parts}")


## 7 Aufgaben

### Aufgabe (a): Datei- und Verzeichnisoperationen

Verwende os und pathlib für Dateioperationen:

**Anforderungen:**
- Liste alle Dateien im `data/` Verzeichnis auf
- Erstelle ein neues Verzeichnis `data/backup/` (falls es nicht existiert)
- Kopiere alle `.csv` Dateien aus `data/` nach `data/backup/`
- Zähle die Anzahl der Dateien pro Typ (.csv, .txt, .log, .xml) im `data/` Verzeichnis
- Gib die Ergebnisse aus

**Tipp:** Verwende `os.listdir()` oder `pathlib.Path.iterdir()`, `pathlib.Path.mkdir()`, `shutil.copy()` und `pathlib.Path.suffix` für Dateierweiterungen.

In [None]:
# Deine Lösung

### Aufgabe (b): Datei-Inhalt analysieren

Analysiere Textdateien:

**Anforderungen:**
- Lies alle `.txt` Dateien aus `data/` ein
- Zähle für jede Datei die Anzahl der Zeilen, Wörter und Zeichen
- Finde die größte und kleinste Datei (nach Dateigröße in Bytes)
- Erstelle eine Zusammenfassung in einer neuen Datei `data/file_summary.txt` mit den Statistiken
- Gib die Zusammenfassung aus

**Tipp:** Verwende `pathlib.Path.glob('*.txt')`, `Path.read_text()`, `len()` für Zeilen/Wörter, und `Path.stat().st_size` für Dateigröße.

In [None]:
# Deine Lösung

### Aufgabe (c): Log-Datei Verarbeitung

Verarbeite Log-Dateien:

**Anforderungen:**
- Lies `data/system.log` oder `data/measurements.log` ein (verwende die, die existiert)
- Parse Log-Einträge (extrahiere Timestamp, Log-Level und Message)
- Filtere alle ERROR- und WARNING-Einträge
- Speichere die gefilterten Einträge in eine neue Datei `data/errors.log`
- Gib die Anzahl der gefilterten Einträge aus

**Tipp:** Verwende `pathlib.Path.read_text()` oder `open()`, String-Methoden wie `.split()` oder Regex für das Parsing, und `Path.write_text()` zum Speichern.

In [None]:
# Deine Lösung

### Aufgabe (d): Datei-Management mit shutil

Verwende shutil für erweiterte Operationen:

**Anforderungen:**
- Erstelle ein Backup-Verzeichnis `data/archive/` (falls es nicht existiert)
- Verschiebe alle `.xml` Dateien aus `data/` nach `data/archive/`
- Erstelle ein ZIP-Archiv aller CSV-Dateien aus `data/` (speichere als `data/csv_backup.zip`)
- Gib eine Zusammenfassung der durchgeführten Operationen aus (Anzahl verschobener Dateien, etc.)

**Tipp:** Verwende `shutil.move()` zum Verschieben, `shutil.make_archive()` oder das `zipfile` Modul für ZIP-Archive.

In [None]:
# Deine Lösung

### Lösungen

In [None]:
import os
import shutil
from pathlib import Path
import zipfile
import logging

logging.basicConfig(level=logging.DEBUG, format='%(levelname)s: %(message)s')

# Musterlösung (a)
logging.debug("=== Aufgabe (a): Datei- und Verzeichnisoperationen ===")

data_dir = Path('../data')
files = list(data_dir.iterdir())
logging.debug(f"Dateien in data/: {[f.name for f in files if f.is_file()]}")

# Backup-Verzeichnis erstellen
backup_dir = data_dir / 'backup'
backup_dir.mkdir(exist_ok=True)
logging.debug(f"Backup-Verzeichnis erstellt: {backup_dir}")

# CSV-Dateien kopieren
csv_files = list(data_dir.glob('*.csv'))
for csv_file in csv_files:
    shutil.copy(csv_file, backup_dir)
    logging.debug(f"Kopiert: {csv_file.name}")

# Dateien nach Typ zählen
file_types = {}
for file in data_dir.iterdir():
    if file.is_file():
        suffix = file.suffix.lower()
        file_types[suffix] = file_types.get(suffix, 0) + 1

logging.debug(f"\nDateien nach Typ:")
for ext, count in file_types.items():
    logging.debug(f"  {ext or '(keine Extension)'}: {count}")

# Musterlösung (b)
logging.debug("\n=== Aufgabe (b): Datei-Inhalt analysieren ===")

txt_files = list(data_dir.glob('*.txt'))
file_stats = []

for txt_file in txt_files:
    content = txt_file.read_text(encoding='utf-8')
    lines = content.split('\n')
    words = content.split()
    chars = len(content)
    size = txt_file.stat().st_size
    
    file_stats.append({
        'name': txt_file.name,
        'lines': len(lines),
        'words': len(words),
        'chars': chars,
        'size': size
    })
    logging.debug(f"{txt_file.name}: {len(lines)} Zeilen, {len(words)} Wörter, {chars} Zeichen, {size} Bytes")

# Größte und kleinste Datei
if file_stats:
    largest = max(file_stats, key=lambda x: x['size'])
    smallest = min(file_stats, key=lambda x: x['size'])
    logging.debug(f"\nGrößte Datei: {largest['name']} ({largest['size']} Bytes)")
    logging.debug(f"Kleinste Datei: {smallest['name']} ({smallest['size']} Bytes)")

# Zusammenfassung speichern
summary = "Datei-Statistiken\n" + "=" * 50 + "\n\n"
for stat in file_stats:
    summary += f"{stat['name']}:\n"
    summary += f"  Zeilen: {stat['lines']}\n"
    summary += f"  Wörter: {stat['words']}\n"
    summary += f"  Zeichen: {stat['chars']}\n"
    summary += f"  Größe: {stat['size']} Bytes\n\n"

summary_file = data_dir / 'file_summary.txt'
summary_file.write_text(summary, encoding='utf-8')
logging.debug(f"\nZusammenfassung gespeichert in: {summary_file}")

# Musterlösung (c)
logging.debug("\n=== Aufgabe (c): Log-Datei Verarbeitung ===")

log_file = data_dir / 'system.log'
if not log_file.exists():
    log_file = data_dir / 'measurements.log'

if log_file.exists():
    log_content = log_file.read_text(encoding='utf-8')
    lines = log_content.split('\n')
    
    error_warning_lines = []
    for line in lines:
        if 'ERROR' in line.upper() or 'WARNING' in line.upper():
            error_warning_lines.append(line)
    
    # Gefilterte Einträge speichern
    errors_file = data_dir / 'errors.log'
    errors_file.write_text('\n'.join(error_warning_lines), encoding='utf-8')
    logging.debug(f"Gefilterte Einträge gespeichert in: {errors_file}")
    logging.debug(f"Anzahl ERROR/WARNING Einträge: {len(error_warning_lines)}")
else:
    logging.debug("Keine Log-Datei gefunden")

# Musterlösung (d)
logging.debug("\n=== Aufgabe (d): Datei-Management mit shutil ===")

# Archive-Verzeichnis erstellen
archive_dir = data_dir / 'archive'
archive_dir.mkdir(exist_ok=True)
logging.debug(f"Archive-Verzeichnis erstellt: {archive_dir}")

# XML-Dateien verschieben
xml_files = list(data_dir.glob('*.xml'))
moved_count = 0
for xml_file in xml_files:
    if xml_file.is_file():
        shutil.move(str(xml_file), str(archive_dir / xml_file.name))
        moved_count += 1
        logging.debug(f"Verschoben: {xml_file.name}")

logging.debug(f"Anzahl verschobener XML-Dateien: {moved_count}")

# ZIP-Archiv erstellen
csv_files_for_zip = list(data_dir.glob('*.csv'))
zip_path = data_dir / 'csv_backup.zip'

with zipfile.ZipFile(zip_path, 'w', zipfile.ZIP_DEFLATED) as zipf:
    for csv_file in csv_files_for_zip:
        zipf.write(csv_file, csv_file.name)
        logging.debug(f"Hinzugefügt zu ZIP: {csv_file.name}")

logging.debug(f"ZIP-Archiv erstellt: {zip_path}")
logging.debug(f"Anzahl CSV-Dateien im Archiv: {len(csv_files_for_zip)}")
