In [4]:
import os
import sys
from pathlib import Path
import pandas as pd

# --- 1. Pfad-Setup (Stellt sicher, dass 'src' gefunden wird) ---
def _locate_repo_root(start: Path) -> Path:
    """
    Try to locate repo root that contains `src/`
    """
    cur = start.resolve()
    for _ in range(5):  # walk up to 5 levels
        if (cur / 'src').exists():
            return cur
        if cur.parent == cur:
            break
        cur = cur.parent
    return start.resolve()

NOTEBOOK_DIR = Path.cwd()
PROJECT_ROOT = _locate_repo_root(NOTEBOOK_DIR)

# Wir brauchen 'src.config' nur für den Pfad
try:
    if str(PROJECT_ROOT) not in sys.path:
        sys.path.insert(0, str(PROJECT_ROOT))
    from src.config import PROCESSED
except ImportError:
    print("Konnte src.config nicht laden, verwende Fallback-Pfad.")
    PROCESSED = PROJECT_ROOT / "data" / "processed"

print(f"Projekt-Root: {PROJECT_ROOT}")
print(f"Daten-Ordner: {PROCESSED}")

# --- 2. Datei direkt laden ---
file_path = PROCESSED / "AR.parquet"

if not file_path.exists():
    print(f"FEHLER: Datei nicht gefunden unter {file_path}")
else:
    print(f"Lade Datei: {file_path}")

    # 1. Lade die Parquet-Datei
    df = pd.read_parquet(file_path)

    print("\n--- Rohdaten (wie in Ihrem Screenshot) ---")
    print(df.head())
    print("\nInfo (Rohdaten):")
    df.info()

    # 2. Konvertiere die 'date'-Spalte von Nanosekunden (int) in Datetime
    # 'pd.to_datetime' erkennt automatisch Nanosekunden-Timestamps
    df['date'] = pd.to_datetime(df['date'])

    # 3. Setze das Datum als Index (optional, aber gut für die Anzeige)
    df = df.set_index('date').sort_index()

    print("\n\n--- Konvertierte Daten (Datum korrekt) ---")
    print(df.head())
    print("\nInfo (Konvertiert):")
    df.info()

Projekt-Root: /Users/jonasschernich/Documents/Masterarbeit/Code
Daten-Ordner: /Users/jonasschernich/Documents/Masterarbeit/Code/data/processed
Lade Datei: /Users/jonasschernich/Documents/Masterarbeit/Code/data/processed/AR.parquet

--- Rohdaten (wie in Ihrem Screenshot) ---
        date  ar1_forecast_h1
0 1996-02-01         0.167950
1 1996-03-01         0.187478
2 1996-04-01        -0.612552
3 1996-05-01        -0.306890
4 1996-06-01        -0.323194

Info (Rohdaten):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 347 entries, 0 to 346
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   date             347 non-null    datetime64[ns]
 1   ar1_forecast_h1  346 non-null    float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 5.6 KB


--- Konvertierte Daten (Datum korrekt) ---
            ar1_forecast_h1
date                       
1996-02-01         0.167950
1996-03-01         0.18