In [1]:
import os
import sys
import json
import pandas as pd
import numpy as np
import yaml
from zipfile import ZipFile
from sqlalchemy import create_engine, Column, Integer, String, Float, DateTime, Enum, ForeignKey, Boolean
from sqlalchemy.orm import declarative_base, sessionmaker, relationship
import enum
import subprocess

# Überprüfen und installieren Sie pymysql und cryptography, falls sie nicht vorhanden sind
def ensure_dependencies_installed():
    try:
        import pymysql
        print("pymysql ist bereits installiert.")
    except ImportError:
        print("pymysql ist nicht installiert. Installation wird durchgeführt...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", "pymysql"])
        print("pymysql wurde erfolgreich installiert.")
    
    try:
        import cryptography
        print("cryptography ist bereits installiert.")
    except ImportError:
        print("cryptography ist nicht installiert. Installation wird durchgeführt...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", "cryptography"])
        print("cryptography wurde erfolgreich installiert.")

# Lade die Konfigurationsdatei
def load_config(config_file_path):
    with open(config_file_path, 'r') as file:
        config = json.load(file)
    return config

# Verbindungsschema für MySQL
def create_db_engine(config):
    ensure_dependencies_installed()  # Sicherstellen, dass pymysql und cryptography installiert sind
    db_type = "mysql+pymysql"
    url = f"{db_type}://{config['db_user']}:{config['db_password']}@{config['db_host']}:{config['db_port']}/{config['db_name']}"
    return create_engine(url, echo=False)

# Sitzung und Basis erstellen
Base = declarative_base()

# Enum für den Markt
class Market(enum.Enum):
    crypto = 'crypto'
    stock = 'stock'
    forex = 'forex'
    futures = 'futures'

# Tabellendefinitionen
class Symbol(Base):
    __tablename__ = 'symbol'
    id = Column(Integer, primary_key=True, autoincrement=True)
    ticker = Column(String(50), nullable=False)
    name = Column(String(200), nullable=False)
    market = Column(Enum(Market), nullable=False)
    active = Column(Boolean, nullable=False)

class MinuteBar(Base):
    __tablename__ = 'minute_bar'
    id = Column(Integer, primary_key=True, autoincrement=True)
    date = Column(DateTime, nullable=False)
    open = Column(Float)
    high = Column(Float)
    low = Column(Float)
    close = Column(Float)
    volume = Column(Float)
    symbol_id = Column(Integer, ForeignKey('symbol.id', ondelete="CASCADE"), nullable=False)
    symbol = relationship('Symbol', backref='minute_bars')
'''
def load_and_process_data_from_csv(csv_file_path, chunksize=100000):
    # Initialisieren Sie eine leere Liste, um die verarbeiteten Chunks zu speichern
    processed_chunks = []
    
    # Laden Sie die CSV-Datei in Chunks
    for chunk in pd.read_csv(csv_file_path, chunksize=chunksize):
        # Überprüfen Sie, ob die erforderlichen Spalten vorhanden sind
        if 'date' not in chunk.columns or 'ticker' not in chunk.columns:
            print("CSV-Datei geladen. Erste Zeilen:")
            print(chunk.head())
            raise ValueError("Die CSV-Datei muss die Spalten 'date' und 'ticker' enthalten.")
        
        # Konvertieren des Datums und Setzen des Index
        chunk['date'] = pd.to_datetime(chunk['date'])
        chunk = chunk.set_index(['date', 'ticker'])
        chunk = chunk.sort_index()
        
        # Fügen Sie den verarbeiteten Chunk zur Liste hinzu
        processed_chunks.append(chunk)
    
    return processed_chunks

# Beispielaufruf
csv_file_path = 'path/to/your/large_csv_file.csv'
bars1m = load_data_from_csv(csv_file_path)
print(bars1m.head())
'''


'\ndef load_and_process_data_from_csv(csv_file_path, chunksize=100000):\n    # Initialisieren Sie eine leere Liste, um die verarbeiteten Chunks zu speichern\n    processed_chunks = []\n    \n    # Laden Sie die CSV-Datei in Chunks\n    for chunk in pd.read_csv(csv_file_path, chunksize=chunksize):\n        # Überprüfen Sie, ob die erforderlichen Spalten vorhanden sind\n        if \'date\' not in chunk.columns or \'ticker\' not in chunk.columns:\n            print("CSV-Datei geladen. Erste Zeilen:")\n            print(chunk.head())\n            raise ValueError("Die CSV-Datei muss die Spalten \'date\' und \'ticker\' enthalten.")\n        \n        # Konvertieren des Datums und Setzen des Index\n        chunk[\'date\'] = pd.to_datetime(chunk[\'date\'])\n        chunk = chunk.set_index([\'date\', \'ticker\'])\n        chunk = chunk.sort_index()\n        \n        # Fügen Sie den verarbeiteten Chunk zur Liste hinzu\n        processed_chunks.append(chunk)\n    \n    return processed_chunks\n

In [2]:
import pandas as pd
from sqlalchemy.orm import sessionmaker

def load_and_process_data_from_csv(csv_file_path, session, chunksize=100000, symbol_filter=None):
    # Berechnen Sie die Gesamtzahl der Chunks
    
    print("pause")
    total_rows = sum(1 for _ in open(csv_file_path)) - 1  # Minus 1 für die Header-Zeile
    print(total_rows)
    total_chunks = (total_rows // chunksize) + 1
    print(total_chunks)
    
    # Initialisieren Sie den Zähler für die verarbeiteten Chunks
    processed_chunks = 0
    
    # Laden Sie die CSV-Datei in Chunks
    for chunk in pd.read_csv(csv_file_path, chunksize=chunksize):
        processed_chunks += 1
        progress = (processed_chunks / total_chunks) * 100
        print(f"Verarbeite Chunk {processed_chunks}/{total_chunks} ({progress:.2f}%)")
        
        # Überprüfen Sie, ob die erforderlichen Spalten vorhanden sind
        if 'date' not in chunk.columns or 'ticker' not in chunk.columns:
            print("CSV-Datei geladen. Erste Zeilen:")
            print(chunk.head())
            raise ValueError("Die CSV-Datei muss die Spalten 'date' und 'ticker' enthalten.")
        
        # Konvertieren des Datums und Setzen des Index
        chunk['date'] = pd.to_datetime(chunk['date'])
        chunk = chunk.set_index(['date', 'ticker'])
        chunk = chunk.sort_index()
        
        # Optional: Filter für ein bestimmtes Symbol setzen
        if symbol_filter:
            chunk = chunk.query(f'ticker == "{symbol_filter}"')
        
        # Resample auf 1-Minuten-Intervalle
        chunk = chunk.reset_index().set_index('date').groupby('ticker').resample('1min').last().droplevel(0)
        chunk.loc[:, chunk.columns[:-1]] = chunk[chunk.columns[:-1]].ffill()
        chunk.loc[:, 'volume'] = chunk['volume'].fillna(value=0.0)
        chunk = chunk.reset_index().sort_values(by=['date', 'ticker']).set_index(['date', 'ticker'])
        
        tickers = chunk.index.get_level_values(1).unique()
        latest_date = chunk.index.get_level_values('date').max()
        active_tickers = chunk.loc[latest_date].index.get_level_values('ticker').unique()
        
        symbols = pd.DataFrame(tickers, columns=['ticker'])
        symbols['name'] = symbols['ticker']
        symbols['market'] = 'crypto'
        symbols['active'] = np.where(symbols['ticker'].isin(active_tickers), True, False)
        symbols = symbols.sort_values(by='ticker')
        
        total_symbols = len(symbols)
        try:
            for i, r in enumerate(symbols.itertuples(), 1):
                symbol = Symbol(ticker=r.ticker, name=r.name, market=Market[r.market], active=r.active)
                session.add(symbol)
                
                # Überprüfen, ob der Index existiert
                if r.ticker in chunk.index.get_level_values('ticker'):
                    bars = chunk.xs(r.ticker, level='ticker').reset_index()
                    bars['symbol_id'] = symbol.id
                    
                    session.bulk_insert_mappings(MinuteBar, bars.to_dict(orient='records'))
            
            # Commit nach dem Verarbeiten des gesamten Chunks
            session.commit()
        except Exception as e:
            print(f"An error occurred while uploading symbols: {e}")
            session.rollback()

In [2]:
#alte funktion

def process_and_insert_data(session, bars1m, symbol_filter=None):
    if symbol_filter:
        bars1m = bars1m.query(f'ticker == "{symbol_filter}"')
    
    # Resample auf 1-Minuten-Intervalle
    bars1m = bars1m.reset_index().set_index('date').groupby('ticker').resample('1min').last().droplevel(0)
    bars1m.loc[:, bars1m.columns[:-1]] = bars1m[bars1m.columns[:-1]].ffill()
    bars1m.loc[:, 'volume'] = bars1m['volume'].fillna(value=0.0)
    bars1m = bars1m.reset_index().sort_values(by=['date', 'ticker']).set_index(['date', 'ticker'])
    
    tickers = bars1m.index.get_level_values(1).unique()
    latest_date = bars1m.index.get_level_values('date').max()
    active_tickers = bars1m.loc[latest_date].index.get_level_values('ticker').unique()
    
    symbols = pd.DataFrame(tickers, columns=['ticker'])
    symbols['name'] = symbols['ticker']
    symbols['market'] = 'crypto'
    symbols['active'] = np.where(symbols['ticker'].isin(active_tickers), True, False)
    symbols = symbols.sort_values(by='ticker')
    
    total_symbols = len(symbols)
    for i, r in symbols.iterrows():
        try:
            print(f"Uploading symbol {i+1}/{total_symbols}: {r['ticker']}")
            
            symbol = Symbol(ticker=r['ticker'], name=r['name'], market=Market[r['market']], active=r['active'])
            session.add(symbol)
            session.commit()
            
            # Überprüfen, ob der Index existiert
            if r['ticker'] in bars1m.index.get_level_values('ticker'):
                bars = bars1m.xs(r['ticker'], level='ticker').reset_index()
                bars['symbol_id'] = symbol.id
                
                session.bulk_insert_mappings(MinuteBar, bars.to_dict(orient='records'))
                session.commit()
            else:
                print(f"Ticker {r['ticker']} nicht im Index gefunden.")
        except Exception as e:
            print(f"An error occurred while uploading symbol {r['ticker']}: {e}")
            session.rollback()

In [None]:
#Zip entpacken

import os
from zipfile import ZipFile

def extract_zip(zip_file_path, extract_to_path):
    with ZipFile(zip_file_path, 'r') as zf:
        zf.extractall(extract_to_path)
    print(f"ZIP-Datei wurde erfolgreich nach {extract_to_path} entpackt.")

def main_extract_zip():
    try:
        # Pfad zur config.json Datei
        config_path = 'config.json'
        
        # Einlesen der Konfigurationsdatei
        config = load_config(config_path)
        
        # Pfad zur Registry-Datei
        source_path = '/home/ageq/Git_Projects/MLdatalake/source'
        
        # Erstellen des vollständigen Pfades zur ZIP-Datei
        zip_file_name = config['zip_file_name']
        
        zip_file_path = os.path.join(source_path, f"{zip_file_name}.zip")
        extract_to_path = os.path.join(source_path, zip_file_name)
        
        # Entpacken der ZIP-Datei
        extract_zip(zip_file_path, extract_to_path)
    except Exception as e:
        print(f"An error occurred: {e}")

main_extract_zip()

In [4]:
# wandelt die Rohdaten in eine einzige CSV-Datei um

import os
import pandas as pd

def convert_csv_files(extract_to_path, output_csv_path):
    cols = ['time', 'open', 'high', 'low', 'close', 'volume']
    first_file = True
    file_count = 0
    
    # Zählen der CSV-Dateien im Verzeichnis
    total_files = sum([len(files) for r, d, files in os.walk(extract_to_path) if any(f.endswith('.csv') for f in files)])
    
    for root, dirs, files in os.walk(extract_to_path):
        for file in files:
            if file.endswith('.csv'):
                file_count += 1
                print(f"Verarbeite Datei {file_count} von {total_files}: {file}")
                #TODO - Dateigröße und zeitliche Dauer der Verarbeitung berechnen + Animation
                file_path = os.path.join(root, file)
                df = pd.read_csv(file_path, usecols=cols)
                df['ticker'] = file.split('.')[0]
                df = df[df['ticker'].str.contains('usd')]
                df['date'] = pd.to_datetime(df['time'], unit='ms')
                df = df.sort_values(by=['date', 'ticker']).drop(columns='time').set_index(['date', 'ticker'])
                
                if first_file:
                    df.to_csv(output_csv_path, mode='w', header=True)
                    first_file = False
                else:
                    df.to_csv(output_csv_path, mode='a', header=False)
    
    print(f"CSV-Datei wurde erfolgreich unter {output_csv_path} gespeichert.")

def main_convert_csv():
    try:
        # Pfad zur config.json Datei
        config_path = 'config.json'
        
        # Einlesen der Konfigurationsdatei
        config = load_config(config_path)
        
        # Pfad zur Registry-Datei
        source_path = '/home/ageq/Git_Projects/MLdatalake/source'
        
        # Erstellen des vollständigen Pfades zum Verzeichnis 'archive'
        archive_path = os.path.join(source_path, 'archive')
        output_csv_path = os.path.join(source_path, 'combined.csv')
        
        # Konvertieren der CSV-Dateien
        convert_csv_files(archive_path, output_csv_path)
    except Exception as e:
        print(f"An error occurred: {e}")

main_convert_csv()

Verarbeite Datei 1 von 984: boousd.csv
Verarbeite Datei 2 von 984: dshbtc.csv
Verarbeite Datei 3 von 984: dotf0-ustf0.csv
Verarbeite Datei 4 von 984: edoeth.csv
Verarbeite Datei 5 von 984: gbpf0-ustf0.csv
Verarbeite Datei 6 von 984: xmrf0_ustf0.csv
Verarbeite Datei 7 von 984: reef-usd.csv
Verarbeite Datei 8 von 984: dotf0btcf0.csv
Verarbeite Datei 9 von 984: dogbtc.csv
Verarbeite Datei 10 von 984: testapttestusd.csv
Verarbeite Datei 11 von 984: avax-usd.csv
Verarbeite Datei 12 von 984: neoeur.csv
Verarbeite Datei 13 von 984: qshusd.csv
Verarbeite Datei 14 von 984: ltcf0ustf0.csv
Verarbeite Datei 15 von 984: flokiust.csv
Verarbeite Datei 16 von 984: vsyusd.csv
Verarbeite Datei 17 von 984: avax_ust.csv
Verarbeite Datei 18 von 984: zilbtc.csv
Verarbeite Datei 19 von 984: testfilf0_testusdtf0.csv
Verarbeite Datei 20 von 984: mxntusd.csv
Verarbeite Datei 21 von 984: japan225ixf0_ustf0.csv
Verarbeite Datei 22 von 984: lymusd.csv
Verarbeite Datei 23 von 984: wavesust.csv
Verarbeite Datei 24 v

In [4]:
# Importiert die Daten in die datalake Datenbank

def main():
    try:
        # Pfad zur config.json Datei
        config_path = 'config.json'
        
        # Einlesen der Konfigurationsdatei
        config = load_config(config_path)
        
        # Pfad zur Registry-Datei
        source_path = '/home/ageq/Git_Projects/MLdatalake/source'
        
        output_csv_path = os.path.join(source_path, "combined.csv")

        
        # Erstellen der Datenbank-Engine
        engine = create_db_engine(config)
        Base.metadata.create_all(engine)
        Session = sessionmaker(bind=engine)
        session = Session()

        # Laden und Verarbeiten der Daten aus der CSV-Datei in Chunks
        load_and_process_data_from_csv(output_csv_path, session)
        
        print("Data imported successfully")
    except Exception as e:
        print(f"An error occurred: {e}")





In [6]:

print("go")
main()
print("done")

go
pymysql ist bereits installiert.
cryptography ist bereits installiert.
pause


KeyboardInterrupt: 

In [None]:
##alternativer Zähler:
# TODO - zu testen
def process_and_insert_data(session, bars1m, symbol_filter=None):
    if symbol_filter:
        bars1m = bars1m.query(f'ticker == "{symbol_filter}"')
    
    # Resample auf 1-Minuten-Intervalle
    bars1m = bars1m.reset_index().set_index('date').groupby('ticker').resample('1min').last().droplevel(0)
    bars1m.loc[:, bars1m.columns[:-1]] = bars1m[bars1m.columns[:-1]].ffill()
    bars1m.loc[:, 'volume'] = bars1m['volume'].fillna(value=0.0)
    bars1m = bars1m.reset_index().sort_values(by=['date', 'ticker']).set_index(['date', 'ticker'])
    
    tickers = bars1m.index.get_level_values(1).unique()
    latest_date = bars1m.index.get_level_values('date').max()
    active_tickers = bars1m.loc[latest_date].index.get_level_values('ticker').unique()
    
    symbols = pd.DataFrame(tickers, columns=['ticker'])
    symbols['name'] = symbols['ticker']
    symbols['market'] = 'crypto'
    symbols['active'] = np.where(symbols['ticker'].isin(active_tickers), True, False)
    symbols = symbols.sort_values(by='ticker')
    
    total_symbols = len(symbols)
    for i, r in enumerate(symbols.itertuples(), 1):
        try:
            print(f"Uploading symbol {i}/{total_symbols}: {r.ticker}")
            
            symbol = Symbol(ticker=r.ticker, name=r.name, market=Market[r.market], active=r.active)
            session.add(symbol)
            session.commit()
            
            # Überprüfen, ob der Index existiert
            if r.ticker in bars1m.index.get_level_values('ticker'):
                bars = bars1m.xs(r.ticker, level='ticker').reset_index()
                bars['symbol_id'] = symbol.id
                
                session.bulk_insert_mappings(MinuteBar, bars.to_dict(orient='records'))
                session.commit()
            else:
                print(f"Ticker {r.ticker} nicht im Index gefunden.")
        except Exception as e:
            print(f"An error occurred while uploading symbol {r.ticker}: {e}")
            session.rollback()

In [None]:
from sqlalchemy import create_engine, inspect, Column, Integer, String, Float, DateTime, Enum, ForeignKey, Boolean
from sqlalchemy.orm import sessionmaker

url = "mysql+pymysql://mldatalake_user:userpassword@localhost:3308/mldatalake"
engine = create_engine(url, echo=True)

inspector = inspect(engine)
table_names = inspector.get_table_names()
print(table_names)

Session = sessionmaker(bind=engine)
session = Session()

In [None]:
from sqlalchemy import create_engine, inspect, Column, Integer, String, Float, DateTime, Enum, ForeignKey, Boolean
from sqlalchemy.orm import declarative_base, sessionmaker, relationship
import enum

# Datenbankverbindung herstellen
url = "mysql+pymysql://mldatalake_user:userpassword@localhost:3308/mldatalake"
engine = create_engine(url, echo=False)

# Inspektor verwenden, um Tabellen zu überprüfen
inspector = inspect(engine)
table_names = inspector.get_table_names()
print("Tabellen in der Datenbank:", table_names)

# Basis für SQLAlchemy-Modelle definieren
Base = declarative_base()

# Enum für den Markt
class Market(enum.Enum):
    crypto = 'crypto'
    stock = 'stock'
    forex = 'forex'
    futures = 'futures'

# Modell für die Tabelle 'symbol' definieren
class Symbol(Base):
    __tablename__ = 'symbol'
    id = Column(Integer, primary_key=True, autoincrement=True)
    ticker = Column(String(50), nullable=False)
    name = Column(String(200), nullable=False)
    market = Column(Enum(Market), nullable=False)
    active = Column(Boolean, nullable=False)

# Modell für die Tabelle 'minute_bar' definieren
class MinuteBar(Base):
    __tablename__ = 'minute_bar'
    id = Column(Integer, primary_key=True, autoincrement=True)
    date = Column(DateTime, nullable=False)
    open = Column(Float)
    high = Column(Float)
    low = Column(Float)
    close = Column(Float)
    volume = Column(Float)
    symbol_id = Column(Integer, ForeignKey('symbol.id', ondelete="CASCADE"), nullable=False)
    symbol = relationship('Symbol', backref='minute_bars')

# Sitzung erstellen
Session = sessionmaker(bind=engine)
session = Session()

# Überprüfen, ob die Tabelle 'minute_bar' existiert
if 'minute_bar' in table_names:
    # Anzahl der Einträge in der Tabelle 'minute_bar' überprüfen
    count = session.query(MinuteBar).count()
    print(f"Anzahl der Einträge in der Tabelle 'minute_bar': {count:_}")

    # Daten aus der Tabelle 'minute_bar' abrufen und die letzten 5 Einträge ausgeben
    minute_bars = session.query(MinuteBar).order_by(MinuteBar.date.desc()).limit(5).all()
    if minute_bars:
        for bar in reversed(minute_bars):  # reversed, um die Einträge in aufsteigender Reihenfolge anzuzeigen
            print(f"Date: {bar.date}, Symbol: {bar.symbol.ticker}, Open: {bar.open}, Close: {bar.close}, High: {bar.high}, Low: {bar.low}, Volume: {bar.volume}")
    else:
        print("Keine Einträge in der Tabelle 'minute_bar' gefunden.")
else:
    print("Die Tabelle 'minute_bar' existiert nicht in der Datenbank.")
    



In [None]:
def check_for_duplicates(csv_file_path):
    bars1m = pd.read_csv(csv_file_path)
    duplicates = bars1m.duplicated(subset=['date', 'ticker'])
    if duplicates.any():
        print(f"Doppelte Einträge gefunden: {duplicates.sum():,}")
        print(bars1m[duplicates])
    else:
        print("Keine doppelten Einträge gefunden.")

def check_resampling_effect(bars1m):
    original_count = len(bars1m)
    bars1m_resampled = bars1m.reset_index().set_index('date').groupby('ticker').resample('1min').last().droplevel(0)
    resampled_count = len(bars1m_resampled)
    print(f"Originale Anzahl der Einträge: {original_count:_}")
    print(f"Anzahl der Einträge nach Resampling: {resampled_count:_}")

# Anzahl der Einträge in der CSV-Datei überprüfen
csv_file_path = '/home/ageq/Git_Projects/MLdatalake/source/trimmed_file.csv'

# Laden der Daten aus der CSV-Datei
bars1m = load_data_from_csv(csv_file_path)
print(f"Anzahl der Einträge: {len(bars1m):,}")

print("Doppelte Einträge in der CSV-Datei überprüfen:")
check_for_duplicates(csv_file_path)

print("Effekt des Resampling auf die Anzahl der Einträge überprüfen:")
check_resampling_effect(bars1m)

In [None]:
##dauert zu lange

from sqlalchemy import text

# Sitzung erstellen
Session = sessionmaker(bind=engine)
session = Session()

# Überprüfen, ob die Tabelle 'minute_bar' existiert
if 'minute_bar' in table_names:
    # Anzahl der Einträge in der Tabelle 'minute_bar' überprüfen
    count = session.query(MinuteBar).count()
    print(f"Anzahl der Einträge in der Tabelle 'minute_bar': {count:_}")

    # Duplikate in der Tabelle 'minute_bar' suchen
    query = text("""
        SELECT 
            date, symbol_id, COUNT(*) as dupe_count
        FROM 
            minute_bar
        GROUP BY 
            date, symbol_id
        HAVING 
            COUNT(*) > 1
    """)
    
    result = session.execute(query).fetchall()

    if result:
        print(f"Anzahl der Duplikate: {len(result):_}")
        for row in result:
            print(f"Date: {row.date}, Symbol ID: {row.symbol_id}, Count: {row.dupe_coçunt}")
    else:
        print("Keine Duplikate in der Tabelle 'minute_bar' gefunden.")
else:
    print("Die Tabelle 'minute_bar' existiert nicht in der Datenbank.")
    
    ##alternativ
'''
WITH recent_entries AS (
    SELECT 
        date, 
        symbol_id
    FROM 
        minute_bar
    ORDER BY 
        date DESC
    LIMIT 500000
)
SELECT 
    date, 
    symbol_id, 
    COUNT(*) as dupe_count
FROM 
    recent_entries
GROUP BY 
    date, 
    symbol_id
HAVING 
    COUNT(*) > 1;
    '''

In [None]:
# import_data_notebook.ipynb

import sys
import os
import json
from importlib import import_module

# Ermitteln des aktuellen Verzeichnisses des Notebooks
current_dir = os.path.dirname(os.path.abspath('__file__'))

# Füge das Verzeichnis hinzu, in dem sich die Module befinden
modules_dir = os.path.join(current_dir, 'modules')
sys.path.append(modules_dir)

# Importiere die Module
create_database = import_module('create_database')
extract_and_save_csv = import_module('extract_and_save_csv')
import_to_db = import_module('import_to_db')

# Lade die Konfigurationsdatei
def load_config(config_file_path):
    with open(config_file_path, 'r') as file:
        config = json.load(file)
    return config

source = '/home/ageq/Git_Projects/MLdatalake/source/'

# Beispiel für die Ausführung im Notebook
config_file_path = os.path.join(current_dir, 'config.json')
# Zielspeicherpfad
csv_file_path = os.path.join(source, 'gespeicherter_dataframe.csv')
symbol_filter = None  # Optional: Nur Daten für ein bestimmtes Symbol importieren, z.B. "btcusd"



In [None]:
# 1. Erstelle die Datenbank und Tabellen
create_database.main(config_file_path)

In [None]:
# 2. Extrahiere und speichere die CSV-Datei
zip_file_path = os.path.join(source, 'trimmed_file.zip')
extract_and_save_csv.extract_and_save_csv(zip_file_path, csv_file_path)

In [None]:
# 3. Importiere die Daten in die Datenbank
import_to_db.main(config_file_path, csv_file_path, symbol_filter)