# TESTS

# Überprüfung der Datenbank
Stand: Funktioniert

In [1]:

from sqlalchemy import create_engine, inspect, Column, Integer, String, Float, DateTime, Enum, ForeignKey, Boolean
from sqlalchemy.orm import declarative_base, sessionmaker, relationship
import enum

# Datenbankverbindung herstellen
url = "mysql+pymysql://mldatalake_user:userpassword@localhost:3308/mldatalake"
engine = create_engine(url, echo=False)

# Inspektor verwenden, um Tabellen zu überprüfen
inspector = inspect(engine)
table_names = inspector.get_table_names()
print("Tabellen in der Datenbank:", table_names)

# Basis für SQLAlchemy-Modelle definieren
Base = declarative_base()

# Enum für den Markt
class Market(enum.Enum):
    crypto = 'crypto'
    stock = 'stock'
    forex = 'forex'
    futures = 'futures'

# Modell für die Tabelle 'symbol' definieren
class Symbol(Base):
    __tablename__ = 'symbol'
    id = Column(Integer, primary_key=True, autoincrement=True)
    ticker = Column(String(50), nullable=False)
    name = Column(String(200), nullable=False)
    market = Column(Enum(Market), nullable=False)
    active = Column(Boolean, nullable=False)

# Modell für die Tabelle 'minute_bar' definieren
class MinuteBar(Base):
    __tablename__ = 'minute_bar'
    id = Column(Integer, primary_key=True, autoincrement=True)
    date = Column(DateTime, nullable=False)
    open = Column(Float)
    high = Column(Float)
    low = Column(Float)
    close = Column(Float)
    volume = Column(Float)
    symbol_id = Column(Integer, ForeignKey('symbol.id', ondelete="CASCADE"), nullable=False)
    symbol = relationship('Symbol', backref='minute_bars')

# Sitzung erstellen
Session = sessionmaker(bind=engine)
session = Session()

# Überprüfen, ob die Tabelle 'minute_bar' existiert
if 'minute_bar' in table_names:
    # Anzahl der Einträge in der Tabelle 'minute_bar' überprüfen
    count = session.query(MinuteBar).count()
    print(f"Anzahl der Einträge in der Tabelle 'minute_bar': {count:_}")

    # Daten aus der Tabelle 'minute_bar' abrufen und die letzten 5 Einträge ausgeben
    minute_bars = session.query(MinuteBar).order_by(MinuteBar.date.desc()).limit(5).all()
    if minute_bars:
        print("\nDie letzten fünf Einträge:" )
        for bar in reversed(minute_bars):  # reversed, um die Einträge in aufsteigender Reihenfolge anzuzeigen
            print(f"Date: {bar.date}, Symbol: {bar.symbol.ticker}, Open: {bar.open}, Close: {bar.close}, High: {bar.high}, Low: {bar.low}, Volume: {bar.volume}")
    else:
        print("Keine Einträge in der Tabelle 'minute_bar' gefunden.")
else:
    print("Die Tabelle 'minute_bar' existiert nicht in der Datenbank.")
    



Tabellen in der Datenbank: ['five_minute_bar', 'minute_bar', 'symbol', 'thirty_minute_bar']
Anzahl der Einträge in der Tabelle 'minute_bar': 18_175_974

Die letzten fünf Einträge:
Date: 2023-10-08 09:28:00, Symbol: btcusd, Open: 27912.0, Close: 27912.0, High: 27912.0, Low: 27912.0, Volume: 0.00044152
Date: 2023-10-08 09:28:00, Symbol: eosusd, Open: 0.5647, Close: 0.5647, High: 0.5647, Low: 0.5647, Volume: 125.433
Date: 2023-10-08 09:28:00, Symbol: filusd, Open: 3.4256, Close: 3.427, High: 3.427, Low: 3.4256, Volume: 28.618
Date: 2023-10-08 09:28:00, Symbol: iotusd, Open: 0.15376, Close: 0.15376, High: 0.15376, Low: 0.15376, Volume: 375.219
Date: 2023-10-08 09:28:00, Symbol: etcusd, Open: 15.51, Close: 15.51, High: 15.51, Low: 15.51, Volume: 0.52338


# Die Letzten Daten Sätze von jedem Symbol 

Stand: Funktioniert

In [3]:
import pandas as pd
from sqlalchemy import inspect, func


def get_latest_entries_per_symbol(session):
    # Abfrage, um den letzten Eintrag für jedes Symbol abzurufen
    subquery = session.query(
        MinuteBar.symbol_id,
        func.max(MinuteBar.date).label('max_date')
    ).group_by(MinuteBar.symbol_id).subquery()

    latest_bars = session.query(MinuteBar).join(
        subquery,
        (MinuteBar.symbol_id == subquery.c.symbol_id) & (MinuteBar.date == subquery.c.max_date)
    ).all()

    # Daten in einer Tabelle visualisieren
    data = []
    for bar in latest_bars:
        data.append({
            'Date': bar.date,
            'Symbol': bar.symbol.ticker,
            'Open': bar.open,
            'Close': bar.close,
            'High': bar.high,
            'Low': bar.low,
            'Volume': bar.volume
        })

    df = pd.DataFrame(data)
    return df

inspector = inspect(engine)
table_names = inspector.get_table_names()
if 'minute_bar' in table_names:
    df = get_latest_entries_per_symbol(session)
    print("\nLetzter Eintrag für jedes Symbol:")
    print(df)
else:
    print("Die Tabelle 'minute_bar' existiert nicht in der Datenbank.")


Letzter Eintrag für jedes Symbol:
                   Date          Symbol      Open     Close      High  \
0   2023-10-08 09:25:00          adausd   0.25633   0.25633   0.25633   
1   2023-10-08 09:25:00          adausd   0.25633   0.25633   0.25633   
2   2023-10-08 09:25:00          algusd   0.10185   0.10185   0.10185   
3   2023-10-08 09:21:00          ampusd   1.15430   1.15430   1.15430   
4   2023-10-08 01:30:00          antusd   4.74420   4.74420   4.74430   
..                  ...             ...       ...       ...       ...   
114 2021-08-29 13:16:00        avax-usd  47.95900  47.95900  47.95900   
115 2023-06-10 09:18:00          boousd   0.71930   0.71930   0.71930   
116 2018-03-10 05:17:00          qshusd   0.68000   0.68000   0.68000   
117 2021-08-29 13:17:00        reef-usd   0.02378   0.02378   0.02378   
118 2023-05-05 14:30:00  testapttestusd   9.75800   9.75800   9.75800   

          Low       Volume  
0     0.25633  2553.380000  
1     0.25633  2553.380000  
2

Zeitliche Verzögerung der Aktiven Symbole 
Stand: Funktioniert

In [4]:
!pip install requests

Collecting requests
  Using cached requests-2.32.3-py3-none-any.whl (64 kB)
Collecting charset-normalizer<4,>=2
  Downloading charset_normalizer-3.4.0-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (138 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m138.2/138.2 kB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting idna<4,>=2.5
  Using cached idna-3.10-py3-none-any.whl (70 kB)
Collecting urllib3<3,>=1.21.1
  Using cached urllib3-2.2.3-py3-none-any.whl (126 kB)
Collecting certifi>=2017.4.17
  Using cached certifi-2024.8.30-py3-none-any.whl (167 kB)
Installing collected packages: urllib3, idna, charset-normalizer, certifi, requests
Successfully installed certifi-2024.8.30 charset-normalizer-3.4.0 idna-3.10 requests-2.32.3 urllib3-2.2.3


In [5]:
import pandas as pd
from sqlalchemy import create_engine, inspect, func
from sqlalchemy.orm import sessionmaker, declarative_base, relationship
from sqlalchemy import Column, Integer, String, Float, DateTime, Enum, ForeignKey, Boolean
import enum
import requests
from datetime import datetime

# Datenbankverbindung herstellen
url = "mysql+pymysql://mldatalake_user:userpassword@localhost:3308/mldatalake"
engine = create_engine(url, echo=False)

# Basis für SQLAlchemy-Modelle definieren
Base = declarative_base()

# Enum für den Markt
class Market(enum.Enum):
    crypto = 'crypto'
    stock = 'stock'
    forex = 'forex'
    futures = 'futures'

# Modell für die Tabelle 'symbol' definieren
class Symbol(Base):
    __tablename__ = 'symbol'
    id = Column(Integer, primary_key=True, autoincrement=True)
    ticker = Column(String(50), nullable=False)
    name = Column(String(200), nullable=False)
    market = Column(Enum(Market), nullable=False)
    active = Column(Boolean, nullable=False)

# Modell für die Tabelle 'minute_bar' definieren
class MinuteBar(Base):
    __tablename__ = 'minute_bar'
    id = Column(Integer, primary_key=True, autoincrement=True)
    date = Column(DateTime, nullable=False)
    open = Column(Float)
    high = Column(Float)
    low = Column(Float)
    close = Column(Float)
    volume = Column(Float)
    symbol_id = Column(Integer, ForeignKey('symbol.id', ondelete="CASCADE"), nullable=False)
    symbol = relationship('Symbol', backref='minute_bars')

# Sitzung erstellen
Session = sessionmaker(bind=engine)
session = Session()

def get_all_symbols(session):
    symbols = session.query(Symbol).all()
    return symbols

def check_symbol_active(symbol):
    # Beispiel-API-Aufruf zur Überprüfung, ob ein Symbol aktiv ist
    # Hier wird die Binance API verwendet, um zu überprüfen, ob das Symbol aktiv ist
    try:
        response = requests.get(f'https://api.binance.com/api/v3/ticker/price?symbol={symbol.ticker.upper()}')
        if response.status_code == 200:
            return True
        else:
            return False
    except Exception as e:
        print(f"Fehler bei der Überprüfung des Symbols {symbol.ticker}: {e}")
        return False

def update_symbol_activity(session, symbols):
    for symbol in symbols:
        is_active = check_symbol_active(symbol)
        symbol.active = is_active
        session.add(symbol)
    session.commit()

def get_latest_entries_per_symbol(session):
    subquery = session.query(
        MinuteBar.symbol_id,
        func.max(MinuteBar.date).label('max_date')
    ).group_by(MinuteBar.symbol_id).subquery()

    latest_bars = session.query(MinuteBar).join(
        subquery,
        (MinuteBar.symbol_id == subquery.c.symbol_id) & (MinuteBar.date == subquery.c.max_date)
    ).all()

    data = []
    for bar in latest_bars:
        data.append({
            'Date': bar.date,
            'Symbol': bar.symbol.ticker,
            'Open': bar.open,
            'Close': bar.close,
            'High': bar.high,
            'Low': bar.low,
            'Volume': bar.volume
        })

    df = pd.DataFrame(data)
    return df

def calculate_time_gap(df):
    df['CurrentTime'] = datetime.utcnow()
    df['TimeGap'] = df['CurrentTime'] - df['Date']
    return df[['Symbol', 'Date', 'TimeGap']]

def save_to_csv(df, file_path):
    df.to_csv(file_path, index=False)
    print(f"CSV-Datei wurde erfolgreich unter {file_path} gespeichert.")

# Hauptlogik
inspector = inspect(engine)
table_names = inspector.get_table_names()
if 'symbol' in table_names and 'minute_bar' in table_names:
    symbols = get_all_symbols(session)
    update_symbol_activity(session, symbols)
    df = get_latest_entries_per_symbol(session)
    df_with_gap = calculate_time_gap(df)
    print("\nZeitlicher GAP für jedes Symbol:")
    print(df_with_gap)
    save_to_csv(df_with_gap, 'symbol_time_gap.csv')
else:
    print("Die erforderlichen Tabellen existieren nicht in der Datenbank.")


Zeitlicher GAP für jedes Symbol:
             Symbol                Date                   TimeGap
0            adausd 2023-10-08 09:25:00  379 days 12:17:25.631930
1            adausd 2023-10-08 09:25:00  379 days 12:17:25.631930
2            algusd 2023-10-08 09:25:00  379 days 12:17:25.631930
3            ampusd 2023-10-08 09:21:00  379 days 12:21:25.631930
4            antusd 2023-10-08 01:30:00  379 days 20:12:25.631930
..              ...                 ...                       ...
114        avax-usd 2021-08-29 13:16:00 1149 days 08:26:25.631930
115          boousd 2023-06-10 09:18:00  499 days 12:24:25.631930
116          qshusd 2018-03-10 05:17:00 2417 days 16:25:25.631930
117        reef-usd 2021-08-29 13:17:00 1149 days 08:25:25.631930
118  testapttestusd 2023-05-05 14:30:00  535 days 07:12:25.631930

[119 rows x 3 columns]
CSV-Datei wurde erfolgreich unter symbol_time_gap.csv gespeichert.
