In [0]:
%pip install -r ../../requirements.txt
%restart_python

In [0]:
import yfinance as yf
from datetime import datetime, date
import os
import time
from pyspark.sql.functions import lit
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql.utils import AnalysisException
from pyspark.sql import functions as F
from pyspark.sql.types import DateType, TimestampType
import yaml


try:
    # dbutils.widgets.get() jest standardową metodą odczytu parametrów Joba
    ENV = dbutils.widgets.get("env_name") 
    print(f"Środowisko skonfigurowane przez Job (ENV): {ENV}")
except Exception:
    # Obsługa błędu - gdy uruchamiasz notebook interaktywnie lub ręcznie (spoza Joba),
    # dbutils.widgets.get() może zgłosić błąd, bo widgety nie są zainicjowane.
    # W takim przypadku ustawiamy wartość domyślną (np. 'TEST')
    ENV = 'TEST' 
    print(f"Uruchomienie interaktywne/ręczne. Użycie domyślnego ENV: {ENV}")


try:
    # W Databricks, ścieżka do pliku YAML może wymagać dostosowania,
    # jeśli nie jest on w tym samym katalogu co notatnik.
    with open('../../config/config.yaml', 'r') as file:
        full_config = yaml.safe_load(file)
except FileNotFoundError:
    print("BŁĄD: Plik 'config.yaml' nie został znaleziony! Sprawdź ścieżkę.")
    raise

CFG = full_config.get(ENV)
if not CFG:
    raise ValueError(f"Nie znaleziono konfiguracji dla środowiska: {ENV} w pliku YAML.")

catalog_name = CFG['catalog_name']
schema_name = CFG['schema_name']
volume_name = CFG['volume_name']
sql_table = CFG['sql_table_name']
base_output_directory = f"/Volumes/{catalog_name}/{schema_name}/{volume_name}/yfinance_parquets/"


In [0]:
# --- KROK 1: Tworzenie df_tickets z tabeli Databricks SQL ---
try:
    sql_query = f"SELECT Ticket, company_name FROM {sql_table}"
    spark_df_tickets = spark.sql(sql_query)
    df_tickets_list = spark_df_tickets.collect()
    company_info_dict = {row['Ticket']: row['company_name'] for row in df_tickets_list}
    gpw_ticket_list = list(company_info_dict.keys())
    print("Pomyślnie utworzono Spark DataFrame z tabeli SQL.")
    print("Akcje do przetworzenia:", gpw_ticket_list)
except Exception as e:
    print(f"Błąd odczytu z tabeli SQL: {e}.")
    gpw_ticket_list = []
    company_info_dict = {}


In [0]:
# Utworzenie katalogu bazowego, jeśli nie istnieje
try:
    dbutils.fs.mkdirs(base_output_directory)
    print(f"Pomyślnie utworzono katalog: {base_output_directory}")
except Exception as e:
    print(f"Katalog już istnieje lub wystąpił błąd podczas jego tworzenia: {e}")

# Ustawienia zakresu dat dla yfinance
end_date = date.today()

if not gpw_ticket_list:
    print("Brak danych firm do przetworzenia. Używanie danych zastępczych dla demonstracji.")




In [0]:
from pyspark.sql.functions import to_date
from pyspark.sql.functions import col
from pyspark.sql import functions as F
from pyspark.sql import types as T

print("\nRozpoczynanie pobierania danych z yfinance i zapisywanie do pojedynczych plików Parquet...")

# Helper function to check if a path exists using dbutils.fs.ls
def path_exists(path):
    try:
        dbutils.fs.ls(path)
        return True
    except Exception:
        return False
    

for t in gpw_ticket_list:
    yfinance_ticker = f"{t}.WA"
    output_path = os.path.join(base_output_directory, f"ticker={t}")
    print(f"Przetwarzanie akcji: {yfinance_ticker}")

    # Sprawdzenie, czy katalog dla danego tickera już istnieje
    if path_exists(output_path):
        try:
            # Plik istnieje, próbujemy odczytać i zaktualizować
            existing_df = spark.read.parquet(output_path)
            # Konwersja kolumny na typ DateType
            existing_df = existing_df.withColumn("Date", col("Date").cast("date"))
            last_download_date = existing_df.selectExpr("max(Date)").collect()[0][0]
            if last_download_date:
                today_date_obj = date.today()
                if last_download_date < today_date_obj:
                    print(f"Dane dla '{yfinance_ticker}' wymagają aktualizacji. Ostatnia data: {last_download_date}.")
                    start_date_for_update = (pd.to_datetime(last_download_date) + pd.Timedelta(days=1)).strftime('%Y-%m-%d')
                    data = yf.download(yfinance_ticker, start=start_date_for_update, end=end_date)
                    
                    if not data.empty:
                        df_new_data = data.reset_index()
                        if isinstance(df_new_data.columns, pd.MultiIndex):
                            df_new_data.columns = df_new_data.columns.map(lambda x: x[0])
                        spark_new_data_df = spark.createDataFrame(df_new_data)
                        spark_new_data_df = spark_new_data_df.withColumn("Date", col("Date").cast("date"))
                        company_name = company_info_dict.get(t, 'N/A')
                        spark_new_data_df = spark_new_data_df.withColumn("Ticket", lit(t))
                        
                        combined_spark_df = existing_df.unionByName(spark_new_data_df, allowMissingColumns=True).dropDuplicates(['Date'])
                        combined_spark_df.write.mode("overwrite").parquet(output_path)
                        print(f"Zaktualizowano dane dla '{yfinance_ticker}'. Dodano {spark_new_data_df.count()} nowe wiersze.")
                    else:
                        print(f"Brak nowych danych do pobrania dla '{yfinance_ticker}'.")
                else:
                    print(f"Dane dla '{yfinance_ticker}' są aktualne na dzień {last_download_date}. Pomijanie.")
            else:
                print(f"Ostrzeżenie: Kolumna 'Date' nie znaleziona lub pusta dla '{yfinance_ticker}'. Pełne ponowne pobranie.")
                # Jeśli kolumna Date jest pusta, traktujemy to jak brak danych
                data = yf.download(yfinance_ticker, period='max', end=end_date)
                
                if not data.empty:
                    df_new_data = data.reset_index()
                    if isinstance(df_new_data.columns, pd.MultiIndex):
                        df_new_data.columns = df_new_data.columns.map(lambda x: x[0])
                    spark_new_data_df = spark.createDataFrame(df_new_data)
                    spark_new_data_df = spark_new_data_df.withColumn("Date", col("Date").cast("date"))
                    company_name = company_info_dict.get(t, 'N/A')
                    spark_new_data_df = spark_new_data_df.withColumn("Ticket", lit(t))
                    spark_new_data_df.write.mode("overwrite").parquet(output_path)
                    print(f"Pobrano i zapisano pełne dane dla '{yfinance_ticker}'.")
                else:
                    print(f"Brak danych dla '{yfinance_ticker}'.")

        except Exception as e:
            print(f"Wystąpił błąd podczas aktualizacji dla '{yfinance_ticker}': {e}. Przystąpienie do pełnego pobierania.")
            
    else:
        # Plik nie istnieje, zaczynamy od pełnego pobierania
        print(f"Brak istniejących danych dla '{yfinance_ticker}'. Rozpoczęcie pełnego pobierania.")
        try:
            data = yf.download(yfinance_ticker, period='max', end=end_date)
            if not data.empty:
                df_new_data = data.reset_index()
                if isinstance(df_new_data.columns, pd.MultiIndex):
                    df_new_data.columns = df_new_data.columns.map(lambda x: x[0])
                spark_new_data_df = spark.createDataFrame(df_new_data)
                spark_new_data_df = spark_new_data_df.withColumn("Date", col("Date").cast("date"))
                company_name = company_info_dict.get(t, 'N/A')
                spark_new_data_df = spark_new_data_df.withColumn("Ticket", lit(t))
                spark_new_data_df.write.mode("overwrite").parquet(output_path)
                print(f"Pobrano i zapisano pełne dane dla '{yfinance_ticker}'.")
            else:
                print(f"Brak danych dla '{yfinance_ticker}'.")
        except Exception as e:
            print(f"Wystąpił błąd podczas pobierania lub zapisywania dla '{yfinance_ticker}': {e}")
            
    time.sleep(1) # Unikaj przeciążania API