In [1]:
import pandas as pd
import numpy as np

# 1️⃣ Wczytanie czystego datasetu
df = pd.read_csv("european_capitals_history_clean.csv")

# 2️⃣ Parametry sekwencji
n_input = 14  # dni wejściowe
n_output = 7  # dni do predykcji
weather_cols = ['tavg', 'tmin', 'tmax', 'prcp', 'wspd', 'pres']

X_all, y_all, cities_all = [], [], []

# 3️⃣ Tworzenie sekwencji dla każdej stolicy
for city, group in df.groupby('city'):
    group = group.sort_values('date')
    data = group[weather_cols].values
    for i in range(len(data) - n_input - n_output + 1):
        X_all.append(data[i:i+n_input])
        y_all.append(data[i+n_input:i+n_input+n_output])
        cities_all.append(city)

# 4️⃣ Konwersja do numpy
X_all = np.array(X_all)  # shape: (samples, n_input, features)
y_all = np.array(y_all)  # shape: (samples, n_output, features)
cities_all = np.array(cities_all)

print("✅ Sekwencje przygotowane!")
print(f"X shape: {X_all.shape}")
print(f"y shape: {y_all.shape}")
print(f"Liczba próbek: {len(X_all)}")

# 5️⃣ Zapis do plików numpy, jeśli chcesz
np.save("X_weather.npy", X_all)
np.save("y_weather.npy", y_all)
np.save("cities_weather.npy", cities_all)
print("Sekwencje zapisane do plików .npy")


✅ Sekwencje przygotowane!
X shape: (220446, 14, 6)
y shape: (220446, 7, 6)
Liczba próbek: 220446
✅ Sekwencje zapisane do plików .npy
