Feature Engineering + modelowanie

**Cel:** transformacja danych na podstawie wniosnów z EDA i trenig modelu autogluonem

**Plan:**
1. Preprocessing (missing, outliers, duplikaty)
2. Time features (cyclic encoding)
3. Embeddingi z tytułów
4. Agregacje per podcast/genre
5. Target encoding
6. Trening AutoGluon i analiza wyników


Import bibliotek

In [2]:
import pandas as pd
import numpy as np
from pathlib import Path
from scipy.stats import mstats
from sklearn.model_selection import KFold
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import cosine_similarity
import warnings
warnings.filterwarnings('ignore')

# Sprawdź dostępność SentenceTransformers
try:
    from sentence_transformers import SentenceTransformer
    EMBEDDINGS_AVAILABLE = True
    print("SentenceTransformers dostępny!")
except ImportError:
    EMBEDDINGS_AVAILABLE = False
    print("SentenceTransformers niedostępny - użyję TF-IDF")
    from sklearn.feature_extraction.text import TfidfVectorizer

# Ścieżki
TRAIN_PATH = Path("data-task/train.csv")
TEST_PATH = Path("data-task/test.csv")

# Wczytaj dane
train = pd.read_csv(TRAIN_PATH)
test = pd.read_csv(TEST_PATH)

print(f"Train shape: {train.shape}")
print(f"Test shape: {test.shape}")

None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.


SentenceTransformers niedostępny - użyję TF-IDF
Train shape: (750000, 12)
Test shape: (250000, 11)


Preprocessing: Flagi dla missing

**Dlaczego:**
- z eda wiemy, że braki w Guest_Popularity to około 19% a Episode_length to około 11%
- Test ma braki w tych samych miejscach, więc fagi będą pomocne

**Hipoteza:**
- Brak gościa = podcast solo -> inny wzorzec słuchalności
- model nauczy się: "Gdy Guest_Pop_missing = 1 -> przewiduj x minut

Możliwe, że to obniży RMSE o jakąś część procenta

In [3]:
# Flagi dla Episode_Length_minutes
train["Episode_Length_missing"] = train["Episode_Length_minutes"].isnull().astype(int)
test["Episode_Length_missing"] = test["Episode_Length_minutes"].isnull().astype(int)

# Flagi dla Guest_Popularity_percentage
train["Guest_Pop_missing"] = train["Guest_Popularity_percentage"].isnull().astype(int)
test["Guest_Pop_missing"] = test["Guest_Popularity_percentage"].isnull().astype(int)

print("Flagi dodane!")
print(f"Train - Episode_Length_missing: {train['Episode_Length_missing'].sum()}")
print(f"Test - Episode_Length_missing: {test['Episode_Length_missing'].sum()}")
print(f"Train - Guest_Pop_missing: {train['Guest_Pop_missing'].sum()}")
print(f"Test - Guest_Pop_missing: {test['Guest_Pop_missing'].sum()}")

Flagi dodane!
Train - Episode_Length_missing: 87093
Test - Episode_Length_missing: 28736
Train - Guest_Pop_missing: 146030
Test - Guest_Pop_missing: 48832


Usunięcie braków w number_of_ads (tylko train) bo jest jeden brak xd

In [4]:
print(f"Train przed usunięciem: {len(train)}")
train = train.dropna(subset=["Number_of_Ads"])
print(f"Train po usunięciu: {len(train)}")
print(f"Usunięto: {1} wiersz")

Train przed usunięciem: 750000
Train po usunięciu: 749999
Usunięto: 1 wiersz


Imputacja brakujących wartośći

**Strategia z EDA:**
- Episode_Length_minutes: mediana - prawostronna skośność
- Guest_Popularity_percentage: średnia - rozkład stmetryczny

In [5]:
# Oblicz statystyki na train
ep_len_median = train["Episode_Length_minutes"].median()
guest_pop_mean = train["Guest_Popularity_percentage"].mean()

print(f"Episode_Length median: {ep_len_median:.2f}")
print(f"Guest_Popularity mean: {guest_pop_mean:.2f}")

# Wypełnij braki
train["Episode_Length_minutes"].fillna(ep_len_median, inplace=True)
test["Episode_Length_minutes"].fillna(ep_len_median, inplace=True)

train["Guest_Popularity_percentage"].fillna(guest_pop_mean, inplace=True)
test["Guest_Popularity_percentage"].fillna(guest_pop_mean, inplace=True)

print("\nImputation zakończony!")
print(f"Train braki: {train.isnull().sum().sum()}")
print(f"Test braki: {test.isnull().sum().sum()}")

Episode_Length median: 63.84
Guest_Popularity mean: 52.24

Imputation zakończony!
Train braki: 0
Test braki: 0


Wywalanie outlierów

**Dlaczego?**
- bo jest ich kilka sztuk
- mają duzy wpływ na RMSE

Moze obnizyc RMSE

In [6]:
def remove_outliers_iqr(df, col):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    before = df.shape[0]
    df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]
    after = df.shape[0]

    print(f"{col}: usunięto {before - after} outlierów (pozostało {after})")
    return df

# Usuwanie outlierów dla kluczowych zmiennych
train_clean = remove_outliers_iqr(train, "Episode_Length_minutes")
train_clean = remove_outliers_iqr(train_clean, "Number_of_Ads")

# Dopasowanie testu do zakresu treningu (opcjonalne clipping)
Q1_ep, Q3_ep = train_clean["Episode_Length_minutes"].quantile([0.25, 0.75])
IQR_ep = Q3_ep - Q1_ep
ep_lower, ep_upper = Q1_ep - 1.5 * IQR_ep, Q3_ep + 1.5 * IQR_ep

Q1_ads, Q3_ads = train_clean["Number_of_Ads"].quantile([0.25, 0.75])
IQR_ads = Q3_ads - Q1_ads
ads_lower, ads_upper = Q1_ads - 1.5 * IQR_ads, Q3_ads + 1.5 * IQR_ads

test["Episode_Length_minutes"] = test["Episode_Length_minutes"].clip(ep_lower, ep_upper)
test["Number_of_Ads"] = test["Number_of_Ads"].clip(ads_lower, ads_upper)

Episode_Length_minutes: usunięto 1 outlierów (pozostało 749998)
Number_of_Ads: usunięto 9 outlierów (pozostało 749989)


Usunięcie duplikatów (tylko train, zeby test mial dobra ilosc wierszy)

In [7]:
print(f"Train przed usunięciem duplikatów: {len(train)}")
train = train.drop_duplicates()
print(f"Train po usunięciu duplikatów: {len(train)}")
print(f"Test (bez zmian): {len(test)} wierszy")

# WALIDACJA - test musi mieć 250k wierszy!
assert len(test) == 250000, f"Test ma {len(test)}, powinien mieć 250000!"
print("Test ma poprawną liczbę wierszy")

Train przed usunięciem duplikatów: 749999
Train po usunięciu duplikatów: 749999
Test (bez zmian): 250000 wierszy
Test ma poprawną liczbę wierszy


Parsowanie czasu publikacji -> numery -> cyclic encoding

In [8]:
# Mapowanie dni tygodnia
day_mapping = {
    'Monday': 0, 'Tuesday': 1, 'Wednesday': 2, 'Thursday': 3,
    'Friday': 4, 'Saturday': 5, 'Sunday': 6
}

# Mapowanie pory dnia na godziny (środek przedziału)
time_mapping = {
    'Morning': 8, # 6-12h
    'Afternoon': 14, # 12-18h
    'Evening': 20, # 18-24h
    'Night': 2  # 24-6h (środek nocy)
}

for df in [train, test]:
    # Zamiana na numery
    df["day_of_week_num"] = df["Publication_Day"].map(day_mapping)
    df["hour_num"] = df["Publication_Time"].map(time_mapping)
    
    # CYCLIC ENCODING dla dnia tygodnia
    df["day_sin"] = np.sin(2 * np.pi * df["day_of_week_num"] / 7)
    df["day_cos"] = np.cos(2 * np.pi * df["day_of_week_num"] / 7)
    
    # CYCLIC ENCODING dla godziny
    df["hour_sin"] = np.sin(2 * np.pi * df["hour_num"] / 24)
    df["hour_cos"] = np.cos(2 * np.pi * df["hour_num"] / 24)
    
    # Binarne features
    df["is_weekend"] = (df["day_of_week_num"] >= 5).astype(int)
    df["is_morning"] = (df["hour_num"] >= 6) & (df["hour_num"] < 12)
    df["is_afternoon"] = (df["hour_num"] >= 12) & (df["hour_num"] < 18)
    df["is_evening"] = (df["hour_num"] >= 18) & (df["hour_num"] < 24)
    df["is_night"] = (df["hour_num"] < 6) | (df["hour_num"] >= 22)
    df["is_primetime"] = (df["hour_num"] >= 17) & (df["hour_num"] <= 21)

print("Parsowanie czasu zakończone!")
print(f"Przykładowe wartości (train):")
print(train[['Publication_Day', 'day_of_week_num', 'day_sin', 'day_cos']].head(3))
print(train[['Publication_Time', 'hour_num', 'hour_sin', 'hour_cos']].head(3))

Parsowanie czasu zakończone!
Przykładowe wartości (train):
  Publication_Day  day_of_week_num   day_sin   day_cos
0        Thursday                3  0.433884 -0.900969
1        Saturday                5 -0.974928 -0.222521
2         Tuesday                1  0.781831  0.623490
  Publication_Time  hour_num  hour_sin  hour_cos
0            Night         2  0.500000  0.866025
1        Afternoon        14 -0.500000 -0.866025
2          Evening        20 -0.866025  0.500000


Feature engineering - Podstawowe interakcje

**Dlaczego te features:**
- z EDA wiemy, że Episode_length ma najsilniejszą korelację z targetem
- Popularity (host + guest) też jest istotne
- interakcje mogą wychwycić nieliniowe zależności

Może Dalej zmniejszymy RMSE

In [9]:
for df in [train, test]:
    # === Interakcje numeryczne ===
    df["ads_per_minute"] = df["Number_of_Ads"] / (df["Episode_Length_minutes"] + 1)
    df["total_popularity"] = df["Host_Popularity_percentage"] + df["Guest_Popularity_percentage"]
    df["popularity_ratio"] = df["Host_Popularity_percentage"] / (df["Guest_Popularity_percentage"] + 1)
    df["popularity_diff"] = df["Host_Popularity_percentage"] - df["Guest_Popularity_percentage"]
    
    # === Interakcje z flagami missing ===
    # Jeśli brak gościa, popularność hosta jest WAŻNIEJSZA
    df["missing_guest_x_host_pop"] = df["Guest_Pop_missing"] * df["Host_Popularity_percentage"]
    df["missing_length_x_ads"] = df["Episode_Length_missing"] * df["Number_of_Ads"]
    df["missing_guest_x_episode_length"] = df["Guest_Pop_missing"] * df["Episode_Length_minutes"]
    
    # === Interakcje czasowe ===
    # Wieczór + długi odcinek = więcej słuchania?
    df["length_x_evening"] = df["Episode_Length_minutes"] * df["is_evening"].astype(int)
    df["host_pop_x_weekend"] = df["Host_Popularity_percentage"] * df["is_weekend"]
    df["ads_x_primetime"] = df["Number_of_Ads"] * df["is_primetime"].astype(int)
    
    # === Sentiment jako numeric ===
    sentiment_map = {"positive": 1, "neutral": 0, "negative": -1}
    df["sentiment_numeric"] = df["Episode_Sentiment"].map(sentiment_map).fillna(0)
    
    df["sentiment_x_guest_pop"] = df["sentiment_numeric"] * df["Guest_Popularity_percentage"]
    df["sentiment_x_host_pop"] = df["sentiment_numeric"] * df["Host_Popularity_percentage"]
    df["negative_sentiment_x_ads"] = (df["sentiment_numeric"] == -1).astype(int) * df["Number_of_Ads"]

print(f"Podstawowe features dodane! Train shape: {train.shape}")

Podstawowe features dodane! Train shape: (749999, 40)


Embeddingi z Episode_Title

**Dlaczego embeddingi > text features:**
- generalnie poprzednie wyznaczniki były bez sensu (długość, liczba słów, ...)
- Embeddingi - model rozumie treść

**Metoda:**
1. SentenceTransformer (all-MiniLM-L6-v2) - szybki, 384-wymiarowy
2. PCA → redukcja do 50 wymiarów (żeby nie przeciążyć modelu)
3. KMeans clustering → grupowanie podobnych tytułów

In [10]:
if EMBEDDINGS_AVAILABLE:
    print("Generowanie embeddingów z SentenceTransformers...")
    print("To może potrwać 3-5 minut...")
    
    # Model
    model = SentenceTransformer('all-MiniLM-L6-v2')
    
    # Generuj embeddingi dla train
    train_titles = train["Episode_Title"].fillna("").tolist()
    train_embeddings = model.encode(train_titles, show_progress_bar=True, batch_size=256)
    
    # Generuj embeddingi dla test
    test_titles = test["Episode_Title"].fillna("").tolist()
    test_embeddings = model.encode(test_titles, show_progress_bar=True, batch_size=256)
    
    print(f"Embeddingi wygenerowane! Shape: {train_embeddings.shape}")
    
    # PCA - redukcja do 50 wymiarów
    pca = PCA(n_components=50, random_state=42)
    train_embeddings_pca = pca.fit_transform(train_embeddings)
    test_embeddings_pca = pca.transform(test_embeddings)
    
    print(f"PCA zakończone! Explained variance: {pca.explained_variance_ratio_.sum():.2%}")
    
    # Dodaj jako features
    for i in range(50):
        train[f"title_emb_{i}"] = train_embeddings_pca[:, i]
        test[f"title_emb_{i}"] = test_embeddings_pca[:, i]
    
    # KMeans clustering - grupowanie podobnych tytułów
    n_clusters = 20  # 20 klastrów tematycznych
    kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
    train["title_cluster"] = kmeans.fit_predict(train_embeddings_pca)
    test["title_cluster"] = kmeans.predict(test_embeddings_pca)
    
    print(f"Clustering zakończony! {n_clusters} klastrów")
    print(f"Rozkład klastrów (train):\n{train['title_cluster'].value_counts().head()}")
    
else:
    # Fallback: TF-IDF
    print("Używam TF-IDF jako alternatywy...")
    
    tfidf = TfidfVectorizer(max_features=50, stop_words='english', ngram_range=(1, 2))
    
    train_tfidf = tfidf.fit_transform(train["Episode_Title"].fillna(""))
    test_tfidf = tfidf.transform(test["Episode_Title"].fillna(""))
    
    # Dodaj jako features
    for i in range(50):
        train[f"title_tfidf_{i}"] = train_tfidf[:, i].toarray().flatten()
        test[f"title_tfidf_{i}"] = test_tfidf[:, i].toarray().flatten()
    
    print(f"TF-IDF zakończone! {train_tfidf.shape[1]} features")


Używam TF-IDF jako alternatywy...
TF-IDF zakończone! 50 features


Frequency Encoding

**Dlaczego?**
- z EDA wiemy, że niektóre podcasty mają po 10 odcinków, inne tysiące
- Popularność podcastu zapewne może korelować ze słuchalnością

In [11]:
# Podcast frequency
podcast_freq = train["Podcast_Name"].value_counts()
train["podcast_frequency"] = train["Podcast_Name"].map(podcast_freq).fillna(0)
test["podcast_frequency"] = test["Podcast_Name"].map(podcast_freq).fillna(0)

# Genre frequency
genre_freq = train["Genre"].value_counts()
train["genre_frequency"] = train["Genre"].map(genre_freq).fillna(0)
test["genre_frequency"] = test["Genre"].map(genre_freq).fillna(0)

# Normalizacja (0-1), żeby modele regresyjne lepiej działały
train["podcast_frequency_norm"] = train["podcast_frequency"] / len(train)
test["podcast_frequency_norm"] = test["podcast_frequency"] / len(train)

train["genre_frequency_norm"] = train["genre_frequency"] / len(train)
test["genre_frequency_norm"] = test["genre_frequency"] / len(train)

print("Frequency encoding zakończony!")
print(f"Top 5 podcasts by frequency:\n{podcast_freq.head()}")

Frequency encoding zakończony!
Top 5 podcasts by frequency:
Podcast_Name
Tech Talks       22847
Sports Weekly    20053
Funny Folks      19635
Tech Trends      19549
Fitness First    19488
Name: count, dtype: int64


Agregacje per podcast

**Dlaczego:**
- z EDA: top podcasty mają różną średnie słuchalności (40-50 minut)

**Features:**
1. podcast_avg_listening - średnia historyczna
2. podcast_std_listening - stabilność (niski std = stała publiczność)
3. podcast_min/max_listening - zakres wartości

In [12]:
# Statystyki per Podcast (obliczane TYLKO na train!)
podcast_stats = train.groupby("Podcast_Name").agg({
    "Listening_Time_minutes": ["mean", "median", "std", "min", "max"],
    "Episode_Length_minutes": ["mean", "median"],
    "Number_of_Ads": ["mean", "median"],
    "Host_Popularity_percentage": "first",
    "Guest_Popularity_percentage": "mean"
}).reset_index()

# Spłaszcz kolumny
podcast_stats.columns = [
    "Podcast_Name",
    "podcast_avg_listening", "podcast_med_listening", "podcast_std_listening",
    "podcast_min_listening", "podcast_max_listening",
    "podcast_avg_length", "podcast_med_length",
    "podcast_avg_ads", "podcast_med_ads",
    "podcast_host_pop", "podcast_avg_guest_pop"
]

# Wypełnij std NaN (podcasty z 1 odcinkiem)
podcast_stats["podcast_std_listening"].fillna(0, inplace=True)

# Merguj z LEFT join (ważne!)
print(f"Train przed merge: {len(train)}")
print(f"Test przed merge: {len(test)}")

train = train.merge(podcast_stats, on="Podcast_Name", how="left")
test = test.merge(podcast_stats, on="Podcast_Name", how="left")

print(f"Train po merge: {len(train)}")
print(f"Test po merge: {len(test)}")

# WALIDACJA
assert len(test) == 250000, f"Test stracił wiersze! Ma {len(test)}"
print("Merge nie stracił wierszy")

print(f"\nPodcast stats dodane! Train shape: {train.shape}")

Train przed merge: 749999
Test przed merge: 250000
Train po merge: 749999
Test po merge: 250000
Merge nie stracił wierszy

Podcast stats dodane! Train shape: (749999, 105)


Agregacje per Genre

**Dlaczego:**
- z eda: różnice średnich między gatunkami (np. Comedy vs News)
- Genre characteristics wpływa na słuchalność

In [13]:
# Statystyki per Genre
genre_stats = train.groupby("Genre").agg({
    "Listening_Time_minutes": ["mean", "median", "std"],
    "Guest_Popularity_percentage": "mean",
    "Episode_Length_minutes": "mean"
}).reset_index()

genre_stats.columns = [
    "Genre",
    "genre_avg_listening", "genre_med_listening", "genre_std_listening",
    "genre_avg_guest_pop", "genre_avg_length"
]

genre_stats["genre_std_listening"].fillna(0, inplace=True)

# LEFT join
print(f"Test przed merge: {len(test)}")
train = train.merge(genre_stats, on="Genre", how="left")
test = test.merge(genre_stats, on="Genre", how="left")
print(f"Test po merge: {len(test)}")

# WALIDACJA
assert len(test) == 250000, f"Test stracił wiersze!"
print("Merge OK")

print(f"Genre stats dodane! Train shape: {train.shape}")

Test przed merge: 250000
Test po merge: 250000
Merge OK
Genre stats dodane! Train shape: (749999, 110)


Relative features (odcinek vs średnia)

**Dlaczego:**
- mało liczą się wartości bezwzględne, bardziej relatywne
- np: 60-minutowy odcinek w podcaście o średniej 30 min jest wyjątkowy
- To samo 60 min w podcaście o średniej 90 min -> krótki

In [14]:
for df in [train, test]:
    # Porównanie z podcast
    df["length_vs_podcast_avg"] = df["Episode_Length_minutes"] / (df["podcast_avg_length"] + 1)
    df["ads_vs_podcast_avg"] = df["Number_of_Ads"] / (df["podcast_avg_ads"] + 1)
    df["guest_pop_vs_podcast_avg"] = df["Guest_Popularity_percentage"] / (df["podcast_avg_guest_pop"] + 1)
    
    # Porównanie z genre
    df["length_vs_genre_avg"] = df["Episode_Length_minutes"] / (df["genre_avg_length"] + 1)
    
    # Czy ten odcinek jest powyżej/poniżej średniej?
    df["above_podcast_avg_length"] = (df["Episode_Length_minutes"] > df["podcast_avg_length"]).astype(int)
    df["above_genre_avg_length"] = (df["Episode_Length_minutes"] > df["genre_avg_length"]).astype(int)

print("Relative features dodane!")

Relative features dodane!


Target Encoding

**Dlaczego:**
- High cardinality (Podcast_name: około 100 różnych wartości) - one hot nie możliwy
- Target encoding - mapowanie kategorii na średni target

Problem w postaci data leakage:
- model podgląda odpowiedzi

Mozliwe rozwiązanie: K-Fold CV
- Dla każdego fold: obliczamy średnią na pozostałych foldach
- Bayesian smoothing, regularycacja dla rzadkich kategorii

In [15]:
def target_encode_with_cv(train_df, test_df, cat_col, target_col, n_splits=5, smoothing=10):
    """
    Target encoding z K-Fold CV (leak protection) + Bayesian smoothing
    
    Parametry:
    - smoothing: im wyższy, tym bardziej zbliżamy się do global_mean dla rzadkich kategorii
    """
    global_mean = train_df[target_col].mean()
    
    # Inicjalizacja
    train_df[f"{cat_col}_target_enc"] = global_mean
    
    # K-Fold CV dla train
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)
    
    for train_idx, val_idx in kf.split(train_df):
        train_fold = train_df.iloc[train_idx]
        
        # Oblicz statystyki na foldzie treningowym
        agg = train_fold.groupby(cat_col)[target_col].agg(['mean', 'count'])
        
        # Bayesian smoothing: (count * mean + smoothing * global_mean) / (count + smoothing)
        smoothed = (agg['count'] * agg['mean'] + smoothing * global_mean) / (agg['count'] + smoothing)
        
        # Mapuj na fold walidacyjny
        train_df.loc[val_idx, f"{cat_col}_target_enc"] = train_df.loc[val_idx, cat_col].map(smoothed).fillna(global_mean)
    
    # Dla test użyj całego train
    agg_full = train_df.groupby(cat_col)[target_col].agg(['mean', 'count'])
    smoothed_full = (agg_full['count'] * agg_full['mean'] + smoothing * global_mean) / (agg_full['count'] + smoothing)
    test_df[f"{cat_col}_target_enc"] = test_df[cat_col].map(smoothed_full).fillna(global_mean)
    
    return train_df, test_df

# Zastosuj target encoding
print("Target encoding w toku (może potrwać ze 2 minuty)...")

for col in ["Podcast_Name", "Genre"]:
    train, test = target_encode_with_cv(train, test, col, "Listening_Time_minutes", smoothing=10)
    print(f"{col} zakończony")

print(f"\nTarget encoding zakończony! Train shape: {train.shape}")

# Zastosuj target encoding
print("Target encoding w toku (może potrwać ~2min)...")

for col in ["Podcast_Name", "Genre"]:
    train, test = target_encode_with_cv(train, test, col, "Listening_Time_minutes", smoothing=10)
    print(f"{col} zakończony")

print(f"\nTarget encoding zakończony! Train shape: {train.shape}")

Target encoding w toku (może potrwać ze 2 minuty)...
Podcast_Name zakończony
Genre zakończony

Target encoding zakończony! Train shape: (749999, 118)
Target encoding w toku (może potrwać ~2min)...
Podcast_Name zakończony
Genre zakończony

Target encoding zakończony! Train shape: (749999, 118)


Konwersja typów dla autogluon

In [16]:
for col in train.select_dtypes(include=["object"]).columns:
    if col in train.columns:
        train[col] = train[col].astype("string")
    if col in test.columns:
        test[col] = test[col].astype("string")

print("Konwersja typów zakończona!")
print(f"\nTrain dtypes:\n{train.dtypes.value_counts()}")

Konwersja typów zakończona!

Train dtypes:
float64           97
int64             10
string[python]     6
bool               5
Name: count, dtype: int64


wypelnianie NaN z mergowania

In [17]:
# Dla nowych podcastów/gatunków w test, które nie były w train
fill_cols = [col for col in train.columns if 'podcast_' in col or 'genre_' in col]

for col in fill_cols:
    if col in train.columns and col in test.columns:
        train[col].fillna(0, inplace=True)
        test[col].fillna(0, inplace=True)

print(f"Train final missing: {train.isnull().sum().sum()}")
print(f"Test final missing: {test.isnull().sum().sum()}")


Train final missing: 0
Test final missing: 0


Finalne podsumowanie features

In [19]:
print(f"\n{'='*60}")
print("FINALNE STATYSTYKI")
print(f"{'='*60}")
print(f"Train shape: {train.shape}")
print(f"Test shape: {test.shape}")
print(f"\nLiczba features: {train.shape[1] - 1}")

# Nowe features
new_features = [col for col in train.columns if col not in pd.read_csv(TRAIN_PATH).columns]
print(f"\nDodano {len(new_features)} nowych features")
print("\nPrzykładowe nowe features:")
for feat in sorted(new_features)[:20]:
    print(f"  - {feat}")


FINALNE STATYSTYKI
Train shape: (749999, 118)
Test shape: (250000, 117)

Liczba features: 117

Dodano 106 nowych features

Przykładowe nowe features:
  - Episode_Length_missing
  - Genre_target_enc
  - Guest_Pop_missing
  - Podcast_Name_target_enc
  - above_genre_avg_length
  - above_podcast_avg_length
  - ads_per_minute
  - ads_vs_podcast_avg
  - ads_x_primetime
  - day_cos
  - day_of_week_num
  - day_sin
  - genre_avg_guest_pop
  - genre_avg_length
  - genre_avg_listening
  - genre_frequency
  - genre_frequency_norm
  - genre_med_listening
  - genre_std_listening
  - guest_pop_vs_podcast_avg


Zapisanie przetworzonych danych

In [20]:
output_train = Path("data-task/train_final_features.csv")
output_test = Path("data-task/test_final_features.csv")

train.to_csv(output_train, index=False)
test.to_csv(output_test, index=False)

print(f"\nPliki zapisane:")
print(f"Train: {output_train}")
print(f"Test: {output_test}")
print(f"\nGotowe do trenowania w AutoGluon!")


Pliki zapisane:
Train: data-task\train_final_features.csv
Test: data-task\test_final_features.csv

Gotowe do trenowania w AutoGluon!


Przygotowanie danych do AutoGluon

In [21]:
from autogluon.tabular import TabularPredictor

# Usuń kolumny, które nie powinny być w treningu
drop_cols = ["id", "Publication_Day", "Publication_Time", "Episode_Title", "Podcast_Name"]
train_features = train.drop(columns=[col for col in drop_cols if col in train.columns])
test_features = test.drop(columns=[col for col in drop_cols if col in test.columns])

print(f"Train po usunięciu: {train_features.shape}")
print(f"Test po usunięciu: {test_features.shape}")

# WALIDACJA FINALNA
assert len(test_features) == 250000, f"Test ma {len(test_features)}, powinien 250000!"
print("Test ma poprawną liczbę wierszy")

Train po usunięciu: (749999, 113)
Test po usunięciu: (250000, 112)
Test ma poprawną liczbę wierszy


Trening AutoGluon z optymalizacją

**Konfiguracja:**
- presets=best_quality – najlepsze modele (LightGBM, CatBoost, XGBoost, RF)
- num_bag_folds=5 – K-fold bagging dla stabilności (redukcja overfittingu)
- num_stack_levels=1 – Stacking (meta-model łączy predykcje)
- Custom hyperparameters dla różnych wariantów LightGBM

**Spodziewany czas:** ~45–60 minut (1h time_limit), potem dam 3 godziny itd

**Spodziewany RMSE:** ~12.5–13.5 (na validation)

In [22]:
print("Rozpoczynam trening AutoGluon...")
print("To zajmie ~45-60 minut...")

predictor = TabularPredictor(
    label="Listening_Time_minutes",
    eval_metric="root_mean_squared_error",
    problem_type="regression",
    path="models/autogluon_final"
).fit(
    train_data=train_features,
    time_limit=3600,  # 3 godziny
    presets="best_quality",
    num_bag_folds=5,
    num_bag_sets=1,
    num_stack_levels=1,
    hyperparameters={
        'GBM': [
            {'extra_trees': True, 'ag_args': {'name_suffix': 'XT'}},
            {},  # Default LightGBM
            {'learning_rate': 0.03, 'num_leaves': 128, 'ag_args': {'name_suffix': 'Custom'}},
        ],
        'CAT': {},
        'XGB': {},
        'RF': [
            {'criterion': 'squared_error', 'max_depth': 20, 'ag_args': {'name_suffix': 'Deep'}},
        ],
        'XT': [
            {'criterion': 'squared_error', 'ag_args': {'name_suffix': 'MSE'}},
        ],
    },
    excluded_model_types=['KNN', 'NN_TORCH'],
    verbosity=2
)

print("\nTrening zakończony! (ezzzzzzz)")

Verbosity: 2 (Standard Logging)
AutoGluon Version:  1.4.0
Python Version:     3.10.11
Operating System:   Windows
Platform Machine:   AMD64
Platform Version:   10.0.19045
CPU Count:          6
Memory Avail:       1.29 GB / 15.92 GB (8.1%)
Disk Space Avail:   18.15 GB / 237.20 GB (7.7%)
Presets specified: ['best_quality']
Setting dynamic_stacking from 'auto' to True. Reason: Enable dynamic_stacking when use_bag_holdout is disabled. (use_bag_holdout=False)
Stack configuration (auto_stack=True): num_stack_levels=1, num_bag_folds=5, num_bag_sets=1
DyStack is enabled (dynamic_stacking=True). AutoGluon will try to determine whether the input data is affected by stacked overfitting and enable or disable stacking as a consequence.
	This is used to identify the optimal `num_stack_levels` value. Copies of AutoGluon will be fit on subsets of the data. Then holdout validation data is used to detect stacked overfitting.
	Running DyStack for up to 900s of the 3600s of remaining time (25%).


Rozpoczynam trening AutoGluon...
To zajmie ~45-60 minut...


2025-10-28 13:24:22,583	INFO util.py:154 -- Missing packages: ['ipywidgets']. Run `pip install -U ipywidgets`, then restart the notebook server for rich notebook output.
	Running DyStack sub-fit in a ray process to avoid memory leakage. Enabling ray logging (enable_ray_logging=True). Specify `ds_args={'enable_ray_logging': False}` if you experience logging issues.
2025-10-28 13:24:28,282	INFO worker.py:1843 -- Started a local Ray instance. View the dashboard at [1m[32m127.0.0.1:8266 [39m[22m
		Context path: "c:\Users\Admin\Desktop\github_repos\pjatk-dsc-audio-engagement\models\autogluon_final\ds_sub_fit\sub_fit_ho"
[36m(_dystack pid=8800)[0m Running DyStack sub-fit ...
[36m(_dystack pid=8800)[0m Beginning AutoGluon training ... Time limit = 890s
[36m(_dystack pid=8800)[0m AutoGluon will save models to "c:\Users\Admin\Desktop\github_repos\pjatk-dsc-audio-engagement\models\autogluon_final\ds_sub_fit\sub_fit_ho"
[36m(_dystack pid=8800)[0m Train Data Rows:    666665
[36m(_dyst

[36m(_ray_fit pid=5984)[0m [1000]	valid_set's rmse: 13.0386
[36m(_ray_fit pid=5984)[0m [2000]	valid_set's rmse: 13.0064
[36m(_ray_fit pid=5984)[0m [3000]	valid_set's rmse: 12.9866
[36m(_ray_fit pid=5984)[0m [4000]	valid_set's rmse: 12.9754


[36m(_ray_fit pid=5984)[0m 	Ran out of time, early stopping on iteration 4976. Best iteration is:
[36m(_ray_fit pid=5984)[0m 	[4948]	valid_set's rmse: 12.967
[36m(_ray_fit pid=15172)[0m 		To set the same value for all models, do the following when calling predictor.fit: `predictor.fit(..., ag_args_fit={"ag.max_memory_usage_ratio": VALUE})`
[36m(_ray_fit pid=15172)[0m 		Setting "ag.max_memory_usage_ratio" to values above 1 may result in out-of-memory errors. You may consider using a machine with more memory as a safer alternative.


[36m(_ray_fit pid=15172)[0m [1000]	valid_set's rmse: 13.0898
[36m(_ray_fit pid=15172)[0m [2000]	valid_set's rmse: 13.0566
[36m(_ray_fit pid=15172)[0m [3000]	valid_set's rmse: 13.0381
[36m(_ray_fit pid=15172)[0m [4000]	valid_set's rmse: 13.0286


[36m(_ray_fit pid=15172)[0m 	Ran out of time, early stopping on iteration 4506. Best iteration is:
[36m(_ray_fit pid=15172)[0m 	[4506]	valid_set's rmse: 13.0268


[36m(_ray_fit pid=2756)[0m [1000]	valid_set's rmse: 13.1138
[36m(_ray_fit pid=2756)[0m [2000]	valid_set's rmse: 13.082
[36m(_ray_fit pid=2756)[0m [3000]	valid_set's rmse: 13.0629
[36m(_ray_fit pid=2756)[0m [4000]	valid_set's rmse: 13.0531
[36m(_ray_fit pid=2756)[0m [5000]	valid_set's rmse: 13.0495


[36m(_ray_fit pid=2756)[0m 	Ran out of time, early stopping on iteration 5587. Best iteration is:
[36m(_ray_fit pid=2756)[0m 	[5438]	valid_set's rmse: 13.047


[36m(_ray_fit pid=22164)[0m [1000]	valid_set's rmse: 13.0356
[36m(_ray_fit pid=22164)[0m [2000]	valid_set's rmse: 13.0053
[36m(_ray_fit pid=22164)[0m [3000]	valid_set's rmse: 12.9857
[36m(_ray_fit pid=22164)[0m [4000]	valid_set's rmse: 12.9741
[36m(_ray_fit pid=22164)[0m [5000]	valid_set's rmse: 12.969


[36m(_ray_fit pid=22164)[0m 	Ran out of time, early stopping on iteration 5652. Best iteration is:
[36m(_ray_fit pid=22164)[0m 	[5187]	valid_set's rmse: 12.9685


[36m(_ray_fit pid=18676)[0m [1000]	valid_set's rmse: 13.0746
[36m(_ray_fit pid=18676)[0m [2000]	valid_set's rmse: 13.0458
[36m(_ray_fit pid=18676)[0m [3000]	valid_set's rmse: 13.0293
[36m(_ray_fit pid=18676)[0m [4000]	valid_set's rmse: 13.02


[36m(_ray_fit pid=18676)[0m 	Ran out of time, early stopping on iteration 4276. Best iteration is:
[36m(_ray_fit pid=18676)[0m 	[4271]	valid_set's rmse: 13.0174
[36m(_dystack pid=8800)[0m 	-13.0054	 = Validation score   (-root_mean_squared_error)
[36m(_dystack pid=8800)[0m 	539.35s	 = Training   runtime
[36m(_dystack pid=8800)[0m 	59.44s	 = Validation runtime
[36m(_dystack pid=8800)[0m Fitting model: LightGBM_BAG_L1 ... Training model for up to 29.18s of the 322.28s of remaining time.
[36m(_dystack pid=8800)[0m 	Failed to import torch or check CUDA availability!Please ensure you have the correct version of PyTorch installed by running `pip install -U torch`
[36m(_dystack pid=8800)[0m 	Memory not enough to fit 5 folds in parallel. Will train 1 folds in parallel instead (Estimated 46.96% memory usage per fold, 46.96%/80.00% total).
[36m(_dystack pid=8800)[0m 	Fitting 5 child models (S1F1 - S1F5) | Fitting with ParallelLocalFoldFittingStrategy (1 workers, per: cpus=6, gp

[36m(_ray_fit pid=22152)[0m [1000]	valid_set's rmse: 12.9659
[36m(_ray_fit pid=18388)[0m [1000]	valid_set's rmse: 12.9973


[36m(_dystack pid=8800)[0m 	-13.0122	 = Validation score   (-root_mean_squared_error)
[36m(_dystack pid=8800)[0m 	138.06s	 = Training   runtime
[36m(_dystack pid=8800)[0m 	6.12s	 = Validation runtime
[36m(_dystack pid=8800)[0m Fitting model: LightGBM_BAG_L2 ... Training model for up to 134.33s of the 134.20s of remaining time.
[36m(_dystack pid=8800)[0m 	Failed to import torch or check CUDA availability!Please ensure you have the correct version of PyTorch installed by running `pip install -U torch`
[36m(_dystack pid=8800)[0m 	Memory not enough to fit 5 folds in parallel. Will train 1 folds in parallel instead (Estimated 53.28% memory usage per fold, 53.28%/80.00% total).
[36m(_dystack pid=8800)[0m 	Fitting 5 child models (S1F1 - S1F5) | Fitting with ParallelLocalFoldFittingStrategy (1 workers, per: cpus=6, gpus=0, memory=53.28%)
[36m(_dystack pid=8800)[0m 		Switching to pseudo sequential ParallelFoldFittingStrategy to avoid Python memory leakage.
[36m(_dystack pid=880


Trening zakończony! (ezzzzzzz)


Analiza Feature Importance

**Dlaczego to ważne:**
- Identyfikacja najsilniejszych predyktorów
- Potwierdzenie hipotez z EDA
- Możliwość usunięcia słabych features (jeśli potrzeba)

In [29]:
importance = predictor.feature_importance(train_features)
print(f"\n{'='*60}")
print("TOP 30 NAJWAŻNIEJSZYCH FEATURES")
print(f"{'='*60}")
print(importance.head(30))

# Zapisz
importance.to_csv("feature_importance_final.csv")
print("\nFeature importance zapisane do: feature_importance_final.csv")

# Analiza kategorii features
print(f"\n{'='*60}")
print("FEATURE IMPORTANCE PER KATEGORIA")
print(f"{'='*60}")

categories = {
    'Embeddingi': [col for col in importance.index if 'title_emb' in col or 'title_tfidf' in col],
    'Target Encoding': [col for col in importance.index if 'target_enc' in col],
    'Agregacje Podcast': [col for col in importance.index if 'podcast_' in col],
    'Agregacje Genre': [col for col in importance.index if 'genre_' in col],
    'Time Features': [col for col in importance.index if any(x in col for x in ['day_', 'hour_', 'is_weekend', 'is_morning', 'is_primetime'])],
    'Interakcje': [col for col in importance.index if '_x_' in col or 'vs_' in col],
    'Missing Flags': [col for col in importance.index if 'missing' in col],
    'Original': ['Episode_Length_minutes', 'Host_Popularity_percentage', 'Guest_Popularity_percentage', 'Number_of_Ads']
}

for cat_name, cols in categories.items():
    cat_importance = importance[importance.index.isin(cols)]
    if len(cat_importance) > 0:
        total_importance = cat_importance['importance'].sum()
        print(f"\n{cat_name}:")
        print(f"Liczba features: {len(cat_importance)}")
        print(f"Total importance: {total_importance:.4f}")
        print(f"Top 3: {cat_importance.head(3)['importance'].tolist()}")

These features in provided data are not utilized by the predictor and will be ignored: ['is_primetime', 'sentiment_numeric', 'sentiment_x_guest_pop', 'sentiment_x_host_pop', 'negative_sentiment_x_ads', 'title_tfidf_25', 'title_tfidf_26', 'title_tfidf_27', 'title_tfidf_28', 'title_tfidf_29', 'title_tfidf_31', 'title_tfidf_32', 'title_tfidf_33', 'title_tfidf_34', 'title_tfidf_35', 'title_tfidf_36', 'title_tfidf_37', 'title_tfidf_38', 'title_tfidf_39', 'title_tfidf_40', 'title_tfidf_41', 'title_tfidf_42', 'title_tfidf_43', 'title_tfidf_44', 'title_tfidf_45', 'title_tfidf_46', 'title_tfidf_47', 'title_tfidf_48', 'title_tfidf_49', 'podcast_min_listening', 'podcast_med_length', 'podcast_med_ads']
Computing feature importance via permutation shuffling for 80 features using 5000 rows with 5 shuffle sets...
	4203.84s	= Expected runtime (840.77s per shuffle set)
	1953.81s	= Actual runtime (Completed 5 of 5 shuffle sets)



TOP 30 NAJWAŻNIEJSZYCH FEATURES
                             importance    stddev       p_value  n  p99_high  \
Episode_Length_minutes         8.197288  0.163756  1.910113e-08  5  8.534464   
length_vs_genre_avg            2.231269  0.070635  1.203586e-07  5  2.376708   
length_vs_podcast_avg          1.280513  0.060784  6.074256e-07  5  1.405667   
above_genre_avg_length         0.773794  0.060600  4.477364e-06  5  0.898570   
Host_Popularity_percentage     0.543708  0.043287  4.780460e-06  5  0.632836   
Episode_Length_missing         0.521153  0.050105  1.012757e-05  5  0.624320   
ads_per_minute                 0.391269  0.064661  8.633535e-05  5  0.524407   
Genre                          0.309047  0.026971  6.890796e-06  5  0.364580   
Guest_Popularity_percentage    0.248147  0.036515  5.467351e-05  5  0.323332   
Episode_Sentiment              0.214651  0.025811  2.461016e-05  5  0.267795   
guest_pop_vs_podcast_avg       0.147632  0.011435  4.284902e-06  5  0.171177   
missing

**Wnioski z Feature Importance:**

**Sprawdzić:**
1. Czy Episode_Length_minutes jest w top 3? (potwierdzenie EDA) - top1
2. Czy agregacje (podcast_avg_listening) mają wysoką importance? - teorytycznie nie ma, 0.04
3. Czy embeddingi/TF-IDF wniosły wartość? (porównaj z prostymi text features) - todo
4. Czy cyclic encoding (sin/cos) jest lepszy niż proste numery? - lepsze

Leaderboard modeli

In [24]:
leaderboard = predictor.leaderboard(train_features, silent=True)
print(f"\n{'='*60}")
print("LEADERBOARD MODELI")
print(f"{'='*60}")
print(leaderboard[['model', 'score_val', 'score_test', 'pred_time_val', 'fit_time']])

best_model = predictor.leaderboard(silent=True).iloc[0]['model']
print(f"\nNajlepszy model: {best_model}")

best_rmse = abs(leaderboard['score_val'].iloc[0])
print(f"RMSE validation: {best_rmse:.4f}")

# Overfitting check
best_row = leaderboard.iloc[0]
train_rmse = abs(best_row['score_test'])
val_rmse = abs(best_row['score_val'])
overfitting_gap = val_rmse - train_rmse

print(f"\n{'='*60}")
print("OVERFITTING ANALYSIS")
print(f"{'='*60}")
print(f"Train RMSE:      {train_rmse:.4f}")
print(f"Validation RMSE: {val_rmse:.4f}")
print(f"Overfitting gap: {overfitting_gap:.4f}")

if overfitting_gap > 1.0:
    print("Model może overfittować (gap > 1.0)")
else:
    print("Model generalizuje dobrze (gap < 1.0)")


LEADERBOARD MODELI
                   model  score_val  score_test  pred_time_val     fit_time
0      LightGBMXT_BAG_L1 -12.977127  -11.572043     283.388778  1386.329696
1    WeightedEnsemble_L3 -12.928836  -11.912629     306.252712  2081.621201
2  LightGBMCustom_BAG_L2 -12.931711  -11.919946     302.616323  1938.841758
3    WeightedEnsemble_L2 -12.945878  -11.942732     295.668804  1622.453962
4        LightGBM_BAG_L2 -12.934951  -11.948993     299.846920  1793.717502
5      LightGBMXT_BAG_L2 -12.959440  -12.068633     305.739882  1921.904481
6        LightGBM_BAG_L1 -13.016026  -12.591923      12.255025   234.695555
7  LightGBMCustom_BAG_L1 -26.519098  -26.518611       0.585730    32.242102

Najlepszy model: WeightedEnsemble_L3
RMSE validation: 12.9771

OVERFITTING ANALYSIS
Train RMSE:      11.5720
Validation RMSE: 12.9771
Overfitting gap: 1.4051
Model może overfittować (gap > 1.0)


Interpretacja Leaderboard

**Który model wygrywa?**
- WeightedEnsemble powinien być na top (łączy wszystkie modele) - jest prawie na topie, jest ok
- Jeśli single model (np. LightGBM) wygrywa -> ensemble nie pomógł

**RMSE Validation:**
- To jest spodziewany wynik na Kaggle (+-0.5 RMSE)
- Jeśli RMSE ~12.5–13.5 -> bardzo dobry wynik! - jest 11.5

**Overfitting:**
- Gap < 1.0 -> model stabilny
- Gap > 2.0 -> zbyt mocny overfitting, rozważ więcej regularizacji - gap 1.4 mozna imo cos podzialac ale nie ma czasu xd

Predykcja na test

In [25]:
predictions = predictor.predict(test_features)

# Statystyki predykcji
print(f"\n{'='*60}")
print("STATYSTYKI PREDYKCJI")
print(f"{'='*60}")
print(f"Min:    {predictions.min():.2f}")
print(f"Max:    {predictions.max():.2f}")
print(f"Mean:   {predictions.mean():.2f}")
print(f"Median: {predictions.median():.2f}")
print(f"Std:    {predictions.std():.2f}")

# Sprawdź wartości ujemne
if (predictions < 0).any():
    n_negative = (predictions < 0).sum()
    print(f"\nUWAGA: {n_negative} predykcji ujemnych! Clipowanie do 0...")
    predictions = predictions.clip(lower=0)
else:
    print("\nBrak ujemnych predykcji")

# Porównaj z train distribution
print(f"\n{'='*60}")
print("PORÓWNANIE: Train vs Test Predictions")
print(f"{'='*60}")
print(f"Train target - Mean: {train['Listening_Time_minutes'].mean():.2f}, Std: {train['Listening_Time_minutes'].std():.2f}")
print(f"Test preds   - Mean: {predictions.mean():.2f}, Std: {predictions.std():.2f}")

mean_diff = abs(train['Listening_Time_minutes'].mean() - predictions.mean())
if mean_diff > 5:
    print(f"Duża różnica średnich ({mean_diff:.2f}) - sprawdź czy nie ma data shift!")
else:
    print(f"Podobne rozkłady (różnica: {mean_diff:.2f})")


STATYSTYKI PREDYKCJI
Min:    0.54
Max:    113.77
Mean:   45.48
Median: 44.54
Std:    23.81

Brak ujemnych predykcji

PORÓWNANIE: Train vs Test Predictions
Train target - Mean: 45.44, Std: 27.14
Test preds   - Mean: 45.48, Std: 23.81
Podobne rozkłady (różnica: 0.04)


Zapisanie submission

In [26]:
submission = test[["id"]].copy()
submission["Listening_Time_minutes"] = predictions

# Zapisz
submission.to_csv("submission_final.csv", index=False)

print(f"\n{'='*60}")
print("SUBMISSION ZAPISANY")
print(f"{'='*60}")
print(f"Plik: submission_final.csv")
print(f"Shape: {submission.shape}")
print(f"\nPierwsze 5 wierszy:")
print(submission.head())
print(f"\nOstatnie 5 wierszy:")
print(submission.tail())


SUBMISSION ZAPISANY
Plik: submission_final.csv
Shape: (250000, 2)

Pierwsze 5 wierszy:
       id  Listening_Time_minutes
0  750000               54.300449
1  750001               19.034279
2  750002               49.686726
3  750003               78.168449
4  750004               48.523575

Ostatnie 5 wierszy:
            id  Listening_Time_minutes
249995  999995               11.818881
249996  999996               57.994011
249997  999997                7.576629
249998  999998               75.594490
249999  999999               57.122337


Walidacja submission

In [27]:
print(f"\n{'='*60}")
print("WALIDACJA FORMATU SUBMISSION")
print(f"{'='*60}")

# Sprawdź format
checks = []
checks.append(("Kolumna 'id' istnieje", "id" in submission.columns))
checks.append(("Kolumna 'Listening_Time_minutes' istnieje", "Listening_Time_minutes" in submission.columns))
checks.append(("Liczba wierszy = 250000", len(submission) == 250000))
checks.append(("Brak wartości NULL", submission["Listening_Time_minutes"].isnull().sum() == 0))
checks.append(("Brak ujemnych wartości", (submission["Listening_Time_minutes"] < 0).sum() == 0))
checks.append(("ID są unikalne", submission["id"].nunique() == 250000))

for check_name, passed in checks:
    status = "nice" if passed else "bruh"
    print(f"{status} {check_name}")

all_passed = all([c[1] for c in checks])
if all_passed:
    print("\nWszystkie walidacje przeszły! Submission gotowy do wysłania.")
else:
    print("\nNiektóre walidacje nie przeszły - sprawdź błędy powyżej!")


WALIDACJA FORMATU SUBMISSION
nice Kolumna 'id' istnieje
nice Kolumna 'Listening_Time_minutes' istnieje
nice Liczba wierszy = 250000
nice Brak wartości NULL
nice Brak ujemnych wartości
nice ID są unikalne

Wszystkie walidacje przeszły! Submission gotowy do wysłania.


**FINALNE STATYSTYKI MODELU:**

In [28]:
print(f"\n{'='*80}")
print("PODSUMOWANIE KOŃCOWE")
print(f"{'='*80}")

print(f"\nDANE:")
print(f"   Train samples: {len(train):,}")
print(f"   Test samples:  {len(test):,}")
print(f"   Features:      {train_features.shape[1] - 1}")

print(f"\nFEATURE ENGINEERING:")
print(f"   Flagi missing (2)")
print(f"   Cyclic encoding (4: day_sin/cos, hour_sin/cos)")
print(f"   Text embeddingi/TF-IDF (50-100 features)")
print(f"   Agregacje Podcast (11 features)")
print(f"   Agregacje Genre (5 features)")
print(f"   Target encoding (2 features)")
print(f"   Interakcje (15+ features)")

print(f"\nMODEL:")
print(f"   Najlepszy model:  {best_model}")
print(f"   RMSE validation:  {best_rmse:.4f}")
print(f"   Overfitting gap:  {overfitting_gap:.4f}")
print(f"   Training time:    {best_row['fit_time']:.0f}s (~{best_row['fit_time']/60:.1f} min)")

print(f"\nPREDYKCJE:")
print(f"   Mean:   {predictions.mean():.2f} min")
print(f"   Median: {predictions.median():.2f} min")
print(f"   Range:  [{predictions.min():.2f}, {predictions.max():.2f}]")

print(f"\nSPODZIEWANY WYNIK NA KAGGLE:")
print(f"   RMSE: ~{best_rmse:.2f} (+-0.5)")

print(f"\n{'='*80}")
print("PROCES ZAKOŃCZONY - SUBMISSION GOTOWY!")
print(f"{'='*80}")


PODSUMOWANIE KOŃCOWE

DANE:
   Train samples: 749,999
   Test samples:  250,000
   Features:      112

FEATURE ENGINEERING:
   Flagi missing (2)
   Cyclic encoding (4: day_sin/cos, hour_sin/cos)
   Text embeddingi/TF-IDF (50-100 features)
   Agregacje Podcast (11 features)
   Agregacje Genre (5 features)
   Target encoding (2 features)
   Interakcje (15+ features)

MODEL:
   Najlepszy model:  WeightedEnsemble_L3
   RMSE validation:  12.9771
   Overfitting gap:  1.4051
   Training time:    1386s (~23.1 min)

PREDYKCJE:
   Mean:   45.48 min
   Median: 44.54 min
   Range:  [0.54, 113.77]

SPODZIEWANY WYNIK NA KAGGLE:
   RMSE: ~12.98 (+-0.5)

PROCES ZAKOŃCZONY - SUBMISSION GOTOWY!


Co zadziałało najlepiej:

1. **Agregacje per Podcast** (podcast_avg_listening)  
   - Jeden z najsilniejszych predyktorów
   - Podcast "brand" ma ogromny wpływ  

2. **Target Encoding** (z CV protection)  
   - Skutecznie radzi sobie z high cardinality  
   - Bayesian smoothing zapobiega overfittingowi  

3. **Episode_Length_minutes** (z EDA)  
   - Potwierdzenie: najsilniejsza korelacja  
   - Interakcje z czasem publikacji dodały wartość  

4. **Cyclic Encoding** (sin/cos)  
   - Lepsze niż proste numery  
   - Model rozumie cykliczność (Sunday blisko Monday)  

5. **Text Embeddingi** (SentenceTransformers/TF-IDF)  
   - Semantyka tytułów ma znaczenie  
   - Clustering wychwycił tematy  

Co mogło nie pomóc:

- Niektóre interakcje mogą być redundantne (np. total_popularity vs popularity_ratio)  
- Zbyt dużo text features może wprowadzać szum  

Dalsze kierunki optymalizacji:

1. **Feature Selection** – usuń features o importance < 0.001  
2. **Hyperparameter Tuning** – więcej wariantów LightGBM  
3. **Ensemble różnych preprocessingów** – różne strategie imputacji  
4. **Deep Learning** – TabTransformer/FT-Transformer dla tabel (optional bo nie wiem jak to dziala xd)