### 📦 Import bibliotek



In [629]:
import pandas as pd
import os
import numpy as np

### 📂 Wyszukiwanie plików w katalogu




In [630]:
files = os.listdir("./data")
print("Dostępne pliki:", files)

Dostępne pliki: ['sales_ads_test.csv', 'sales_ads_train.csv', 'sample_submission.csv', 'synthetic_training_data_mostlyai_pl.csv', 'synthetic_training_data_sdv_pl.csv']


### 📥 Wczytywanie pliku ze zbiorem treningowym



In [None]:
train_file = [f for f in files if 'train' in f][0]
train_df = pd.read_csv(f"./data/{train_file}")

### 👀 Podgląd danych – pierwsze wiersze zbioru treningowego
- Wyświetlenie pierwszych pięciu wierszy zbioru train_df umożliwia szybkie sprawdzenie efektów dotychczasowych operacji przetwarzania danych. Pozwala to zweryfikować, czy struktura danych, format kolumn oraz zawartość są zgodne z oczekiwaniami przed dalszym modelowaniem.




In [632]:
train_df.head()

Unnamed: 0,ID,Cena,Waluta,Stan,Marka_pojazdu,Model_pojazdu,Wersja_pojazdu,Generacja_pojazdu,Rok_produkcji,Przebieg_km,...,Skrzynia_biegow,Typ_nadwozia,Liczba_drzwi,Kolor,Kraj_pochodzenia,Pierwszy_wlasciciel,Data_pierwszej_rejestracji,Data_publikacji_oferty,Lokalizacja_oferty,Wyposazenie
0,1,13900,PLN,Used,Renault,Grand Espace,Gr 2.0T 16V Expression,,2005.0,213000.0,...,Manual,minivan,5.0,blue,,,,28/04/2021,"SŁONECZNA 1 - 99-300 Kutno, kutnowski, Łódzkie...","['ABS', 'Electric front windows', 'Drivers air..."
1,2,25900,PLN,Used,Renault,Megane,1.6 16V 110,III (2008-2016),2010.0,117089.0,...,Manual,station_wagon,5.0,silver,,,16/06/2010,04/05/2021,"ul. Wiosenna 8 - 41-407 Imielin, Centrum (Polska)","['ABS', 'Electric front windows', 'Drivers air..."
2,3,35900,PLN,Used,Opel,Zafira,Tourer 1.6 CDTI ecoFLEX Start/Stop,C (2011-2019),2015.0,115600.0,...,Manual,minivan,5.0,white,Denmark,,,03/05/2021,"Sianów, koszaliński, Zachodniopomorskie","['ABS', 'Electric front windows', 'Passengers ..."
3,4,5999,PLN,Used,Ford,Focus,1.6 TDCi FX Silver / Silver X,Mk2 (2004-2011),2007.0,218000.0,...,Manual,compact,5.0,blue,,,27/11/2007,02/05/2021,"Gdańsk, Pomorskie, Przymorze Wielkie","['ABS', 'Electric front windows', 'Drivers air..."
4,5,44800,PLN,Used,Toyota,Avensis,1.8,III (2009-),2013.0,,...,Manual,,4.0,other,Poland,Yes,20/05/2013,02/05/2021,"Świdnik, świdnicki, Lubelskie","['ABS', 'Electric front windows', 'Drivers air..."


### 🧹 Usunięcie zbędnych kolumn ze zbioru treningowego
- Ze zbioru danych usunięto kolumny zawierające dane techniczne, identyfikatory oraz informacje datowe, które nie są bezpośrednio użyteczne w procesie predykcji lub zawierają zbyt dużo braków. Upraszcza to strukturę danych, eliminuje szum informacyjny i koncentruje model na cechach istotnych dla przewidywania ceny pojazdu.


In [633]:
train_df.drop(columns=['ID','Data_pierwszej_rejestracji','Emisja_CO2','Wersja_pojazdu','Generacja_pojazdu','Kraj_pochodzenia','Data_publikacji_oferty'], inplace=True)


In [634]:
train_df.head()

Unnamed: 0,Cena,Waluta,Stan,Marka_pojazdu,Model_pojazdu,Rok_produkcji,Przebieg_km,Moc_KM,Pojemnosc_cm3,Rodzaj_paliwa,Naped,Skrzynia_biegow,Typ_nadwozia,Liczba_drzwi,Kolor,Pierwszy_wlasciciel,Lokalizacja_oferty,Wyposazenie
0,13900,PLN,Used,Renault,Grand Espace,2005.0,213000.0,170.0,1998.0,Gasoline,Front wheels,Manual,minivan,5.0,blue,,"SŁONECZNA 1 - 99-300 Kutno, kutnowski, Łódzkie...","['ABS', 'Electric front windows', 'Drivers air..."
1,25900,PLN,Used,Renault,Megane,2010.0,117089.0,110.0,1598.0,Gasoline,Front wheels,Manual,station_wagon,5.0,silver,,"ul. Wiosenna 8 - 41-407 Imielin, Centrum (Polska)","['ABS', 'Electric front windows', 'Drivers air..."
2,35900,PLN,Used,Opel,Zafira,2015.0,115600.0,136.0,1598.0,,,Manual,minivan,5.0,white,,"Sianów, koszaliński, Zachodniopomorskie","['ABS', 'Electric front windows', 'Passengers ..."
3,5999,PLN,Used,Ford,Focus,2007.0,218000.0,90.0,1560.0,Diesel,Front wheels,Manual,compact,5.0,blue,,"Gdańsk, Pomorskie, Przymorze Wielkie","['ABS', 'Electric front windows', 'Drivers air..."
4,44800,PLN,Used,Toyota,Avensis,2013.0,,,1798.0,Gasoline,Front wheels,Manual,,4.0,other,Yes,"Świdnik, świdnicki, Lubelskie","['ABS', 'Electric front windows', 'Drivers air..."


### 💶 Ujednolicenie waluty
- Wszystkie ceny wyrażone w euro zostały przeliczone na złotówki według ustalonego kursu 1 EUR = 4.5654 PLN. Następnie waluta została oznaczona jako PLN, co zapewnia spójność jednostek w kolumnie Cena i eliminuje konieczność uwzględniania waluty jako zmiennej w dalszym modelowaniu.

In [635]:
kurs_eur_pln = 4.5654

train_df.loc[train_df['Waluta'] == 'EUR', 'Cena'] = (
    train_df.loc[train_df['Waluta'] == 'EUR', 'Cena'] * kurs_eur_pln
).astype(int)
train_df.loc[train_df['Waluta'] == 'EUR', 'Waluta'] = 'PLN'

### Usunięcie kolumny Waluta
- nie jest potrzebna ponieważ przeliczono na jedną walute

In [636]:
train_df.drop(columns=['Waluta'], inplace=True)

In [637]:
train_df.head()

Unnamed: 0,Cena,Stan,Marka_pojazdu,Model_pojazdu,Rok_produkcji,Przebieg_km,Moc_KM,Pojemnosc_cm3,Rodzaj_paliwa,Naped,Skrzynia_biegow,Typ_nadwozia,Liczba_drzwi,Kolor,Pierwszy_wlasciciel,Lokalizacja_oferty,Wyposazenie
0,13900,Used,Renault,Grand Espace,2005.0,213000.0,170.0,1998.0,Gasoline,Front wheels,Manual,minivan,5.0,blue,,"SŁONECZNA 1 - 99-300 Kutno, kutnowski, Łódzkie...","['ABS', 'Electric front windows', 'Drivers air..."
1,25900,Used,Renault,Megane,2010.0,117089.0,110.0,1598.0,Gasoline,Front wheels,Manual,station_wagon,5.0,silver,,"ul. Wiosenna 8 - 41-407 Imielin, Centrum (Polska)","['ABS', 'Electric front windows', 'Drivers air..."
2,35900,Used,Opel,Zafira,2015.0,115600.0,136.0,1598.0,,,Manual,minivan,5.0,white,,"Sianów, koszaliński, Zachodniopomorskie","['ABS', 'Electric front windows', 'Passengers ..."
3,5999,Used,Ford,Focus,2007.0,218000.0,90.0,1560.0,Diesel,Front wheels,Manual,compact,5.0,blue,,"Gdańsk, Pomorskie, Przymorze Wielkie","['ABS', 'Electric front windows', 'Drivers air..."
4,44800,Used,Toyota,Avensis,2013.0,,,1798.0,Gasoline,Front wheels,Manual,,4.0,other,Yes,"Świdnik, świdnicki, Lubelskie","['ABS', 'Electric front windows', 'Drivers air..."


### 👤 Kodowanie informacji o pierwszym właścicielu
- Kolumna Pierwszy_wlasciciel została zakodowana binarnie: wartość Yes zamieniono na 1, natomiast brakujące dane i inne wartości oznaczono jako 0. Dzięki temu model może łatwo wykorzystać tę informację jako cechę logiczną, bez konieczności przetwarzania danych tekstowych.

In [638]:
train_df['Pierwszy_wlasciciel'] = train_df['Pierwszy_wlasciciel'].map({'Yes': 1}).fillna(0).astype(int)

In [639]:
train_df.head()

Unnamed: 0,Cena,Stan,Marka_pojazdu,Model_pojazdu,Rok_produkcji,Przebieg_km,Moc_KM,Pojemnosc_cm3,Rodzaj_paliwa,Naped,Skrzynia_biegow,Typ_nadwozia,Liczba_drzwi,Kolor,Pierwszy_wlasciciel,Lokalizacja_oferty,Wyposazenie
0,13900,Used,Renault,Grand Espace,2005.0,213000.0,170.0,1998.0,Gasoline,Front wheels,Manual,minivan,5.0,blue,0,"SŁONECZNA 1 - 99-300 Kutno, kutnowski, Łódzkie...","['ABS', 'Electric front windows', 'Drivers air..."
1,25900,Used,Renault,Megane,2010.0,117089.0,110.0,1598.0,Gasoline,Front wheels,Manual,station_wagon,5.0,silver,0,"ul. Wiosenna 8 - 41-407 Imielin, Centrum (Polska)","['ABS', 'Electric front windows', 'Drivers air..."
2,35900,Used,Opel,Zafira,2015.0,115600.0,136.0,1598.0,,,Manual,minivan,5.0,white,0,"Sianów, koszaliński, Zachodniopomorskie","['ABS', 'Electric front windows', 'Passengers ..."
3,5999,Used,Ford,Focus,2007.0,218000.0,90.0,1560.0,Diesel,Front wheels,Manual,compact,5.0,blue,0,"Gdańsk, Pomorskie, Przymorze Wielkie","['ABS', 'Electric front windows', 'Drivers air..."
4,44800,Used,Toyota,Avensis,2013.0,,,1798.0,Gasoline,Front wheels,Manual,,4.0,other,1,"Świdnik, świdnicki, Lubelskie","['ABS', 'Electric front windows', 'Drivers air..."


### 🔍 Sprawdzenie brakujących danych
- Wyświetlono liczbę brakujących wartości (NaN) w każdej kolumnie zbioru danych. Pozwala to szybko zidentyfikować, które cechy wymagają uzupełnienia, usunięcia lub dalszej obróbki przed treningiem modelu.

In [640]:
print(train_df.isnull().sum())

Cena                       0
Stan                    3322
Marka_pojazdu           3351
Model_pojazdu           3309
Rok_produkcji           3407
Przebieg_km             4003
Moc_KM                  3733
Pojemnosc_cm3           4686
Rodzaj_paliwa           3410
Naped                  13054
Skrzynia_biegow         3775
Typ_nadwozia            3359
Liczba_drzwi            4364
Kolor                   3463
Pierwszy_wlasciciel        0
Lokalizacja_oferty      3341
Wyposazenie             3253
dtype: int64


In [641]:
print(train_df["Naped"].unique())

['Front wheels' nan '4x4 (permanent)' '4x4 (attached automatically)'
 'Rear wheels' '4x4 (attached manually)']


### 🚗 Wyszukiwanie brakujących danych w kolumnie Naped
- Wyodrębniono wszystkie unikalne kombinacje Marka_pojazdu i Model_pojazdu, dla których brakuje informacji o rodzaju napędu (Naped). Dzięki temu można łatwo zidentyfikować konkretne modele pojazdów wymagające uzupełnienia tej cechy.

In [642]:
missing_naped_df = train_df[train_df['Naped'].isna()]
print(missing_naped_df[['Marka_pojazdu', 'Model_pojazdu']].drop_duplicates())


       Marka_pojazdu Model_pojazdu
2               Opel        Zafira
6               Audi            A6
21             Mazda             6
28              Ford         Focus
43           Porsche       Cayenne
...              ...           ...
132534       Renault      Latitude
132626           NaN         Caddy
132796       Renault       Fluence
134061     Chevrolet       Venture
134855         Škoda           130

[1103 rows x 2 columns]


In [643]:
print(train_df['Naped'].isna().sum())

13054


### Uzupełnianie brakujących danych w kolumnie Naped
- Brakujące wartości w kolumnie Naped zostały uzupełnione na podstawie najczęściej występującej wartości (moda) dla danej marki pojazdu (Marka_pojazdu). Pozwala to zachować spójność danych bez konieczności ich usuwania, a jednocześnie wykorzystać logiczne zależności między marką a typem napędu.

In [644]:
train_df['Naped'] = train_df['Naped'].fillna(
    train_df.groupby('Marka_pojazdu')['Naped'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else None)
)


In [645]:
print(train_df['Naped'].isna().sum())


335


In [646]:
print(train_df.isnull().sum())

Cena                      0
Stan                   3322
Marka_pojazdu          3351
Model_pojazdu          3309
Rok_produkcji          3407
Przebieg_km            4003
Moc_KM                 3733
Pojemnosc_cm3          4686
Rodzaj_paliwa          3410
Naped                   335
Skrzynia_biegow        3775
Typ_nadwozia           3359
Liczba_drzwi           4364
Kolor                  3463
Pierwszy_wlasciciel       0
Lokalizacja_oferty     3341
Wyposazenie            3253
dtype: int64


In [647]:
model_to_brand = (
    train_df[train_df['Marka_pojazdu'].notna()]
    .drop_duplicates(subset=['Model_pojazdu', 'Marka_pojazdu'])
    .set_index('Model_pojazdu')['Marka_pojazdu']
    .to_dict()
)

### 🔧 Tworzenie mapowania modelu na markę
- Na podstawie unikalnych par Model_pojazdu i Marka_pojazdu utworzono słownik mapujący każdy model pojazdu na odpowiadającą mu markę. Służy to do późniejszego uzupełniania brakujących wartości w kolumnie Marka_pojazdu na podstawie znanej informacji o modelu

In [648]:
train_df['Marka_pojazdu'] = train_df.apply(
    lambda row: model_to_brand.get(row['Model_pojazdu'], row['Marka_pojazdu'])
    if pd.isna(row['Marka_pojazdu']) else row['Marka_pojazdu'],
    axis=1
)

In [649]:
print(train_df['Marka_pojazdu'].isna().sum())

4


### 🚘 Tworzenie mapowania typu nadwozia
- Na podstawie unikalnych kombinacji Marka_pojazdu i Model_pojazdu utworzono słownik mapujący te pary na odpowiadający im Typ_nadwozia. Służy to do późniejszego uzupełniania brakujących wartości w kolumnie Typ_nadwozia w sposób logiczny i spójny z pozostałymi danymi.

In [650]:
nadwozie_lookup = (
    train_df[train_df['Typ_nadwozia'].notna()]
    .drop_duplicates(subset=['Marka_pojazdu', 'Model_pojazdu', 'Typ_nadwozia'])
    .set_index(['Marka_pojazdu', 'Model_pojazdu'])['Typ_nadwozia']
    .to_dict()
)


### 🛠️ Uzupełnianie braków w kolumnie Typ_nadwozia
- Brakujące wartości w kolumnie Typ_nadwozia zostały uzupełnione na podstawie wcześniej utworzonego słownika, który mapuje pary (Marka_pojazdu, Model_pojazdu) na odpowiadający im typ nadwozia. Jeśli dla danej kombinacji nie znaleziono dopasowania, pozostawiono oryginalną wartość. Dzięki temu zachowano spójność danych bez ich usuwania.

In [651]:
train_df['Typ_nadwozia'] = train_df.apply(
    lambda row: nadwozie_lookup.get((row['Marka_pojazdu'], row['Model_pojazdu']), row['Typ_nadwozia'])
    if pd.isna(row['Typ_nadwozia']) else row['Typ_nadwozia'],
    axis=1
)


In [652]:
print(train_df['Typ_nadwozia'].isna().sum())


4


### ⛽ Tworzenie mapowania rodzaju paliwa
- Na podstawie unikalnych kombinacji Marka_pojazdu i Pojemnosc_cm3 utworzono słownik mapujący te pary na odpowiadający im Rodzaj_paliwa. Mapowanie to umożliwia późniejsze uzupełnienie brakujących wartości paliwa w logiczny i oparty na danych sposób.

In [653]:
paliwo_lookup = (
    train_df[train_df['Rodzaj_paliwa'].notna()]
    .drop_duplicates(subset=['Marka_pojazdu', 'Pojemnosc_cm3', 'Rodzaj_paliwa'])
    .set_index(['Marka_pojazdu', 'Pojemnosc_cm3'])['Rodzaj_paliwa']
    .to_dict()
)

### ⛽ Uzupełnianie braków w kolumnie Rodzaj_paliwa
- Brakujące wartości w kolumnie Rodzaj_paliwa zostały uzupełnione na podstawie słownika mapującego kombinacje Marka_pojazdu i Pojemnosc_cm3 na odpowiedni typ paliwa. Jeśli nie znaleziono dopasowania, pozostawiono oryginalną wartość. Dzięki temu dane stają się bardziej kompletne i spójne, co zwiększa jakość predykcji modelu.

In [654]:
train_df['Rodzaj_paliwa'] = train_df.apply(
    lambda row: paliwo_lookup.get((row['Marka_pojazdu'], row['Pojemnosc_cm3']), row['Rodzaj_paliwa'])
    if pd.isna(row['Rodzaj_paliwa']) else row['Rodzaj_paliwa'],
    axis=1
)


In [655]:
print(train_df['Rodzaj_paliwa'].isna().sum())


147


In [656]:
print(train_df.isnull().sum())

Cena                      0
Stan                   3322
Marka_pojazdu             4
Model_pojazdu          3309
Rok_produkcji          3407
Przebieg_km            4003
Moc_KM                 3733
Pojemnosc_cm3          4686
Rodzaj_paliwa           147
Naped                   335
Skrzynia_biegow        3775
Typ_nadwozia              4
Liczba_drzwi           4364
Kolor                  3463
Pierwszy_wlasciciel       0
Lokalizacja_oferty     3341
Wyposazenie            3253
dtype: int64


### 🚗 Tworzenie mapowania modelu pojazdu
- Na podstawie unikalnych kombinacji Marka_pojazdu i Typ_nadwozia utworzono słownik mapujący je na odpowiadający im Model_pojazdu. Mapowanie to może być wykorzystane do uzupełnienia brakujących modeli w sposób zgodny z pozostałymi cechami pojazdu.

In [657]:
model_lookup = (
    train_df[train_df['Model_pojazdu'].notna()]
    .drop_duplicates(subset=['Marka_pojazdu', 'Typ_nadwozia', 'Model_pojazdu'])
    .set_index(['Marka_pojazdu', 'Typ_nadwozia'])['Model_pojazdu']
    .to_dict()
)

### 🚘 Uzupełnianie braków w kolumnie Model_pojazdu
- Brakujące wartości w kolumnie Model_pojazdu zostały uzupełnione na podstawie słownika mapującego pary (Marka_pojazdu, Typ_nadwozia) na odpowiadające im modele. Jeżeli dla danej kombinacji nie znaleziono dopasowania, pozostawiono oryginalną wartość. Zabieg ten zwiększa kompletność danych i umożliwia modelowi lepsze rozróżnianie między pojazdami.

In [658]:
train_df['Model_pojazdu'] = train_df.apply(
    lambda row: model_lookup.get((row['Marka_pojazdu'], row['Typ_nadwozia']), row['Model_pojazdu'])
    if pd.isna(row['Model_pojazdu']) else row['Model_pojazdu'],
    axis=1
)


In [659]:
print(train_df['Model_pojazdu'].isna().sum())


27


In [660]:
print(train_df["Stan"].unique())

['Used' 'New' nan]


### ⚙️ Tworzenie mapowania stanu pojazdu
- Na podstawie unikalnych kombinacji Marka_pojazdu i Rok_produkcji utworzono słownik mapujący je na odpowiadający im Stan. Mapowanie to pozwala w logiczny sposób uzupełniać brakujące dane dotyczące stanu technicznego pojazdu na podstawie innych powiązanych informacji.

In [661]:
stan_lookup = (
    train_df[train_df['Stan'].notna()]
    .drop_duplicates(subset=['Marka_pojazdu', 'Rok_produkcji', 'Stan'])
    .set_index(['Marka_pojazdu', 'Rok_produkcji'])['Stan']
    .to_dict()
)

### 🔧 Uzupełnianie braków w kolumnie Stan
- Brakujące wartości w kolumnie Stan zostały uzupełnione na podstawie słownika mapującego pary (Marka_pojazdu, Rok_produkcji) na odpowiadający im stan techniczny pojazdu. W przypadku braku dopasowania pozostawiono oryginalną wartość. Dzięki temu dane są bardziej kompletne i lepiej odzwierciedlają rzeczywiste cechy pojazdów.

In [662]:
train_df['Stan'] = train_df.apply(
    lambda row: stan_lookup.get((row['Marka_pojazdu'], row['Rok_produkcji']), row['Stan'])
    if pd.isna(row['Stan']) else row['Stan'],
    axis=1
)


In [663]:
print(train_df['Stan'].isna().sum())


97


In [664]:
print(train_df.isnull().sum())

Cena                      0
Stan                     97
Marka_pojazdu             4
Model_pojazdu            27
Rok_produkcji          3407
Przebieg_km            4003
Moc_KM                 3733
Pojemnosc_cm3          4686
Rodzaj_paliwa           147
Naped                   335
Skrzynia_biegow        3775
Typ_nadwozia              4
Liczba_drzwi           4364
Kolor                  3463
Pierwszy_wlasciciel       0
Lokalizacja_oferty     3341
Wyposazenie            3253
dtype: int64


### 📅 Funkcja do uzupełniania braków w kolumnie Rok_produkcji
- Funkcja przypisz_rok służy do uzupełniania brakujących wartości w kolumnie Rok_produkcji na podstawie podobnych rekordów w zbiorze danych. Dla danego wiersza sprawdzane są inne pojazdy o tym samym modelu, dla których znane są zarówno rok produkcji, jak i przebieg. Spośród nich wybierany jest ten o najbardziej zbliżonym przebiegu, a jego rok produkcji przypisywany jest do brakującego pola. W przypadku braku podobnych rekordów zwracana jest wartość NaN.

In [665]:
def przypisz_rok(row, df):
    if pd.notna(row['Rok_produkcji']):
        return row['Rok_produkcji'] 


    podobne = df[
        (df['Model_pojazdu'] == row['Model_pojazdu']) &
        (df['Rok_produkcji'].notna()) &
        (df['Przebieg_km'].notna())
    ]
    
    if podobne.empty:
        return np.nan  # nic nie znaleziono


    podobne['roznica'] = abs(podobne['Przebieg_km'] - row['Przebieg_km'])
    najblizszy = podobne.sort_values(by='roznica').iloc[0]

    return najblizszy['Rok_produkcji']


### 📆 Uzupełnianie braków w kolumnie Rok_produkcji
- Brakujące wartości w kolumnie Rok_produkcji zostały uzupełnione za pomocą funkcji przypisz_rok, która na podstawie podobnych pojazdów (o tym samym modelu i zbliżonym przebiegu) przypisuje najbardziej prawdopodobny rok produkcji. Dzięki temu dane są bardziej kompletne i realistyczne, co wpływa pozytywnie na jakość predykcji modelu.

In [666]:
train_df['Rok_produkcji'] = train_df.apply(lambda row: przypisz_rok(row, train_df), axis=1)


In [667]:
print(train_df['Rok_produkcji'].isna().sum())


2


### 🛣️ Funkcja do uzupełniania braków w kolumnie Przebieg_km
- Funkcja przypisz_przebieg uzupełnia brakujące wartości przebiegu (Przebieg_km) na podstawie mediany z podobnych pojazdów. Jako podobne uznawane są auta o tym samym modelu i roku produkcji, dla których znany jest przebieg. Jeśli takie rekordy istnieją, funkcja zwraca medianę ich przebiegu. W przeciwnym przypadku pozostawia wartość jako NaN. Pozwala to realistycznie oszacować brakujące dane i zwiększyć jakość zbioru.

In [668]:
def przypisz_przebieg(row, df):
    if pd.notna(row['Przebieg_km']):
        return row['Przebieg_km']

    # Znajdź podobne auta z tym samym modelem i rokiem produkcji
    podobne = df[
        (df['Model_pojazdu'] == row['Model_pojazdu']) &
        (df['Rok_produkcji'] == row['Rok_produkcji']) &
        (df['Przebieg_km'].notna())
    ]

    if podobne.empty:
        return np.nan


    return podobne['Przebieg_km'].median()


### 🚗 Uzupełnianie braków w kolumnie Przebieg_km
- Brakujące wartości przebiegu zostały uzupełnione za pomocą funkcji przypisz_przebieg, która przypisuje medianę przebiegu spośród pojazdów o tym samym modelu i roku produkcji. Dzięki temu dane stają się bardziej kompletne, a estymacja opiera się na rzeczywistych, zbliżonych przypadkach.

In [669]:
train_df['Przebieg_km'] = train_df.apply(lambda row: przypisz_przebieg(row, train_df), axis=1)


In [670]:
print(train_df['Przebieg_km'].isna().sum())


71


In [671]:
print(train_df.isnull().sum())

Cena                      0
Stan                     97
Marka_pojazdu             4
Model_pojazdu            27
Rok_produkcji             2
Przebieg_km              71
Moc_KM                 3733
Pojemnosc_cm3          4686
Rodzaj_paliwa           147
Naped                   335
Skrzynia_biegow        3775
Typ_nadwozia              4
Liczba_drzwi           4364
Kolor                  3463
Pierwszy_wlasciciel       0
Lokalizacja_oferty     3341
Wyposazenie            3253
dtype: int64


### 🏎️ Funkcja do uzupełniania braków w kolumnie Moc_KM
- Funkcja przypisz_moc służy do uzupełniania brakujących wartości mocy silnika (Moc_KM). Wyszukuje podobne pojazdy o tym samym modelu i pojemności silnika, a następnie zwraca medianę ich mocy. Jeśli brak jest odpowiednich danych, funkcja pozostawia wartość jako NaN. Takie podejście pozwala oszacować brakujące dane w sposób oparty na podobnych, rzeczywistych przypadkach.

In [672]:
def przypisz_moc(row, df):
    if pd.notna(row['Moc_KM']):
        return row['Moc_KM']

    # Znajdź podobne auta z tym samym modelem i pojemnością
    podobne = df[
        (df['Model_pojazdu'] == row['Model_pojazdu']) &
        (df['Pojemnosc_cm3'] == row['Pojemnosc_cm3']) &
        (df['Moc_KM'].notna())
    ]

    if podobne.empty:
        return np.nan


    return podobne['Moc_KM'].median()


### ⚙️ Uzupełnianie braków w kolumnie Moc_KM
- Brakujące wartości w kolumnie Moc_KM zostały uzupełnione za pomocą funkcji przypisz_moc, która przypisuje medianę mocy silnika na podstawie pojazdów o tym samym modelu i pojemności silnika. Dzięki temu dane techniczne stają się pełniejsze, co zwiększa jakość predykcji i umożliwia lepsze dopasowanie modelu.

In [673]:
train_df['Moc_KM'] = train_df.apply(lambda row: przypisz_moc(row, train_df), axis=1)


In [674]:
print(train_df['Moc_KM'].isna().sum())


437


### 🧪 Funkcja do uzupełniania braków w kolumnie Pojemnosc_cm3
- Funkcja przypisz_pojemnosc uzupełnia brakujące wartości pojemności silnika (Pojemnosc_cm3) na podstawie mediany z podobnych pojazdów. Wyszukiwane są auta o tym samym modelu i mocy silnika (Moc_KM), dla których znana jest pojemność. Jeśli odpowiednie dane są dostępne, zwracana jest ich mediana; w przeciwnym razie pozostawiane jest NaN. Dzięki temu zachowana jest spójność technicznych parametrów pojazdu.

In [675]:

def przypisz_pojemnosc(row, df):
    if pd.notna(row['Pojemnosc_cm3']):
        return row['Pojemnosc_cm3']

    # Znajdź podobne auta z tym samym modelem i mocą
    podobne = df[
        (df['Model_pojazdu'] == row['Model_pojazdu']) &
        (df['Moc_KM'] == row['Moc_KM']) &
        (df['Pojemnosc_cm3'].notna())
    ]

    if podobne.empty:
        return np.nan


    return podobne['Pojemnosc_cm3'].median()


### 🧩 Uzupełnianie braków w kolumnie Pojemnosc_cm3
- Brakujące wartości w kolumnie Pojemnosc_cm3 zostały uzupełnione za pomocą funkcji przypisz_pojemnosc, która przypisuje medianę pojemności silnika na podstawie pojazdów o tym samym modelu i mocy (Moc_KM). Zabieg ten poprawia kompletność danych technicznych i zwiększa ich spójność w zbiorze treningowym.

In [676]:
train_df['Pojemnosc_cm3'] = train_df.apply(lambda row: przypisz_pojemnosc(row, train_df), axis=1)


In [677]:
print(train_df['Pojemnosc_cm3'].isna().sum())


1157


### 🚪 Funkcja do uzupełniania braków w kolumnie Liczba_drzwi
- Funkcja przypisz_drzwi uzupełnia brakujące wartości liczby drzwi w pojeździe (Liczba_drzwi). W tym celu wyszukiwane są pojazdy o tym samym typie nadwozia (Typ_nadwozia) i modelu (Model_pojazdu) z dostępną informacją o liczbie drzwi. Jeżeli takie dane istnieją, przypisywana jest najczęściej występująca wartość (moda). W przeciwnym przypadku pozostawiana jest wartość NaN.

In [678]:
def przypisz_drzwi(row, df):
    if pd.notna(row['Liczba_drzwi']):
        return row['Liczba_drzwi']

    podobne = df[
        (df['Typ_nadwozia'] == row['Typ_nadwozia']) &
        (df['Model_pojazdu'] == row['Model_pojazdu']) &
        (df['Liczba_drzwi'].notna())
    ]

    if podobne.empty:
        return np.nan

    return podobne['Liczba_drzwi'].mode().iloc[0] 


### 🚘 Uzupełnianie braków w kolumnie Liczba_drzwi
- Brakujące wartości w kolumnie Liczba_drzwi zostały uzupełnione za pomocą funkcji przypisz_drzwi, która przypisuje najczęściej występującą liczbę drzwi (modę) na podstawie pojazdów o tym samym modelu i typie nadwozia. Dzięki temu zachowana jest zgodność konstrukcyjna pojazdów, a zbiór danych staje się bardziej kompletny.

In [679]:
train_df['Liczba_drzwi'] = train_df.apply(lambda row: przypisz_drzwi(row, train_df), axis=1)


In [680]:
print(train_df['Liczba_drzwi'].isna().sum())


22


In [681]:
print(train_df.isnull().sum())

Cena                      0
Stan                     97
Marka_pojazdu             4
Model_pojazdu            27
Rok_produkcji             2
Przebieg_km              71
Moc_KM                  437
Pojemnosc_cm3          1157
Rodzaj_paliwa           147
Naped                   335
Skrzynia_biegow        3775
Typ_nadwozia              4
Liczba_drzwi             22
Kolor                  3463
Pierwszy_wlasciciel       0
Lokalizacja_oferty     3341
Wyposazenie            3253
dtype: int64


### 🎨 Tworzenie mapowania koloru pojazdu
- Na podstawie kombinacji Marka_pojazdu, Model_pojazdu i Rok_produkcji utworzono słownik mapujący te cechy na najczęściej występujący kolor (Kolor). Dzięki temu możliwe jest późniejsze uzupełnianie brakujących danych o kolorze w sposób logiczny i oparty na rzeczywistych obserwacjach.

In [682]:
kolor_lookup = (
    train_df[train_df['Kolor'].notna()]
    .groupby(['Marka_pojazdu', 'Model_pojazdu', 'Rok_produkcji'])['Kolor']
    .agg(lambda x: x.mode().iloc[0])
    .to_dict()
)


### 🎨 Uzupełnianie braków w kolumnie Kolor
- Brakujące wartości w kolumnie Kolor zostały uzupełnione na podstawie najczęściej występującego koloru dla danego modelu pojazdu, marki i roku produkcji. Wykorzystano wcześniej przygotowany słownik z wartością modową. Dzięki temu dane są bardziej kompletne i odzwierciedlają najczęstsze konfiguracje pojazdów.

In [683]:
train_df['Kolor'] = train_df.apply(
    lambda row: kolor_lookup.get((row['Marka_pojazdu'], row['Model_pojazdu'], row['Rok_produkcji']), row['Kolor'])
    if pd.isna(row['Kolor']) else row['Kolor'],
    axis=1
)


In [684]:
print(train_df['Kolor'].isna().sum())


84


### ⚙️ Tworzenie mapowania typu skrzyni biegów
- Na podstawie kombinacji Marka_pojazdu, Model_pojazdu i Pojemnosc_cm3 utworzono słownik mapujący te cechy na najczęściej występujący typ skrzyni biegów (Skrzynia_biegow). Mapowanie to umożliwia późniejsze logiczne i oparte na danych uzupełnienie brakujących wartości w tej kolumnie.

In [685]:
skrzynia_lookup = (
    train_df[train_df['Skrzynia_biegow'].notna()]
    .groupby(['Marka_pojazdu', 'Model_pojazdu', 'Pojemnosc_cm3'])['Skrzynia_biegow']
    .agg(lambda x: x.mode().iloc[0])
    .to_dict()
)


### ⚙️ Uzupełnianie braków w kolumnie Skrzynia_biegow
- Brakujące wartości w kolumnie Skrzynia_biegow zostały uzupełnione na podstawie najczęściej występującego typu skrzyni biegów dla danej kombinacji Marka_pojazdu, Model_pojazdu i Pojemnosc_cm3. Pozwala to na realistyczne odtworzenie brakujących danych technicznych i zwiększa spójność zbioru.

In [686]:
train_df['Skrzynia_biegow'] = train_df.apply(
    lambda row: skrzynia_lookup.get((row['Marka_pojazdu'], row['Model_pojazdu'], row['Pojemnosc_cm3']), row['Skrzynia_biegow'])
    if pd.isna(row['Skrzynia_biegow']) else row['Skrzynia_biegow'],
    axis=1
)


In [687]:
print(train_df['Skrzynia_biegow'].isna().sum())


320


In [688]:
print(train_df.isnull().sum())

Cena                      0
Stan                     97
Marka_pojazdu             4
Model_pojazdu            27
Rok_produkcji             2
Przebieg_km              71
Moc_KM                  437
Pojemnosc_cm3          1157
Rodzaj_paliwa           147
Naped                   335
Skrzynia_biegow         320
Typ_nadwozia              4
Liczba_drzwi             22
Kolor                    84
Pierwszy_wlasciciel       0
Lokalizacja_oferty     3341
Wyposazenie            3253
dtype: int64


### 🧰 Tworzenie mapowania wyposażenia pojazdu
- Na podstawie kombinacji Marka_pojazdu, Model_pojazdu, Rok_produkcji oraz Skrzynia_biegow utworzono słownik mapujący te cechy na najczęściej występujące wyposażenie (Wyposazenie). Mapowanie to umożliwia późniejsze logiczne uzupełnianie brakujących wartości, bazując na najczęściej spotykanych konfiguracjach danego pojazdu.

In [689]:
wyposazenie_lookup = (
    train_df[train_df['Wyposazenie'].notna()]
    .groupby(['Marka_pojazdu', 'Model_pojazdu', 'Rok_produkcji', 'Skrzynia_biegow'])['Wyposazenie']
    .agg(lambda x: x.mode().iloc[0]) 
    .to_dict()
)


### 🧰 Uzupełnianie braków w kolumnie Wyposazenie
- Brakujące wartości w kolumnie Wyposazenie zostały uzupełnione na podstawie najczęściej występującej konfiguracji wyposażenia dla danego modelu pojazdu, marki, roku produkcji i typu skrzyni biegów. Uzupełnienie odbywa się na podstawie wcześniej utworzonego słownika, co zapewnia spójność danych oraz ich zgodność z typowymi zestawami wyposażenia w konkretnych wariantach pojazdu.

In [690]:
train_df['Wyposazenie'] = train_df.apply(
    lambda row: wyposazenie_lookup.get(
        (row['Marka_pojazdu'], row['Model_pojazdu'], row['Rok_produkcji'], row['Skrzynia_biegow']),
        row['Wyposazenie']
    ) if pd.isna(row['Wyposazenie']) else row['Wyposazenie'],
    axis=1
)


In [691]:
print(train_df['Wyposazenie'].isna().sum())


120


### 📋 Przekształcanie danych w kolumnie Wyposazenie do formatu listy
- Wartości w kolumnie Wyposazenie zostały przekształcone do formatu listy. Jeżeli dana komórka zawiera NaN, zwracana jest pusta lista. Jeśli już jest listą – zostaje bez zmian. W przeciwnym wypadku funkcja próbuje sparsować ciąg znaków jako listę przy użyciu ast.literal_eval(). Pozwala to na dalsze przetwarzanie danych wyposażenia w sposób uporządkowany, np. poprzez kodowanie cech binarnych.

In [692]:
import ast

def przeksztalc_na_liste(val):
    if pd.isna(val):
        return []
    if isinstance(val, list):
        return val
    try:
        return ast.literal_eval(val)
    except:
        return []

train_df['Wyposazenie'] = train_df['Wyposazenie'].apply(przeksztalc_na_liste)


### 🧩 Wyodrębnienie unikalnych elementów wyposażenia
- Za pomocą funkcji chain.from_iterable() z biblioteki itertools spłaszczono wszystkie listy znajdujące się w kolumnie Wyposazenie, a następnie przekształcono je w zbiór unikalnych elementów. Pozwoliło to określić, ile różnych cech wyposażenia występuje w zbiorze danych, co jest niezbędne do dalszego binarnego zakodowania tych informacji.

In [693]:
from itertools import chain

wszystkie_wyposazenia = set(chain.from_iterable(train_df['Wyposazenie']))
print(f"🧩 Liczba unikalnych cech: {len(wszystkie_wyposazenia)}")


🧩 Liczba unikalnych cech: 70


### ✅ Kodowanie binarne cech wyposażenia
- Dla każdej unikalnej pozycji wyposażenia utworzono nową kolumnę binarną w formacie has_<nazwa_cechy>. Wartość 1 oznacza obecność danej cechy w pojeździe, a 0 jej brak. Dzięki temu informacje o wyposażeniu zostały przekształcone do postaci numerycznej, zrozumiałej dla modeli uczenia maszynowego.

In [694]:
for cecha in wszystkie_wyposazenia:
    train_df[f'has_{cecha}'] = train_df['Wyposazenie'].apply(lambda x: int(cecha in x))


### 🧹 Usunięcie oryginalnej kolumny Wyposazenie
- Po zakodowaniu informacji o wyposażeniu w postaci cech binarnych, oryginalna kolumna Wyposazenie została usunięta. Pozwala to uprościć zbiór danych i uniknąć duplikacji informacji, zachowując jednocześnie wszystkie istotne cechy w formacie odpowiednim dla modelu predykcyjnego.

In [695]:
train_df.drop(columns=['Wyposazenie'], inplace=True)


In [696]:
train_df.head()

Unnamed: 0,Cena,Stan,Marka_pojazdu,Model_pojazdu,Rok_produkcji,Przebieg_km,Moc_KM,Pojemnosc_cm3,Rodzaj_paliwa,Naped,...,has_Four-zone air conditioning,has_Rain sensor,has_Manual air conditioning,has_Lane assistant,has_Air curtains,has_Blind spot sensor,has_CD changer,has_AUX socket,has_ESP(stabilization of the track),has_Parking assistant
0,13900,Used,Renault,Grand Espace,2005.0,213000.0,170.0,1998.0,Gasoline,Front wheels,...,0,1,0,0,0,0,0,0,0,0
1,25900,Used,Renault,Megane,2010.0,117089.0,110.0,1598.0,Gasoline,Front wheels,...,0,1,1,0,0,0,0,0,1,0
2,35900,Used,Opel,Zafira,2015.0,115600.0,136.0,1598.0,Gasoline + CNG,Front wheels,...,0,1,0,0,0,0,0,1,1,0
3,5999,Used,Ford,Focus,2007.0,218000.0,90.0,1560.0,Diesel,Front wheels,...,0,0,1,0,0,0,0,0,0,0
4,44800,Used,Toyota,Avensis,2013.0,181500.0,147.0,1798.0,Gasoline,Front wheels,...,0,0,1,0,1,0,0,1,1,0


In [746]:
print(train_df["Stan"].unique())

['Used' 'New']


In [698]:
print(train_df["Lokalizacja_oferty"].unique())

['SŁONECZNA 1 - 99-300 Kutno, kutnowski, Łódzkie (Polska)'
 'ul. Wiosenna 8 - 41-407 Imielin, Centrum (Polska)'
 'Sianów, koszaliński, Zachodniopomorskie' ...
 'Guty, legionowski, Mazowieckie' 'Góra, jarociński, Wielkopolskie'
 'Modła Królewska, gm. Stare Miasto, koniński, Wielkopolskie']


### 🗺️ Usunięcie kolumny Lokalizacja_oferty
- Kolumna Lokalizacja_oferty została usunięta, ponieważ nie wnosiła istotnej wartości predykcyjnej lub zawierała dane trudne do jednoznacznego przetworzenia. Jej usunięcie upraszcza zbiór danych i pozwala skupić się na cechach mających bezpośredni wpływ na cenę pojazdu.

In [699]:
train_df.drop(columns=['Lokalizacja_oferty'], inplace=True)


In [700]:
print(train_df.isnull().sum())

Cena                                    0
Stan                                   97
Marka_pojazdu                           4
Model_pojazdu                          27
Rok_produkcji                           2
                                       ..
has_Blind spot sensor                   0
has_CD changer                          0
has_AUX socket                          0
has_ESP(stabilization of the track)     0
has_Parking assistant                   0
Length: 85, dtype: int64


### 🧪 Tworzenie mapowania pojemności silnika
- Na podstawie kombinacji Marka_pojazdu, Model_pojazdu, Rodzaj_paliwa oraz Skrzynia_biegow utworzono słownik mapujący te cechy na medianę wartości Pojemnosc_cm3. Mapowanie to umożliwia późniejsze uzupełnienie brakujących danych o pojemności silnika w sposób oparty na logicznych zależnościach i danych technicznych pojazdów.

In [701]:
pojemnosc_lookup = (
    train_df[train_df['Pojemnosc_cm3'].notna()]
    .groupby(['Marka_pojazdu', 'Model_pojazdu', 'Rodzaj_paliwa', 'Skrzynia_biegow'])['Pojemnosc_cm3']
    .median()
    .to_dict()
)


### 🧪 Uzupełnianie braków w kolumnie Pojemnosc_cm3
 - Brakujące wartości w kolumnie Pojemnosc_cm3 zostały uzupełnione na podstawie mediany pojemności silnika dla danej kombinacji Marka_pojazdu, Model_pojazdu, Rodzaj_paliwa i Skrzynia_biegow. Wykorzystano wcześniej przygotowany słownik, co pozwala realistycznie odtworzyć brakujące dane techniczne i zwiększyć spójność zbioru.

In [702]:
train_df['Pojemnosc_cm3'] = train_df.apply(
    lambda row: pojemnosc_lookup.get(
        (row['Marka_pojazdu'], row['Model_pojazdu'], row['Rodzaj_paliwa'], row['Skrzynia_biegow']),
        row['Pojemnosc_cm3']
    ) if pd.isna(row['Pojemnosc_cm3']) else row['Pojemnosc_cm3'],
    axis=1
)


In [703]:
print(train_df['Pojemnosc_cm3'].isna().sum())


807


In [704]:
print(train_df.isnull().sum())

Cena                                    0
Stan                                   97
Marka_pojazdu                           4
Model_pojazdu                          27
Rok_produkcji                           2
                                       ..
has_Blind spot sensor                   0
has_CD changer                          0
has_AUX socket                          0
has_ESP(stabilization of the track)     0
has_Parking assistant                   0
Length: 85, dtype: int64


### 🧹 Usunięcie rekordów z brakującymi danymi
- Wszystkie wiersze zawierające brakujące wartości (NaN) zostały usunięte ze zbioru danych. Ten krok zapewnia pełną kompletność danych przed trenowaniem modelu, co zapobiega błędom w trakcie uczenia i zwiększa stabilność działania algorytmów predykcyjnych.

In [705]:
train_df.dropna(inplace=True)


In [706]:
print(train_df.isna().sum())         
print(train_df.shape[0])            


Cena                                   0
Stan                                   0
Marka_pojazdu                          0
Model_pojazdu                          0
Rok_produkcji                          0
                                      ..
has_Blind spot sensor                  0
has_CD changer                         0
has_AUX socket                         0
has_ESP(stabilization of the track)    0
has_Parking assistant                  0
Length: 85, dtype: int64
133561


### 📦 Import narzędzi do modelowania i podziału danych
- Zaimportowano klasę TabularPredictor z biblioteki AutoGluon do trenowania modeli regresyjnych oraz funkcję train_test_split z biblioteki scikit-learn do podziału zbioru danych na część treningową i testową. Narzędzia te są wykorzystywane w procesie budowy, oceny i optymalizacji modelu predykcyjnego.

In [707]:
from autogluon.tabular import TabularPredictor
from sklearn.model_selection import train_test_split


### 🎯 Określenie zmiennej docelowej i podział danych
- Zmienna Cena została oznaczona jako zmienna docelowa, którą model ma przewidywać. Następnie cały zbiór danych został podzielony na część treningową (80%) i testową (20%) przy użyciu funkcji train_test_split, z ustalonym parametrem random_state=42 w celu zapewnienia powtarzalności wyników. Taki podział umożliwia niezależną ocenę jakości wytrenowanego modelu.

In [708]:
target = 'Cena'  # zmienna, którą chcemy przewidywać

# Podział na zbiór treningowy i testowy
train_data, test_data = train_test_split(train_df, test_size=0.2, random_state=42)


### 🤖 Trenowanie modelu AutoGluon z wykorzystaniem różnych algorytmów drzewiastych
Użyto klasy TabularPredictor z biblioteki AutoGluon do wytrenowania modelu regresyjnego przewidującego wartość zmiennej Cena. W treningu wykorzystano kilka modeli bazujących na drzewach decyzyjnych: LightGBM, Random Forest, Extra Trees i XGBoost. Ustawiono metrykę oceny modelu na współczynnik determinacji r2.

Dodatkowo włączono:

- num_bag_folds=10 – 10-krotną walidację krzyżową w celu zwiększenia ogólności modelu,

- num_stack_levels=3 – głęboki stacking modeli bazowych dla poprawy dokładności,

- presets='best_quality' – zestaw ustawień skoncentrowany na jak najlepszych wynikach, niezależnie od czasu trenowania.

Dzięki temu model maksymalnie wykorzystuje dostępne dane i techniki ensemble learningu.

In [709]:
from autogluon.tabular import TabularPredictor

predictor = TabularPredictor(label='Cena', eval_metric='r2').fit(
    train_data=train_df,
    hyperparameters={
        'GBM': {'extra_trees': False},  # LightGBM i LightGBMXT
        'RF': {},                       # Random Forest
        'XT': {},                       # Extra Trees                      # CatBoost
        'XGB': {},                      # XGBoost
    },
    num_bag_folds=10,       
    num_stack_levels=3,    
    presets='best_quality' 
)


No path specified. Models will be saved in: "AutogluonModels\ag-20250325_161158"
Verbosity: 2 (Standard Logging)
AutoGluon Version:  1.2
Python Version:     3.11.4
Operating System:   Windows
Platform Machine:   AMD64
Platform Version:   10.0.19045
CPU Count:          8
Memory Avail:       8.88 GB / 23.97 GB (37.0%)
Disk Space Avail:   5.99 GB / 465.23 GB (1.3%)
	We recommend a minimum available disk space of 10 GB, and large datasets may require more.
Presets specified: ['best_quality']
Setting dynamic_stacking from 'auto' to True. Reason: Enable dynamic_stacking when use_bag_holdout is disabled. (use_bag_holdout=False)
Stack configuration (auto_stack=True): num_stack_levels=3, num_bag_folds=10, num_bag_sets=1
DyStack is enabled (dynamic_stacking=True). AutoGluon will try to determine whether the input data is affected by stacked overfitting and enable or disable stacking as a consequence.
	This is used to identify the optimal `num_stack_levels` value. Copies of AutoGluon will be fit 

### 🏆 Wybór najlepszego modelu
- Zmienna best_model przechowuje nazwę najlepszego modelu wybranego automatycznie przez AutoGluon na podstawie ustawionej metryki (r2). Wyświetlenie tej informacji pozwala zidentyfikować, który algorytm osiągnął najwyższą skuteczność w predykcji ceny pojazdu.

In [711]:
best_model = predictor.model_best
print(f"✅ Najlepszy model: {best_model}")


✅ Najlepszy model: WeightedEnsemble_L5


### 📊 Odczyt wyniku najlepszego modelu
- Za pomocą predictor.leaderboard() pobrano tabelę zawierającą szczegółowe wyniki wszystkich wytrenowanych modeli. Następnie odczytano wartość metryki r2 dla najlepszego modelu (best_model) i wyświetlono ją w formacie z czterema miejscami po przecinku. Pozwala to ocenić, jak dobrze model dopasował się do danych treningowych.

In [712]:
leaderboard = predictor.leaderboard(silent=True)
best_score = leaderboard.loc[leaderboard['model'] == best_model, 'score_val'].values[0]

print(f"🎯 R² najlepszego modelu: {best_score:.4f}")

🎯 R² najlepszego modelu: 0.8741


In [713]:
test_file = [f for f in files if 'test' in f][0]  # Znajduje plik z 'train' w nazwie
test_df = pd.read_csv(f"./data/{test_file}")

In [714]:
test_df.head()

Unnamed: 0,ID,Waluta,Stan,Marka_pojazdu,Model_pojazdu,Wersja_pojazdu,Generacja_pojazdu,Rok_produkcji,Przebieg_km,Moc_KM,...,Skrzynia_biegow,Typ_nadwozia,Liczba_drzwi,Kolor,Kraj_pochodzenia,Pierwszy_wlasciciel,Data_pierwszej_rejestracji,Data_publikacji_oferty,Lokalizacja_oferty,Wyposazenie
0,1,PLN,New,Mercedes-Benz,GLC,200 d 4-Matic,,2021,1.0,163.0,...,Automatic,SUV,5.0,black,Poland,Yes,,30/04/2021,"Władysława IV 43 - 81-395 Gdynia, Śródmieście ...","['ABS', 'Electric front windows', 'Drivers air..."
1,2,PLN,Used,Ford,Mondeo,2.0,Mk4 (2007-2014),2008,202585.0,145.0,...,Manual,station_wagon,5.0,other,,,,02/05/2021,"Słoneczna 1 - 99-300 Kutno, kutnowski, Łódzkie...","['ABS', 'Electric front windows', 'Drivers air..."
2,3,PLN,Used,BMW,Seria 5,,E60/E61 (2003-2010),2005,373000.0,218.0,...,Automatic,sedan,5.0,gray,,,,02/05/2021,"Włocławek, Kujawsko-pomorskie","['ABS', 'Electric front windows', 'Drivers air..."
3,4,PLN,New,Seat,Leon,1.5 TSI FR,IV (2020 - ),2021,10.0,130.0,...,Manual,compact,5.0,white,,,,03/05/2021,"Lubelska 50D - 35-233 Rzeszów, Podkarpackie (P...","['ABS', 'Electrically adjustable mirrors', 'Pa..."
4,5,PLN,Used,Audi,A6,3.0 TDI Quattro S tronic,C7 (2011-2018),2014,150000.0,245.0,...,Automatic,station_wagon,5.0,gray,Germany,,,27/04/2021,"PADEREWSKIEGO 124 - 42-400 Zawiercie, Warty (P...","['ABS', 'Electric front windows', 'Drivers air..."


In [715]:
print(test_df.isnull().sum())

ID                                0
Waluta                            0
Stan                              0
Marka_pojazdu                     0
Model_pojazdu                     0
Wersja_pojazdu                24513
Generacja_pojazdu             21173
Rok_produkcji                     0
Przebieg_km                     330
Moc_KM                          229
Pojemnosc_cm3                   686
Rodzaj_paliwa                     0
Emisja_CO2                    39961
Naped                          5132
Skrzynia_biegow                 163
Typ_nadwozia                      0
Liczba_drzwi                    538
Kolor                             0
Kraj_pochodzenia              31482
Pierwszy_wlasciciel           49746
Data_pierwszej_rejestracji    42626
Data_publikacji_oferty            0
Lokalizacja_oferty                0
Wyposazenie                       0
dtype: int64


In [716]:
test_df.drop(columns=['ID','Data_pierwszej_rejestracji','Emisja_CO2','Wersja_pojazdu','Generacja_pojazdu','Kraj_pochodzenia','Data_publikacji_oferty'], inplace=True)

In [717]:
test_df['Pierwszy_wlasciciel'] = test_df['Pierwszy_wlasciciel'].map({'Yes': 1}).fillna(0).astype(int)

In [718]:
missing_naped_df = test_df[test_df['Naped'].isna()]


print(missing_naped_df[['Marka_pojazdu', 'Model_pojazdu']].drop_duplicates())

      Marka_pojazdu Model_pojazdu
5              Ford         Focus
20        Chevrolet       Captiva
29       Volkswagen   Transporter
43           Suzuki  Grand Vitara
54             Fiat        Ulysse
...             ...           ...
71401         Mazda           121
71522          Opel        Ascona
71588          Jeep        Willys
71833        Lancia         Delta
72660         Aixam      Roadline

[670 rows x 2 columns]


In [719]:
test_df['Naped'] = test_df['Naped'].fillna(
    test_df.groupby('Marka_pojazdu')['Naped'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else None)
)

In [720]:
def przypisz_przebieg(row, df):
    if pd.notna(row['Przebieg_km']):
        return row['Przebieg_km']

    
    podobne = df[
        (df['Model_pojazdu'] == row['Model_pojazdu']) &
        (df['Rok_produkcji'] == row['Rok_produkcji']) &
        (df['Przebieg_km'].notna())
    ]

    if podobne.empty:
        return np.nan

    
    return podobne['Przebieg_km'].median()

In [721]:
test_df['Przebieg_km'] = test_df.apply(lambda row: przypisz_przebieg(row, test_df), axis=1)

In [722]:
def przypisz_moc(row, df):
    if pd.notna(row['Moc_KM']):
        return row['Moc_KM']

   
    podobne = df[
        (df['Model_pojazdu'] == row['Model_pojazdu']) &
        (df['Pojemnosc_cm3'] == row['Pojemnosc_cm3']) &
        (df['Moc_KM'].notna())
    ]

    if podobne.empty:
        return np.nan

    
    return podobne['Moc_KM'].median()

In [723]:
test_df['Moc_KM'] = test_df.apply(lambda row: przypisz_moc(row, test_df), axis=1)

In [724]:
def przypisz_pojemnosc(row, df):
    if pd.notna(row['Pojemnosc_cm3']):
        return row['Pojemnosc_cm3']

   
    podobne = df[
        (df['Model_pojazdu'] == row['Model_pojazdu']) &
        (df['Moc_KM'] == row['Moc_KM']) &
        (df['Pojemnosc_cm3'].notna())
    ]

    if podobne.empty:
        return np.nan

    
    return podobne['Pojemnosc_cm3'].median()

In [725]:
test_df['Pojemnosc_cm3'] = test_df.apply(lambda row: przypisz_pojemnosc(row, test_df), axis=1)

In [726]:
import numpy as np

def przypisz_drzwi(row, df):
    if pd.notna(row['Liczba_drzwi']):
        return row['Liczba_drzwi']

    podobne = df[
        (df['Typ_nadwozia'] == row['Typ_nadwozia']) &
        (df['Model_pojazdu'] == row['Model_pojazdu']) &
        (df['Liczba_drzwi'].notna())
    ]

    if podobne.empty:
        return np.nan

    return podobne['Liczba_drzwi'].mode().iloc[0]  # najczęstsza wartość

In [727]:
test_df['Liczba_drzwi'] = test_df.apply(lambda row: przypisz_drzwi(row, test_df), axis=1)

In [728]:
skrzynia_lookup = (
    test_df[test_df['Skrzynia_biegow'].notna()]
    .groupby(['Marka_pojazdu', 'Model_pojazdu', 'Pojemnosc_cm3'])['Skrzynia_biegow']
    .agg(lambda x: x.mode().iloc[0])
    .to_dict()
)

In [729]:
print(test_df.isnull().sum())

Waluta                   0
Stan                     0
Marka_pojazdu            0
Model_pojazdu            0
Rok_produkcji            0
Przebieg_km              1
Moc_KM                 133
Pojemnosc_cm3          533
Rodzaj_paliwa            0
Naped                   13
Skrzynia_biegow        163
Typ_nadwozia             0
Liczba_drzwi            10
Kolor                    0
Pierwszy_wlasciciel      0
Lokalizacja_oferty       0
Wyposazenie              0
dtype: int64


In [730]:
import ast

def przeksztalc_na_liste(val):
    if pd.isna(val):
        return []
    if isinstance(val, list):
        return val
    try:
        return ast.literal_eval(val)
    except:
        return []

test_df['Wyposazenie'] = test_df['Wyposazenie'].apply(przeksztalc_na_liste)


In [731]:
from itertools import chain

wszystkie_wyposazenia = set(chain.from_iterable(test_df['Wyposazenie']))
print(f" Liczba unikalnych cech: {len(wszystkie_wyposazenia)}")


 Liczba unikalnych cech: 70


In [732]:
for cecha in wszystkie_wyposazenia:
    test_df[f'has_{cecha}'] = test_df['Wyposazenie'].apply(lambda x: int(cecha in x))


In [733]:
test_df.drop(columns=['Wyposazenie'], inplace=True)


In [734]:
test_df.head()

Unnamed: 0,Waluta,Stan,Marka_pojazdu,Model_pojazdu,Rok_produkcji,Przebieg_km,Moc_KM,Pojemnosc_cm3,Rodzaj_paliwa,Naped,...,has_Four-zone air conditioning,has_Rain sensor,has_Manual air conditioning,has_Lane assistant,has_Air curtains,has_Blind spot sensor,has_CD changer,has_AUX socket,has_ESP(stabilization of the track),has_Parking assistant
0,PLN,New,Mercedes-Benz,GLC,2021,1.0,163.0,1950.0,Diesel,4x4 (permanent),...,0,1,0,0,1,0,0,1,1,1
1,PLN,Used,Ford,Mondeo,2008,202585.0,145.0,1999.0,Gasoline,Front wheels,...,0,0,0,0,1,0,0,0,1,0
2,PLN,Used,BMW,Seria 5,2005,373000.0,218.0,2993.0,Diesel,Rear wheels,...,0,0,0,0,1,0,0,0,1,0
3,PLN,New,Seat,Leon,2021,10.0,130.0,1498.0,Gasoline,Front wheels,...,0,1,0,0,0,0,0,1,1,1
4,PLN,Used,Audi,A6,2014,150000.0,245.0,2967.0,Diesel,4x4 (permanent),...,1,1,0,1,1,1,1,1,1,0


### 🔮 Generowanie predykcji na zbiorze testowym
- Za pomocą wytrenowanego obiektu predictor wygenerowano predykcje wartości zmiennej Cena dla danych testowych (test_df). Wynik został zapisany w zmiennej predictions i stanowi przewidywane ceny pojazdów na podstawie cech wejściowych.

In [735]:
predictions = predictor.predict(test_df)

### 📤 Generowanie i zapis pliku submission
- Na podstawie predykcji modelu utworzono ramkę danych submission, zawierającą dwie kolumny: ID (ciąg numerów od 1 do liczby wierszy w zbiorze testowym) oraz Cena (przewidywana wartość). Następnie dane zostały zapisane do pliku submission.csv w formacie zgodnym z wymaganiami konkursu lub systemu oceny, bez indeksów w pliku wynikowym.

In [736]:
predictions = predictor.predict(test_df)


submission = pd.DataFrame({
    'ID': range(1, len(test_df) + 1),
    'Cena': predictions
})


submission.to_csv('submission.csv', index=False)


In [738]:
print(submission.head(10))


   ID           Cena
0   1  198110.437500
1   2   17597.423828
2   3   20746.951172
3   4   98650.296875
4   5   88726.289062
5   6   10969.570312
6   7    7707.739746
7   8   17145.089844
8   9   20566.845703
9  10  487406.312500


### 🧮 Zaokrąglenie i zapis wyników predykcji
- Wartości w kolumnie Cena zostały zaokrąglone do najbliższej liczby całkowitej i przekonwertowane na typ całkowity (int). Następnie zapisano je do pliku wyniki_predykcji_zaokraglone.csv, tworząc gotowy do użycia plik wynikowy z realistycznie zaokrąglonymi cenami pojazdów.

In [739]:

submission['Cena'] = submission['Cena'].round(0).astype(int)


submission.to_csv('wyniki_predykcji_zaokraglone.csv', index=False)

### 🚨 Sprawdzenie występowania ujemnych wartości w predykcjach
- Instrukcja sprawdza, czy w kolumnie Cena znajdują się jakiekolwiek wartości mniejsze niż 0. Wynik typu logicznego (True lub False) informuje, czy model wygenerował nieprawidłowe, ujemne ceny, które należy ewentualnie skorygować przed dalszym wykorzystaniem wyników.

In [740]:
print((submission['Cena'] < 0).any())


False


### 💱 Przeliczenie przewidywanych cen z euro na złotówki
- Dla obserwacji, w których waluta w zbiorze testowym to euro (EUR), wartości w kolumnie Cena zostały przeliczone na złotówki poprzez podzielenie przez kurs wymiany 1 EUR = 4.5654 PLN. Umożliwia to uzyskanie spójnych wyników predykcji w jednej walucie, zgodnych z formatem wymaganym w dalszej analizie lub ocenie.

In [744]:

kurs_euro = 4.5654
submission['Cena'] = submission['Cena'].astype(float)
submission.loc[test_df['Waluta'] == 'EUR', 'Cena'] /= kurs_euro


### ✅ Finalne zaokrąglenie i zapis predykcji
- Wartości w kolumnie Cena zostały ponownie zaokrąglone do pełnych liczb całkowitych i zapisane do pliku wyniki_predykcji_final2.csv. Plik ten stanowi ostateczną wersję wyników predykcji, gotową do przesłania lub wykorzystania w dalszej analizie.

In [745]:
submission['Cena'] = submission['Cena'].round(0).astype(int)
submission.to_csv('wyniki_predykcji_final.csv', index=False)