In [1]:
# 1. Importy
import pandas as pd
from pycaret.regression import setup, compare_models, predict_model, save_model, load_model

In [3]:
# 2. Wczytanie danych
df = pd.read_csv('Ceny mieszkań.csv', sep=';', encoding='iso-8859-2')

In [4]:
# 3. Podgląd danych
print(df.head())
print(df.columns)

  Unnamed: 0 2020 I kwarta¸ 2020 II kwarta¸ 2020 III kwarta¸ 2020 IV kwarta¸  \
0     GdaÄsk          8 383           8 480            8 882           8 874   
1     Gdynia          7 667           7 727            7 996           7 906   
2      Sopot          11760           11700            11780           12050   
3  Wejherowo           4500            4600             4700            4800   
4       Reda           5500            5600             5700            5800   

  2021 I kwarta¸ 2021 II kwarta¸ 2021 III kwarta¸ 2021 IV kwarta¸  \
0          9 031           9 071            9 566          10 208   
1          8 025           8 465            8 775           8 943   
2          12200           12800            13400           14100   
3           5000            5200             5400            5600   
4           5900            6000             6100            6200   

  2022 I kwarta¸ 2022 II kwarta¸ 2022 III kwarta¸ 2022 IV kwarta¸  \
0         10 239          10 813   

In [5]:
# 4. Sprawdzenie typu danych
print(df.dtypes)

Unnamed: 0          object
2020 I kwarta¸      object
2020 II kwarta¸     object
2020 III kwarta¸    object
2020 IV kwarta¸     object
2021 I kwarta¸      object
2021 II kwarta¸     object
2021 III kwarta¸    object
2021 IV kwarta¸     object
2022 I kwarta¸      object
2022 II kwarta¸     object
2022 III kwarta¸    object
2022 IV kwarta¸     object
2023 I kwarta¸      object
2023 II kwarta¸     object
2023 III kwarta¸    object
2023 IV kwarta¸     object
2024 I kwarta¸      object
2024 II kwarta¸     object
2024 III kwarta¸    object
dtype: object


In [6]:
# Zamiana z szerokiego formatu (kolumny jako kwartały) na długi
df_long = df.melt(id_vars=df.columns[0], var_name='Okres', value_name='Cena')
df_long.columns = ['Miasto', 'Okres', 'Cena']

# Rozdzielenie kolumny "Okres" na rok i kwartał
df_long[['Rok', 'Kwartał']] = df_long['Okres'].str.extract(r'(\d{4})\s+([IVX]+)\s+kwarta')

# Zamiana kwartałów na liczby
map_kwartał = {'I': 1, 'II': 2, 'III': 3, 'IV': 4}
df_long['Kwartał'] = df_long['Kwartał'].map(map_kwartał)

# Czyszczenie kolumny Cena z dziwnych znaków i zamiana na float
df_long['Cena'] = (
    df_long['Cena'].astype(str)
    .str.replace(r'[^\d]', '', regex=True)
    .replace('', pd.NA)
    .astype(float)
)

# Usunięcie braków
df_long.dropna(inplace=True)

# Upewnij się, że Rok to liczba
df_long['Rok'] = df_long['Rok'].astype(int)

df_long.head()

Unnamed: 0,Miasto,Okres,Cena,Rok,Kwartał
0,GdaÄsk,2020 I kwarta¸,8383.0,2020,1
1,Gdynia,2020 I kwarta¸,7667.0,2020,1
2,Sopot,2020 I kwarta¸,11760.0,2020,1
3,Wejherowo,2020 I kwarta¸,4500.0,2020,1
4,Reda,2020 I kwarta¸,5500.0,2020,1


In [7]:
# 5. Uruchomienie PyCaret - regresja
exp = setup(
    data=df_long,
    target='Cena',  # <-- upewnij się, że to dokładna nazwa kolumny z ceną za m²
    categorical_features=['Miasto', 'Rok', 'Kwartał'],
    session_id=123,
    verbose=True
)

Unnamed: 0,Description,Value
0,Session id,123
1,Target,Cena
2,Target type,Regression
3,Original data shape,"(114, 5)"
4,Transformed data shape,"(114, 17)"
5,Transformed train set shape,"(79, 17)"
6,Transformed test set shape,"(35, 17)"
7,Categorical features,3
8,Preprocess,True
9,Imputation type,simple


In [8]:
# 6. Porównanie modeli
best_model = compare_models()

Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE,TT (Sec)
dummy,Dummy Regressor,2538.6618,9587792.9,3010.5376,-0.8313,0.3349,0.3088,0.023
lightgbm,Light Gradient Boosting Machine,2560.3942,9770984.6628,3037.8464,-0.8859,0.338,0.3119,0.058


Processing:   0%|          | 0/77 [00:00<?, ?it/s]

In [9]:
# 7. Predykcja (na tym samym zbiorze – tylko testowo)
preds = predict_model(best_model)

Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE
0,Dummy Regressor,2840.1829,12340837.0,3512.9529,-0.0007,0.3626,0.3312


In [10]:
# 8. Zapisanie najlepszego modelu
save_model(best_model, 'model_ceny_mieszkan')

Transformation Pipeline and Model Successfully Saved


(Pipeline(memory=Memory(location=None),
          steps=[('numerical_imputer',
                  TransformerWrapper(include=[], transformer=SimpleImputer())),
                 ('categorical_imputer',
                  TransformerWrapper(include=['Miasto', 'Rok', 'Kwartał'],
                                     transformer=SimpleImputer(strategy='most_frequent'))),
                 ('onehot_encoding',
                  TransformerWrapper(include=['Miasto', 'Rok', 'Kwartał'],
                                     transformer=OneHotEncoder(cols=['Miasto',
                                                                     'Rok',
                                                                     'Kwartał'],
                                                               handle_missing='return_nan',
                                                               use_cat_names=True))),
                 ('clean_column_names',
                  TransformerWrapper(transformer=CleanColumnNames()

In [None]:
# 9. Wczytanie modelu (opcjonalnie później)
# model = load_model('model_ceny_mieszkan')