# Regresja kwantylowa

Na tych zajęciach użyjemy zbioru danych dotyczących sprzedaży samochodów.

Link do zbioru danych: https://www.kaggle.com/datasets/hellbuoy/car-price-prediction

Cel biznesowy: oszacowanie ceny sprzedaży auta, w celu rekomendacji ceny użytkownikowi, sugerowania czy cena jest poniżej/ powyżej średniej.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import QuantileRegressor , LinearRegression
from sklearn.model_selection import train_test_split

In [2]:
# puść ten kod, 
# jeżeli wywołujesz plik  w folderze rozwiąznaia, 
# a ramka danych znajduje się w folderze data
import os 
os.chdir('../')

In [3]:
# Pobranie danych
df = pd.read_csv("data/CarPrice_Assignment.csv")

In [None]:
# describe
df.describe()

In [None]:
# Korelacja
df.select_dtypes(exclude='object').corr().sort_values(by='price')['price']

In [None]:
plt.scatter(df['enginesize'],df['price'])
plt.show()

In [None]:
# rozkład kwantyli
df['price'].quantile(np.arange(0,1,0.1))

In [None]:
# średnia
df['price'].mean()

In [None]:
# wykres gęstości
sns.kdeplot(df['price'])
plt.title('Wykres gęstości ceny aut')
plt.show()

## Model regresji kwantylowej

In [10]:
# train test split

train_x, test_x, train_y, test_y = train_test_split(df[['enginesize']],df['price'], test_size=0.3, random_state=123)

In [11]:
# model regresji liniowej
lr = LinearRegression().fit(train_x,train_y)

In [12]:
# predykcje regresji liniowej
df['predict_lr'] = lr.predict(df[['enginesize']])

In [13]:
# Modele dla różnych kwantyli
q =[0.1,0.25,0.5,0.7,0.9]
models = []
for i in q:
    model = QuantileRegressor(quantile=i).fit(train_x,train_y)
    models.append(model)
    df[f'predict_q_{i}'] = model.predict(df[['enginesize']])

In [None]:
df.head()

In [None]:
# Porównanie regresji kwantylowej i liniowej
plt.scatter(df['enginesize'],df['price'])
plt.plot(df['enginesize'],df['predict_lr'], label = 'Regresja Liniowa')
plt.plot(df['enginesize'], df['predict_q_0.5'], label = 'Regresja dla mediany')
plt.legend()
plt.show()

In [16]:
cols = ['predict_q_0.1','predict_q_0.25', 'predict_q_0.5',
       'predict_q_0.7', 'predict_q_0.9']

In [None]:
# Różne wersje kwantyli
for i in cols:
    plt.plot(df['enginesize'],df[i], label=i)
plt.scatter(df['enginesize'],df['price'])
plt.legend()
plt.title('Quantiles of predictions')
plt.show()
