## Ściągnięcie danych oraz ich przegląd

##### Ściągnięcie wszystkich niezbędbych bibliotek

In [2]:
import sys

# !conda install --yes --prefix {sys.prefix} -c conda-forge pandas-profiling
# !conda install --yes --prefix {sys.prefix} -c conda-forge sweetviz
# !conda install --yes --prefix {sys.prefix} matplotlib

# !conda install --yes --prefix {sys.prefix} scikit-learn

# !jupyter nbextension enable --py widgetsnbextension


In [3]:
!python --version

Python 3.10.6


In [4]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from sklearn import metrics
from sklearn.linear_model import LinearRegression as SklearnLinearRegression
import matplotlib.patches as mpatches
import plotly.express as px
import plotly.graph_objects as go
import sweetviz as sv
import os
from scipy import stats


from utils import decrypt_pandas, bcolors


ModuleNotFoundError: No module named 'tkinter'

##### Sciągnięcie danych

In [None]:
#proszę zmienić wartość `password` na wartość podaną podczas zajęć
df = decrypt_pandas("data_houses.csv.aes", password=None)

##### Wypisać rozmiar danych (liczbę wierszy i liczbę kolumn)

In [None]:
#rozwiązanie
df.shape

<span style="font-family:Monospace">(21613, 21)</span>

##### Wypisać 10 pierwszych lini danych

In [None]:
#rozwiązanie
df.head(10)

<div>
<img src="attachment:df_10.png" align="left"/>
</div>

In [None]:
df.info()

**Istnieje też wiele ciekawych bibliotek do wizualizacji danych. Jest to przydatne i pożądane w procesie tworzenia modelu aby wpierw zapoznać się ze strukturą danych - typami zmiennych, ich dystrybucjami itd.<br>**
Poniżej wykorzystanie biblioteki SweetViz (otworzy się w nowej karcie)

In [1]:
report = sv.analyze(df, pairwise_analysis='off')

report.show_html('analyze.html', open_browser=True)

NameError: name 'sv' is not defined

Ponieważ ściągnięte dane są dosyć "czyste" nie będziemy musieli przeprowadzać czyszczenia danych, preprocessingu <br> <br>
Naszym celem będzie predykowanie jednej zmiennej (zmienna objaśniana) y - **price** czyli po prostu cena mieszkania <br>
Do naszego zadania będziemy używać tylko dwóch zmiennych objaśniających: x - **bedrooms** oraz **sqft_living**

##### Wypisać średnią, medianę i modę zmiennej price

In [None]:
#rozwiązanie
print('Mean',round(df['sqft_living'].mean(),2))
print('Median',df['sqft_living'].median())
print('Mode',df['sqft_living'].mode()[0])

<span style="font-family:Monospace"> Mean 2079.9 <br>
Median 1910.0 <br>
Mode 1300 </span>

## Wizualizacje

###### Wyrysować histogram ceny - zmiennej objaśnianej (price)

In [None]:
#przykładowe rozwiązanie
fig,axes=plt.subplots(nrows=1,ncols=1,figsize=(12,8))
sns.distplot(df['price'],hist=True,kde=True,rug=False,label='price',norm_hist=True)

###### Wyrysować histogram powierzchni mieszkania - zmiennej objaśniającej (sqft_living)

In [None]:
#przykładowe rozwiązanie
fig,axes=plt.subplots(nrows=1,ncols=1,figsize=(12,8))
sns.distplot(df['sqft_living'],hist=True,kde=True,rug=False,label='sqft_living',norm_hist=True)

###### Wyrysować wykres słupkowy liczby sypialni - zmiennej objaśniającej (bedrooms)

In [None]:
#przykładowe rozwiązanie
sns.countplot(df.bedrooms)

### Dodatkowe wizualizacje

Zależność ceny od powierzchni mieszkania - widać, że czym większe mieszkanie tym większa cena

In [None]:
fig,axes=plt.subplots(nrows=1,ncols=1,figsize=(15,10))
plt.title("house prices by sqft_living")
plt.xlabel('sqft_living')
plt.ylabel('house prices')
plt.legend()
sns.barplot(x='sqft_living',y='price',data=df.iloc[:1000,:])

Wartości korelacji liniowej między zmiennymi - mogą służyć do wyboru zmiennych objaśniających użytych do modelu **regresji liniowej**

In [None]:
def correlation_heatmap(df1):
    _,ax=plt.subplots(figsize=(15,10))
    colormap=sns.diverging_palette(220,10,as_cmap=True)
    sns.heatmap(df.corr(),annot=True,cmap=colormap)
    
correlation_heatmap(df)

Wykresy pudełkowe dla kilku **zmiennych kategorycznych**

In [None]:
fig,ax=plt.subplots(2,1,figsize=(15,10))
sns.boxplot(x=df['grade'],y=df['price'],ax=ax[0])
sns.boxplot(x=df['bedrooms'],y=df['price'],ax=ax[1])
_ , axes = plt.subplots(1, 1, figsize=(15,10))
sns.boxplot(x=df['bathrooms'],y=df['price'])

## Regresja liniowa - wersja 2D

W tej wersji będziemy używać tylko jednej zmiennej objaśniającej - powierzchni mieszkani (sqft_living) i będziemy starali się wypredykować cenę (price)

##### Wyrysywać wykres (2D) powierzchni i ceny

In [None]:
#przykładowe rozwiązanie
fig,axes=plt.subplots(nrows=1,ncols=1,figsize=(12,8))
plt.scatter(df['sqft_living'], df['price'])
plt.xlabel('sqft_living')
plt.ylabel('price')

In [1]:
#Robocza funckja do rysowania Scatter-plot'a wraz z informacją o gęstości pomiarów
def scatter_with_density(data, x, y):
    x_name, y_name = x, y
    x = data[x]
    y = data[y]
    values = np.vstack([x, y])
    kernel = stats.gaussian_kde(values)(values)
    fig, ax = plt.subplots(figsize=(6, 6))
    sns.scatterplot(
        data=data,
        x=x_name,
        y=y_name,
        c=kernel,
        cmap="viridis",
        ax=ax,
    )

In [None]:
scatter_with_density(data=df, x='sqft_living', y='price')

##### Trenownie modelu

Przypomnienie z liceum: liniowy model wygląda następująco: $$\hat{y} = a \cdot x + b$$ W postaci bardziej ogólnej (za chwilę będziemy używać wielomianów) : $$\hat{y} = a_1 \cdot x + a_0$$  $a_1$ oraz $a_0$ to **parametry** modelu - to miejsce gdzie znajduje się cała "wiedza" modelu.  Teraz zdefiniujmy funkcję kosztu - MSE (mean squared error): $$J = \frac{1}{n} \sum_{i=1}^{n} (\hat{y} - y)^2$$ Czym większa będzie różnica między $\hat{y}$ (czyli ceną predykowaną przez nasz model) a $y$ (czyli prawdziwą ceną) - tym większy będzie błąd/funkcja kosztu. To co chcemy zrobić to znaleźć minimum tej funckji. I tutaj z pomocą przychodzi analiza matematyczna oraz pochodne - musimy wyzerować pochodną tej funkcji. Przypomnienie pochodnych na przykładzie funkcji kwadratowej:

![DerivativeOfXSquared.png](attachment:DerivativeOfXSquared.png)

Po przyrównaniu pochodnej do zera możemy analitycznie wyliczyć wartości parametrów w zależności od y i x:
$$ a_1 = \frac{\sum (x-\bar{x})(y-\bar{y})}{\sum (x-\bar{x})^2} = \frac{\sum (xy) - n\bar{x}\bar{y}}{\sum x^2 - n\bar{x}\bar{x}} $$ $$ a_0 = \bar{y} - a_1\bar{x}$$ gdzie $\bar{x}$ to średnia ze zmiennej x a $\bar{y}$ to średnia ze zmiennej y

##### Proszę wyliczyć $a_0$ oraz $a_1$ na podstawie powyższych wzorów

In [None]:
x = df['sqft_living']
y = df['price']
n = len(x)

# proszę poniżej kontynuować kod

In [None]:
#rozwiązanie

x_mean = np.mean(x)
y_mean = np.mean(y)
num = np.sum(x*y) - n*x_mean*y_mean
denom = np.sum(x*x) - n*x_mean*x_mean

a1 = num/denom
a0 = y_mean-a1*x_mean

In [None]:
print(f"Współczynnik a1 wynosi {a1:.3f}, zaś a0 wynosi {a0:.3f}")

Czyli nasz model wytrenowany na danych uczących powinien wyglądać następująco: <br><br> $$\hat{y} = 280.624 \cdot x - 43580.740$$

In [None]:
class LinearModel():
    def __init__(self, a0, a1):
        self.a0 = a0
        self.a1 = a1
        
    def __call__(self, x_iterable):
        try:
            return [self.a1*x + self.a0 for x in x_iterable]
        except TypeError:
            return self.a1*x_iterable + self.a0
    
try:
    # Proszę wpisać odpowiednie parametry w wywołaniu tej klasy
    linear_model = LinearModel(a0, a1)
except NameError:
    print(f"{bcolors.BOLD}{bcolors.FAIL}Proszę sprawdzić czy zostały przypisane wartości do parametrów a0 i a1{bcolors.ENDC}")
else:
    pred=linear_model(x)
    mean_squared_error=metrics.mean_squared_error(y,pred)
    print('Root mean squared error (RMSE)', round(np.sqrt(mean_squared_error),2))

<span style="font-family:Monospace">Root mean squared error (RMSE) 261440.79</span>

In [None]:
x_lin = np.linspace(min(x), max(x))
y_lin = linear_model(x_lin)

scatter_with_density(data=df, x='sqft_living', y='price')
plt.plot(x_lin, y_lin, color='r')

red_patch = mpatches.Patch(color='red', label='Model')
plt.legend(handles=[red_patch])

##### Zadanie dodatkowe - przekopiować powyższą implementację klasy LinearModel i dodać do niej metodę .fit , która dla nowych danych uczących wyznaczy nowe parametry modelu liniowego, oraz zmienić metodą __call__ na predict

In [None]:
# rozwiązanie
from sklearn.exceptions import NotFittedError

class LinearModel():
    def __init__(self):
        self.a0 = None
        self.a1 = None
    
    def fit(self, x, y):
        n = len(x)
        x_mean = np.mean(x)
        y_mean = np.mean(y)
        num = np.sum(x*y) - n*x_mean*y_mean
        denom = np.sum(x*x) - n*x_mean*x_mean

        self.a1 = num/denom
        self.a0 = y_mean-self.a1*x_mean
            
    def predict(self, x_iterable):
        if self.a0 is None or self.a1 is None:
            raise NotFittedError 
        try:
            return [self.a1*x + self.a0 for x in x_iterable]
        except TypeError:
            return self.a1*x_iterable + self.a0
    

Sprawdźmy poniżej czy nasz model jako klasa działa. Zaproponowane tutaj funkcje (fit, predict) są również używane przez jedną z najpopularniejszych bibliotek zawierających modele w pythonie - scikit-learn

In [None]:
linear_model = LinearModel()
linear_model.fit(df['sqft_living'], df['price'])
result = linear_model.predict([1000, 1250])
print(f"[{result[0]:.3f}, {result[1]:.3f}]")

<span style="font-family:Monospace">[237042.826, 307198.718]</span>

## Regresja liniowa - wersja 3D

W tej wersji będziemy używać dwóch zmiennych objaśniających - powierzchni mieszkani (sqft_living) oraz liczby sypialni (bedrooms) i będziemy starali się wypredykować cenę (price)

###### Zadanie dodatkowe - proszę wyrysować wykres 3D dwóch zmiennych objaśniających i zmiennej objaśnianej (można też użyć rozwiązania umieszczonego niżej). Można ograniczyć się tylko do pierwych 100 lub 1000 wierszy z tabeli danych aby nie czekać długo na wykonanie funkcji

In [None]:
# przykładowe rozwiązanie

#pierwsze 1000 wierszy
df_small = df.iloc[:1000,:]

fig = px.scatter_3d(df_small, x='sqft_living', y='bedrooms', z='price')

fig.update_layout(margin=dict(l=0, r=0, b=0, t=0))

**Szybkie przypomnienie mnożenia macierzowego**

![IMG_8685.GIF](attachment:IMG_8685.GIF)

##### Trenowanie modelu

Liniowy model dla więcej niż jednej zmiennej objaśniającej zapiszemy w postaci macierzowej: $$\hat{y} = w^T x + b$$ Jednak w tej sytuacji $w$ oraz $b$ mogą być macierzami: $$\hat{y} = \begin{bmatrix}
x_1\\
x_2
\end{bmatrix}^T  \begin{bmatrix}
w_1\\
w_2
\end{bmatrix} + \begin{bmatrix}
b
\end{bmatrix}$$ P.S. Jeśli chcielibyśmy predykować także inną zmienną to również y byłby macierzą. <br> Możemy napisać to w bardziej skondensowanej formie gdzie włączymy parametr $b$ do macierzy $w$ (proszę zwrócić uwagę na liczbę 1 włączoną do macierzy x):
$$\hat{y} = \begin{bmatrix}
\textbf{1}\\
x_1\\
x_2
\end{bmatrix}^T  \begin{bmatrix}
w_0\\
w_1\\
w_2
\end{bmatrix}$$
Macierz $w$ wraz z wszystkimi jej wartościami to **parametry** modelu - to miejsce gdzie znajduje się cała "wiedza" modelu.  Teraz zdefiniujmy funkcję kosztu - MSE (mean squared error): $$J = \frac{1}{n} \sum_{i=1}^{n} (\hat{y} - y)^2$$ Czym większa będzie różnica między $\hat{y}$ (czyli ceną predykowaną przez nasz model) a $y$ (czyli prawdziwą ceną) - tym większy będzie błąd/funkcja kosztu. To co chcemy zrobić to znaleźć minimum tej funckji. I tutaj z pomocą przychodzi analiza matematyczna oraz pochodne - musimy wyzerować pochodną tej funkcji. Przypomnienie pochodnych na przykładzie funkcji kwadratowej:

![DerivativeOfXSquared.png](attachment:DerivativeOfXSquared.png)

Po przyrównaniu pochodnej do zera możemy analitycznie wyliczyć wartości parametrów w zależności od y i x:
$$ w = (X^TX)^{-1}X^TY $$

##### Proszę wyliczyć macierz $w$ na podstawie powyższego wzoru 

przydatne funkcje oraz notacje: <br>
**@** - mnożenie macierzowe<br>
**X.T** - transpozycja macierzy (jeśli X jest macierzą) <br>
**np.linalg.inv** - funkcja z biblioteki numpy do odwracania macierzy

In [None]:
X_org = df[['sqft_living', 'bedrooms']].to_numpy()
# dodajmy kolumnę samych jedynek do x
X_shape = list(X_org.shape)
X_shape[-1] = 1
X = np.concatenate([np.ones(X_shape), X_org], axis=-1)

Y = df['price'].to_numpy()
print(f"Wymiar X to {X.shape}, zaś Y to {Y.shape}")
# proszę poniżej kontynuować kod

In [None]:
# rozwiązanie
w = np.linalg.inv(X.T @ X) @ X.T @ Y
#https://aunnnn.github.io/ml-tutorial/html/blog_content/linear_regression/linear_regression_tutorial.html

In [None]:
class LinearModelMulti():
    def __init__(self, w):
        self.w = w
        
    def __call__(self, X):
        X = np.array(X)
        if isinstance(X, np.ndarray) and len(X.shape)==1:
            X = X.reshape(1,-1)
        X_shape = list(X.shape)
        X_shape[-1] = 1
        X = np.concatenate([np.ones(X_shape), X], axis=-1)
        return X @ self.w


try:
    # Proszę wpisać odpowiedni parametr w wywołaniu tej klasy
    linear_model = LinearModelMulti(w)
except NameError:
    print(f"{bcolors.BOLD}{bcolors.FAIL}Proszę sprawdzić czy została przypisana wartość do parametru w{bcolors.ENDC}")
else:
    result = linear_model(X_org[0:5,:])
    strFormat = len(result) * '{:0.3f} '
    formatted_results = strFormat.format(*result)
    print(f"Dla pierwszych 4 wierszy predykujemy następujące ceny: [{formatted_results}]")

<span style="font-family:Monospace">Dla pierwszych 4 wierszy predykujemy następujące ceny: [278728.533 715117.204 207076.331 466541.748 435702.875 ]</span>

In [None]:
# Do wizualizacji weźmiemy tylko 100 pierwszych wierszy
df_small = df.iloc[:100,:]
X1 =df_small['sqft_living']
X2 =df_small['bedrooms']
Y =df_small['price']

X1_plane, X2_plane = np.meshgrid(X1, X2)
model_input = np.stack((X1_plane,X2_plane), axis=-1)
Y_plane = linear_model(model_input)

fig = go.Figure(data=[go.Surface(z=Y_plane, x=X1_plane, y=X2_plane, opacity=0.005), go.Scatter3d(x=X1, y=X2, z=Y, mode='markers')])

fig.update_layout(margin=dict(l=0, r=0, b=0, t=0))

##### Zadanie dodatkowe - przekopiować powyższą implementację klasy LinearModelMulti i dodać do niej metodę .fit , która dla nowych danych uczących wyznaczy nowe parametry modelu liniowego, oraz zmienić metodą __call__ na predict

In [None]:
# przykładowe rozwiązanie
class LinearModelMulti():
    def __init__(self):
        self.w = None
        
    @staticmethod
    def stack_ones(X):
        X_shape = list(X.shape)
        X_shape[-1] = 1
        return np.concatenate([np.ones(X_shape), X], axis=-1)
        
    def fit(self, X, Y):
        X = np.array(X)
        X = self.stack_ones(X)
        Y = np.array(Y)
        self.w = np.linalg.inv(X.T @ X) @ X.T @ Y
        
    def predict(self, X):
        if self.w is None:
            raise NotFittedError 
        X = np.array(X)
        if isinstance(X, np.ndarray) and len(X.shape)==1:
            X = X.reshape(1,-1)
        X = self.stack_ones(X)
        return X @ self.w

Sprawdźmy poniżej czy nasz model jako klasa działa. Zaproponowane tutaj funkcje (fit, predict) są również używane przez jedną z najpopularniejszych bibliotek zawierających modele w pythonie - scikit-learn

In [None]:
linear_model = LinearModelMulti()
linear_model.fit(df[['sqft_living', 'bedrooms']], df['price'])
linear_model.predict([[1050, 2], [2100, 4], [750, 3]])

<span style="font-family:Monospace">array([294981.9623291 , 510494.56425758, 143730.59880693])</span>

## Regresja wielomianowa oraz overfitting

Skoro już użyliśmy modelu liniowego to można się zastanowić nad modelem np. kwadratowym: $$\hat{y} = a_2 \cdot x^2 + a_1 \cdot x + a_0$$ Skoro tak to może nawet użyjmy jeszcze kolejnych rozwinieć wielomianu: $$\hat{y} = a_k \cdot x^k + ... + a_2 \cdot x^2 + a_1 \cdot x + a_0$$ W notacji macierzowej: $$\hat{y} = \begin{bmatrix}
\textbf{1}, x, x^2, ..., x^k
\end{bmatrix}  \begin{bmatrix}
a_0\\
a_1\\
a_2\\
...\\
a_k
\end{bmatrix} = 
\begin{bmatrix}
\textbf{1}\\
x\\
x^2\\
...\\
x^k
\end{bmatrix}^T  \begin{bmatrix}
w_0\\
w_1\\
w_2\\
...\\
w_k
\end{bmatrix}$$
Co ciekawe możemy traktować kolejne potęgi x jako nowe zmienne, wtedy model wygląda tak samo jak model liniowy tylko z większą liczbą parametrów do wytrenowania. Właśnie przez stworzenie nowych zmiennych zaimplementujemy to w pythonie ale wykorzystamy tylko jedną zmienną objaśniającą - powierzchnię mieszkania (sqrt_living). Ustawimy liczbę wielomianu na 4. Jeśli ktoś ma klasę LinearModelMulti z metodami fit i predict może użyć swojej - jeśli nie to proszę wywołać komórkę z przygotowanym rozwiązaniem

In [None]:
from sklearn.preprocessing import PolynomialFeatures
y = df['price'].to_numpy().reshape(-1, 1)
x = df['sqft_living'].to_numpy().reshape(-1, 1)
poly_reg=PolynomialFeatures(degree=4)
x_poly=poly_reg.fit_transform(x)
#usuwamy pierwszy wymiar z polynomial_x ponieważ pierwszy wymiar to x^0 czyli same jedynki
x_poly = x_poly[:,1:]
print(f"Wymiar naszego oryginalnego x wynosił: {x.shape}, po dodaniu kolejnych potęg: {x_poly.shape}")

**jeśli została zaimplementowana poprawnie klasa LinerModelMulti proszę wywołać następującą linijkę:**

In [None]:
linear_model = LinearModelMulti()
#jeśli nie została zaimplementowana własna klasa LinerModeMulti to proszę zakomentować powyższą linijkę 
#i odkomentować tę poniżej
# linear_model = SklearnLinearRegression()
linear_model.fit(x_poly, y)
pred=linear_model.predict(x_poly)
mean_squared_error=metrics.mean_squared_error(y,pred)
print('Root mean squared error (RMSE)', round(np.sqrt(mean_squared_error),2))

<span style="font-family:Monospace">Root mean squared error (RMSE) 248601.08</span>

Jeśli zadanie regresji liniowej 2D zostało poprawnie wykonane to dla zmiennej objaśniającej powierzchnia mieszkania mieliśmy MSE wynoszące 261440,79. Zatem teraz mamy mniej - chyba to dobrze, gdyż chcemy minimalizować MSE. Otóż niekoniecznie - może być to symptomem overfittingu czyli zbytniego dopasowania się dodanych treningowych. Zobaczmy jak to wygląda na wykresach przedstawiających model po dodawaniu kolejnych potęg do modelu

In [None]:
number=6
rows = int(np.ceil(number/2))
fig,axes = plt.subplots(nrows=rows,ncols=2, figsize=(18,12))
axes = axes.flatten()
down = 10
up = 20

for i in range(number):

    y_small = df.loc[down:up,['price']].to_numpy().reshape(-1, 1)
    x_small = df.loc[down:up,['sqft_living']].to_numpy().reshape(-1, 1)
    poly_reg=PolynomialFeatures(degree=i+1)
    x_poly_small=poly_reg.fit_transform(x_small)
    x_poly_small = x_poly_small[:,1:]
    linear_model.fit(x_poly_small, y_small)
    pred=linear_model.predict(x_poly_small)
    mean_squared_error=metrics.mean_squared_error(y_small,pred)

    x_lin = np.linspace(min(x_small), max(x_small))
    x_input = poly_reg.fit_transform(x_lin)[:,1:]
    y_lin = linear_model.predict(x_input)

    axis = axes[i]
    axis.scatter(x_small, y_small)
    axis.plot(x_lin, y_lin, color='r')
    axis.set(xlabel='sqft_living', ylabel='price')
    red_patch = mpatches.Patch(color='red', label='Model')
    blue_patch = mpatches.Patch(color='#1f77b4', label='Real data')
    axis.legend(handles=[red_patch, blue_patch])
    mse = int(mean_squared_error)
    axis.set_title(f"Wielomian stopnia {i+1}. MSE: {format(mse, ',d').replace(',',' ')}.{str(mean_squared_error-mse)[2:4]}")
fig.tight_layout(pad=2.0)

Jak widać będziemy musieli jakoś poradzić sobie ze zbytnim dopasowaniem do danych, ale jakie są na to metody dowiemy się w następnym laboratorium

### Szkice

In [None]:
#Wykres 3D w matplotlib
%matplotlib notebook
from mpl_toolkits.mplot3d import Axes3D
from matplotlib.colors import ListedColormap

df_small = df.iloc[:100,:]

# axes instance
fig = plt.figure(figsize=(6,6))
ax = Axes3D(fig, auto_add_to_figure=False)
fig.add_axes(ax)

# get colormap from seaborn
cmap = ListedColormap(sns.color_palette("husl", 256).as_hex())

# plot
sc = ax.scatter(df_small['sqft_living'], df_small['bedrooms'], df_small['price'], s=40, marker='o', alpha=1)
ax.set_xlabel('X Label')
ax.set_ylabel('Y Label')
ax.set_zlabel('Z Label')

# legend
plt.legend(*sc.legend_elements(), bbox_to_anchor=(1.05, 1), loc=2)

In [None]:
#Wykres 3D w matplitlib z płaszczyzną
%matplotlib notebook

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import axes3d  
from matplotlib import cm 

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

x =df['sqft_living'][:50]
y =df['bedrooms'][:50]
z =df['price'][:50]

ax.scatter(x, y, z, c='r', marker='o')

train_data = df
features1=['sqft_living','bedrooms']
reg=SklearnLinearRegression()
reg.fit(train_data[features1],train_data['price'])


X_plane, Y_plane = np.meshgrid(x, y)
# pred=reg.predict(X_plane, Y_plane)
Z_plane = (reg.coef_[0] * X_plane) + (reg.coef_[1] * Y_plane) + reg.intercept_
ax.plot_surface(X_plane,Y_plane, Z_plane, rstride=1, cstride=1, cmap=cm.coolwarm, alpha=0.5)
# plot3D.plot_surface(X_plane,Y_plane, pred, rstride=1, cstride=1, cmap=cm.coolwarm)