
# <font color='navy'>Regresja liniowa: baza USA housing</font>

<img src="./Images/agentka.jpg" alt="Agentka" width="400">

Twoja sąsiadka jest agentem nieruchomości i potrzebuje pomocy w przewidywaniu cen mieszkań dla regionów w USA. Byłoby wspaniale, gdybyś mógł w jakiś sposób stworzyć dla niej model, który pozwoli jej umieścić kilka cech domu i zwróci szacunkową cenę, za którą dom mógłby zostać sprzedany.

Zapytała cię, czy mógłbyś jej pomóc w zdobyciu nowych umiejętności związanych z nauką o danych. Mówisz „tak” i decydujesz, że regresja liniowa może być dobrą drogą do rozwiązania tego problemu!

Następnie twoja sąsiadka przekazuje ci informacje o kilku domach w regionach Stanów Zjednoczonych, wszystko to znajduje się w zbiorze danych: USA_Housing.csv.

Dane zawierają następujące kolumny:

* 'Avg. Area Income': średnie dochody mieszkańców
* 'Avg. Area House Age': średni wiek domów w tym samym mieście
* 'Avg. Area Number of Rooms': średnia liczba pokoi dla domów w tym samym mieście
* 'Avg. Area Number of Bedrooms': średnia liczba sypialni w domach w tym samym mieście
* 'Area Population': populacja w tym samym mieście
* 'Price': cena, po której sprzedano domt
* 'Address': adres domu

**Zaczynamy!**

## Sprawdź dane

Przygotujmy nasze środowisko z potrzebnymi bibliotekami, a następnie zaimportujmy dane!
### Importuj biblioteki

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

### Sprawdź dane

In [None]:
USAhousing = pd.read_csv('./Data/USA_Housing.csv')

In [None]:
USAhousing.head()

In [None]:
USAhousing.info()

In [None]:
USAhousing.describe()

In [None]:
USAhousing.columns

# EDA

Stwórzmy kilka prostych wykresów, aby sprawdzić dane!

In [None]:
sns.pairplot(USAhousing)

In [None]:
sns.histplot(USAhousing['Price'])

In [None]:
num_columns = USAhousing.select_dtypes(include=np.number).columns.tolist()
sns.heatmap(USAhousing[num_columns].corr(),)

In [None]:
plt.figure(figsize=(12, 6))
heatmap = sns.heatmap(USAhousing[num_columns].corr(), vmin=-1, vmax=1, annot=True, cmap='BrBG')
heatmap.set_title('Correlation Heatmap', fontdict={'fontsize':18}, pad=12);
plt.savefig('heatmap.png', dpi=300, bbox_inches='tight')

In [None]:
plt.figure(figsize=(12, 6))
# define the mask to set the values in the upper triangle to True
mask = np.triu(np.ones_like(USAhousing[num_columns].corr(), dtype=bool))
heatmap = sns.heatmap(USAhousing[num_columns].corr(), mask=mask, vmin=-1, vmax=1, annot=True, cmap='BrBG')
heatmap.set_title('Triangle Correlation Heatmap', fontdict={'fontsize':18}, pad=16);

In [None]:
plt.figure(figsize=(4, 3))
heatmap = sns.heatmap(USAhousing[num_columns].corr()[['Price']].sort_values(by='Price', ascending=False), 
                      vmin=-1, vmax=1, annot=True, cmap='BrBG', cbar=False)
heatmap.set_title('Cechy korelujące z ceną sprzedaży', fontdict={'fontsize':18}, pad=16);

## Uczenie modelu regresji liniowej

Zacznijmy teraz trenować model regresji! Będziemy musieli najpierw podzielić nasze dane na tablicę X, która zawiera funkcje do trenowania, oraz tablicę y ze zmienną docelową, w tym przypadku kolumnę Price. Wyrzucimy kolumnę Adress, ponieważ zawiera ona tylko informacje tekstowe, których model regresji liniowej nie może wykorzystać.

### Tablice X i y

In [None]:
X = USAhousing[['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms',
               'Avg. Area Number of Bedrooms', 'Area Population']]
y = USAhousing['Price']

## Podział danych

Teraz podzielmy dane na zbiór treningowy i zbiór testowy. Wytrenujemy model na zbiorze treningowym, a następnie użyjemy zestawu testowego do oceny modelu.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=101)

## Tworzenie i trenowanie modelu

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lm = LinearRegression()

In [None]:
lm.fit(X_train,y_train);

## Ocena modelu

Oceńmy model, sprawdzając jego współczynniki i sposób, w jaki możemy je interpretować.

Punkt wolny ("intercept", czasami nazywany „stałą”) w modelu regresji reprezentuje średnią wartość zmiennej odpowiedzi, gdy wszystkie zmienne predykcyjne w modelu są równe zeru.

In [None]:
print(lm.intercept_)

In [None]:
coeff_df = pd.DataFrame(lm.coef_,X.columns,columns=['Coefficient'])
coeff_df

Interpretacja współczynników:

- Utrzymując wszystkie inne funkcje na stałym poziomie, średni wzrost o 1 jednostkę **Avg. Area Income** wiąże się ze **wzrostem o 21,52 USD**.

- Utrzymując wszystkie inne funkcje na stałym poziomie, średni wzrost o 1 jednostkę **Avg. Area House Age** wiąże się ze **wzrostem o 164883,28 USD**.

- Utrzymując wszystkie inne funkcje na stałym poziomie, średni wzrost o 1 jednostkę **Avg. Area Number of Rooms** wiąże się ze **wzrostem o 122368,67 USD**.

- Utrzymując wszystkie inne funkcje na stałym poziomie, średni wzrost o 1 jednostkę **Avg. Area Number of Bedrooms** wiąże się ze **wzrostem o 2233,80 USD**.

- Zakładając wszystkie inne cechy stałe, wzrost **Area Population** o 1 jednostkę wiąże się ze **wzrostem o 15,15 USD**.

Czy to ma sens?

## Prognozy z naszego Modelu

Weźmy prognozy z naszego zestawu testowego i zobaczmy, jak dobrze to poszło!

In [None]:
predictions = lm.predict(X_test)

In [None]:
plt.scatter(y_test,predictions)

**Resztkowy histogram**

In [None]:
sns.histplot((y_test-predictions),bins=50);

## Metryki oceny regresji

Oto trzy typowe metryki oceny problemów z regresją:

**Średni błąd bezwzględny** (MAE) to średnia wartości bezwzględnej błędów:

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

**Średni błąd kwadratowy** (MSE) to średnia kwadratów błędów:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

**Pierwiastek ze średniego błądu kwadratowego** (RMSE) to pierwiastek kwadratowy średniej kwadratów błędów:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Porównując te dane:

- **MAE** jest najłatwiejszy do zrozumienia, ponieważ jest to średni błąd.
- **MSE** jest bardziej popularne niż MAE, ponieważ MSE „karze” większe błędy, co zwykle jest przydatne w prawdziwym świecie.
- **RMSE** jest jeszcze bardziej popularny niż MSE, ponieważ RMSE można interpretować w jednostkach „y”.

Wszystkie te funkcje są **funkcjami strat**, ponieważ chcemy je zminimalizować.

In [None]:
from sklearn import metrics

In [None]:
print('MAE:', metrics.mean_absolute_error(y_test, predictions))
print('MSE:', metrics.mean_squared_error(y_test, predictions))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, predictions)))

Gratulacje za pomoc sąsiadce! 

Następny jest Twój własny projekt:

Sprawdź zestaw danych z Bostonu: https://www.kaggle.com/datasets/vikrishnan/boston-house-prices