# California Housing Prices

Dane na podstawie spisu ludności Kalifornii z 1990 roku, część repozytorium StatLib. 

![](Mieszkania.pdf)

## Zadanie - Stwórz model cen mieszkań w Kalifornii

Posiadając dane o stanie populacji, medianie dochodów, medianie cen mieszkań itd stwórz model przewidujący medianę cen mieszkań w dowolnym dystrykcie. Przez dystrykt rozumie się poszczególną grupę bloków (600 do 3000 osób).

## Modele, modele, modele...




## Zanim przeliczysz wszystko przemyśl problem oraz określ jego zakres

Na jakie pytanie odpowiesz w pierwszej kolejności ? 

### Jaki jest dokładny cel biznesowy ? 

Jak chcesz skorzystać i zarobić na tym modelu ? 

W ramach tego zadania otrzymujesz odpowiedź od szefa, iż wynik modelu (prognoza mediany cen mieszkań) ma zostać przekazany do innych algorytmów dzięki którym Twój szef otrzyma odpowiedź na pytanie czy warto inwestować w danym obszarze. 


### Jak wygląda obecne rozwiązanie problemu w firmie

Czy w ogóle jakieś istnieje ? Jeśli tak to jaka jest wydajność. Co jeśli dowiadujesz się, że proces jest bardzo skomplikowany i obecnie medianę ceny określa grono ekspertów ? Błędy w określeniu mediany sięgają 10%.









### Projektowanie systemu

1. Jak sądzisz ? jakiego typu uczenie nada się dla tego problemu ? nadzorowane, nienadzorowane czy może uczenie przez wzmacnianie ? 

2. Jest to zadanie klasyfikacji, regresji czy jakieś inne ? 

3. Uczenie przyrostowe czy wsadowe ? 

4. Co oznacza termin `multivariate regression`?

5. Jaką metrykę wydajności zaproponujesz ? 

6. Wyjaśnij skrót RMSE. 

#### Uwaga !

W sytuacji kiedy masz wiele wartości odstających zamiast RMSE  lepiej wybrać `Średni absolutny błąd (Mean Absolute Error)` jako funkcję kosztu. Obydwie miary pozwalają obliczyć odległość między dwoma wektorami: wektorem prognoz i wektorem wartości docelowych. Reprezentują one tzw. `normę`. RMSE związana jest z normą euklidesową (często nazywana normą $l_2$). Natomiast MAE to norma $l_1$ czyli tzw norma taksówkowa, miejska bądź Manhattan. 

### Sprawdź założenia

Przed wpisywaniem czegokolwiek do komputera warto zweryfikować dotychczasowe założenia. Chciałbyś zobaczyć minę swojego szefa gdy Twój model będzie przewidywał konkretną wartość a do systemu ma być przekazywana jedna z wartości: "tani", "średni", "drogi". Jak zmieniłoby to Twoje modelowanie ?

## Wreszcie kod

### Przestrzeń robocza

1. Środowisko Python3. Jeśli jeszcze nie masz [Python3](https://www/python.org)

2. Katalog roboczy do którego skopiowałeś ten notebook oraz plik z danymi.

```{bash}
export ML_PATH="$HOME/projekt1"
mkdir -p $ML_PATH
``` 

3. Potrzebne są dla nas następujące moduły (szczególnie jeśli dodałeś środowisko wirtualne do swojego projektu): Jupyter, NumPy, Pandas, Matplotlib i Scikit-Learn. 

```{bash}
pip --version
pip3 --version

pip3 install --upgrade pip 

# jeśli masz virtualenv
pip3 install --upgrade virtualenv
# stworz środowisko
cd $ML_PATH
virtualenv env
# a jeśli chcesz uruchomić to 
cd $ML_PATH
source env/bin/activate

# instalacja modułów
pip3 install --upgrade jupyter matplotlib numpy pandas scipy scikit-learn
# weryfikacja czy działa
python3 -c "import jupyter, matplotlib, numpy, pandas, scipy, sklearn"
```


### Dane

W typowym zadaniu dane najczęściej będą umieszczone w relacyjnej bazie danych. Dostęp do baz danych wymaga uzyskania informacji o autoryzacji oraz info o schemacie dancyh. W naszym przypadku wszystko czego potrzeba zamieszczone jest w pliku `housing.csv`. Ze względu, iż nie jesteś leniwy napisz krótki skrypt pobierający dane z repo git.

In [1]:
import os
import tarfile
from six.moves import urllib

DOWNLOAD_ROOT = 'https://raw.githubusercontent.com/ageron/handson-ml/master/'
HOUSING_PATH = os.path.join("zestaw danych","mieszkania")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
        tgz_path = os.path.join(housing_path, "housing.tgz")
        urllib.request.urlretrieve(housing_url, tgz_path)
        housing_tgz = tarfile.open(tgz_path) 
        housing_tgz.extractall(path=housing_path) 
        housing_tgz.close()

fetch_housing_data()

#### Do załadowania danych także napiszemy prostą funkcję 

In [2]:
import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, 'housing.csv')
    return pd.read_csv(csv_path)


#### DataFrame

In [4]:
df = load_housing_data()

### Wyświetl 5 pierwszych wierszy danych

Każdy wiersz to jeden dystrykt. 

### Wypisz nazwy atrybutów 

### Ile jest wszystkich danych ?

### Czy są jakieś braki danych ? 

### Jakie typy danych są w zbiorze ? 

### Jakie kategorie i ile elementów jest w danej kategorii dla zmiennej `ocean_proximity` ?

### Wygeneruj podsumowanie wszystkich atrybutów numerycznych

### Narysuj histogramy wszystkich zmiennych 

### Jakie wnioski możesz wyciągnąć na podstawie histogramów ?

### Podziel dane na zbiór treningowy i testowy

Teoretycznie tworzenie zbioru testowego to trywialna sprawa - wystarczy losowo wybrać część przykładów (np 20%)i zapisać rozdzielone zbiory do dwóch ramek.

In [6]:
import numpy as np

def split_train_test(data, test_ratio):
    shuffled_indices = np.random.permutation(len(data)) 
    test_set_size = int(len(data) * test_ratio)
    test_indices = shuffled_indices[:test_set_size] 
    train_indices = shuffled_indices[test_set_size:]
    return data.iloc[train_indices], data.iloc[test_indices]

In [8]:
train_set, test_set = split_train_test(df, 0.2)
print("Uczące:", len(train_set), ", testowe:", len(test_set))

Uczące: 16512 , testowe: 4128


To proste rozwiązanie działa ale ! Każde nowe uruchomienie to nowy zbiór testowy. A to znaczy, że po krótkim czasie algorytmy będą widziały cały zbiór danych (znajdź info czym jest `data snooping bias`).

W takim razie albo można zapisać testowy zbiór otrzymany za pierwszym razem i go później odtwarzać, albo można przed metodą `np.random.permutation()` dodać `np.random.seed(43)`. Można także dodać jakieś id (np metodą hash bądź stworzyć id na podstawie kolumn, które nigdy się nie zmieniają (np lon i lat). 

### Podziel dane 20/80 wykorzystując moduł train_test_split z pakietu Scikit-Learn. 

nie zapomnij ustalić random_state. 

### Od teraz zajmujemy się tylko zbiorem treningowym .

Skopiuj zbiór treningowy do zmiennej `housing`

### Wykreśl scatterplotem rozmieszczenie dystryktów 

wykres latitude od longitude

na ramce housing użyj metody plot(kind='scatter', x=...,y=...,aplha=0.1)

In [None]:
# Dodajmy jeszcze kolejne wymiary - koła=populacja, kolor=cena mieszkań

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, s=housing["population"]/100, label="Populacja", figsize=(10,7), c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True)
plt.legend()

### Sprawdź korelacje 

Wartości współczynnika korelacji mieszczą się w zakresie pomiędzy –1 a 1. Wartości zbliżone do 1 wskazują silną korelację dodatnią. Z kolei wartości zbliżone do –1 mówią nam, że istnieje silna korelacja ujemna. Natomiast wartości bliskie zera oznaczają brak korelacji liniowej

In [None]:
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

In [None]:
from pandas.tools.plotting import scatter_matrix
# ze względu na ilosc atrubutów ograniczymy widok do kilku cech
attributes = ["median_house_value", "median_income", "total_rooms", "housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8))

Najbardziej obiecującym atrybutem służącym do prognozowania mediany cen mieszkań jest mediana dochodów, dlatego przyjrzyjmy się uważniej ich wykresowi korelacji

In [None]:
housing.plot(kind="scatter", x="median_income", y="median_house_value", alpha=0.1)

### Czy wszystkie zmienne są istotne ? 

Czy całkowita liczba pomieszczeń w dystrykcie jest wartościowym atrybutem ? a może lepszym byłoby stworzenie nowych zmiennych ?

1. pokoje_na_rodzine = total_rooms/households

2. sypialnie_na_pokoje = total_bedrooms/total_rooms

3. populacja_na_rodzine = population/households

Jaka jest korelacja nowych zmiennych ? 


## Przygotowanie danych pod algorytmy

Najlepiej zawsze pisać funkcje do przetwarzania bo:

1. łatwo odtworzyć proces na nowych (świeżych) danych
2. bibliotekę funkcji można wykorzystać w nowych projektach
3. łatwość modyfikacji i wykorzystania do sprawdzania





In [None]:
## wrocmy do pierwotnego zbioru treningowego i oddzielmy wyniki od zmiennych

housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"].copy()


In [None]:
### Braki danych 
housing.dropna(subset=['total_bedrooms']) # 1. usunie braki danych
housing.drop('total_bedrooms', axis=1) # 2. usunie całą kolumnę
median = housing['total_bedrooms'].median() # 3. obliczy mediane
housing['total_bedrooms'].fillna(median, inplace=True)# wstawi w brak mediane

W Sklearn.preprocessing istnieje moduł `Imputer`

In [None]:
imputer = Imputer(strategy='median')
# dziala tylko na numericach
housing_num = housing.drop("ocean_proximity", axis=1)
imputer.fit(housing_num)

# porownaj
imputer.statistics_
# oraz 
housing_num.median().values

# zastosowanie imputera
X = imputer.transform(housing_num)
# do ramki
housing_tr = pd.DataFrame(X, columns=housing_num.columns)
