In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# import sklearn
# sklearn.show_versions()

# import warnings
# warnings.filterwarnings('default') # wyświetlane warnin-gi
# warnings.filterwarnings('ignore') # nie wyświetlane warnin-gi

# ----------- Pierwszy przykład -----------
## Wszystkie dane są kompletne, model typu clasyfikacja.
### Przygotowanie danych do uczenia maszynowego

In [2]:
# wczytanie danych z dysku
heartr_disease = pd.read_csv('data/heart-disease.csv')
#heartr_disease.head()  # pierwsze pozycje tableli, w nawiasie można zmienić ilość pierwszych pozycji
#heartr_disease[:10] 
heartr_disease

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0


Tabela z cechami które decydują o chorobach serca, w ostatniej kolumnie jest decyzja o tym czy osoba klasyfikuje się do zagrożenia czy nie.
Celem uczenia jest poprawne klasyfikowanie osób zagrożonych chorobą serca, czyli podając cechy ma wskazać zagrożenie (ostatni kolumna).

In [3]:
# rozdzielenie danych na wejściowe 'X' i wyjściowe 'y'
X = heartr_disease.drop('target', axis=1) # X = heartr_disease oprócz kolumny target (features matrix)
y = heartr_disease['target'] # y = kolumna target (labels)

In [4]:
# rozdzielenie danych na treningowe i testowe
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

### Model i dopasowanie

In [5]:
# Stworzenie instancji modelu (klasyfikacji)
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
#clf.get_params() # wyświetlenie standardowych ustawień hiperparametrów

In [6]:
# Zbudowanie drzewa decyzyjnego ze zbioru uczącego (X, y).
clf.fit(X_train, y_train)

In [7]:
# Współczynnik determinacji prognozy dla wyniku uczenia. Takie mamy prawdopodobieństwo że model uczenia nam odpowie prawidłowo.
clf.score(X_test, y_test)

0.82

In [8]:
# Wyniki z danych testowych, przepuszczone przez model. Przewidywanie celu regresji dla X.
y_preds = clf.predict(X_test)
y_preds

array([0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0], dtype=int64)

In [9]:
# Wyniki jakie powinny być, jak by 'score' był równy 1.0.
y_test.array

<NumpyExtensionArray>
[0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0,
 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0,
 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0,
 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0]
Length: 100, dtype: int64

### Ocena modelu

In [10]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

In [11]:
print(classification_report(y_test, y_preds))

              precision    recall  f1-score   support

           0       0.79      0.79      0.79        42
           1       0.84      0.84      0.84        58

    accuracy                           0.82       100
   macro avg       0.82      0.82      0.82       100
weighted avg       0.82      0.82      0.82       100



In [12]:
confusion_matrix(y_test, y_preds)

array([[33,  9],
       [ 9, 49]], dtype=int64)

In [13]:
accuracy_score(y_test, y_preds)

0.82

### Ulepszanie modelu. Próby różnej ilości n_elementów (ilość drzew uczenia)

In [14]:
np.random.seed(42)
for i in range(10, 100, 10):
    print(f'Trying model with {i} estimators...')
    clf = RandomForestClassifier(n_estimators=i).fit(X_train, y_train)
    print(f'Model accuracy on test set: {clf.score(X_test, y_test) * 100:.2f}%')
    print("")


Trying model with 10 estimators...
Model accuracy on test set: 82.00%

Trying model with 20 estimators...
Model accuracy on test set: 82.00%

Trying model with 30 estimators...
Model accuracy on test set: 83.00%

Trying model with 40 estimators...
Model accuracy on test set: 84.00%

Trying model with 50 estimators...
Model accuracy on test set: 82.00%

Trying model with 60 estimators...
Model accuracy on test set: 81.00%

Trying model with 70 estimators...
Model accuracy on test set: 81.00%

Trying model with 80 estimators...
Model accuracy on test set: 81.00%

Trying model with 90 estimators...
Model accuracy on test set: 84.00%



# ---------- Drugi przykład -----------
### Wszystkie dane są kompletne ale nie numeryczne, model typu regresja.
### Przygotowanie danych do uczenia maszynowegomaszynowego

In [15]:
# wczytanie danych z dysku
car_sales = pd.read_csv('data/car-sales-extended.csv')
car_sales[:10]

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Honda,White,35431,4,15323
1,BMW,Blue,192714,5,19943
2,Honda,White,84714,4,28343
3,Toyota,White,154365,4,13434
4,Nissan,Blue,181577,3,14043
5,Honda,Red,42652,4,23883
6,Toyota,Blue,163453,4,8473
7,Honda,White,43120,4,20306
8,Nissan,White,130538,4,9374
9,Honda,Blue,51029,4,26683


Tabela z cechami opisującymi samochód, a wynikiem jest cena, która będzie celem przewidywania.

In [16]:
len(car_sales) # ile pozycji

1000

In [17]:
car_sales.dtypes # typy danych, w których widać że nie wszystkie są danymi numerycznymi

Make             object
Colour           object
Odometer (KM)     int64
Doors             int64
Price             int64
dtype: object

In [18]:
# rozdzielenie danych na wejściowe i wyjciowe
X = car_sales.drop('Price', axis=1)
y = car_sales['Price']
# rozdzielenie danych na treningowe i testu
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [19]:
# Próba stworzenia modelu, i ternowania, w celu zobrazowania błędu
# from sklearn.ensemble import RandomForestRegressor # przewidywanie liczby
# model = RandomForestRegressor() # stworzenie modelu
# model.fit(X_train, y_train) # trenowanie
# model.score(X_test, y_test) # test

#### Jeżeli dane w tabelach będą typu string a nie numeryczne to wywali "ValueError: could not convert string to float: 'BMW'"

### Pierwszy sposób zamiany stringów na numeryki

In [20]:
# zamiana na dane numeryczne
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

categorical_features = ['Make', 'Colour', 'Doors'] # które kolumny ma zamieniać
one_hot = OneHotEncoder() # sposób zamiany
transformer = ColumnTransformer([('one_hot', one_hot, categorical_features)], remainder='passthrough') # ustawienie transformacji
transformed_X = transformer.fit_transform(X) # transformacja

In [21]:
# oryginalna tabela
X[:10] 

Unnamed: 0,Make,Colour,Odometer (KM),Doors
0,Honda,White,35431,4
1,BMW,Blue,192714,5
2,Honda,White,84714,4
3,Toyota,White,154365,4
4,Nissan,Blue,181577,3
5,Honda,Red,42652,4
6,Toyota,Blue,163453,4
7,Honda,White,43120,4
8,Nissan,White,130538,4
9,Honda,Blue,51029,4


In [22]:
# tabela po transformacji
pd.DataFrame(transformed_X) # kolumny -> 0, 1, 2, 3 (Make) 4, 5, 6, 7 ,8 (Colour) 9, 10 ,11 (Doors) 

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,35431.0
1,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,192714.0
2,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,84714.0
3,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,154365.0
4,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,181577.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,35820.0
996,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,155144.0
997,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,66604.0
998,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,215883.0


Zamiana nazw na reprezentacje 1 - 0, kategorie np: Honda, BMW, Toyota, Nissan dostają swoje kolumny, jeżeli są to 1 jak nie to 0 (OneHotEncoding)

### Drugi sposób na zamiane stringów na numeryki

In [23]:
# całkiem niezależna funkcja od tego co się działo wyżej, tylko doors się nie zamienił, trzeba by było liczby zamienić na stringi
# Konwersja zmiennych kategorycznych na zmienne obojętne/wskaźniki.
dummies = pd.get_dummies(car_sales[['Make', 'Colour', 'Doors']]) # zamiana tabeli na czytelną
dummies.head()

Unnamed: 0,Doors,Make_BMW,Make_Honda,Make_Nissan,Make_Toyota,Colour_Black,Colour_Blue,Colour_Green,Colour_Red,Colour_White
0,4,False,True,False,False,False,False,False,False,True
1,5,True,False,False,False,False,True,False,False,False
2,4,False,True,False,False,False,False,False,False,True
3,4,False,False,False,True,False,False,False,False,True
4,3,False,False,True,False,False,True,False,False,False


In [24]:
# korzystając z nowych danych uczymy od nowa (dane z pierwszego sposobu)
from sklearn.ensemble import RandomForestRegressor
X_train, X_test, y_train, y_test = train_test_split(transformed_X, y, test_size=0.2, random_state=42)
model = RandomForestRegressor(n_estimators=300)
model.fit(X_train, y_train)

In [25]:
# trafność przewidywania, wynik kiepski ale jest, pewnie źle dobrany model
model.score(X_test, y_test)

0.3193183864528001

# ---------- Trzeci przykład -----------
### Dane nie są kompletne i nie numeryczne, model typu regresja.
####Co jak nie ma wszystkich wartości danych?
1. Wypełnić brakujące dane (jak jesteśmy w stanie przewidzieć te dane).
2. Usunąć wiersze z brkującymi danymi (jak mamy wystarczojącą ilość danych żeby nie zepsuć uczenia).

## Opisy w osobnych notebookach

## Metoda PANDAS (02_uzupełnianie_danych_pandas_i_zamiana_na_numeryki.ipynb)

In [26]:
car_sales_missing = pd.read_csv('data/car-sales-extended-missing-data.csv')
car_sales_missing.dropna(subset=['Price'], inplace=True)
X = car_sales_missing.drop('Price', axis=1)
y = car_sales_missing['Price'] 
X['Make'].fillna('missing', inplace=True) # wypełnienie wszystkich NaN w kolumnie Make 'missing'
X['Colour'].fillna('missing', inplace=True) # wypełnienie wszystkich NaN w kolumnie Colour 'missing'
X['Doors'].fillna(4, inplace=True) # wypełnienie wszystkich NaN w kolumnie Doors liczbą 4
X["Odometer (KM)"].fillna(car_sales_missing["Odometer (KM)"].mean(), inplace=True)  # wypełnienie wszystkich NaN w kolumnie średnią
from sklearn.preprocessing import OneHotEncoder 
from sklearn.compose import ColumnTransformer
categorical_features = ['Make', 'Colour', 'Doors']
one_hot = OneHotEncoder()
transformer = ColumnTransformer([('one_hot', one_hot, categorical_features)], remainder='passthrough') 
transformed_X = transformer.fit_transform(X, dict) 
X = pd.DataFrame.sparse.from_spmatrix(transformed_X) # można pozmieniać nazwy kolumn używając parametru 'column=['nazwa1', ....]'
X

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,35431.0
1,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,192714.0
2,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,84714.0
3,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,154365.0
4,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,181577.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
945,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,35820.0
946,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,155144.0
947,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,66604.0
948,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,215883.0


## Metoda SKLEARN (03_uzupełnianie_danych_sklearn_i_zamiana_na_numeryki.ipynb)

In [27]:
car_sales_missing = pd.read_csv('data/car-sales-extended-missing-data.csv')
car_sales_missing.dropna(subset=['Price'], inplace=True)
X = car_sales_missing.drop('Price', axis=1)
y = car_sales_missing['Price'] 
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
cat_imputer = SimpleImputer(strategy='constant', fill_value='missing')
door_imputer = SimpleImputer(strategy='constant', fill_value=4)
num_imputer = SimpleImputer(strategy='mean')
cat_features = ['Make', 'Colour']
door_features = ['Doors']
num_features = ["Odometer (KM)"]
imputer = ColumnTransformer([("cat_imputer", cat_imputer, cat_features), 
                             ('door_imputer', door_imputer, door_features),
                             ('num_imputer', num_imputer, num_features)])
filled_X = imputer.fit_transform(X, dict)
X = pd.DataFrame(filled_X, columns=["Make", "Colour", "Doors", "Odometer (KM)"])
from sklearn.preprocessing import OneHotEncoder 
from sklearn.compose import ColumnTransformer
categorical_features = ['Make', 'Colour', 'Doors']
one_hot = OneHotEncoder()
transformer = ColumnTransformer([('one_hot', one_hot, categorical_features)], remainder='passthrough') 
transformed_X = transformer.fit_transform(X, dict) 
X = pd.DataFrame.sparse.from_spmatrix(transformed_X) # można pozmieniać nazwy kolumn używając parametru 'column=['nazwa1', ....]'
X

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,35431.0
1,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,192714.0
2,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,84714.0
3,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,154365.0
4,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,181577.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
945,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,35820.0
946,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,155144.0
947,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,66604.0
948,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,215883.0


# Wybór odpowiedniego modelu (algorytmu, estymatora) 

1. Classification estimaror - model wyboru (1 - 0), lub milti wyboru. Przykład heartr_disease, przewidywanie tak lub nie.
   Dane wejściowe: Klasyfikator przyjmuje jako dane wejściowe zbiór danych składający się z cech 'X'(atrybutów lub zmiennych) oraz odpowiadających im etykiet klas 'y'. Każda instancja w zbiorze danych jest reprezentowana przez zestaw cech.
   Klasyfikator, w kontekście uczenia maszynowego, to rodzaj algorytmu lub modelu używanego do klasyfikowania danych na różne kategorie lub klasy. Głównym celem klasyfikatora jest nauczenie się wzorców i zależności z danych oznakowanych (czyli danych z znanymi wynikami lub klasami) i następnie wykorzystanie tej wiedzy do przewidywania etykiet klas nowych, niewidzianych instancji.
   
2. Regresion estimatior - przewidywanie liczby. Przykład car_sales, przewidywanie ceny.
   Dane wejściowe: Estymator regresji przyjmuje zbiór danych zawierający cechy (zmienne niezależne) i odpowiadające im wartości ciągłe (zmienne zależne), które chcemy przewidzieć. Każda próbka w zbiorze danych jest reprezentowana przez zestaw cech i odpowiadającą jej wartość docelową.
   Estymator regresji w kontekście uczenia maszynowego odnosi się do rodzaju algorytmu lub modelu, który jest używany do przewidywania wartości ciągłej na podstawie danych wejściowych. Głównym celem estymatora regresji jest znalezienie zależności pomiędzy zmiennymi wejściowymi a zmienną wyjściową oraz przewidywanie wartości zmiennej wyjściowej dla nowych, niewidzianych danych.
   Przykłady estymatorów regresji obejmują regresję liniową, regresję wielomianową, regresję drzewa decyzyjnego, czy też bardziej zaawansowane modele, takie jak sieci neuronowe. Każdy z tych estymatorów ma swoje własne zalety i zastosowania, w zależności od charakterystyki danych i celu predykcji.

3. Clastering estymator - Estymator klasteryzacji w kontekście uczenia maszynowego odnosi się do rodzaju algorytmu lub modelu używanego do grupowania danych na podstawie ich podobieństwa. Głównym celem estymatora klasteryzacji jest podzielenie zbioru danych na grupy (klastry) tak, aby obiekty w tych amych grupach były sobie podobne, a obiekty w różnych grupach były od siebie różne.
    Estymatory klasteryzacji są powszechnie stosowane w wielu dziedzinach, takich jak analiza danych, przetwarzanie obrazu, biologia, marketing, czy też analiza finansowa. Są one szczególnie przydatne w sytuacjach, gdy nie mamy etykiet klas lub gdy chcemy odkryć strukturę w danych, która nie jest oczywista.

4. Dimensionary reduction estymator - Estymator redukcji wymiarowości w kontekście uczenia maszynowego odnosi się do rodzaju algorytmu lub modelu, który jest używany do zmniejszenia liczby cech (wymiarów) w zbiorze danych, zachowując jednocześnie istotne informacje. Głównym celem redukcji wymiarowości jest zmniejszenie złożoności danych poprzez eliminację zbędnych cech, redukcję szumu i uwydatnienie istotnych wzorców lub struktur.
    Estymatory redukcji wymiarowości są często stosowane do uproszczenia analizy danych, zwłaszcza w przypadku dużych zbiorów danych z wieloma cechami. Redukcja wymiarów może również pomóc w eliminacji nadmiaru informacji, co może prowadzić do lepszej generalizacji modeli i zmniejszenia ryzyka nadmiernego dopasowania

Mapa modeli https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
   

# Przykładowe dane do uczenia

https://scikit-learn.org/stable/datasets/real_world.html

In [28]:
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing() # pobranie danych 
housing # format dict

{'data': array([[   8.3252    ,   41.        ,    6.98412698, ...,    2.55555556,
           37.88      , -122.23      ],
        [   8.3014    ,   21.        ,    6.23813708, ...,    2.10984183,
           37.86      , -122.22      ],
        [   7.2574    ,   52.        ,    8.28813559, ...,    2.80225989,
           37.85      , -122.24      ],
        ...,
        [   1.7       ,   17.        ,    5.20554273, ...,    2.3256351 ,
           39.43      , -121.22      ],
        [   1.8672    ,   18.        ,    5.32951289, ...,    2.12320917,
           39.43      , -121.32      ],
        [   2.3886    ,   16.        ,    5.25471698, ...,    2.61698113,
           39.37      , -121.24      ]]),
 'target': array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894]),
 'frame': None,
 'target_names': ['MedHouseVal'],
 'feature_names': ['MedInc',
  'HouseAge',
  'AveRooms',
  'AveBedrms',
  'Population',
  'AveOccup',
  'Latitude',
  'Longitude'],
 'DESCR': '.. _california_housing_dataset:\n

In [29]:
housing_df = pd.DataFrame(housing['data'], columns=housing['feature_names']) # zamiana dict na df
housing_df

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25
...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32


In [30]:
housing_df['target'] = housing['target'] # dodanie kolumny wyjściowej
housing_df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


# Wybieranie odpowiedniego modelu dla REGRSION
https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

Próba 'Ridge' https://scikit-learn.org/stable/modules/linear_model.html#ridge-regression

In [31]:
from sklearn.linear_model import Ridge

# start random
np.random.seed(42)

# Xy dla modelu
X = housing_df.drop('target', axis=1)
y = housing_df['target'] # średnia cena za dom

# rozdzielenie na dane treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# utworzenie instancji i dopasowanie modelu
model = Ridge()
model.fit(X_train,  y_train)

# wyniki modelu
model.score(X_test, y_test) # Zwraca współczynnik determinacji predykcji.
# Współczynnik determinacji, często oznaczany jako R^2 (czytane "R-kwadrat"), 
# to miara statystyczna używana do oceny dopasowania modelu regresji. 
# Wskazuje on, jaka część wariancji zmiennej zależnej (przewidywanej zmiennej) 
# jest przewidywalna na podstawie zmiennych niezależnych (predyktorów) w modelu.
# Po prostu jest to wskaźnik (od 0. do 1.) na ile będzie przewidywalny wynik, na podstawie danych treningowych przetestowanych na danych testowych.

0.5758549611440134

Próba 'Lasso' https://scikit-learn.org/stable/modules/linear_model.html#lasso

In [32]:
from sklearn.linear_model import Lasso
model = Lasso()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.2841671821008349

Próba 'Elastic-Net' https://scikit-learn.org/stable/modules/linear_model.html#elastic-net

In [33]:
from sklearn.linear_model import ElasticNet
model = ElasticNet()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.41655189098028234

Próba 'Ensembles: Gradient boosting, random forests, bagging, voting, stacking' https://scikit-learn.org/stable/modules/ensemble.html

Metody zespołowe łączą przewidywania kilku podstawowych estymatorów zbudowanych przy użyciu danego algorytmu uczenia się w celu poprawy uogólnienia / odporności w porównaniu z pojedynczym estymatorem.

In [34]:
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.8051366551666577

In [35]:
from sklearn.ensemble import ExtraTreesRegressor
model = ExtraTreesRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.8070919014341604

In [36]:
from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.7756446042829698

In [37]:
from sklearn.ensemble import HistGradientBoostingRegressor
model = HistGradientBoostingRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.8377670370528512

In [38]:
from sklearn.ensemble import BaggingRegressor
model = BaggingRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.7836536756568447

In [39]:
from sklearn.ensemble import AdaBoostRegressor
model = AdaBoostRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.40928516364422163

# Wybieranie odpowiedniego modelu dla CLASSIFICATION
https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

In [40]:
heartr_disease = pd.read_csv('data/heart-disease.csv')
heartr_disease

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0


In [41]:
X = heartr_disease.drop('target', axis=1) # X = heartr_disease oprócz kolumny target (features matrix)
y = heartr_disease['target'] # y = kolumna target (labels)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### LinearSVC
https://scikit-learn.org/stable/modules/svm.html#classification

In [42]:
from sklearn.svm import LinearSVC

np.random.seed(42)

clf = LinearSVC(dual=False)
clf.fit(X_train, y_train)

clf.score(X_test, y_test) # tu wyszło ok ale u Daniela wyszło 0.4754...  

0.8688524590163934

### RandomForestClassifier

In [43]:
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=200)
clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.8360655737704918

### ExtraTreesClassifier

In [44]:
from sklearn.ensemble import ExtraTreesClassifier
clf = ExtraTreesClassifier()
clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.8524590163934426

### HistGradientBoostingClassifier

In [45]:
from sklearn.ensemble import HistGradientBoostingClassifier
clf = HistGradientBoostingClassifier()
clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.819672131147541

### GradientBoostingClassifier

In [46]:
from sklearn.ensemble import GradientBoostingClassifier
clf = GradientBoostingClassifier()
clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.7704918032786885

## Fit the model. Zbudowanie drzewa decyzyjnego ze zbioru uczącego (X, y).

In [48]:
np.random.seed(42)
heartr_disease = pd.read_csv('data/heart-disease.csv')
# rozdzielenie danych na wejściowe 'X' i wyjściowe 'y'
X = heartr_disease.drop('target', axis=1) # X = heartr_disease oprócz kolumny target (features matrix)
y = heartr_disease['target'] # y = kolumna target (labels)

# rozdzielenie danych na treningowe i testowe
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=100)
clf.fit(X_train, y_train)
clf.score(X_test, y_test)

0.84