In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# import sklearn
# sklearn.show_versions()

# import warnings
# warnings.filterwarnings('default') # będą warningi
# warnings.filterwarnings('ignore') # nie będą warningi

Dane do ML

In [2]:
heartr_disease = pd.read_csv('data/heart-disease.csv')
heartr_disease[:5]

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


Przygotowanie danych do modelu

In [3]:
X = heartr_disease.drop('target', axis=1) # X = heartr_disease oprócz kolumny target (features matrix)
y = heartr_disease['target'] # y = kolumna target (labels)

Wybranie odpowiedniego modelu i odpowiednich hiperparametrów

In [4]:
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()

# default hyperparameters
clf.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'monotonic_cst': None,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

Dopasowanie modelu do danych treningowych

In [5]:
from sklearn.model_selection import train_test_split

# rozdzielenie danych na treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)


In [6]:
clf.fit(X_train, y_train);

Make a prediction

In [7]:
y_preds = clf.predict(X_test)
y_preds

array([0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0], dtype=int64)

In [8]:
y_test.array

<NumpyExtensionArray>
[0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0,
 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0,
 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0,
 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0]
Length: 100, dtype: int64

Ocena modelu

In [9]:
clf.score(X_train, y_train) # trafność w uczeniu, przy dobraniu odpowiedniego modelu zawsze będzie 1

1.0

In [10]:
clf.score(X_test, y_test) # trafność testu, jakby było 1 to model jest idealny

0.82

In [11]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

In [12]:
print(classification_report(y_test, y_preds))

              precision    recall  f1-score   support

           0       0.79      0.79      0.79        42
           1       0.84      0.84      0.84        58

    accuracy                           0.82       100
   macro avg       0.82      0.82      0.82       100
weighted avg       0.82      0.82      0.82       100



In [13]:
confusion_matrix(y_test, y_preds)

array([[33,  9],
       [ 9, 49]], dtype=int64)

In [14]:
accuracy_score(y_test, y_preds)

0.82

Ulepszanie modelu. Wypróbuj różne ilości n_elementów

In [15]:
np.random.seed(42)
for i in range(10, 100, 10):
    print(f'Trying model with {i} estimators...')
    clf = RandomForestClassifier(n_estimators=i).fit(X_train, y_train)
    print(f'Model accuracy on test set: {clf.score(X_test, y_test) * 100:.2f}%')
    print("")


Trying model with 10 estimators...
Model accuracy on test set: 82.00%

Trying model with 20 estimators...
Model accuracy on test set: 82.00%

Trying model with 30 estimators...
Model accuracy on test set: 83.00%

Trying model with 40 estimators...
Model accuracy on test set: 84.00%

Trying model with 50 estimators...
Model accuracy on test set: 82.00%

Trying model with 60 estimators...
Model accuracy on test set: 81.00%

Trying model with 70 estimators...
Model accuracy on test set: 81.00%

Trying model with 80 estimators...
Model accuracy on test set: 81.00%

Trying model with 90 estimators...
Model accuracy on test set: 84.00%



### start nowego przykładu -----------------------------------------------------

# 1. Przygotowanie danych do uczenia maszynowego
    1. Rozdzielenie danych (features i labels) 'X' & 'y'
    2. Uzupełnienie lub usunięcie danych
    3. Zamiana danych nie numerycznych na numeryczne

In [16]:
heartr_disease.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [17]:
# w 'X' tablica bez 'target', dane wejściowe (features)
X = heartr_disease.drop('target', axis=1) # usuniecie kolumny 'target' (axis=1 -> kolumny, axis=0 -> wiersze)
X.head() # dane wejściowe

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2


In [18]:
# w 'y' dane wyjściowe (labels)
y = heartr_disease['target']
y.head() # dane wyjściowe

0    1
1    1
2    1
3    1
4    1
Name: target, dtype: int64

## Rozdzielenie danych na treningowe i testowe

In [19]:
from sklearn.model_selection import train_test_split

In [20]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((242, 13), (61, 13), (242,), (61,))

## Upewnienie się że wszystkie dane są numeryczne

Przykład na innych danych bo heartr_disease są numeryczne, więc użyta zostanie inna porcja danych.

In [21]:
car_sales = pd.read_csv('data/car-sales-extended.csv')
car_sales.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Honda,White,35431,4,15323
1,BMW,Blue,192714,5,19943
2,Honda,White,84714,4,28343
3,Toyota,White,154365,4,13434
4,Nissan,Blue,181577,3,14043


In [22]:
len(car_sales) # ile pozycji

1000

In [23]:
car_sales.dtypes # typy danych, w których widać że nie wszystkie są danymi numerycznymi

Make             object
Colour           object
Odometer (KM)     int64
Doors             int64
Price             int64
dtype: object

## Nie wszystkie dane car_sales są numeryczne

In [24]:
# rozdzielenie danych
X = car_sales.drop('Price', axis=1)
y = car_sales['Price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [25]:
# Próba stworzenia modelu, i ternowania, w celu zobrazowania błędu
# from sklearn.ensemble import RandomForestRegressor # przewidywanie liczby
# model = RandomForestRegressor() # stworzenie modelu
# model.fit(X_train, y_train) # trenowanie
# model.score(X_test, y_test) # test
# jeżeli dane w tabelach będą typu string a nie numeryczne to wywali "ValueError: could not convert string to float: 'BMW'"

## Pierwszy sposób zamiany stringów na numeryki

In [26]:
# zamiana na dane numeryczne
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

categorical_features = ['Make', 'Colour', 'Doors']
one_hot = OneHotEncoder()
transformer = ColumnTransformer([('one_hot', one_hot, categorical_features)], remainder='passthrough')
transformed_X = transformer.fit_transform(X)
#transformed_X

In [27]:
X[:10]

Unnamed: 0,Make,Colour,Odometer (KM),Doors
0,Honda,White,35431,4
1,BMW,Blue,192714,5
2,Honda,White,84714,4
3,Toyota,White,154365,4
4,Nissan,Blue,181577,3
5,Honda,Red,42652,4
6,Toyota,Blue,163453,4
7,Honda,White,43120,4
8,Nissan,White,130538,4
9,Honda,Blue,51029,4


In [28]:
pd.DataFrame(transformed_X)[:10] # 0, 1, 2, 3 (Make) 4, 5, 6, 7 ,8 (Colour) 9, 10 ,11 (Doors) 

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,35431.0
1,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,192714.0
2,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,84714.0
3,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,154365.0
4,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,181577.0
5,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,42652.0
6,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,163453.0
7,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,43120.0
8,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,130538.0
9,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,51029.0


Zamiana nazw na reprezentacje 1 - 0, kategorie np: Honda, BMW, Toyota, Nissan dostają swoje kolumny, jeżeli są to 1 jak nie to 0 (OneHotEncoding)

## Drugi sposób na zamiane stringów na numeryki

In [29]:
# całkiem niezależna funkcja od tego co się działo wyżej, tylko dors się nie zamienił, trzeba by było liczby zamienić na stringi
# Konwersja zmiennych kategorycznych na zmienne obojętne/wskaźniki.
dummies = pd.get_dummies(car_sales[['Make', 'Colour', 'Doors']]) # zamiana tabeli na czytelną
dummies.head()

Unnamed: 0,Doors,Make_BMW,Make_Honda,Make_Nissan,Make_Toyota,Colour_Black,Colour_Blue,Colour_Green,Colour_Red,Colour_White
0,4,False,True,False,False,False,False,False,False,True
1,5,True,False,False,False,False,True,False,False,False
2,4,False,True,False,False,False,False,False,False,True
3,4,False,False,False,True,False,False,False,False,True
4,3,False,False,True,False,False,True,False,False,False


In [30]:
# korzystając z nowych danych uczymy od nowa (dane z pierwszego sposobu)
from sklearn.ensemble import RandomForestRegressor
X_train, X_test, y_train, y_test = train_test_split(transformed_X, y, test_size=0.2, random_state=42)
clf = RandomForestRegressor()
clf.fit(X_train, y_train)

In [31]:
clf.score(X_test, y_test)

0.3166234663228813

## Co jak nie ma wszystkich wartości danych?
1. Wypełnić brakujące dane (jak jesteśmy w stanie przewidzieć te dane).
2. Usunąć wiersze z brkującymi danymi (jak mamy wystarczojącą ilość danych żeby nie zepsuć uczenia).

In [32]:
car_sales_missing = pd.read_csv('data/car-sales-extended-missing-data.csv')
car_sales_missing[:10]

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Honda,White,35431.0,4.0,15323.0
1,BMW,Blue,192714.0,5.0,19943.0
2,Honda,White,84714.0,4.0,28343.0
3,Toyota,White,154365.0,4.0,13434.0
4,Nissan,Blue,181577.0,3.0,14043.0
5,Honda,Red,42652.0,4.0,23883.0
6,Toyota,Blue,163453.0,4.0,8473.0
7,Honda,White,,4.0,20306.0
8,,White,130538.0,4.0,9374.0
9,Honda,Blue,51029.0,4.0,26683.0


In [33]:
car_sales_missing.isna().sum() # wyświetlenie ile i gdzie brakuje danych (kolumna i ilość)

Make             49
Colour           50
Odometer (KM)    50
Doors            50
Price            50
dtype: int64

In [34]:
# rozdzielenie danych, na wejściowe i wyjściowe
X = car_sales_missing.drop('Price', axis=1)
y = car_sales_missing['Price']
X[:10]

Unnamed: 0,Make,Colour,Odometer (KM),Doors
0,Honda,White,35431.0,4.0
1,BMW,Blue,192714.0,5.0
2,Honda,White,84714.0,4.0
3,Toyota,White,154365.0,4.0
4,Nissan,Blue,181577.0,3.0
5,Honda,Red,42652.0,4.0
6,Toyota,Blue,163453.0,4.0
7,Honda,White,,4.0
8,,White,130538.0,4.0
9,Honda,Blue,51029.0,4.0


In [35]:
# zamiana na dane numeryczne
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

categorical_features = ['Make', 'Colour', 'Doors']
one_hot = OneHotEncoder()
transformer = ColumnTransformer([('one_hot', one_hot, categorical_features)], remainder='passthrough')
transformed_X = transformer.fit_transform(X)
pd.DataFrame(transformed_X)[:10]

Unnamed: 0,0
0,"(0, 1)\t1.0\n (0, 9)\t1.0\n (0, 12)\t1.0\n..."
1,"(0, 0)\t1.0\n (0, 6)\t1.0\n (0, 13)\t1.0\n..."
2,"(0, 1)\t1.0\n (0, 9)\t1.0\n (0, 12)\t1.0\n..."
3,"(0, 3)\t1.0\n (0, 9)\t1.0\n (0, 12)\t1.0\n..."
4,"(0, 2)\t1.0\n (0, 6)\t1.0\n (0, 11)\t1.0\n..."
5,"(0, 1)\t1.0\n (0, 8)\t1.0\n (0, 12)\t1.0\n..."
6,"(0, 3)\t1.0\n (0, 6)\t1.0\n (0, 12)\t1.0\n..."
7,"(0, 1)\t1.0\n (0, 9)\t1.0\n (0, 12)\t1.0\n..."
8,"(0, 4)\t1.0\n (0, 9)\t1.0\n (0, 12)\t1.0\n..."
9,"(0, 1)\t1.0\n (0, 6)\t1.0\n (0, 12)\t1.0\n..."


# Coś poszło nie tak, to pewnie przez NaN

### 1. Wypełnianie danych przy pomocy pandas

In [36]:
car_sales_missing['Make'].fillna('missing', inplace=True) # wypełnienie wszystkich NaN w kolumnie Make 'missing'
car_sales_missing['Colour'].fillna('missing', inplace=True) 
car_sales_missing['Doors'].fillna(4, inplace=True) 
car_sales_missing["Odometer (KM)"].fillna(car_sales_missing["Odometer (KM)"].mean(), inplace=True) 

In [37]:
car_sales_missing.isna().sum() # wyświetlenie ile i gdzie brakuje danych (kolumna i ilość)

Make              0
Colour            0
Odometer (KM)     0
Doors             0
Price            50
dtype: int64

### Usunięcie wierszy z brakującą ceną

In [38]:
car_sales_missing.dropna(inplace=True)
car_sales_missing.isna().sum() 

Make             0
Colour           0
Odometer (KM)    0
Doors            0
Price            0
dtype: int64

In [39]:
len(car_sales_missing)

950

In [40]:
X = car_sales_missing.drop('Price', axis=1)
y = car_sales_missing['Price']
X[:10]

Unnamed: 0,Make,Colour,Odometer (KM),Doors
0,Honda,White,35431.0,4.0
1,BMW,Blue,192714.0,5.0
2,Honda,White,84714.0,4.0
3,Toyota,White,154365.0,4.0
4,Nissan,Blue,181577.0,3.0
5,Honda,Red,42652.0,4.0
6,Toyota,Blue,163453.0,4.0
7,Honda,White,131253.237895,4.0
8,missing,White,130538.0,4.0
9,Honda,Blue,51029.0,4.0


In [41]:
# zamiana na dane numeryczne
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

categorical_features = ['Make', 'Colour', 'Doors']
one_hot = OneHotEncoder()
transformer = ColumnTransformer([('one_hot', one_hot, categorical_features)], remainder='passthrough')
transformed_X = transformer.fit_transform(car_sales_missing)
pd.DataFrame(transformed_X)[:10]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,35431.0,15323.0
1,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,192714.0,19943.0
2,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,84714.0,28343.0
3,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,154365.0,13434.0
4,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,181577.0,14043.0
5,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,42652.0,23883.0
6,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,163453.0,8473.0
7,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,131253.237895,20306.0
8,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,130538.0,9374.0
9,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,51029.0,26683.0


### 2. Wypełnienie danych przy użyciu Scikit-Learn

In [42]:
# ładujemy i od nowa
car_sales_missing = pd.read_csv('data/car-sales-extended-missing-data.csv')
car_sales_missing[:10]

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Honda,White,35431.0,4.0,15323.0
1,BMW,Blue,192714.0,5.0,19943.0
2,Honda,White,84714.0,4.0,28343.0
3,Toyota,White,154365.0,4.0,13434.0
4,Nissan,Blue,181577.0,3.0,14043.0
5,Honda,Red,42652.0,4.0,23883.0
6,Toyota,Blue,163453.0,4.0,8473.0
7,Honda,White,,4.0,20306.0
8,,White,130538.0,4.0,9374.0
9,Honda,Blue,51029.0,4.0,26683.0


In [43]:
car_sales_missing.isna().sum() 

Make             49
Colour           50
Odometer (KM)    50
Doors            50
Price            50
dtype: int64

In [44]:
 # usunięcie wierszy ale tylko tych gdzie brakuje w kolumnie 'Price' danych
car_sales_missing.dropna(subset=['Price'], inplace=True)
car_sales_missing.isna().sum() 

Make             47
Colour           46
Odometer (KM)    48
Doors            47
Price             0
dtype: int64

In [45]:
# rozdzielenie wejściowych i wyjściowych
X = car_sales_missing.drop('Price', axis=1)
y = car_sales_missing['Price']
X[:10]

Unnamed: 0,Make,Colour,Odometer (KM),Doors
0,Honda,White,35431.0,4.0
1,BMW,Blue,192714.0,5.0
2,Honda,White,84714.0,4.0
3,Toyota,White,154365.0,4.0
4,Nissan,Blue,181577.0,3.0
5,Honda,Red,42652.0,4.0
6,Toyota,Blue,163453.0,4.0
7,Honda,White,,4.0
8,,White,130538.0,4.0
9,Honda,Blue,51029.0,4.0


In [46]:
y[:10]

0    15323.0
1    19943.0
2    28343.0
3    13434.0
4    14043.0
5    23883.0
6     8473.0
7    20306.0
8     9374.0
9    26683.0
Name: Price, dtype: float64

In [47]:
# wypełnianie przy pomocy Scikit-Learn
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
# fill categorial values with 'missing' & numerical values with mean
cat_imputer = SimpleImputer(strategy='constant', fill_value='missing')
door_imputer = SimpleImputer(strategy='constant', fill_value=4)
num_imputer = SimpleImputer(strategy='mean')
# define columns
cat_features = ['Make', 'Colour']
door_features = ['Doors']
num_features = ["Odometer (KM)"]
# create imputer
imputer = ColumnTransformer([("cat_imputer", cat_imputer, cat_features), 
                             ('door_imputer', door_imputer, door_features),
                            ('num_imputer', num_imputer, num_features)])
# transform data
filled_X = imputer.fit_transform(X)
filled_X[:10]

array([['Honda', 'White', 4.0, 35431.0],
       ['BMW', 'Blue', 5.0, 192714.0],
       ['Honda', 'White', 4.0, 84714.0],
       ['Toyota', 'White', 4.0, 154365.0],
       ['Nissan', 'Blue', 3.0, 181577.0],
       ['Honda', 'Red', 4.0, 42652.0],
       ['Toyota', 'Blue', 4.0, 163453.0],
       ['Honda', 'White', 4.0, 130987.44789356984],
       ['missing', 'White', 4.0, 130538.0],
       ['Honda', 'Blue', 4.0, 51029.0]], dtype=object)

In [48]:
car_sales_filled = pd.DataFrame(filled_X,
                               columns=['Make', 'Colour', 'Doors', "Odometer (KM)"])
car_sales_filled[:10]

Unnamed: 0,Make,Colour,Doors,Odometer (KM)
0,Honda,White,4.0,35431.0
1,BMW,Blue,5.0,192714.0
2,Honda,White,4.0,84714.0
3,Toyota,White,4.0,154365.0
4,Nissan,Blue,3.0,181577.0
5,Honda,Red,4.0,42652.0
6,Toyota,Blue,4.0,163453.0
7,Honda,White,4.0,130987.447894
8,missing,White,4.0,130538.0
9,Honda,Blue,4.0,51029.0


In [49]:
car_sales_filled.isna().sum() 

Make             0
Colour           0
Doors            0
Odometer (KM)    0
dtype: int64

In [50]:
# zamiana na dane numeryczne
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

categorical_features = ['Make', 'Colour', 'Doors']
one_hot = OneHotEncoder()
transformer = ColumnTransformer([('one_hot', one_hot, categorical_features)], remainder='passthrough')
transformed_X = transformer.fit_transform(car_sales_filled)
transformed_X

<950x15 sparse matrix of type '<class 'numpy.float64'>'
	with 3800 stored elements in Compressed Sparse Row format>

In [51]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(transformed_X, y, test_size=0.2, random_state=10)
clf = RandomForestRegressor(n_estimators=100)
clf.fit(X_train, y_train)

In [52]:
clf.score(X_test, y_test)

0.3099340943527099

# Wybór odpowiedniego modelu (algorytmu, estymatora) 

1. Classification estimaror - model wyboru (1 - 0), lub milti wyboru. Przykład heartr_disease, przewidywanie tak lub nie.
   Dane wejściowe: Klasyfikator przyjmuje jako dane wejściowe zbiór danych składający się z cech 'X'(atrybutów lub zmiennych) oraz odpowiadających im etykiet klas 'y'. Każda instancja w zbiorze danych jest reprezentowana przez zestaw cech.
   Klasyfikator, w kontekście uczenia maszynowego, to rodzaj algorytmu lub modelu używanego do klasyfikowania danych na różne kategorie lub klasy. Głównym celem klasyfikatora jest nauczenie się wzorców i zależności z danych oznakowanych (czyli danych z znanymi wynikami lub klasami) i następnie wykorzystanie tej wiedzy do przewidywania etykiet klas nowych, niewidzianych instancji.
   
2. Regresion estimatior - przewidywanie liczby. Przykład car_sales, przewidywanie ceny.
   Dane wejściowe: Estymator regresji przyjmuje zbiór danych zawierający cechy (zmienne niezależne) i odpowiadające im wartości ciągłe (zmienne zależne), które chcemy przewidzieć. Każda próbka w zbiorze danych jest reprezentowana przez zestaw cech i odpowiadającą jej wartość docelową.
   Estymator regresji w kontekście uczenia maszynowego odnosi się do rodzaju algorytmu lub modelu, który jest używany do przewidywania wartości ciągłej na podstawie danych wejściowych. Głównym celem estymatora regresji jest znalezienie zależności pomiędzy zmiennymi wejściowymi a zmienną wyjściową oraz przewidywanie wartości zmiennej wyjściowej dla nowych, niewidzianych danych.
   Przykłady estymatorów regresji obejmują regresję liniową, regresję wielomianową, regresję drzewa decyzyjnego, czy też bardziej zaawansowane modele, takie jak sieci neuronowe. Każdy z tych estymatorów ma swoje własne zalety i zastosowania, w zależności od charakterystyki danych i celu predykcji.

3. Clastering estymator - Estymator klasteryzacji w kontekście uczenia maszynowego odnosi się do rodzaju algorytmu lub modelu używanego do grupowania danych na podstawie ich podobieństwa. Głównym celem estymatora klasteryzacji jest podzielenie zbioru danych na grupy (klastry) tak, aby obiekty w tych amych grupach były sobie podobne, a obiekty w różnych grupach były od siebie różne.
    Estymatory klasteryzacji są powszechnie stosowane w wielu dziedzinach, takich jak analiza danych, przetwarzanie obrazu, biologia, marketing, czy też analiza finansowa. Są one szczególnie przydatne w sytuacjach, gdy nie mamy etykiet klas lub gdy chcemy odkryć strukturę w danych, która nie jest oczywista.

4. Dimensionary reduction estymator - Estymator redukcji wymiarowości w kontekście uczenia maszynowego odnosi się do rodzaju algorytmu lub modelu, który jest używany do zmniejszenia liczby cech (wymiarów) w zbiorze danych, zachowując jednocześnie istotne informacje. Głównym celem redukcji wymiarowości jest zmniejszenie złożoności danych poprzez eliminację zbędnych cech, redukcję szumu i uwydatnienie istotnych wzorców lub struktur.
    Estymatory redukcji wymiarowości są często stosowane do uproszczenia analizy danych, zwłaszcza w przypadku dużych zbiorów danych z wieloma cechami. Redukcja wymiarów może również pomóc w eliminacji nadmiaru informacji, co może prowadzić do lepszej generalizacji modeli i zmniejszenia ryzyka nadmiernego dopasowania

Mapa modeli https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
   

# Przykładowe dane do uczenia

https://scikit-learn.org/stable/datasets/real_world.html

In [60]:
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing() # pobranie danych 
housing # format dict

{'data': array([[   8.3252    ,   41.        ,    6.98412698, ...,    2.55555556,
           37.88      , -122.23      ],
        [   8.3014    ,   21.        ,    6.23813708, ...,    2.10984183,
           37.86      , -122.22      ],
        [   7.2574    ,   52.        ,    8.28813559, ...,    2.80225989,
           37.85      , -122.24      ],
        ...,
        [   1.7       ,   17.        ,    5.20554273, ...,    2.3256351 ,
           39.43      , -121.22      ],
        [   1.8672    ,   18.        ,    5.32951289, ...,    2.12320917,
           39.43      , -121.32      ],
        [   2.3886    ,   16.        ,    5.25471698, ...,    2.61698113,
           39.37      , -121.24      ]]),
 'target': array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894]),
 'frame': None,
 'target_names': ['MedHouseVal'],
 'feature_names': ['MedInc',
  'HouseAge',
  'AveRooms',
  'AveBedrms',
  'Population',
  'AveOccup',
  'Latitude',
  'Longitude'],
 'DESCR': '.. _california_housing_dataset:\n

In [68]:
housing_df = pd.DataFrame(housing['data'], columns=housing['feature_names']) # zamiana dict na df
housing_df

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25
...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32


In [70]:
housing_df['target'] = housing['target'] # dodanie kolumny wyjściowej
housing_df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal,target
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422,3.422


In [71]:
housing_df = housing_df.drop('MedHouseVal', axis=1)
housing_df

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
...,...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09,0.781
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21,0.771
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22,0.923
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32,0.847


# Wybieranie odpowiedniego modelu dla REGRSION

Próba 'Ridge' https://scikit-learn.org/stable/modules/linear_model.html#ridge-regression

In [75]:
from sklearn.linear_model import Ridge

# start random
np.random.seed(42)

# Xy dla modelu
X = housing_df.drop('target', axis=1)
y = housing_df['target'] # średnia cena za dom

# rozdzielenie na dane treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# utworzenie instancji i dopasowanie modelu
model = Ridge()
model.fit(X_train,  y_train)

# wyniki modelu
model.score(X_test, y_test) # Zwraca współczynnik determinacji predykcji.
# Współczynnik determinacji, często oznaczany jako R^2 (czytane "R-kwadrat"), 
# to miara statystyczna używana do oceny dopasowania modelu regresji. 
# Wskazuje on, jaka część wariancji zmiennej zależnej (przewidywanej zmiennej) 
# jest przewidywalna na podstawie zmiennych niezależnych (predyktorów) w modelu.
# Po prostu jest to wskaźnik (od 0. do 1.) na ile będzie przewidywalny wynik, na podstawie danych treningowych przetestowanych na danych testowych.

0.5758549611440134

Próba 'Lasso' https://scikit-learn.org/stable/modules/linear_model.html#lasso

In [76]:
from sklearn.linear_model import Lasso
model = Lasso()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.2841671821008349

Próba 'Elastic-Net' https://scikit-learn.org/stable/modules/linear_model.html#elastic-net

In [77]:
from sklearn.linear_model import ElasticNet
model = ElasticNet()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.41655189098028234

Próba 'Ensembles: Gradient boosting, random forests, bagging, voting, stacking' https://scikit-learn.org/stable/modules/ensemble.html

Metody zespołowe łączą przewidywania kilku podstawowych estymatorów zbudowanych przy użyciu danego algorytmu uczenia się w celu poprawy uogólnienia / odporności w porównaniu z pojedynczym estymatorem.

In [83]:
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.8072258284841614

In [82]:
from sklearn.ensemble import ExtraTreesRegressor
model = ExtraTreesRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.8076574328274431

In [84]:
from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.7755824521517652

In [85]:
from sklearn.ensemble import HistGradientBoostingRegressor
model = HistGradientBoostingRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.8347222449947175

In [86]:
from sklearn.ensemble import BaggingRegressor
model = BaggingRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.7824246672050419

In [89]:
from sklearn.ensemble import AdaBoostRegressor
model = AdaBoostRegressor()
model.fit(X_train,  y_train)
model.score(X_test, y_test)

0.3620492772021615

# Wybieranie odpowiedniego modelu dla CLASSIFICATION