# Nauczanie Maszynowe

## Dzień 1

### 0. Wprowadzenie
  - Prowadzący: dr Michał Korzycki
  - Kwestie Organizacyjne
  - Ankieta początkowa

### 1. Co to jest uczenie maszynowe?
  - Statystyka a uczenie maszynowe
  - Rodzaje problemów
  - Przykładowe metody
  - Rodzaje błędów popełnianych przez algorytmy
  - Ekosystem uczenia maszynowego w Pythonie

### 2. Regresja liniowa

  - Najprostsza metoda predykcyjna
  - Od jednej zmiennej do wielu
  - Wstępna obróbka danych
  - Walidacja predykcji
  - Interpretacja ważności parametrów

### 3. Regresja logistyczna

  - Przewidywanie kategorii
  - Różnica pomiędzy klasyfikacją a regresją
  - Walidacja predykcji
  - Interpretacja ważności parametrów

### 4. Klasyfikacja, użycie drzew 

  - Jako ogólna metoda do klasyfikacji
  - Kluczowe różnice pomiędzy metodami liniowymi
  - Zjawisko przeuczania (overfitting) i jak mu przeciwdziałać

### 5. Inżyniera cech

  - Operacje na prostych wartościach
  - Wygładzanie Laplace'a
  - Skalowanie wartości
  - Zmienne kategoryczne


## Dzień 2

1. Walidacja krzyżowa
2. Hiperparametry i Grid Search
3. Drzewa Losowe
4. XGBoost

## Dzień 3

1. Projekt
2. Otwarte tematy

---


# 1. Co to jest nauczanie maszynowe

## Statystyka a Nauczanie Maszynowe

![a](img/ml.webp)


https://www.instagram.com/sandserifcomics/

![](img\danger.png)

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram


- __*Statystyka*__ zajmuje się __*opisem*__ danych
- __*Nauczanie maszynowe*__ zajmuje się __*predykcją*__


># Uczenie maszynowe, samouczenie się maszyn albo systemy uczące się (ang. machine learning) – obszar sztucznej inteligencji poświęcony algorytmom, które poprawiają się automatycznie poprzez doświadczenie

# Podział Sztucznej inteligencji ze względu na narzędzia:

![AI](img\AI1.png)


https://en.wikipedia.org/wiki/Machine_learning

---
## Ekosystem uczenia maszynowego w Pythonie

- Jupyter - jako środowisko pracy
  - Alternatywa: Google Collab
  - Wersja: Anaconda - duży pakiet
- Scikit Learn - jako biblioteka do nauczania maszynowego
  - Alternatywa: TensorFlow do algorytmów opartych o Sieci Neuronowe

---

# Rodzaje problemów w Nauczaniu Maszynowym

- Nauczanie z nadzorem (_supervised_)
- Nauczanie bez nadzoru (_unsupervised_)
- Nauczanie ze wzmocnieniem (_reinforcement_)

## Nauczanie Maszynowe bez nadzoru
- Przykłady problemów:
  - Klasteryzacja
  - Reguły asocjacyjne
  - Algorytmy rekomendacyjne

## <span style="color: cyan">Nauczanie Maszynowe z nadzorem</span>
- <span style="color: cyan">__*Klasyfikacja*__</span> 
    - rozpoznawanie kategorii: 
      - np. chory/zdrowy, spam/nie-spam
    - wynikiem jest __*kategoria*__</span>
- <span style="color: cyan">__*Regresja*__</span>
    - interpolacja/ekstrapolacja funcji ciągłej 
      - np. predykcja ceny na podstawie parametrów
    - wynikiem jest __*wartość*__

---
​
### Nauczanie Maszynowe z nadzorem

Dla zmiennych tłumaczących `X` szukamy funkcji `f` która jak najlepiej odzwierciedli nam dane tłumaczone `y`
​
$$ 
y \approx f (X)
$$
​


# Rodzaje błędów popełnianych przez algorytmy

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
plt.figure(figsize=(10,6))
plt.style.use("dark_background")
x = np.linspace(-1, 1, 10)
plt.scatter(x, x-0.5*np.abs(x));

In [None]:
plt.figure(figsize=(10,6))
plt.style.use("dark_background")
x = np.linspace(-1, 1, 10)
plt.scatter(x, x-0.5*np.abs(x))

x = np.linspace(-1, 1, 100)
plt.plot(x, x-0.6*x*x, color="g");

In [None]:
plt.figure(figsize=(10,6))
x = np.linspace(-1, 1, 10)
plt.scatter(x, x-0.5*np.abs(x));

x = np.linspace(-1, 1, 100)
plt.plot(x, x-0.6*x*x, color="g")
plt.plot(x, .75*x-0.3, color="y");

In [None]:
plt.figure(figsize=(10,6))
x = np.linspace(-10, 10, 50)
plt.scatter(x, x-0.5*np.abs(x))

x = np.linspace(-10, 10, 100)
plt.plot(x, x-0.6*x*x, color="g")
plt.plot(x, 0.75*x-0.3, color="y");

## Kompromis między obciążeniem a wariancją
### ang. *bias-variance tradeoff*

# $$Bias~[~\hat{f}(x)~] = E~[~\hat{f}(x)~] - f(x)$$


# $$Var~[~\hat{f}(x)~] = E~[~\hat{f}(x)^2~] - E~[~\hat{f}(x)~]^2$$

https://pl.wikipedia.org/wiki/Kompromis_mi%C4%99dzy_obci%C4%85%C5%BCeniem_a_wariancj%C4%85

In [None]:
import pandas as pd

def color_green_red(val):
    color = 'red' if val.find('False') > -1 else 'green'
    return 'color: %s' % color

data = {"prediction": ["positive", "negative"], "positive": ["True Positive", "False Negative"], "negative": ["False Positive", "True Negative"] }
df = pd.DataFrame(data).set_index("prediction")
df.columns=pd.MultiIndex.from_tuples([("actual", "positive"), ("actual", "negative")])
df.style.applymap(color_green_red)



## Jak sobie z tym radzi Nauczanie Maszynowe ? Stosując:
- #### Regularyzacje (prostsze modele)
- #### Sprawdzian kryżowy (__*cross-validation*__)
- #### Bagging/Boosting
- #### Metody Zespołowe
- #### Optymalizacja kreyteriów informacyjnych
- #### Etc. Etc.


---
# 2. Regresja liniowa

  - Najprostsza metoda predykcyjna
  - Od jednej zmiennej do wielu
  - Wstępna obróbka danych
  - Walidacja predykcji
  - Interpretacja ważności parametrów

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

## Proces nauczania w Machine Learning

1. Przygotowanie danych
2. Podział danych
3. Budowanie modelu
4. Test dokładności

In [None]:
import pandas as pd

houses = pd.read_csv("data/houses/train.csv")
houses

In [None]:
houses["SalePrice"].describe()

In [None]:
houses["GrLivArea"].describe()

In [None]:
houses["TotalBsmtSF"].describe()

In [None]:
houses["OverallQual"].describe()

# $ y = \epsilon + \beta X $

## $ \epsilon$ - intercept 
## $ \beta$ - coefficients


In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

In [None]:
X = houses[["GrLivArea", "TotalBsmtSF"]]

In [None]:
X

In [None]:
y = houses["SalePrice"]

In [None]:
y

In [None]:
reg = LinearRegression().fit(X, y)

In [None]:
reg.coef_

In [None]:
reg.intercept_

In [None]:
reg.predict(np.array([[1515.463699, 1057.429452]]))

# Scoring

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.1)

In [None]:
reg = LinearRegression().fit(X_train, y_train)

In [None]:
reg.coef_

In [None]:
reg.intercept_

In [None]:
reg.score(X_test, y_test)

---
# <span style="color: magenta">Ćwiczenie - dodać jakość nieruchomości i sprawdzić czy score się poprawił</span>
---

## 3. Regresja logistyczna¶
 - Przewidywanie kategorii
 - Różnica pomiędzy klasyfikacją a regresją
 - Walidacja predykcji
 - Interpretacja ważności parametrów

# $$ p(x) = \frac{1}{1+e^{-(\epsilon + \beta x)}} $$

In [None]:
import numpy as np

plt.figure(figsize=(10,6))
plt.style.use("dark_background")
x = np.linspace(-1, 1, 100)
plt.plot(x, 1/(1+np.exp(-(0+6*x))), color="g");

In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.decomposition import PCA

# import some data to play with
iris = datasets.load_iris()
X = iris.data[:, :2]  # we only take the first two features.
y = iris.target

x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5



fig = plt.figure(1, figsize=(8, 6))
ax = Axes3D(fig, elev=-150, azim=110)
X_reduced = PCA(n_components=3).fit_transform(iris.data)
ax.scatter(X_reduced[:, 0], X_reduced[:, 1], X_reduced[:, 2], c=y,
           cmap=plt.cm.Set1, edgecolor='k', s=40)
ax.set_title("First three PCA directions")
ax.set_xlabel("1st eigenvector")
ax.w_xaxis.set_ticklabels([])
ax.set_ylabel("2nd eigenvector")
ax.w_yaxis.set_ticklabels([])
ax.set_zlabel("3rd eigenvector")
ax.w_zaxis.set_ticklabels([])

plt.show();

In [None]:
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

X, y = load_iris(return_X_y=True)
clf = LogisticRegression(random_state=0).fit(X, y)
clf.predict(X[:2, :])

In [None]:
clf.predict_proba(X[:2, :])

---
# 4. Klasyfikacja, użycie drzew
 - Jako ogólna metoda do klasyfikacji
 - Kluczowe różnice pomiędzy metodami liniowymi
 - Zjawisko przeuczania (overfitting) i jak mu przeciwdziałać

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn import tree

clf = tree.DecisionTreeClassifier(random_state=0)
iris = load_iris()
X, y = load_iris(return_X_y=True)
clf = clf.fit(X, y)
plt.figure(figsize=(18,12))
tree.plot_tree(clf)
plt.show()

![PrecisionRecall](img\Precisionrecall.svg.png)


https://en.wikipedia.org/wiki/Precision_and_recall

Przykład:
    
- 990 "ham"
- 10 "spam"


Accuracy - dokładność - % prawidłowych odpowiedzi

- "Wszystko ham" - 99%

Precision - precyzja - jaki % poprawności odpowiedzi (błedy pierwszego rodzaju)

- "Wszystko ham" - 99% w ham, 0% w spam

Recall - zupełność - jaki % poprawnych znalazł (błedy pierwszego rodzaju)

- "Wszystko ham" - 100% w ham, 0% w spam

https://www.kaggle.com/uciml/sms-spam-collection-dataset

In [None]:
import pandas as pd
df = pd.read_csv('data/spam.csv', encoding='ISO-8859-1')

In [None]:
df.head()

In [None]:
df.rename(columns = {'v1':'class_label', 'v2':'message'}, inplace = True)
df.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis = 1, inplace = True)
df

In [None]:
df['class_label'].value_counts()

In [None]:
import matplotlib.pyplot as ab
import numpy as np
labels = ['ham', 'spam']
counts = [4825, 747]
ypos = np.arange(len(labels)) #converting text labels to numberic value, 0 and 1
ypos

In [None]:
ab.xticks(ypos, labels)
ab.xlabel("class label")
ab.ylabel("Frequency")
ab.title("# of spam and ham in dataset")
ab.bar(ypos, counts, color=["g", "r"]);

In [None]:
df['class_label'] = df['class_label'].apply(lambda x: 1 if x == 'spam' else 0)

In [None]:
df.head()

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(df['message'], df['class_label'], test_size = 0.3, random_state = 0)

In [None]:
print('rows in test set: ' + str(x_test.shape))
print('rows in train set: ' + str(x_train.shape))

In [None]:
df_class_0 = df[df['class_label']==0]
df_class_1 = df[df['class_label']==1]

In [None]:
df_class_0.shape

In [None]:
df_class_1.shape

In [None]:
df_class_0_test = df_class_0.sample(100)
df_class_1_test = df_class_1.sample(100)
df_class_0 = df_class_0.drop(df_class_0_test.index)
df_class_1 = df_class_1.drop(df_class_1_test.index)

In [None]:
df_class_0_test.shape

In [None]:
df_class_1_test.shape

In [None]:
df_class_0.shape

In [None]:
df_class_1.shape

In [None]:
df_test = pd.concat([df_class_0_test, df_class_1_test], axis=0)

In [None]:
df_not_over = pd.concat([df_class_0, df_class_1], axis=0)

## Robimy OVERSAMPLING (dokładamy do mniejszej klasy powielone wartości)
#### moglibyśmy zrobić UNDERSAMPLING (usuwamy z większej klasy)
#### albo wogóle dołożyć SYNTETYCZNE dane ("sztuczne")

In [None]:
df_class_1_over = df_class_1.sample(df_class_0.shape[0], replace=True)
df_over = pd.concat([df_class_0, df_class_1_over], axis=0)

print('Random over-sampling:')
print(df_over.class_label.value_counts())

df_over.class_label.value_counts().plot(kind='bar', title="# of spam and ham in dataset", color=["g", "r"]);

---
## Klasyfikacja niezbalansowanych zbiorów

In [None]:
x_train=df_not_over['message']
y_train=df_not_over['class_label']
x_test = df_test["message"]
y_test = df_test["class_label"]

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

data = x_train.tolist()

vectorizer = TfidfVectorizer(
input= data ,  
lowercase=True,      
stop_words='english',
min_df=2
)

features_train_transformed = vectorizer.fit_transform(data)  
features_test_transformed  = vectorizer.transform(x_test) 
df_vectorized = pd.DataFrame(features_train_transformed.toarray(), columns = vectorizer.get_feature_names())
df_vectorized

In [None]:
from sklearn.naive_bayes import MultinomialNB


classifier = MultinomialNB()
classifier.fit(features_train_transformed, y_train)

In [None]:
print("classifier accuracy {:.2f}%".format(classifier.score(features_test_transformed, y_test) * 100))

In [None]:
labels = classifier.predict(features_test_transformed)
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
actual = y_test.tolist()
predicted = labels
results = confusion_matrix(actual, predicted)
print('Confusion Matrix :')
print(results)
print ('Accuracy Score :',accuracy_score(actual, predicted))
print ('Report : ')
print (classification_report(actual, predicted) )
score_2 = f1_score(actual, predicted, average = 'binary')
print('F-Measure: %.3f' % score_2)

In [None]:
import seaborn as sns
group_names = ['True Neg','False Pos','False Neg','True Pos']
group_counts = ["{0:0.0f}".format(value) for value in
                results.flatten()]
group_percentages = ["{0:.2%}".format(value) for value in
                     results.flatten()/np.sum(results)]
labels = [f"{v1}\n{v2}\n{v3}" for v1, v2, v3 in
          zip(group_names,group_counts,group_percentages)]
labels = np.asarray(labels).reshape(2,2)
sns.heatmap(results, annot=labels, fmt='', cmap='Reds');

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(df['message'], df['class_label'], test_size = 0.3, random_state = 0)
print('rows in test set: ' + str(x_test.shape))
print('rows in train set: ' + str(x_train.shape))

In [None]:
df_class_1_over = df_class_1.sample(df_class_0.shape[0], replace=True)
print('Random over-sampling:')
print('rows in train class 1 set: ' + str(df_class_1_over.shape))



In [None]:
print('rows in train class 0 set: ' + str(df_class_0.shape))

---
## Klasyfikacja zbalansowanych zbiorów

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

data = pd.concat([df_class_0, df_class_1_over], axis=0)
data

In [None]:
x_train=data['message']
y_train=data['class_label']
x_test = df_test["message"]
y_test = df_test["class_label"]

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

data = x_train.tolist()

vectorizer = TfidfVectorizer(
input= data,  
lowercase=True,      
stop_words='english',
min_df=2
)
features_train_transformed = vectorizer.fit_transform(data)  


In [None]:
features_test_transformed  = vectorizer.transform(x_test) 
df_vectorized = pd.DataFrame(features_train_transformed.toarray(), columns = vectorizer.get_feature_names())

In [None]:
from sklearn.naive_bayes import MultinomialNB
# train the model
classifier = MultinomialNB()
classifier.fit(features_train_transformed, y_train)

In [None]:
print("classifier accuracy {:.2f}%".format(classifier.score(features_test_transformed, y_test) * 100))

In [None]:
labels = classifier.predict(features_test_transformed)
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
actual = y_test.tolist()
predicted = labels
results = confusion_matrix(actual, predicted)
print('Confusion Matrix :')
print(results)
print ('Accuracy Score :',accuracy_score(actual, predicted))
print ('Report : ')
print (classification_report(actual, predicted) )
score_2 = f1_score(actual, predicted, average = 'binary')
print('F-Measure: %.3f' % score_2)

In [None]:
import seaborn as sns
group_names = ['True Neg','False Pos','False Neg','True Pos']
group_counts = ["{0:0.0f}".format(value) for value in
                results.flatten()]
group_percentages = ["{0:.2%}".format(value) for value in
                     results.flatten()/np.sum(results)]
labels = [f"{v1}\n{v2}\n{v3}" for v1, v2, v3 in
          zip(group_names,group_counts,group_percentages)]
labels = np.asarray(labels).reshape(2,2)
sns.heatmap(results, annot=labels, fmt='', cmap='Reds');

---
## Dobór estymatorów

![Dobór estymatorów](img\ml_map.png)

https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html


---
# <span style="color: magenta">Ćwiczenie - zmienić klasyfikatory i sprawdzić czy score się poprawił</span>
---

In [None]:
from sklearn.svm  import SVC

classifier = SVC(kernel='linear')


In [None]:
from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression()


---
# Kompromis między jakością wyniku a interpretowalnością modelu

# Drzewa decyzyjne

In [None]:
from sklearn import tree
treeclf = tree.DecisionTreeClassifier(random_state=0)
treeclf.fit(features_train_transformed, y_train)

In [None]:
print("classifier accuracy {:.2f}%".format(classifier.score(features_test_transformed, y_test) * 100))

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
plt.figure(figsize=(10,6))
plt.style.use("classic")
plt.figure(figsize=(18,12))
tree.plot_tree(treeclf, max_depth=5, feature_names=list(vectorizer.get_feature_names()), class_names=["ham", "spam"]);

---

# 5. Inżyniera cech

---

> ## The features you use influence more than everything else the result. 
> ## No algorithm alone, to my knowledge, can supplement the information gain given by correct feature engineering.
>## <div style="text-align: right">— Luca Massaron Autor, Kaggle master</div>

---

> ## Coming up with features is difficult, time-consuming, requires expert knowledge.
> ## "_*Applied machine learning*_" is basically feature engineering.
> ## <div style="text-align: right">— Andrew Ng</div>





---
## "*Kubełkowanie*" - Binning 


### Histogram o stałej szerokości 

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame({'value': np.random.randint(0, 100, 20)})
df

In [None]:
df.shape

In [None]:
pd.cut(df.value, range(0, 105, 10), right=False)

In [None]:
labels = ["{0} - {1}".format(i, i + 9) for i in range(0, 100, 10)]
labels

In [None]:
pd.cut(df.value, range(0, 105, 10), right=False, labels=labels)

In [None]:
df['Group'] = pd.cut(df.value, range(0, 105, 10), right=False, labels=labels)
df

In [None]:
df.groupby('Group').count()

In [None]:
df = pd.DataFrame({'value': np.random.randint(0, 100, 20)})
df

In [None]:
[ df.quantile(q) for q in [.25, .5, .75] ] 

In [None]:
pd.qcut(df['value'], q=4)

In [None]:
df['quartile']=pd.qcut(df['value'], q=4)
df

In [None]:
df['quartile']=pd.qcut(df['value'], q=4, labels=range(1,5))
df

---
# Skalowanie <a id="scale"></a>

- ## Logarytmiczne

In [None]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

In [None]:
data = pd.read_csv('data/adverts_29_04.csv', sep=';')
data

In [None]:
data['Price per m2'] = data['Cena'] / data['Wielkość (m2)']
data = data.dropna(subset=['Price per m2'])
data['Price per m2'] = data['Price per m2'].map('{:.0f}'.format)
data["day"] = data['Data dodania'].str[0:2]
data["month"] = data['Data dodania'].str[3:5]
data["year"] = data['Data dodania'].str[6:]
df = data.drop(['Cena', 'Data dodania'], axis=1)
df

In [None]:
import pandas as pd
from numpy import log2

data = pd.read_csv('data/adverts_29_04.csv', sep=';')
data['Price per m2'] = data['Cena'] / data['Wielkość (m2)']
data['Price per m2'] = data['Price per m2'].map('{:.0f}'.format)
data = data.dropna(subset=['Price per m2'])

data["Price log"] = data['Wielkość (m2)'].apply(lambda x: log2(x)).map('{:.2f}'.format)
data["day"] = data['Data dodania'].str[0:2]
data["month"] = data['Data dodania'].str[3:5]
data["year"] = data['Data dodania'].str[6:]
data = data.dropna(subset=['Price per m2'])
df = data.drop(['Cena', 'Data dodania'], axis=1)
df

---
- ## Min-Max Scaling

#### Skaluje i przesuwa dane tak, by się mieściły między `0` a `1`

### $$x_{minmax}^i = \frac{x^i-min(x)}{max(x)-min(x)}$$



In [None]:
df[["Price per m2", "Wielkość (m2)"]]

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

scaler.fit(df[["Price per m2", "Wielkość (m2)"]])

In [None]:
scaler.data_max_

In [None]:
pd.DataFrame(scaler.transform(df[["Price per m2", "Wielkość (m2)"]]))

In [None]:
pd.DataFrame(scaler.fit_transform(df[["Price per m2", "Wielkość (m2)"]]))


- ## Robust scaling
#### Podobny to skalowania min-max tylko odejmuje medianę i skaluję odległością miedzy 1szym a 3cim kwartylem


In [None]:
from sklearn.preprocessing import RobustScaler
scaler = RobustScaler()

pd.DataFrame(scaler.fit_transform(df[["Price per m2", "Wielkość (m2)"]]))


- ## Standaryzacja

#### Standaryzacja polega na sprowadzeniu dowolnego rozkładu normalnego do rozkładu standaryzowanego o wartości oczekiwanej `0` i odchyleniu standardowym `1`.


In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

pd.DataFrame(scaler.fit_transform(df[["Price per m2", "Wielkość (m2)"]]))

---

# UWAGA

##  <span style="color: red">NIE</span> zamieniać danych <span style="color: cyan">RZADKICH (dużo zer)</span> w <span style="color: cyan">GĘSTE (mało zer)</span>

---


## Wygładzanie Laplace'a


- ### Dodaj `1` do liczników (zaczynaj od `1` a nie `0`)
- ### Uodparnia model na pomijanie całkowite mało prawdopodobnych zdarzeń
- ### Dobrze radzi sobie z liczeniem __*względnych*__ wartości 

## Przykład: rzut monetą asymetryczną

### $n_0$ - ile razy wypadła  "reszka"
### $n_1$ - ile razy wypadł "orzeł"

### Estymator: 
### $$\hat{p} = \frac{n_0+1}{n_0 + n_1 + 2}$$
### jest lepszy (mniejszy błąd średnio-kwadratowy) od
### Estymatora: $$\hat{p} = \frac{n_0}{n_0 + n_1}$$


---
# Zmienne kategoryczne <a id="cat"></a>

##  Indeksacja

In [None]:
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()

label_encoded = df

label_encoded['Location_Cat'] = labelencoder.fit_transform(label_encoded['Lokalizacja'])
label_encoded

---
## __*One-hot encoding*__ 

In [None]:
from sklearn.preprocessing import OneHotEncoder

enc = OneHotEncoder(handle_unknown='ignore')

enc_df = pd.DataFrame(enc.fit_transform(label_encoded[['Location_Cat']]).toarray())

one_hot_data = label_encoded.join(enc_df)
one_hot_data

In [None]:
dum_df = pd.get_dummies(df, columns=['Lokalizacja'])
dum_df

In [None]:
dum_df = pd.get_dummies(data, columns=['Lokalizacja', 'Na sprzedaż przez', 'Rodzaj nieruchomości', 'Liczba pokoi', 'Liczba łazienek', 'Parking'])
dum_df

In [None]:
dum_df.columns

---
## Porządek zmiennych kategorycznych

![Clockface](img/clock.png)

### zmieniamy na współrzędne "wskazówek"

### $ m \to ( \sin{(\frac{2\Pi\:m}{12})}, \cos{(\frac{2\Pi\:m}{12})} )$

In [None]:
df

In [None]:
import numpy as np

df['month_x'] = df['month'].apply(lambda x: np.sin(np.pi*int(x)/12))
df['month_y'] = df['month'].apply(lambda x: np.cos(np.pi*int(x)/12))
df

---
# Dzień 1 - Podsumowanie

- ## Nauczanie maszynowe służy do <span style="color: cyan">predykcji</span>
- ## Musimy być świadomi kompromisów:
  - ### Kompromis między obciążeniem i wariancją
  - ### Kompromis między Dokładnością i zupełnością (patrz: F1)
  - ### Kompromis między skutecznośćią a przeźroczystością modelu
  