In [1]:
import pandas as pd
import numpy as np

from sklearn import datasets
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, accuracy_score
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

import matplotlib.pyplot as plt


In [2]:
# Dane do regresji
diabetes_data = datasets.load_diabetes(return_X_y=True, as_frame=True)

diabetes_X_train, diabetes_X_test, diabetes_y_train, diabetes_y_test = train_test_split(
    diabetes_data[0],
    diabetes_data[1],
    test_size=0.3,
    random_state=42
)

# Dane do klasyfikacji
bc_data = datasets.load_breast_cancer(return_X_y=True, as_frame=True)

bc_X_train, bc_X_test, bc_y_train, bc_y_test = train_test_split(
    bc_data[0],
    bc_data[1],
    test_size=0.3,
    random_state=42
)


## Regresja liniowa

Dokumentacja:

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

![image info](./image/linear.png)


In [3]:
# Wczytanie modelu
regr = LinearRegression()

# Trenowanie modelu
regr.fit(diabetes_X_train, diabetes_y_train)

# Predykcja
regr_preds = regr.predict(diabetes_X_test)
print('MSE: ', mean_squared_error(diabetes_y_test, regr_preds))


MSE:  2821.738559584376


## Regresja logistyczna

Dokumentacja:

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

![image info](./image/logistic.png)


In [4]:
# Wczytanie modelu
lregr = LogisticRegression(max_iter=10000)

# Trenowanie modelu
lregr.fit(bc_X_train, bc_y_train)

# Predykcja
lregr_preds = lregr.predict(bc_X_test)
print('Accuracy: ', accuracy_score(bc_y_test, lregr_preds))


Accuracy:  0.9766081871345029


## SVM

Dokumentacja:

https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

![image info](./image/svm.png)



In [5]:
# Wczytywanie modelu
svc = SVC()

# Trenowanie modelu
svc.fit(bc_X_train, bc_y_train)

# Predykcja
svc_preds = svc.predict(bc_X_test)
print('Accuracy: ', accuracy_score(bc_y_test, svc_preds))


Accuracy:  0.935672514619883


# Drzewo decyzyjne

Dokumentacja:

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

![image info](./image/dt.png)



In [6]:
# Wczytywanie modelu
clf = DecisionTreeClassifier()

# Trenowanie modelu
clf.fit(bc_X_train, bc_y_train)

# Predykcja
clf_preds = clf.predict(bc_X_test)
print('Accuracy: ', accuracy_score(bc_y_test, clf_preds))


Accuracy:  0.9239766081871345


## MiNI Hackathon

Zadanie polega na przewidywaniu, czy dana osoba przetrwa katastrofę Titanica.

Zalecane kroki do wypróbowania:

- obróbka danych (uzupełnienie braków, usuwanie skrajnych wartości, niepotrzebnych kolumn?)
- skalowanie danych?
- zastosowanie modeli z warsztatu, dobór hiperparametrów

Opis danych:

![image info](./image/columns.png)


In [20]:
train_df = pd.read_csv('./data/train.csv')
test_df = pd.read_csv('./data/train.csv')


In [None]:
# Powodzenia!
