<a href="https://colab.research.google.com/github/Atria14/data-science/blob/main/06_ML/01_sklearn_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### scikit-learn
>Strona biblioteki: [https://scikit-learn.org](https://scikit-learn.org)  
>
>Dokumentacja/User Guide: [https://scikit-learn.org/stable/user_guide.html](https://scikit-learn.org/stable/user_guide.html)
>
>Podstawowa biblioteka do uczenia maszynowego w języku Python.
>
>Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
pip install scikit-learn
```
>Aby zaktualizować bibliotekę scikit-learn, użyj polecenia poniżej:
```
pip install -q --upgrade scikit-learn
```
Główne kategorie uczenia maszynowego:
* Uczenie Nadzorowane:
    - klasyfikacja
    - regresja
* Uczenie Nienadzorowane:
    - klasteryzacja
    - redukcja wymiarowości
    

In [1]:
import sklearn
sklearn.__version__

'1.0.2'

In [3]:
import numpy as np
from sklearn import datasets # podstawowe zestawy danych z biblioteki

# ustawiamy ziarno losowe dla danych
np.random.seed(10)
raw_data = datasets.load_iris() # ładujemy sobie dane z datasets
raw_data

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [4]:
raw_data.keys() # wyświetli klucze - nazwy kolumn danych

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [7]:
print(raw_data.DESCR) #opis danych

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [13]:
data = raw_data.data # tablica numpy array, przypisujemy do zmiennej data
target = raw_data.target # wyświetli odpowiednio przypisane numery klas, mamy 3 klasy, po 50 danych dla każej

In [14]:
print(data.shape) # 150 próbek, 4 zmienne
print(target.shape) # 150 klas

(150, 4)
(150,)


In [15]:
# przy przygotowywaniu danych potrzebujemy dwóch zbiorów - treningowego i testowego. Na zbiorze treningowym trenujemy model, na zbiorze testowym oceniamy jak model działa. Czasem można wyodrębnić zbiór walidacyjny.
# robimy podział na zbiór testowy i treningowy
from sklearn.model_selection import train_test_split # funkcja zwraca 4 obiekty numpy array

#zbiór danych treningowych
data_train, data_test, target_train, target_test = train_test_split(data, target, test_size = 0.3)  # do fukcji train_test_split() przekazujemy nasze dane - data, oraz naszą zmienną target, rozmiar na jaki dzielimy dane, na dane testowe przeznaczamy 20-30% danych. Jeśli danych 
# jest dużo można przydzielić mniej

In [16]:
# split podzieliło nam dane na 4 części
print(data_train.shape)
print(target_train.shape)

(105, 4)
(105,)


In [19]:
print(data_test.shape)
print(target_test.shape)

(45, 4)
(45,)


In [21]:
data_test

array([[6.3, 2.3, 4.4, 1.3],
       [6.4, 2.7, 5.3, 1.9],
       [5.4, 3.7, 1.5, 0.2],
       [6.1, 3. , 4.6, 1.4],
       [5. , 3.3, 1.4, 0.2],
       [5. , 2. , 3.5, 1. ],
       [6.3, 2.5, 4.9, 1.5],
       [5.8, 2.7, 4.1, 1. ],
       [5.1, 3.4, 1.5, 0.2],
       [5.7, 2.8, 4.5, 1.3],
       [5.6, 3. , 4.5, 1.5],
       [5.8, 2.7, 5.1, 1.9],
       [5.5, 2.3, 4. , 1.3],
       [4.9, 3. , 1.4, 0.2],
       [5.1, 3.8, 1.5, 0.3],
       [6.8, 3. , 5.5, 2.1],
       [6. , 3.4, 4.5, 1.6],
       [4.4, 3. , 1.3, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [5. , 3.2, 1.2, 0.2],
       [7.1, 3. , 5.9, 2.1],
       [6.4, 2.8, 5.6, 2.2],
       [6.2, 2.8, 4.8, 1.8],
       [4.8, 3.4, 1.9, 0.2],
       [5.9, 3. , 4.2, 1.5],
       [4.7, 3.2, 1.3, 0.2],
       [5.7, 3. , 4.2, 1.2],
       [5.5, 2.6, 4.4, 1.2],
       [6.8, 2.8, 4.8, 1.4],
       [7.7, 3.8, 6.7, 2.2],
       [6.6, 2.9, 4.6, 1.3],
       [6.2, 2.9, 4.3, 1.3],
       [7.2, 3. , 5.8, 1.6],
       [5.8, 2.8, 5.1, 2.4],
       [6.3, 2

In [None]:
from sklearn.linear_model import LogisticRegression

nidek