# zbadać pola i metody obiektów jak poniżej

# pola sklearn.datasets.*

In [1]:
from sklearn import datasets
import pandas as pd

data = datasets.load_iris()

## Opis danych

In [2]:
print(data.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

**SD – Odchylenie standardowe**

* Mierzy, **jak bardzo rozproszone są wartości** danej cechy wokół średniej (`Mean`).
* Im większe SD, tym bardziej dane są "rozrzucone".
* Przykład:

  * `sepal width` ma SD = 0.43 (mało zróżnicowana cecha),
  * `petal length` ma SD = 1.76 (dużo bardziej zróżnicowana cecha).

---

**Class Correlation – Korelacja z klasą**

* Pokazuje **jak mocno dana cecha jest powiązana z klasą (gatunkiem)**.
* Wartość w zakresie `[-1, 1]`:

  * `1` oznacza silną dodatnią korelację (cecha dobrze rozróżnia klasy),
  * `0` oznacza brak zależności,
  * `-1` oznacza silną ujemną korelację.

Przykład:
* `petal width` → **0.9565** → bardzo mocna zależność z klasą (świetna cecha klasyfikacyjna),
* `sepal width` → **-0.4194** → słaba (ujemna) korelacja, mało przydatna w rozróżnianiu gatunków.

## Typ danych

In [3]:
print("Typ danych:", type(data))

Typ danych: <class 'sklearn.utils._bunch.Bunch'>


**`Bunch`** to specjalny typ danych, który jest wykorzystywany w bibliotece `scikit-learn` do przechowywania danych w strukturze przypominającej słownik. Jest to **opakowanie** na dane, które pozwala na łatwy dostęp do różnych elementów, takich jak:

* **dane wejściowe** (np. macierz cech),
* **etykiety** (np. klasy),
* **nazwa atrybutów** (np. nazwy cech),
* i inne informacje pomocnicze.

`Bunch` działa **podobnie jak słownik**, ale może mieć dodatkowe właściwości, takie jak możliwość dostępu do elementów za pomocą atrybutów (np. `data` zamiast `['data']`).

---

### Co przechowuje `Bunch`?

* **`data`**: macierz cech (np. wartości liczbowe opisujące dane).
* **`target`**: etykiety klas (np. kategorie dla danych).
* **`feature_names`**: nazwy cech (np. "długość płatka").
* **`target_names`**: nazwy klas (np. "setosa", "versicolor").
* **Inne meta informacje**: dodatkowe dane, jak dokumentacja lub inne informacje o zbiorze.

## Klucze

In [4]:
print("klucze:", data.keys())

klucze: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


## Macierz Cech

**Macierz cech** (*feature matrix*) to po prostu **tabela z danymi**, gdzie:

- **wiersze** to **obserwacje/przykłady** (np. pojedyncze kwiaty Irysa),
- **kolumny** to **cechy** opisujące każdy przykład (np. długość i szerokość płatków i działek).
- Przedstawione dane posłużą jako dane wejściowe dla modelu.

In [5]:
print(data.data.shape)  # (150, 4) – 150 próbek, 4 cechy
print(data.data[:5])    # pierwsze 5 wierszy

(150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]


## Etykiety klas
**Etykiety klas** to **nazwy kategorii**, do których należą dane przykłady w zbiorze danych.

---

### Przykład – Iris:

W zbiorze Iris każdy kwiat ma etykietę klasy, która mówi, do jakiego **gatunku** należy:

- `setosa`  
- `versicolor`  
- `virginica`

W danych te etykiety mogą być zapisane jako:

- **nazwy tekstowe**: `"setosa"`, `"versicolor"`, `"virginica"`  
- **liczby**: `0`, `1`, `2` (dla wygody obliczeń)

In [6]:
print(set(data.target))

{0, 1, 2}


Powyższy wynik przedstawia numeryczne etykiety klas:

* 0 = setosa
* 1 = versicolor
* 2 = virginica

In [7]:
print(data.target_names) # metoda pokazująca nazwy klas

['setosa' 'versicolor' 'virginica']


## Nazwy kolumn

In [8]:
for i in data.feature_names:
    print(i)

sepal length (cm)
sepal width (cm)
petal length (cm)
petal width (cm)


---
---
# pola sklearn.datasets.* wczytane z flagą "as_frame"

Użycie `load_iris(as_frame=True)` powoduje, że dane zostają załadowane jako obiekt `Bunch`, którego elementy `data` oraz `target` mają postać struktur `pandas`.

In [9]:
from sklearn import datasets
import pandas as pd

df = datasets.load_iris(as_frame=True)

In [10]:
type(df)

sklearn.utils._bunch.Bunch

In [11]:
type(df.data)

pandas.core.frame.DataFrame

In [12]:
type(df.target)

pandas.core.series.Series

# Pola Dataframe

In [13]:
df_pd = df.data

### DataFrame - Pierwsze 10 wierszy z datasetu

In [14]:
df_pd.head(10).style

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


### DataFrame - informacje ogólne

In [15]:
df_pd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


## DataFrame - statystyki opisowe

In [16]:
df_pd.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## DataFrame - kolumny

In [17]:
print(df_pd.columns)

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')


## DataFrame - wymiar danych

In [18]:
print(df_pd.shape)

(150, 4)


## DataFrame - Załadowanie danych Iris jako DataFrame (cechy + target w jednym)

In [19]:
from sklearn import datasets
import pandas as pd

# Załadowanie danych Iris jako DataFrame (cechy + target w jednym)
iris = datasets.load_iris(as_frame=True)
df = iris.frame  # pełny DataFrame z cechami i targetem

In [20]:
# Mapowanie kolumnty target na gatunki roślin odpowiadające wartością liczbowym
df['target'] = df['target'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

In [21]:
df.head().style

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## DataFrame - analiza ilościowa gatunków

In [22]:
print(df['target'].value_counts())

target
setosa        50
versicolor    50
virginica     50
Name: count, dtype: int64
