# Wymagania
* zainstalowana conda, jupyter lab
* utwórz plik conda.yaml
```
name: przykład_klasyfikacji
channels:
  - defaults
  - conda-forge
  - ipykernel
dependencies:
  - python=3.11
  - pip
  - pip:
      - scikit-learn
      - pandas
      - numpy
```
* utwórz nowe środowisko conda i aktywuj środowsisko
```
conda env create -f conda.yaml
conda activate przykład_klasyfikacji # name z conda.yaml
```
* uruchom komendę
jeśli masz inny name w conda.yaml to musisz zmienić poniżej
```
python -m ipykernel install --user --name przykład_klasyfikacji --display-name "przykład_klasyfikacji"
```
* uruchom jupyter w folderze w którym masz ten notebook, musisz mieć
(przykład_klasyfikacji) -> wskazuje nazwę środowiska conda, która masz aktywowana
(base) -> wskazuje, że jesteś w conda base

Musisz być w (przykład_klasyfikacji) aby uruchomić jupyter lab
```
jupyter lab
```
* w jupyter u góry po prawej stronie wybierz kernel "przykład_klasyfikacji"
* uruchom komórki jupyter: shift+enter lub przycisk play



In [85]:
import pandas as pd
import numpy as np

# Tworzenie przykładowych danych
# Załóżmy, że matematyka, fizyka i angielski (nasze cechy) jest wymagany na odpowiednim poziomie by zostać przyjętym na studia 
# target - czy osoba została przyjęta na studia 1-dostała się, 0-nie dostała się

data = {
    'Mathematics': [85, 92, 74, 60, 43, 56, 77, 88, 91, 65, 45, 78, 99, 62, 55, 80, 70, 50, 60, 68,
                    49, 40, 30, 60, 45, 44, 39, 53, 50, 35, 47, 59, 62, 61, 54, 45, 43, 51, 38, 49, 42, 44, 30, 60],
    'English': [72, 88, 65, 91, 55, 66, 78, 85, 79, 60, 47, 80, 90, 53, 71, 77, 69, 59, 63, 82,
                45, 49, 50, 60, 41, 48, 55, 66, 60, 52, 47, 50, 59, 58, 43, 55, 48, 50, 40, 42, 46, 60, 39, 54],
    'Physics': [80, 76, 65, 85, 60, 48, 72, 80, 90, 75, 58, 80, 95, 61, 70, 81, 68, 55, 63, 74,
                40, 43, 30, 60, 50, 52, 44, 53, 48, 46, 49, 42, 45, 41, 37, 56, 44, 45, 42, 39, 50, 47, 48, 50],
    'Target': [1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1,
               0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0]
}

# Tworzenie DataFrame
df = pd.DataFrame(data)

# Wyświetlanie 5 pierwszych wierszy
print(df.head())

   Mathematics  English  Physics  Target
0           85       72       80       1
1           92       88       76       1
2           74       65       65       1
3           60       91       85       1
4           43       55       60       0


In [86]:
# tego tutaj nie potrzebujemy, ale dla pokazania, że to to możemy zapisać do csv 
df.to_csv("studia.csv", index=False)

# Wczytanie danych z pliku
df1 = pd.read_csv("studia.csv")

# Wyświetlenie DataFrame df1, która zawiera dane z pliku csv
print(df1)

    Mathematics  English  Physics  Target
0            85       72       80       1
1            92       88       76       1
2            74       65       65       1
3            60       91       85       1
4            43       55       60       0
5            56       66       48       0
6            77       78       72       1
7            88       85       80       1
8            91       79       90       1
9            65       60       75       0
10           45       47       58       0
11           78       80       80       1
12           99       90       95       1
13           62       53       61       0
14           55       71       70       1
15           80       77       81       1
16           70       69       68       1
17           50       59       55       0
18           60       63       63       0
19           68       82       74       1
20           49       45       40       0
21           40       49       43       0
22           30       50       30 

In [72]:
# Podział na cechy (X) i etykiety (y)
X = df.drop('Target', axis=1)  # Wszystkie kolumny oprócz 'Target'
y = df['Target']  # Etykieta 


In [87]:
from sklearn.model_selection import train_test_split

# Podział na dane treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

train_test_split(X, y, test_size=0.3, random_state=42):
# X: Zbiór cech (features), czyli dane wejściowe, które będą używane do przewidywania.
# y: Zbiór etykiet (labels), czyli wyniki, które chcemy przewidywać, klasyfikacja

# test_size=0.3: 30% danych ma być przeznaczone na zbiór testowy, a pozostałe 70% na zbiór treningowy

In [82]:
from sklearn.ensemble import RandomForestClassifier

# RandomForestClassifier to przykład algorytmu do klasyfikacji
# Tworzenie i trenowanie modelu
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_scaled, y_train)


In [88]:
from sklearn.metrics import classification_report, accuracy_score

# Predykcje na zbiorze testowym
y_pred = model.predict(X_test_scaled)

# Obliczanie dokładności
accuracy = accuracy_score(y_test, y_pred)
print(f"Dokładność modelu: {accuracy:.4f}")

# Raport klasyfikacji
print("Raport klasyfikacji:")
print(classification_report(y_test, y_pred, zero_division=0))


Dokładność modelu: 0.7857
Raport klasyfikacji:
              precision    recall  f1-score   support

           0       0.75      0.86      0.80         7
           1       0.83      0.71      0.77         7

    accuracy                           0.79        14
   macro avg       0.79      0.79      0.78        14
weighted avg       0.79      0.79      0.78        14



Dokładność: 0.7857 (czyli około 79%) Oznacza to, że model poprawnie sklasyfikował około 79% przypadków w zbiorze testowym.
* precyzja - klasa 0 brak dostania się - model sklasyfikowal 75% przypadków poprawnie, że osoba nie dostała sie na studia 
* precyzja - klasa 1 dostanie sie na studia - model sklasyfikowal 83% przypadków poprawnie, że osoba dostała sie na studia 