# Dane ustrukturyzowane

Dane klienta to pewne wartości, które możesz przypisać do zmiennych: 
np wiek: 42, wzrost: 178, pozyczka: 1000, zarobki: 5000, imię: Jan

Zdefiniuj zmienne customer_1_{cecha} i przypisz im wartości z przykładu powyżej 

In [None]:
customer_1_wiek = 42
customer_1_wzrost = 178
# TWOJE ZMIENNE

Jak łatwo się domyśleć wpisywanie takich zmiennych ręcznie przy dużej ilości klientów nie będzie dobrym rozwiązaniem. Dlatego może lepiej znaleźć obiekt, który pozwoli przetrzymać wiele wartości i przypisać je do jednej zmiennej. 

Takim obiektem może być np. lista. Zauważ, że w liście nie ma znaczenia czy wszystkie wartości są tego samego typu!

zdefiniuj listę dla przykładowego klienta:

In [2]:
def fun1():
    pass


customer_1 = [[48, 178, 'Jan']]
print(customer_1)

[[48, 178, 'Jan'], [], {}, <function fun1 at 0xffff78b39580>]


> dlaczego listy nie są najlepszym miejscem na przechowywanie danych?

Zdefiniuj dwie listy a, b z wartośćiami: $[1,2,3] oraz [4,5,6]$

In [8]:
### Twoj kod
a = [1,2,3]
b = [4,5,6]

Ponieważ analiza danych często polega na wykonywaniu prostych operacji numerycznych sprawdź poniższy kod:

> Czy tak wykonane dodawanie jest realizowane poprawnie? 

In [9]:
# dodawanie list
print(f"a+b: {a+b}")
# można też użyć metody format
print("a+b: {}".format(a+b))

a+b: [1, 2, 3, 4, 5, 6]
a+b: [1, 2, 3, 4, 5, 6]


przyda się również mnożenie 
> czym jest sekwencja kodu try: except: i dlaczego ją tutaj stosujemy? 

In [10]:
# mnożenie list
try:
    print(a*b)
except TypeError:
    print("no-defined operation")

no-defined operation


Jasne jest, że w celu zoptymalizowania i możliwości wykonywania obliczeń lepiej zastosować inne obiekty niż listy pythonowe. 
Zaimportuj bibliotekę numpy i zdefiniuj dwie listy o nazwie aa i bb (z wartościami jak poprzednio).
Wykonaj kod i zastanów się czy teraz mamy poprawnie zdefiniowane operacje.

In [11]:
import numpy as np
aa = np.array(a)
bb = np.array(b)

In [12]:
# dodawanie - czy poprawne ? 
print(f"aa+bb: {aa+bb}")
# mnożenie - czy poprawne ? 
try:
    print("="*50)
    print(aa*bb)
    print("aa*bb - czy to poprawne mnożenie?")
    print(np.dot(aa,bb))
    print("np.dot - a czy otrzymany wynik też realizuje poprawne mnożenie?")
except TypeError:
    print("no-defined operation")
# mnożenie również działa

aa+bb: [5 7 9]
[ 4 10 18]
aa*bb - czy to poprawne mnożenie?
32
np.dot - a czy otrzymany wynik też realizuje poprawne mnożenie?


Poniższe kody prezentują inne przydatne własności tabel numpy

In [13]:
# własności tablic
x = np.array(range(4))
print(x)
x.shape

[0 1 2 3]


(4,)

In [14]:
A = np.array([range(4),range(4)])
# transposition  row i -> column j, column j -> row i 
A.T

array([[0, 0],
       [1, 1],
       [2, 2],
       [3, 3]])

In [15]:
# 0-dim object
scalar = np.array(5)
print(f"scalar object dim: {scalar.ndim}")
# 1-dim object
vector_1d = np.array([3, 5, 7])
print(f"vector object dim: {vector_1d.ndim}")
# 2 rows for 3 features
matrix_2d = np.array([[1,2,3],[3,4,5]])
print(f"matrix object dim: {matrix_2d.ndim}")

scalar object dim: 0
vector object dim: 1
matrix object dim: 2



[Kurs Numpy ze strony Sebastiana Raschki](https://sebastianraschka.com/blog/2020/numpy-intro.html)


Ponieważ często przydaje się realizacja kodów na GPU możesz użyć biblioteki PyTorch.

## PyTorch 

[PyTorch](https://pytorch.org) is an open-source Python-based deep learning library. 
PyTorch has been the most widely used deep learning library for research since 2019 by a wide margin. In short, for many practitioners and researchers, PyTorch offers just the right balance between usability and features.

1. PyTorch is a tensor library that extends the concept of array-oriented programming library NumPy with the additional feature of accelerated computation on GPUs, thus providing a seamless switch between CPUs and GPUs.

2. PyTorch is an automatic differentiation engine, also known as autograd, which enables the automatic computation of gradients for tensor operations, simplifying backpropagation and model optimization.

3. PyTorch is a deep learning library, meaning that it offers modular, flexible, and efficient building blocks (including pre-trained models, loss functions, and optimizers) for designing and training a wide range of deep learning models, catering to both researchers and developers.


In [None]:
import torch

In [None]:
torch.cuda.is_available()

In [None]:
tensor0d = torch.tensor(1) 
tensor1d = torch.tensor([1, 2, 3])
tensor2d = torch.tensor([[1, 2, 2], [3, 4, 5]])
tensor3d = torch.tensor([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

In [None]:
print(tensor1d.dtype)

In [None]:
torch.tensor([1.0, 2.0, 3.0]).dtype

szczegółowe info znajdziesz w [dokumentacji](https://pytorch.org/docs/stable/tensors.html)

# Modelowanie danych ustrukturyzowanych

Rozważmy jedną zmienną (`xs`) od której zależy nasza zmienna wynikowa (`ys` - target).
```python
xs = np.array([-1,0,1,2,3,4])
ys = np.array([-3,-1,1,3,5,7])
```
> Uwaga zmienna xs w takiej postaci przedstawia raczej 6 zmiennych o różnych wartościach. Aby zamienić ją na 6 wariantów możesz ręcznie dodać odppwiednie nawiasy albo zastosować metodę reshape(-1,1) na tablicy numpy.

Modelem który możemy zastosować jest regresja liniowa.

In [None]:
# Regresja liniowa 

import numpy as np
from sklearn.linear_model import LinearRegression

In [None]:
xs = np.array([-1,0,1,2,3,4])

# dokonaj transformacji 
xs = xs.

ys = np.array([-3, -1, 1, 3, 5, 7])

reg = LinearRegression()
model = reg.fit(xs,ys)

print(f"solution: x1={model.coef_[0]}, x0={reg.intercept_}")

model.predict(np.array([[1],[5]]))

Napisz kode predykcji dla tabeli 
```python
to_pred = np.array([2,3,4])
```

In [None]:
# TWOJ kod

Prosty kod realizuje w pełni nasze zadanie znalezienia modelu regresji liniowej. 

Do czego może nam posłużyc tak wygenerowany model? 

Aby z niego skorzystac potrzebujemy wyeksportować go do pliku.

Wykorzystaj bibliotekę pickle w celu zapisu obiektu modelu

In [None]:
# save model
import pickle
with open('model.pkl', "wb") as picklefile:
    pickle.dump(model, picklefile)

Teraz możemy go zaimportować (np na Github) i wykorzystać w innych projektach. 

In [None]:
# load model
with open('model.pkl',"rb") as picklefile:
    mreg = pickle.load(picklefile)

Ale !!! pamiętaj o odtworzeniu środowiska Pythonowego

In [None]:
mreg.predict(xs)

## SIECI NEURONOWE I WYSZUKIWANIE PARAMETROW

Na ten problem możemy popatrzeć z innej perspektywy. Sieci neuronowe również potrafią rozwiązywać problemy regresji.

In [None]:
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
import tensorflow as tf

Poniważ mamy tylko jedną zmienną i zmienną celu stwórzmy bardzo prostą sieć neuronową składającą się z jednego noda dla wejścia i jednego noda dla wyjścia. 
Ze względu, iż jest to sieć neuronowa musimy podać algorytm optymalizujący szukane rozwiązanie oraz funkcje straty, która będzie minimalizowana. 

In [None]:
layer_0 = Dense(units=1, input_shape=[1])

model = Sequential([layer_0])

# kompilowanie i fitowanie
model.compile(optimizer='sgd', loss='mean_squared_error')
model.fit(xs, ys, epochs=10) # tutaj mozesz zdefiniować dokładność obliczeń zwiększając ilość epok

In [None]:
print(f"{layer_0.get_weights()}")

## Dane 

Do tej pory dane pozyskiwaliśmy wpisując wszystkie wartości. Nie jest to jednak wygodny ani efektywny sposób pozyskiwania danych. 

#### Inne sposoby pozyskiwania danych 

1. Gotowe źródła w bibliotekach pythonowych
2. Dane z plików zewnętrznych (np. csv, json, txt) z lokalnego dysku lub z internetu
3. Dane z bazy danych (np. MySQL, PostgreSQL, MongoDB)
4. Dane generowane w sposób sztuczny pod wybrany problem modelowy. 
5. Strumienie danych 

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()

wyświetl wszystkie klucze w slowniku `iris` (użyj metody keys() ) 

In [None]:
## TWój kod


Wyświetl opis danych z pola DESCR

In [None]:
## Twoj kod


Załadujmy dane do wygodniejszej pastaci pandasowej Ramki Danych. 

In [None]:
import pandas as pd
import numpy as np

# create DataFrame
df = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                  columns= iris['feature_names'] + ['target'])

Wyświetl ostatnie 10 rekordów

In [None]:
## Twoj kod 


Wyświetl informacje o typach danych i brakach danych 

In [None]:
## Twój kod


wyświetl podstawowe statystyki zmiennych 

In [None]:
## Twój kod


Utwórz nową zmienną `species` 

In [None]:
# new features
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

korzystając z metody drop() usuń kolumnę `target`

In [None]:
## Twoj kod


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="whitegrid", palette="husl")

iris_melt = pd.melt(df, "species", var_name="measurement")
f, ax = plt.subplots(1, figsize=(15,9))
sns.stripplot(x="measurement", y="value", hue="species", data=iris_melt, jitter=True, edgecolor="white", ax=ax)

Wybierz pierwsze sto wierszy oraz kolumny o indeskie 0 i 2 jako macierz `X`.

zdefiniuj y jako pierwsze sto wierszy z kolumny o indeksie 4. 

Zmienną X i y zrzutuj do tablicy numpy (wykorzystaj pole `values`)

In [None]:
## Twoj kod


In [None]:
plt.scatter(X[:50,0],X[:50,1],color='red', marker='o',label='setosa')
plt.scatter(X[50:100,0],X[50:100,1],color='blue', marker='x',label='versicolor')
plt.xlabel('sepal length (cm)')
plt.ylabel('petal length (cm)')
plt.legend(loc='upper left')
plt.show()

Dla tego typu danych separowalnych liniowo użyj modelu regresji logistycznej lub sieci neuronowej.

In [None]:
from sklearn.linear_model import Perceptron

per_clf = Perceptron()
per_clf.fit(X,y)

y_pred = per_clf.predict([[2, 0.5],[4,5.5]])
y_pred

Zapisz otrzymany model do pliku `perceprton.pickle`, załaduj go do zmiennj `nn` i wykonaj na nim predykcje dla $[1.9,0.6]$

## współpraca z bazami danych 

In [None]:
IRIS_PATH = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
col_names = ["sepal_length", "sepal_width", "petal_length", "petal_width", "class"]
df = pd.read_csv(IRIS_PATH, names=col_names)

In [None]:
# save to sqlite
import sqlite3
# generate database
conn = sqlite3.connect("iris.db")
# pandas to_sql

try:
    df.to_sql("iris", conn, index=False)
except:
    print("tabela już istnieje")

In [None]:
# sql to pandas
result = pd.read_sql("SELECT * FROM iris WHERE sepal_length > 5", conn)

In [None]:
result.head(3)

 Sztucznie generowane dane

In [None]:
# Dane sztucznie generowane
from sklearn import datasets

X, y = datasets.make_classification(n_samples=10**4,
n_features=20, n_informative=2, n_redundant=2)

# model lasu losowego 
from sklearn.ensemble import RandomForestClassifier


# podział na zbiór treningowy i testowy
train_samples = 7000 # 70% danych treningowych

X_train = X[:train_samples]
X_test = X[train_samples:]
y_train = y[:train_samples]
y_test = y[train_samples:]

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)

rfc.predict(X_train[0].reshape(1, -1))

### dane nieustruktyryzowane

Dane nieustrukturyzowane to dane, które nie są w żaden sposób uporządkowane.

1. obrazy 
2. teksty
3. dźwięk
4. wideo

Niezależnie od typu wszystko przetwarzamy w tensorach (macierzach wielowymiarowych). Może to prowadzić do chęci używania modeli ML i sieci neuronowych do analizy danych nieustrukturyzowanych.

Wykorzystując metodę `np.random.uniform()` utwórz losowy obrazek o wielkości $size=(28,28)$ pikseli

In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="whitegrid", palette="husl")


# 2-dim picture 28 x 28 pixel random 
picture_2d = # TWOJ KOD 
picture_2d[0:5,0:5]

In [None]:
plt.imshow(picture_2d, interpolation='nearest')
plt.show()

# jak radzić sobie z obrazami - PyTorch

In [None]:
import urllib.request
url = 'https://pytorch.tips/coffee'
fpath = 'coffee.jpg'
# pobierz na dysk
urllib.request.urlretrieve(url, fpath)

In [None]:
import matplotlib.pyplot as plt
from PIL import Image # pillow library

wykorzystaj metodę imshow z biblioteki matplotlib.pyplot (plt) i zobacz jak wygląda zdjęcie

In [None]:
img = Image.open('coffee.jpg')
## Twoj kod


### gotowy model dla klasyfikacji obrazów

In [None]:
!pip install torchvision==0.15.2 --user -q

In [None]:
import torch
from torchvision import transforms

Odrobinę zmienimy własności obrazka 

In [None]:
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize( 
    mean = [0.485, 0.456, 0.406],
    std = [0.229, 0.224,0.225])
])

In [None]:
img_tensor = transform(img)

Sprawdzmy rozmiary


In [None]:
print(type(img_tensor), img_tensor.shape)

In [None]:
# utworzenie batch size - dodatkowego wymiaru (na inne obrazki)
batch = img_tensor.unsqueeze(0)
batch.shape

Załadujmy gotowy model 

In [None]:
from torchvision import models 
model = models.alexnet(pretrained=True)

Napiszmy uniwersalny kod, który możesz uruchomić na GPU i CPU

In [None]:
device = "cuda" if torch.cuda.is_available() else "cpu"
device

In [None]:
model.eval()
model.to(device)
y = model(batch.to(device))
print(y.shape)

In [None]:
y_max, index = torch.max(y,1)

In [None]:
print(index, y_max)

In [None]:
url = 'https://pytorch.tips/imagenet-labels'
fpath = 'imagenet_class_labels.txt'
urllib.request.urlretrieve(url, fpath)

In [None]:
with open('imagenet_class_labels.txt') as f:
    classes = [line.strip() for line in f.readlines()]
print(classes[967])

In [None]:
prob = torch.nn.functional.softmax(y, dim=1)[0] *100
prob.max()

### jeszcze obrazki 

In [None]:
import tensorflow as tf
from tensorflow import keras

fashion_mnist = keras.datasets.fashion_mnist # 60000 obrazow 28x28
(x_train_f, y_train_f),(x_test,y_test) = fashion_mnist.load_data()

In [None]:
import numpy as np

In [None]:
indexes = np.random.randint(0, x_train_f.shape[0], size=25)
images = x_train_f[indexes]
plt.figure(figsize=(5,5))
for i in range(len(indexes)):
    plt.subplot(5, 5,i+1)
    image = images[i]
    plt.imshow(image, cmap='gray')
    plt.axis('off')

plt.show()
plt.close('all')

In [None]:
x_train_f.shape, y_train_f.shape

In [None]:
x_valid, x_train = x_train_f[:5000]/255.0, x_train_f[5000:]/255.0
y_valid, y_train = y_train_f[:5000], y_train_f[5000:]

Przykładowy model sieci nueronowej (bez konwolucji) - czy sądzisz, że to dobre rozwiązanie? 

In [None]:
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[28,28]))
model.add(keras.layers.Dense(128, activation=tf.nn.relu))
model.add(keras.layers.Dense(10, activation=tf.nn.softmax))

In [None]:
model.summary()

In [None]:
model.layers # dostęp do warstw modelu

In [None]:
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [None]:
history = model.fit(x_train_f, y_train_f, epochs=5, validation_data = (x_valid,y_valid))

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

pd.DataFrame(history.history).plot()
plt.grid(True)
plt.gca().set_ylim(0,1)
plt.show()

In [None]:
model.evaluate(x_test,y_test)

In [None]:
x_new = x_test[:3]

In [None]:
y_pr = model.predict(x_new)

In [None]:
y_pr.round(4)

A jakie inne sieci i warstwy możemy wykorzystać do analizy danych nieustrukturyzowanych? 

> Znajdź odpowiedź na to pytanie w dokumentacji biblioteki Keras.

## Format json

Twórz i zarządzaj jsonami w połączeniu z bazą danych mongoDB. 
Baza ta dostępna jest jako osobny mikroserwis w Dockerze. 
Przed podłączeniem sprawdź jak w pliku docker-compose.yml jest skonfigurowany serwis mongoDB (user i pass). 

In [None]:
import json
person = '{"name": "Alice", "languages": ["English", "French"]}'
person_dict = json.loads(person)

print(person_dict)

In [None]:
%%file test.json
{"name": "Alice", "languages": ["English", "French"]}

In [None]:
with open('test.json') as f:
    data = json.load(f)

print(data)

In [None]:
with open('person.json', 'w') as json_file:
    json.dump(person_dict, json_file)

In [None]:
# do połączenia używamy biblioteki pymongo
!pip install pymongo -q --user

In [None]:
from pymongo import MongoClient
uri = "mongodb://root:admin@mongo"
client = MongoClient(uri)

In [None]:
db = client['school']

In [None]:
students = db.students
new_students = [
    {'name': 'John', 'surname': 'Smith', 'group': '1A', 'age': 22, 'skills': ['drawing', 'skiing']},
    {'name': 'Mike', 'surname': 'Jones', 'group': '1B', 'age': 24, 'skills': ['chess', 'swimming']},
    {'name': 'Diana', 'surname': 'Williams', 'group': '2A', 'age': 28, 'skills': ['curling', 'swimming']},
    {'name': 'Samantha', 'surname': 'Brown', 'group': '1B', 'age': 21, 'skills': ['guitar', 'singing']}
]

In [None]:
students.insert_many(new_students)

In [None]:
students.find_one()

znajdz inne metody realizujące `select * from table where...` 

In [None]:
## tekst

In [None]:
import pandas as pd
df_train = pd.read_csv("train.csv")
df_train = df_train.drop("index", axis=1)
print(df_train.head())
print(np.bincount(df_train["label"]))

In [None]:
# BoW model  - wektoryzator z sklearn
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(lowercase=True, max_features=10_000, stop_words="english")

cv.fit(df_train["text"])

In [None]:
# słownik i nasze zmienne ..
cv.vocabulary_

In [None]:
X_train = cv.transform(df_train["text"])

In [None]:
# to dense matrix
feat_vec = np.array(X_train[0].todense())[0]
print(feat_vec.shape)
np.bincount(feat_vec)

# API

Z poprzednich ćwiczeń [cw1](https://sebkaz-teaching.github.io/RTA_2024/lab/cw1.html) 
wiesz już jak napisać i uruchomić podstawowy program naszego API 

1. Skopiuj podstawowy kod aplikacji Flask i zapisz go do pliku app.py

In [None]:
%%file app.py
###
# TWOJ KOD API 
###


2. Przejdz do terminala (w odpowiednim katalogu) i uruchom API poleceniem `flask run` 
3. Napisz kod odpytujący stronę główną (metodą `get()`) z wykorzystaniem biblioteki `requests`. Wynik przypisz do zmiennej `res`.

In [None]:
import requests
# TWOJ KOD 
res = 

4. Na podstawie pola `res.status_code` napisz wyrażenie warunkowe które dla wartości 200 wyświetli zawartość odpowiedzi (z pola `res.content`).


In [None]:
# TWOJ KOD 
if res.status_code # dokończ kod

5. Dodaj nową podstronę ze swoim imieniem, tak by po jej wywołaniu pojawił się napis "<strong>To jest moja strona<strong>". 

Wynik nowej aplikacaji zapisz do pliku app.py


In [None]:
%%file app.py
# KOD TWOJEJ DRUGIEJ Aplikacji z dwoma podstronami


6. Pamiętając o zamknięciu poprzedniego serwera, uruchom nowy serwer z pliku app.py wewnątrz notatnika z wykorzystaniem biblioteki `subprocess`. W tym celu wykorzystaj metodę `Popen()` oraz polecenie `flask run`. Mozesz równiez wykorzystać polecenie `python app.py` jeśli w Twoim kodzie (na końcu umieścisz uruchomienie serwera)

```python

...
if __name__ == '__main__':
    app.run()
```

In [None]:
import subprocess
# TWOJ KOD 


7. Wykonaj zapytanie do nowej podstrony z Twoim imieniem, wypisz status code oraz wiadomość (powinineś zobaczyć napis "to jest moja strona". 

In [None]:
import requests
# TWOJ KOD ZAPYTANIA


In [None]:
# TWOJ KOD wyciągniecia odpowiedzi 

8. Zamknij podproces z serwerem korzystając z metody `kill()`

In [None]:
# TWOJ KOD 


## przesłanie wartości do serwera - metoda GET 

1. Skopiuj kod drugiej aplikacji i zapisz ją do pliku app.py
2. Zaimportuj metodę `request` z biblioteki `flask`
3. Utwórz trzecią podstronę o nazwie `/hello` dodając jako parametr do dekoratora `methods=['GET']`
4. wewnątrz nowej funkcji zdefiniuj zmienną `name` do której przypiszez `request.args.get("name", "")` pierwszy parametr to nazwa zmiennej przekazywanej przez adres natomiast drugi parametr to wartość domyślna gdy zmienna zostanie pominięta w adresie url (w naszym przypadku będzie to pusty string).
5. Sprawdz czy uzytkownik podał imię. Jeśli tak to zwróć napis `Hello {name}` a jeśli nie to zwróć `Hello`.

In [None]:
%%file app.py

from flask import Flask
# tutaj dodaj import metody request

# utwórz obiekt app 

# skopiuj poprzednie podstrony aplikacji 

# tutaj dodaj kod nowej podstrony /hello


uruchom serwer w notatniku (Popen(), flask run) i zweryfikuj dwa ponizsze zapytania   

In [None]:
# TWOJ KOD 


In [None]:
response = requests.get("http://127.0.0.1:5000/hello")
response.content

Tu powinno pojawić się "Hello"

In [None]:
response = requests.get("http://127.0.0.1:5000/hello?name=Sebastian")
response.content

a tutaj 'Hello Sebastian'

# Model - reguła decyzyjna

Napisz serwis API który obsługiwał będzie jeden adres `/api/v1.0/predict` i przyjmował dwie liczby (jeśli użytkownik nie poda liczby powinna wstawić się wartość 0).

pobrane liczby przypisz do zmiennej x1 oraz x2:
```python
request.args.get("x1", 0, type=float)
```

Zdefiniuj model jako regułę: 
- jeśli suma dwóch liczb jest większa niż 5.8 zwróć jako predykcję wartość 1
- w przeciwnym razie zwróć 0

Stwórz słownik features z nazwami i wartościami zmiennych. 
Dodatkowo utwórz słownik predicted_class z wynikiem.
Wykorzystaj metodę `jsonify` z biblioteki flask do wysłania odopwiedzi jako format JSON.

```python
return jsonify(features=features, predicted_class=predicted_class)
```

Cała podstrona powinna zwracać słownik zawierający dwa klucze
"prediction", oraz "features" z wypisaniem odpowiedniej informacji zwrotnej. 

Uruchom i sprawdz poprawność działania. 

In [None]:
%%file app.py
# TWOJ KOD 


Wybierz model utworzony z wcześniejszych przykładów. I stwórz serwis API który załaduje dane użytkownika, załaduje model z pliku (kiedy ładować model - przy każdym wykonaniu funkcji czy może w innym miejscu?) , wykona predykcję i zwróci json z wynikami. 

## Obiektowe podejście do modelowania

In [None]:
import pandas as pd
import numpy as np
 
# przykład danych ustrukturyzowanych
df = pd.read_csv("students.csv")
df.head()

In [None]:
len(df), list(df.columns)

In [None]:
X = df.drop(columns=['target'])
y = df['target']

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

# ZAMIAST OD RAZU PRZETWARZAC !!! najpierw przygotuj kroki - pipeline

numeric_features = ['math score','reading score','writing score']
categorical_features = ['sex','race/ethnicity','parental level of education','lunch','test preparation course']

In [None]:
numeric_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="mean")),
    ("scaler", StandardScaler())
])

categorical_transformer = OneHotEncoder(handle_unknown="ignore")

In [None]:
preprocessor = ColumnTransformer(transformers=[
    ("num_trans", numeric_transformer, numeric_features),
    ("cat_trans", categorical_transformer, categorical_features)
])

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

pipeline = Pipeline(steps=[
    ("preproc", preprocessor),
    ("model", LogisticRegression())
])

In [None]:
from sklearn import set_config
set_config(display='diagram')
pipeline

> PAMIETAJ - obiekt pipeline to obiekt pythonowy i tak jak obiekt modelu można go zapisać do pickla. 

In [None]:
from sklearn.model_selection import train_test_split
X_tr, X_test, y_tr, y_test = train_test_split(X,y,
test_size=0.2, random_state=42)

pipeline.fit(X_tr, y_tr)

score = pipeline.score(X_test, y_test)
print(score)

In [None]:
import joblib
joblib.dump(pipeline, 'your_pipeline.pkl')

TU ZACZYNA SIĘ MAGIA OBIEKTOWEGO PYTHONA - nie pisz kodu i nie uruchamiaj kodów wiele razy dla różnych parametrów - niech Python zrobi to za Ciebie 

In [None]:
param_grid = [
              {"preproc__num_trans__imputer__strategy":
              ["mean","median"],
               "model__n_estimators":[2,5,10,100,500],
               "model__min_samples_leaf": [1, 0.1],
               "model":[RandomForestClassifier()]},
              {"preproc__num_trans__imputer__strategy":
                ["mean","median"],
               "model__C":[0.1,1.0,10.0,100.0,1000],
                "model":[LogisticRegression()]}
]

from sklearn.model_selection import GridSearchCV


grid_search = GridSearchCV(pipeline, param_grid,
cv=2, verbose=1, n_jobs=-1)


grid_search.fit(X_tr, y_tr)

grid_search.best_params_

In [None]:
grid_search.score(X_test, y_test), grid_search.score(X_tr, y_tr)

Teraz drobna modyfikacja - wiemy, że takiej zmiennej nie chcemy do modelu - ma tylko jedną wartość. 
Ale jak zweryfikować jakie to zmienne jeśli masz 3 mln kolumn? 


In [None]:
df['bad_feature'] = 1

In [None]:
X = df.drop(columns=['target'])
y = df['target']
X_tr, X_test, y_tr, y_test = train_test_split(X,y,
test_size=0.2, random_state=42)

In [None]:
numeric_features = ['math score','reading score','writing score', 'bad_feature']
# znajdz sposób na automatyczny podział dla zmiennych numerycznych i nienumerycznych

In [None]:
grid_search = GridSearchCV(pipeline, param_grid,
cv=2, verbose=1, n_jobs=-1)

grid_search.fit(X_tr, y_tr)

grid_search.best_params_

In [None]:
grid_search.score(X_tr, y_tr), grid_search.score(X_test, y_test)

### NAPISZ WŁASNĄ KLASĘ KTÓRA ZREALIZUJE TRNSFORMACJE ZA CIEBIE

In [None]:
# your own transformator class

from sklearn.base import BaseEstimator, TransformerMixin

class DelOneValueFeature(BaseEstimator, TransformerMixin):
    """Description"""
    def __init__(self):
        self.one_value_features = []
        
    def fit(self, X, y=None):
        for feature in X.columns:
            unique = X[feature].unique()
            if len(unique)==1:
                self.one_value_features.append(feature)
        return self
    def transform(self, X, y=None):
        if not self.one_value_features:
            return X
        return X.drop(axis='columns', columns=self.one_value_features)

In [None]:
# UTWÓRZ NOWY PIPELINE
pipeline2 = Pipeline([
    ("moja_transformacja",DelOneValueFeature()),
    ("preprocesser", preprocessor),
    ("classifier", LogisticRegression())])
    
pipeline2.fit(X_tr, y_tr)
score2 = pipeline2.score(X_test, y_test)

I JUZ :) 

A teraz zobacz jak prosta klasa potrafi ułatwić życie w modelach sieci neuronowej

In [None]:
# przykład danych nieustrukturyzowanych 

import tensorflow as tf

In [None]:
class myCallback(tf.keras.callbacks.Callback):
    def on_epoch_end(self, epoch, logs={}):
        if logs.get('accuracy') > 0.95:
            print("\n osiągnięto 95% - zakończ trenowanie")
            self.model.stop_training = True

In [None]:
callbacks = myCallback()
mnist = tf.keras.datasets.fashion_mnist

In [None]:
(tr_im, tr_lab),(te_im, te_lab) = mnist.load_data()
tr_im = tr_im/255
te_im = te_im/255

model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(128, activation=tf.nn.relu),
    tf.keras.layers.Dense(10, activation=tf.nn.softmax)
])


model.compile(optimizer="adam", loss="sparse_categorical_crossentropy", metrics=['accuracy'])

In [None]:
model.fit(tr_im, tr_lab, epochs=40, callbacks=[callbacks])