In [None]:
# Remove warnings
import warnings
warnings.filterwarnings('ignore')

# Dane ustrukturyzowane

Dane klienta to pewne wartości, które możesz przypisać do zmiennych: 
np wiek: 42, wzrost: 178, pozyczka: 1000, zarobki: 5000, imię: Jan

Zdefiniuj zmienne customer_1_{cecha} i przypisz im wartości z przykładu powyżej

> dlaczego do analizy danych nie używamy zmiennych? 

> Niezależnie od typu analizowanych i przetwarzanych danych w Pythonie możemy zebrać dane i reprezentować je jako pewna formy `listy`. 

> dlaczego listy nie są najlepszym miejscem na przechowywanie danych?

Weźmy dwie listy numeryczne

In [None]:
# dodawanie list
print(f"a+b: {a+b}")
# można też użyć metody format
print("a+b: {}".format(a+b))

In [None]:
# mnożenie list
try:
    print(a*b)
except TypeError:
    print("no-defined operation")

Każdy obiekt pythonowy można rozszerzyć o nowe metody i atrybuty.

In [None]:
import numpy as np
aa = np.array(a)
bb = np.array(b)

print(aa,bb)

In [None]:
print(f"aa+bb: {aa+bb}")
# dodawanie działa
try:
    print("="*50)
    print(aa*bb)
    print("aa*bb - czy to poprawne mnożenie?")
    print(np.dot(aa,bb))
    print("np.dot - a czy otrzymany wynik też realizuje poprawne mnożenie?")
except TypeError:
    print("no-defined operation")
# mnożenie również działa

Co działa szybciej?


In [None]:
def iloczyn_skalarny_lista(x: list, y: list) -> float: 
    iloczyn = 0.
    for i in range(len(x)):
        iloczyn += x[i] * y[i]
    return iloczyn

a = list(range(1000))
b = list(range(1000))

%timeit iloczyn_skalarny_lista(a, b)

In [None]:
import numpy as np
def iloczyn_skalarny_numpy(x, w):
    return x.dot(w)
    
a = np.arange(1000)
b = np.arange(1000)

%timeit iloczyn_skalarny_numpy(a, b)

In [None]:
# własności tablic
x = np.array(range(4))
print(x)
x.shape

A = np.array([range(4),range(4)])
# transposition  row i -> column j, column j -> row i 
A.T

# 0-dim object
scalar = np.array(5)
print(f"scalar object dim: {scalar.ndim}")
# 1-dim object
vector_1d = np.array([3, 5, 7])
print(f"vector object dim: {vector_1d.ndim}")
# 2 rows for 3 features
matrix_2d = np.array([[1,2,3],[3,4,5]])
print(f"matrix object dim: {matrix_2d.ndim}")

Obliczenia wykonywane na danych mieszczących się w pamięci. 
> czy można jeszcze przyśpieszyć obliczenia? 



[Kurs Numpy ze strony Sebastiana Raschki](https://sebastianraschka.com/blog/2020/numpy-intro.html)


## PyTorch 

[PyTorch](https://pytorch.org) is an open-source Python-based deep learning library. 
PyTorch has been the most widely used deep learning library for research since 2019 by a wide margin. In short, for many practitioners and researchers, PyTorch offers just the right balance between usability and features.

1. PyTorch is a `tensor` library that extends the concept of array-oriented programming library NumPy with the additional feature of accelerated computation on GPUs, thus providing a seamless switch between CPUs and GPUs.

2. PyTorch is an `automatic differentiation engine`, also known as autograd, which enables the automatic computation of gradients for tensor operations, simplifying backpropagation and model optimization.

3. PyTorch is a deep learning library, meaning that it offers modular, flexible, and efficient building blocks (including pre-trained models, loss functions, and optimizers) for designing and training a wide range of deep learning models, catering to both researchers and developers.


In [None]:
import torch

print(torch.__version__)

print(torch.cuda.is_available())
print(torch.backends.mps.is_available())

tensor0d = torch.tensor(1) 
tensor1d = torch.tensor([1, 2, 3])
tensor2d = torch.tensor([[1, 2, 2], [3, 4, 5]])
tensor3d = torch.tensor([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

In [None]:
# typy
print(tensor1d.dtype)

print(torch.tensor([1.0, 2.0, 3.0]).dtype)

In [None]:
tensor2d.shape
print(tensor2d.reshape(3, 2))
print(tensor2d.view(3, 2))

In [None]:
print(tensor2d.T)

In [None]:
print(tensor2d.matmul(tensor2d.T))

print(tensor2d @ tensor2d.T)

szczegółowe info znajdziesz w [dokumentacji](https://pytorch.org/docs/stable/tensors.html)

## Modelowanie danych ustrukturyzowanych

Rozważmy jedną zmienną (`xs`) od której zależy nasza zmienna wynikowa (`ys` - target).
```python
xs = np.array([-1,0,1,2,3,4])
ys = np.array([-3,-1,1,3,5,7])
```


Modelem który możemy zastosować jest regresja liniowa.

In [None]:
# Regresja liniowa 

import numpy as np
from sklearn.linear_model import LinearRegression

xs = np.array([-1,0,1,2,3,4])
# a raczej 
xs = xs.reshape(-1, 1)

ys = np.array([-3, -1, 1, 3, 5, 7])

reg = LinearRegression()
model = reg.fit(xs,ys)

print(f"solution: x1={model.coef_[0]}, x0={reg.intercept_}")

model.predict(np.array([[1],[5]]))

Prosty kod realizuje w pełni nasze zadanie znalezienia modelu regresji liniowej. 

Do czego może nam posłużyc tak wygenerowany model? 

Aby z niego skorzystac potrzebujemy wyeksportować go do pliku.

Wykorzystaj bibliotekę pickle w celu zapisu obiektu modelu

In [None]:
# save model
import pickle
with open('model.pkl', "wb") as picklefile:
    pickle.dump(model, picklefile)

Teraz możemy go zaimportować (np na Github) i wykorzystać w innych projektach. 

In [None]:
# load model
with open('model.pkl',"rb") as picklefile:
    mreg = pickle.load(picklefile)

In [None]:
mreg.predict(xs)

In [None]:
from torch.nn import Linear
x_t = torch.tensor([1,2,3,4,5]).view(-1,1)
x_t=x_t.to(torch.float32)
m = Linear(1,1)
m(torch.tensor([1.]))

In [None]:
m(x_t)

In [None]:
# forward 
import torch.nn.functional as F

y = torch.tensor([1.0])
x1 = torch.tensor([1.1])
w1 = torch.tensor([2.2], requires_grad=True)
b  = torch.tensor([0.2], requires_grad=True)
z = x1 * w1 + b
a = torch.sigmoid(z)
loss = F.binary_cross_entropy(a,y)

# automatic diff 
from torch.autograd import grad

grad_L_w1 = grad(loss, w1, retain_graph= True)
grad_L_b = grad(loss, b, retain_graph= True)

loss.backward()
print(w1.grad)

In [None]:
class LinearRegression(torch.nn.Module):
    def __init__(self, n_input:int, n_output: int):
        super(LinearRegression, self).__init__()

        self.layers = torch.nn.Sequential(
                torch.nn.Linear(n_input, n_output)
        )
    def forward(self, x):
        return self.layers(x)

In [None]:
x = np.array(xs, dtype=np.float32)
y = np.array(ys, dtype=np.float32)

X_train = torch.from_numpy(x).view(-1,1)
y_train = torch.from_numpy(y).view(-1,1)

In [None]:
lr_model = LinearRegression(1,1)

criterion = torch.nn.MSELoss()
optimizer = torch.optim.SGD(lr_model.parameters(), lr=0.01)

In [None]:
num_params = sum(p.numel() for p in lr_model.parameters() if p.requires_grad)
print(f"liczba trenowalnych parametrów: {num_params}")

In [None]:
for layer in lr_model.layers:
    if isinstance(layer, torch.nn.Linear):
        print(f"weight: {layer.state_dict()['weight']}")
        print(f"bias: {layer.state_dict()['bias']}")

In [None]:
epochs = 10
# petla uczaca 
for epoch in range(epochs):
    lr_model.train() # etap trenowania 

    y_pred = lr_model(X_train)
    loss = criterion(y_pred, y_train)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    if (epoch+1) % 50 == 0:
        print(f'epoch: {epoch+1:03d}, loss = {loss.item():.2f}')
 
    lr_model.eval() # etap ewaluacji modelu

# po treningu jeszcze raz generujemy predykcje
lr_model.eval()
with torch.no_grad():
    predicted = lr_model(X_train)

In [None]:
lr_model.layers[0].weight, lr_model.layers[0].weight.shape

## Inne sposoby pozyskiwania danych 

1. Gotowe źródła w bibliotekach pythonowych
2. Dane z plików zewnętrznych (np. csv, json, txt) z lokalnego dysku lub z internetu
3. Dane z bazy danych (np. MySQL, PostgreSQL, MongoDB)
4. Dane generowane w sposób sztuczny pod wybrany problem modelowy. 
5. Strumienie danych 

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()

# find all keys
print(iris.keys())

# print description
print(iris.DESCR)


import pandas as pd
import numpy as np

# create DataFrame
df = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                  columns= iris['feature_names'] + ['target'])

In [None]:
# show last
df.tail(10)

In [None]:
# show info about NaN values and a type of each column.
df.info()

In [None]:
# statistics
df.describe()

In [None]:
# new features
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

In [None]:
# remove features (columns) 
df = df.drop(columns=['target'])
# filtering first 100 rows and 4'th column

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="whitegrid", palette="husl")

iris_melt = pd.melt(df, "species", var_name="measurement")
f, ax = plt.subplots(1, figsize=(15,9))
sns.stripplot(x="measurement", y="value", hue="species", data=iris_melt, jitter=True, edgecolor="white", ax=ax)

In [None]:
X = df.iloc[:100,[0,2]].values
y = df.iloc[0:100,4].values

y = np.where(y == 'setosa',-1,1)

In [None]:
plt.scatter(X[:50,0],X[:50,1],color='red', marker='o',label='setosa')
plt.scatter(X[50:100,0],X[50:100,1],color='blue', marker='x',label='versicolor')
plt.xlabel('sepal length (cm)')
plt.ylabel('petal length (cm)')
plt.legend(loc='upper left')
plt.show()

In [None]:
from sklearn.linear_model import Perceptron

per_clf = Perceptron()
per_clf.fit(X,y)

y_pred = per_clf.predict([[2, 0.5],[4,5.5]])
y_pred

źródła zewnętrzne

In [None]:
IRIS_PATH = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
col_names = ["sepal_length", "sepal_width", "petal_length", "petal_width", "class"]
df = pd.read_csv(IRIS_PATH, names=col_names)

In [None]:
# save to sqlite
import sqlite3
# generate database
conn = sqlite3.connect("iris.db")
# pandas to_sql

try:
    df.to_sql("iris", conn, index=False)
except:
    print("tabela już istnieje")

In [None]:
result = pd.read_sql("SELECT * FROM iris WHERE sepal_length > 5", conn)

Sztuczne dane


In [None]:
# Dane sztucznie generowane
from sklearn import datasets
X, y = datasets.make_classification(n_samples=10**4,
n_features=20, n_informative=2, n_redundant=2)


from sklearn.ensemble import RandomForestClassifier


# podział na zbiór treningowy i testowy
train_samples = 7000 # 70% danych treningowych

X_train = X[:train_samples]
X_test = X[train_samples:]
y_train = y[:train_samples]
y_test = y[train_samples:]

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)

rfc.predict(X_train[0].reshape(1, -1))

### dane nieustruktyryzowane

Dane nieustrukturyzowane to dane, które nie są w żaden sposób uporządkowane.

1. obrazy 
2. teksty
3. dźwięk
4. wideo

Niezależnie od typu wszystko przetwarzamy w tensorach (macierzach wielowymiarowych). Może to prowadzić do chęci używania modeli ML i sieci neuronowych do analizy danych nieustrukturyzowanych.

In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="whitegrid", palette="husl")


# 2-dim picture 28 x 28 pixel random 
picture_2d = # TWOJ KOD 
picture_2d[0:5,0:5]

In [None]:
plt.imshow(picture_2d, interpolation='nearest')
plt.show()

In [None]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

fashion_mnist = keras.datasets.fashion_mnist # 60000 obrazow 28x28
(x_train_f, y_train_f),(x_test,y_test) = fashion_mnist.load_data()

In [None]:
x_valid, x_train = x_train_f[:5000]/255.0, x_train_f[5000:]/255.0
y_valid, y_train = y_train_f[:5000], y_train_f[5000:]

In [None]:
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[28,28]))
model.add(keras.layers.Dense(128, activation=tf.nn.relu))
model.add(keras.layers.Dense(10, activation=tf.nn.softmax))

In [None]:
model.summary()

model.layers # dostęp do warstw modelu

In [None]:
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [None]:
history = model.fit(x_train_f, y_train_f, epochs=5, validation_data = (x_valid,y_valid))

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

pd.DataFrame(history.history).plot()
plt.grid(True)
plt.gca().set_ylim(0,1)
plt.show()

In [None]:
model.evaluate(x_test,y_test)

x_new = x_test[:3]
y_pr = model.predict(x_new)

## Format json

Twórz i zarządzaj jsonami w połączeniu z bazą danych mongoDB. 
Baza ta dostępna jest jako osobny mikroserwis w Dockerze. 
Przed podłączeniem sprawdź jak w pliku docker-compose.yml jest skonfigurowany serwis mongoDB (user i pass).

In [None]:
import json
person = '{"name": "Alice", "languages": ["English", "French"]}'
person_dict = json.loads(person)

print(person_dict)

In [None]:
%%file test.json
{"name": "Alice", "languages": ["English", "French"]}

In [None]:
with open('test.json') as f:
    data = json.load(f)

print(data)

In [None]:
with open('person.json', 'w') as json_file:
    json.dump(person_dict, json_file)