## Dane ustrukturyzowane i nieustrukturyzowane

Niezależnie od typu analizowanych i przetwarzanych danych wszystko w pythonie ląduje do jakiejś formy ''listy''. 

In [None]:
# variables
customer1_age = 38
customer1_high = 178
# listy pythonowe
customer = [38, 'Divorced', 1, 56.3, ["","",""], {}]
print(customer)

# different types in one object
type(customer)
# list


> odpowiedz na pytanie - dlaczego do analizy danych nie używamy zmiennych? 
>
> dlaczego listy nie są najlepszym miejscen na przechowywanie danych?


In [None]:
# dwie listy danych
a = [1,2,3]
b = [4,5,6]

In [None]:
# dodawanie list
print(f"a+b: {a+b}")

In [None]:
# mnożenie list
try:
    print(a*b)
except TypeError:
    print("no-defined operation")

Każdy obiekt pythonowy można rozszerzyć o nowe metody i atrybuty.

In [None]:
import numpy as np
aa = np.array(a)
bb = np.array(b)

In [None]:
print(f"aa+bb: {aa+bb}")
# dodawanie działa
try:
    print(aa*bb)
except TypeError:
    print("no-defined operation")
# mnożenie również działa

In [None]:
# własności tablic
x = np.array(range(4))
print(x)
x.shape

In [None]:
A = np.array([range(4),range(4)])
# transposition  row i -> column j, column j -> row i 
A.T

In [None]:
# 0-dim object
scalar = np.array(5)
print(f"scalar object dim: {scalar.ndim}")
# 1-dim object
vector_1d = np.array([3, 5, 7])
print(f"vector object dim: {vector_1d.ndim}")
# 2 rows for 3 features
matrix_2d = np.array([[1,2,3],[3,4,5]])
print(f"matrix object dim: {matrix_2d.ndim}")

In [None]:
# 2-dim picture 4 x 4 pixel
picture_2d = np.random.uniform(size=(28,28))

picture_2d

> Co widzisz na obrazku?

In [None]:
from matplotlib import pyplot as plt
plt.imshow(picture_2d, interpolation='nearest')
plt.show()

### Dane tabelaryczne kolumny - features, wiersze - przypadki

Dane tabelaryczne to najczęściej dane w postaci tabeli, gdzie każda kolumna to cecha, a każdy wiersz to obserwacja. 
Rozważmy jedną zmienną (np. wiek) i dwie obserwacje (np. 20 i 30 lat). Wtedy dane tabelaryczne wyglądałyby tak: 
```python 
wiek = [20, 30]
```
Jeśli mamy dwie zmienne (np. wiek i wzrost) i dwie obserwacje (np. 20 lat i 180 cm oraz 30 lat i 190 cm), to dane tabelaryczne wyglądałyby tak: 
```python  
wiek = [20, 30]
wzrost = [180, 190]
```
Jak widzimy, dane tabelaryczne to po prostu lista list.

### Analiza danych 
Rozważmy jedną zmienną (xs) od której zależy nasza zmienna wynikowa (ys - target).
```python
xs = np.array([-1,0,1,2,3,4])
ys = np.array([-3,-1,1,3,5,7])
```


Modelem który możemy zastosować jest regresja liniowa. 



In [None]:
# Regresja liniowa 

import numpy as np
from sklearn.linear_model import LinearRegression

xs = np.array([-1,0,1,2,3,4])
ys = np.array([-3, -1, 1, 3, 5, 7])

reg = LinearRegression()
model = reg.fit(xs.reshape(-1, 1),ys)
print(f"solution: x1={model.coef_[0]}, x0={reg.intercept_}")
model.predict(np.array([1,5]).reshape(-1, 1))

Prosty kod realizuje w pełni nasze zadanie znalezienia modelu regresji liniowej. 

Do czego może nam posłużyc tak wygenerowany model? 

Aby z niego skorzystac potrzebujemy wyeksportować go do pliku.


In [None]:
# save model
import pickle
with open('model.pkl', "wb") as picklefile:
    pickle.dump(model, picklefile)

Teraz możemy go zaimportować (np na Github) i wykorzystać w innych projektach. 

Ale !!! pamiętaj o odtworzeniu środowiska Pythonowego


In [None]:
# load model
with open('model.pkl',"rb") as picklefile:
    mreg = pickle.load(picklefile)

In [None]:
mreg.predict(xs.reshape(-1,1))

In [None]:
import tensorflow as tf

Na ten problem możemy popatrzeć z innej perspektywy. Sieci neuronowe również potrafią rozwiązywać problemy regresji.

In [None]:
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense

In [None]:
layer_0 = Dense(units=1, input_shape=[1])
model = Sequential([layer_0])
model.compile(optimizer='sgd', loss='mean_squared_error')
model.fit(xs,ys, epochs=10)

In [None]:
print(f"{layer_0.get_weights()}")

> znajdź liczbę epok dla której sieć neuronowa osiągnie dokładność dwóch miejsc po przecinku dla współczynników wagowych (dla przypomnienia $y=2x-1$).

## Inne sposoby pozyskiwania danych 

1. Gotowe źródła w bibliotekach pythonowych
2. Dane z plików zewnętrznych (np. csv, json, txt) z lokalnego dysku lub z internetu
3. Dane z bazy danych (np. MySQL, PostgreSQL, MongoDB)
4. Dane generowane w sposób sztuczny pod wybrany problem modelowy. 
5. Strumienie danych 

In [None]:
# STRUCTURED DATA
from sklearn.datasets import load_iris

iris = load_iris()

In [None]:
# find all keys
iris.keys()

In [None]:
# print description
print(iris.DESCR)

In [None]:
import pandas as pd
import numpy as np

# create DataFrame
df = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                  columns= iris['feature_names'] + ['target'])

In [None]:
# show last
df.tail(10)

In [None]:
# show info about NaN values and a type of each column.
df.info()

In [None]:
# statistics
df.describe()

In [None]:
# new features
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

In [None]:
# remove features (columns) 
df = df.drop(columns=['target'])
# filtering first 100 rows and 4'th column

In [None]:
X = df.iloc[:100,[0,2]].values
y = df.iloc[0:100,4].values

In [None]:
y = np.where(y == 'setosa',-1,1)

In [None]:
from matplotlib import pyplot as plt 

In [None]:
plt.scatter(X[:50,0],X[:50,1],color='red', marker='o',label='setosa')
plt.scatter(X[50:100,0],X[50:100,1],color='blue', marker='x',label='versicolor')
plt.xlabel('sepal length (cm)')
plt.ylabel('petal length (cm)')
plt.legend(loc='upper left')
plt.show()

Dla tego typu danych separowalnych liniowo użyj najprostrzego modelu regresji logistycznej lub sieci neuronowej.

In [None]:
from sklearn.linear_model import Perceptron

per_clf = Perceptron()
per_clf.fit(X,y)
y_pred = per_clf.predict([[2, 0.5],[4,5.5]])

In [None]:
y_pred

#### Zapis danych i podłączenie do prostej bazy SQL 

In [None]:
IRIS_PATH = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
col_names = ["sepal_length", "sepal_width", "petal_length", "petal_width", "class"]
df = pd.read_csv(IRIS_PATH, names=col_names)

# save to sqlite
import sqlite3
# generate database
conn = sqlite3.connect("iris.db")
# pandas to_sql
df.to_sql("iris", conn, index=False)

In [None]:
# sql to pandas
result = pd.read_sql("SELECT * FROM iris WHERE sepal_length > 5", conn)

In [None]:
result

In [None]:
# Dane sztucznie generowane
from sklearn import datasets
X, y = datasets.make_classification(n_samples=10**4,
n_features=20, n_informative=2, n_redundant=2)
from sklearn.ensemble import RandomForestClassifier
# podział na zbiór treningowy i testowy
train_samples = 7000 # 70% danych treningowych

X_train = X[:train_samples]
X_test = X[train_samples:]
y_train = y[:train_samples]
y_test = y[train_samples:]

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)

### dane nieustruktyryzowane

Dane nieustrukturyzowane to dane, które nie są w żaden sposób uporządkowane.

1. obrazy 
2. teksty
3. dźwięk
4. wideo

Niezależnie od typu wszystko przetwarzamy w tensorach (macierzach wielowymiarowych). Może to prowadzić do chęci używania modeli ML i sieci neuronowych do analizy danych nieustrukturyzowanych.


In [None]:
import tensorflow as tf
from tensorflow import keras

fashion_mnist = keras.datasets.fashion_mnist
(x_train_f, y_train_f),(x_test,y_test) = fashion_mnist.load_data()

In [None]:
x_train_f.shape, y_train_f.shape

In [None]:
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[28,28]))
model.add(keras.layers.Dense(300, activation="relu"))
model.add(keras.layers.Dense(100, activation="relu"))
model.add(keras.layers.Dense(10, activation="softmax"))

In [None]:
model.summary()

In [None]:
keras.utils.plot_model(model)

In [None]:
model.layers

In [None]:
model.compile(loss='sparse_categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])

In [None]:
history = model.fit(x_train, y_train, epochs=10, validation_data = (x_valid,y_valid))

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

pd.DataFrame(history.history).plot()
plt.grid(True)
plt.gca().set_ylim(0,1)
plt.show()

In [None]:
model.evaluate(x_test,y_test)

In [None]:
x_new = x_test[:3]


In [None]:
y_pr = model.predict(x_new)

In [None]:
y_pr.round(4)

A jakie inne sieci i warstwy możemy wykorzystać do analizy danych nieustrukturyzowanych? 

> Znajdź odpowiedź na to pytanie w dokumentacji biblioteki Keras.

Twórz i zarządzaj jsonami w połączeniu z bazą danych mongoDB. 
Baza ta dostępna jest jako osobny mikroserwis w Dockerze. 
Przed podłączeniem sprawdź jak w pliku docker-compose.yml jest skonfigurowany serwis mongoDB (user i pass). 

In [None]:
import json
person = '{"name": "Alice", "languages": ["English", "French"]}'
person_dict = json.loads(person)

print( person_dict)

In [None]:
%%file test.json
{"name": "Alice", "languages": ["English", "French"]}

In [None]:
with open('test.json') as f:
    data = json.load(f)

print(data)

In [None]:
with open('person.json', 'w') as json_file:
    json.dump(person_dict, json_file)

In [None]:
# do połączenia używamy biblioteki pymongo
!pip install pymongo

In [None]:
from pymongo import MongoClient
uri = "mongodb://admin:admin@mongo"
client = MongoClient(uri)

In [None]:
db = client['school']

In [None]:
students = db.students
new_students = [
    {'name': 'John', 'surname': 'Smith', 'group': '1A', 'age': 22, 'skills': ['drawing', 'skiing']},
    {'name': 'Mike', 'surname': 'Jones', 'group': '1B', 'age': 24, 'skills': ['chess', 'swimming']},
    {'name': 'Diana', 'surname': 'Williams', 'group': '2A', 'age': 28, 'skills': ['curling', 'swimming']},
    {'name': 'Samantha', 'surname': 'Brown', 'group': '1B', 'age': 21, 'skills': ['guitar', 'singing']}
]

In [None]:
students.insert_many(new_students)

In [None]:
students.find_one()