# Praktyczny Machine Learning w Pythonie
<br>
<img src="figures/python-comic-2.png">

## Przydatne pakiety

Python to język wysokiego poziomu z ogromną ilością pakietów. 

Na tych warsztatach skupimy się na tym jak w praktyczny sposób wykorzystać pakiet scikit-learn do rozwiązywania problemów machine learningowych, które mogą się pojawić przy okazji inych projektów. Scikit-learn jest używany w takich firmach jak Microsoft, Evernote czy Spotify. Zawdzięcza to świetnemu API, dobrej wydajności i bardzo aktywnej społeczności.

**Cel**: zapoznanie z pakietami scikit-learn, numpy, matplotlib z zastosowaniem do rozpoznawania cyfr. Konkurs pod koniec: jeszcze więcej rozpoznawania cyfr:)

Uwaga: nie uczymy pythona, ale mam nadzieję, że składnia jest intuicyjna

W tej części poznamy przydatne pakiety i narzędzia, które obecnie stanowią podstawę machine learningu w Pythonie:  IPython Notebook, numpy oraz matplolib.

Pakietów jest duzo więcej: Scipy, Pandas, Sympy, PyTables, Cython, Blaze, NLTK i inne. Większość z nich jest dostępna w Anacondzie.

## 1. IPython Notebook

* "Mathematicowy" notebook - możliwość ewaluacji komórek, podpowiadanie składni (tab) i inne
* Właśnie go używamy :)
* Dużo magicznych rzeczy (wyświetlanie wykresów, równoległe obliczenia)
* Bardzo wygodne do zdalnego odpalania kodu na swoim serwerze
* ctrl + enter - odpal kod w komórce
* ctrl + m + b - wstaw komórke poniżej (w command mode wystarczy b)
* Inne przydatne skróty pod ctrl + m + h (lub w Help -> Keyboard Shortcuts).
* Alternatywą jest collaboratory (nastawiony na jednoczesną pracę nad jednym notebooiem)

## 2. Numpy
* Wygodne operacje na macierzach, wektorach itp.
* Podstawa praktycznie wszystkich pakietów machine learning
* Pod spodem wydajny kod C, BLAS (można podpiąć np. szybszy OpenBLAS). 

Zamiast teorii spróbujmy zrobić pare rzeczy w numpy

In [None]:
import numpy as np

In [None]:
a = np.array([1, 2, 3, 4])
print "a: ", a
print "Pierwszy element: ", a[0]
print "Drugi element!: ", a[1]
print "a+1:", a + 1
print "2*a:", 2*a
b = np.array([1, 2, 3, 4])
print "b: ", b
print "Iloczyn skalarny <a,b>: ", np.inner(a,b) # Iloczyn skalarny

### Uwaga! Mnożenie macierzy to nie jest *, ale np.dot() !

In [None]:
a = np.eye(3) # Macierz identyczności (jedynki na diagonali) 3x3
b = np.random.uniform(size=(3,3)) # Losowa macierz 3x3
print "a = ", a
print
print "b = ", b
print
print "a*b =", a*b # Mnozenie kazdy element razy kazdy
print
print "np.dot(a,b) = ", np.dot(a,b) # Mnozenie macierzowe 

In [None]:
# Możemy wziąć część wektora i wykonać na nim jakąś operację
a = np.array([1,2,3,4,5])
print "Suma elementow od 1 do 3 włącznie: ", a[1:4].sum()
# Jest bardzo dużo różnych operacji. Można zobaczyć przez wpisanie "a." i tab (autocompletion).

In [None]:
# Oczywiście obiekty numpy są iterowalne
for x in a:
    print x

### Ćwiczenie 1: 
    a) znajdź największą i najmniejszą wartość w wektorze c. 
    b) stworzyć analogicznie wektor d i policzyć iloczyn skalarny. Ile wynosi jak zwiększymy ilość wymiarów?
   Podpowiedź: można użyć pętli for lub operacji na c (poszukać tabem po wpisaniu "c.")

In [2]:
import numpy as np

In [3]:
c = np.random.uniform(size=(5,)) # wektor 5 pseudolosowych liczb
d = np.random.uniform(size=(5,)) # wektor 5 pseudolosowych liczb


In [5]:
np.dot(c, d.T)

0.95986143184996031

## 3. Matplotlib

Podstawowy pakiet do rysowania. Istnieje dużo nakładek na matplotlib, najciekawsza to prawdopodobnie seaborn

In [None]:
import matplotlib.pylab as plt # Import podpakietu jako plt
# Magia IPython Notebook :) Pokazuje wykresy w konsoli
%matplotlib inline 

In [None]:
x = np.linspace(0,1,20) # Tworzy wektor z 20 wartosciami w równych odstępach od 0 do 1
print x
_ = plt.plot(x, 'o-') # matplotlib naśladuje składnie matlaba

In [None]:
plt.plot(x, x, 'o-', label='liniowa')
plt.plot(x, x ** 2, 'x-', label='kwadratowa') # Operacja na wektorze numpy ! x ** 2 podnosi każdy element do kwadratu

plt.legend(loc='best')
_ = plt.title('Funkcja liniowa vs funkcja kwadratowa')

In [None]:
# Są inne wykresy, np histogram
samples = np.random.normal(loc=1.0, scale=0.5, size=1000) # 1000 liczb z rozkładu normalnego
print "Pierwsze 10 z wylosowanej próby: ", samples[0:10] # 10 pierwszych
print "Rozmiar próby: ", samples.shape # rozmiar
_ = plt.hist(samples, bins=10)

In [None]:
# Inny przykład bez tłumaczenia :)
samples_1 = np.random.normal(loc=1, scale=.5, size=10000) # Rozklad Gaussa
samples_2 = np.random.standard_t(df=10, size=10000) # Rozklad studenta t (taki jakby Gauss :))
bins = np.linspace(-3, 3, 50)
_ = plt.hist(samples_1, bins=bins, alpha=0.5, label='samples 1')
_ = plt.hist(samples_2, bins=bins, alpha=0.5, label='samples 2')
_ = plt.legend(loc='upper left')

In [None]:
N = 1000
X = np.random.uniform(0, 1, N) # 1000 uniformly distributed numbers
# print X
X = X.reshape(N/2, 2) # Make it into matrix
# Tip: instead of passing N/2 you can pass -1 and it is smart enough to figure it out
# print X
plt.scatter(X[:, 0], X[:, 1]) # Scatter is like plot, but for drawing cloud of points