# Warsztat 8 - NumPy - operacje na tablicach <a id=top></a>

<font size=2>Przed pracą z notatnikiem polecam wykonać kod w ostatniej komórce (zawiera html i css), dzięki czemu całość będzie bardziej estetyczna :)</font>

<a href='#Warsztat-8---operacje-na-tablicach'>Warsztat 8</a>
<ul>
<li><a href='#Podstawowe-operacje'><span>Podstawowe operacje</span></a></li>
<li><a href='#Redukowanie-tablic'><span>Redukowanie tablic</span></a></li>
<li><a href='#"Transmisja"'><span>"Transmisja"</span></a></li>
<li><a href='#Polecane-źródła:'><span>Polecane źródła</span></a></li>
<li><a href='#Praca-z-plikami-tekstowymi'><span>Praca z plikami tekstowymi</span></a></li>
</ul> 

Wszystko, o czym będziemy mówić na dzisiejszym warsztacie, pojawia się w tym filmiku i do tego w bardziej skondensowanej formie.<br> Warto zajrzeć w formie przypomnienia treści lub zapoznawania się z nimi samemu w domu.

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo("EEUXKG97YRw",width=800, height=400, )

## Przekształcenia

#### Podstawowe operacje

Tablice są obiektami, na których można wykonywać operacje arytmetyczne - zarówno te podstawowe, znajdujące się w rdzeniu Pythona, jak i te bardziej zaawansowane z modułu NumPy i innych. Podstawową cechą tych operacji jest wykonywanie ich <b>według elementów (ang. element-wise)</b>, co oznacza, że dane działanie zostanie zaaplikowane do każdego elementu tablicy.

In [None]:
# -*- coding: utf-8 -*-
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline

In [None]:
tablica = np.arange(1,17)
tablica = tablica.reshape(4,4)
tablica

In [None]:
tablica+2

In [None]:
tablica*3

In [None]:
(tablica**2)//5

Działania według elementu oznaczają, że wykorzystanie obiektów o większej ilości części (np. listy) zostaną zaaplikowane do swoich odpowiedników w tablicy. Wymaga to jednak zgodności wymiarów (o czym szerzej powiemy sobie później).

In [None]:
tablica * [1,2,3,4]

In [None]:
tablica / tablica

#### Porównania

Tablice mogą być również przedmiotem porównań (ciągle w duchu operacji element-wise).

In [None]:
taba = np.array([1,2,3,4])
tabb = np.array([1,3,3,2])
taba == tabb

In [None]:
taba >= tabb

#### Operacje logiczne

Można na nich wykonywać operacje logiczne, o ile przechowują zmienne typu boolowskiego.

In [None]:
x = (taba==tabb)
y = (taba>=tabb)
print np.logical_or(x,y)
print np.logical_and(x,y)

#### Funkcje matematyczne

Możemy wykorzystać również szereg bardziej zaawansowanych funkcji, takich jak funkcje trygonometryczne.

In [None]:
np.sin(taba)

Pozwala to w bardzo prosty sposób tworzyć wizualizacje wykonywanych przekształceń. Możemy np. umieścić na jednym wykresie funkcje trygonometryczne sinus i cosinus, tak jak na wykresie poniżej.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
okres = np.linspace(0,np.pi*5,1000)
plt.plot(okres,np.sin(okres))
plt.plot(okres,np.cos(okres))

#### Konflikt niedopasowania

Operacje wykorzystujące zasadę element-wise mają jedno powazne ograniczenie - wszystkie sładniki przekształceń muszą mieć odpowiadającą sobie liczbę elementów. Inaczej możemy natknąć się na błąd **'transmisji'**.

In [None]:
a = np.arange(10)
a + np.array([1, 2, 3, 4])

#### Operacje array-wise

Oczywiście możliwe są przekształcenia, które będą uwzględniać tablicę jako całość a nie działać na poszczególne elementy. Dla przykładu, możliwe jest porównywanie całych tablic zamiast elementów o poszczególnych indeksach. Sporo funkcji posiada obie realizacje, warto wtedy skorzystać z dokumentacji NumPy'a, żeby znaleźć interesującą nas operację.

In [None]:
taba = np.array([1,2,3,4])
tabb = np.array([1,3,3,2])
np.array_equal(taba, tabb)

<a href='#top' style='float: right; font-size: 13px;'>Do początku</a>    

## Redukowanie tablic

Przez redukowanie będziemy rozumieć operacje, które będą działać na elementach według jednego wymiaru i sprowadzać je do pojedynczego elementu (przez co liczba wymiarów tablicy zostanie **zredukowana**).<br>
Przykładem takiej operacji jest suma, która zamienia nam ciąg liczb na jedną.

In [None]:
tablica = np.arange(16)
np.sum(tablica)

Rezultatem działania funkcji <b>sum( )</b> jest suma wszystkich elementów tablicy. Niezależnie od jej kształtu, domyślne ustawienie funkcji każe jej zwrócić pojedynczą wartość. Jeśli chcielibyśmy wyłącznie zsumować elementy znajdujące się w tym samym rzędzie, musimy wprowadzić dodatkowy parametr <b>axis = </b>, w którym wskażemy, który wymiar nas interesuje.

In [None]:
tablica2d = tablica.reshape(4,4)
print tablica2d
np.sum(tablica2d)

In [None]:
tablica2d = tablica.reshape(4,4)
np.sum(tablica2d, axis=1)

Ustwienie **axis = 1** sumuje względem wymiaru kolumn (czyli ten sam rząd, różne kolumny). Ustawienie parametru na 0 zsumowałoby liczby w poszczególnych kolumnach. Wskazanie innego wymiaru dałoby błąd - nasza  tablica posiada bowiem wyłącznie 2 wymiary.

Dostępne mamy również inne statystyczne przekształcenia.

In [None]:
np.mean(tablica)

In [None]:
np.std(tablica)

In [None]:
np.median(tablica2d, axis=1)

Wskazanie największego i najmniejszego elementu w tablicy możemy wywołać komendami odpowiednio <b>.max()</b> oraz <b>.min()</b>.<br>
Jeśli jednak chcemy otrzymać indeks komórki zawierającej taką wartość, użyjemy <b>.argmax()</b> i <b>.argmin()</b> (jeśli jednak nie wskażemy, według którego wymiaru wykonać operację, metoda "spłąszczy" tablicę do postaci jednowymiarowej i zwróci indeks największego elementu w postaci jednej liczby).

In [None]:
tablica.max()

In [None]:
tablica2d.argmax(axis=0)

#### Reduktory logiczne

Istnieją również reduktory sprowadzające tablicę do określonych wartości logicznych. Dwa podstawowe to <b>any( )</b>, sprawdzające czy w danej tablicy znajduje się wartość spełniająca podany warunek, oraz <b>all( )</b> testujące czy wszystkie elementy spełniają warunek.

In [None]:
a = np.arange(10)
print np.any(a<7)
print np.all(a<9)

<a href='#top' style='float: right; font-size: 13px;'>Do początku</a>    

#### Ćwiczenie 

Biorąc przykład z istnienia reduktora **sum()**, jakich jeszcze można by się spodziewać w pakiecie NumPy?

In [None]:
tablica = np.arange(24).reshape(4,6)
tablica

### Pożyczony przykład ekologiczny

In [None]:
data = np.loadtxt('populations.txt')
year, hares, lynxes, carrots = data.T

In [None]:
data

In [None]:
plt.axes([0.2, 0.1, 0.5, 0.8]) 
plt.plot(year, hares, year, lynxes, year, carrots) 
plt.legend(('Hare', 'Lynx', 'Carrot'), loc=(1.05, 0.5)) 

In [None]:
populations = data[:, 1:]
populations.mean(axis=0)

In [None]:
populations.std(axis=0)

In [None]:
np.argmax(populations, axis=1)

<a href='#top' style='float: right; font-size: 13px;'>Do początku</a>    

## "Transmisja"

Pod tym pojęciem kryje się specyficzna cecha tablic NumPy.<br>
Wspominaliśmy sobie, że interakcje między tablicami mogą zachodzić jedynie, jeśli są one tego samego rozmiaru. W rzeczywistości, dopuszczalna jest niezgodność maksymalnie w jednym wymiarze. Jeśli taka sytuacja nastąpi, NumPy "rozciągnie" poprzez powielenie mniejszą tablicę do rozmiaru większej i wykona odpowiednią operację.<br>
**Uwaga:** tutaj jednak też musimy pamiętać, że wielkość niedopasowanego wymiaru musi dać się dopasować mnożeniem do wielkości analogicznego wymiaru w drugiej tablicy. Poniższy rysunek pokazuje ogólną zasadę działania transmisji.

<img src='numpy_broadcasting.png' style="width: 50%; heigth: auto;"/>

Spróbumy zobaczyć to na przykładzie.

In [None]:
a = np.tile(np.arange(0, 40, 10), (3, 1)).T
a

In [None]:
b = np.arange(4)*np.arange(3).reshape(3,1)
b

Wykorzystując ten mechanizm, możemy w łatwy sposób dodać nowy wymiar do naszej tablicy.

In [None]:
a = np.arange(0, 40, 10)
print a
a.shape

In [None]:
a = a[:, np.newaxis]
print a
a.shape

#### Sortowanie

Sortowanie odbywa się za pomocą funkcji <b>sort( )</b>, gdzie argumentem jest tablica.

In [None]:
tablica = np.array([[1,4,3,5],[6,1,8,0],[7,7,1,1]])
tablica

In [None]:
np.sort(tablica)

Jako drugi argument funkcji możemy podać numer wymiaru, po którym sortowanie ma się odbyć, poprzez dodanie **axis=**.

In [None]:
print np.sort(tablica, axis=0)
print np.sort(tablica, axis=1)

Podobnie jak 'wymyślne' indeksowanie, możliwe jest sortowanie w tym stylu.

In [None]:
a = [2,1,3,0]
tablica[:,a]

Za pomocą komendy **argsort( )** możemy zdobyć listę indeksów, które potem pozwolą nam uporządkować wybraną listę.

In [None]:
a = np.array([4, 3, 1, 2])
j = np.argsort(a)
j

In [None]:
a[j]

<a href='#top' style='float: right; font-size: 13px;'>Do początku</a>    

### Praca z plikami tekstowymi 

NumPy posiada własne funkcje służące wczytywaniu danych z plików tekstowych.  
Najpopularniejszym rozszerzeniem tego typu plików jest **.csv** (comma-separated values), ale dodanie rozszerzenia **.txt** czy **.dat** nie będzie miało wpływu na możliwość odczytania danych.  
Interesująca nas funkcja to <b>genfromtxt( )</b>.

In [None]:
data = np.genfromtxt("nhtemp.csv", delimiter=',')

In [None]:
print data

In [None]:
fig, ax = plt.subplots(figsize=(14,4))
ax.plot(data[:,1], data[:,2])
ax.axis('tight')
ax.set_title('Mean tempeatures in New Haven')
ax.set_xlabel('Year')
ax.set_ylabel('Temperature ('u'\xb0''F)');

Należy pamiętać, że **genfromtxt()** domyślnie jest ustawiony na dane oddzielone tabulacją, jeśli nasz plik ma inny separator, należy to wskazać w parametrze **delimiter=**.

Podobnie proste jest zapisywanie danych do pliku. Interesuje nas tym razem funkcja <b>savetxt( )</b>

In [None]:
do_zapisu = np.linspace(1,2,10)
do_zapisu = do_zapisu.reshape(5,2)
do_zapisu

In [None]:
np.savetxt('plik_do_zapisu.txt', do_zapisu)

!type plik_do_zapisu.txt
# dla Linuksa i Maca zamiast type użyj funkcji cat

Możemy modyfikować sposób zapisu tabeli poprzez wybór separatora, ale również poprzez np. określenie ilości liczb w rozwinięciu dziesiętnym poszczególnych pozycji.

In [None]:
np.savetxt('plik_do_zapisu.csv', do_zapisu, delimiter=';', fmt='%.4f')
!type plik_do_zapisu.csv

### Polecane źródła:

Bardzi dobry tutorial z konferencji SciPy 2013 na YouTube (w oparciu o niego powstał ten fragment warsztatu).  
<a href="https://www.youtube.com/watch?v=UWmZAAfXds4">Część 1.</a> 
<a href="https://www.youtube.com/watch?v=lSfkIle93hQ">Część 2.</a><br>
<a href="https://github.com/esc/scipy2013-tutorial-numpy-ipython">Tutaj można znaleźć materiały, z których korzysta autor (przede wszystkim notatniki Jupytera).</a>

Kolejny tutorial, tym razem z SciPy 2015, jednak bez wykorzystania Jupytera.  
<a href="https://www.youtube.com/watch?v=1zmV8lZsHF4">Całość.</a>  
<a href="https://github.com/enthought/Numpy-Tutorial-SciPyConf-2015">Oraz materiały, z których korzysta autor.</a>

Całkiem rozbudowany <a href="http://nbviewer.jupyter.org/github/jrjohansson/scientific-python-lectures/blob/master/Lecture-2-Numpy.ipynb">notatnik z przeglądem funkcji NumPy</a>, pochodzący z tutorialu J.R. Johanssona.

In [59]:
from IPython.core.display import HTML
import urllib
HTML(open("ipython.css").read())