# Jupiter Notebook

## Install Jupiter Notebook

```
pip install jupyter```

## Starting the notebook server
```
jupyter notebook```

## Using Jupiter Notebook
### Cписок используемых магических методов
```
%lsmagic```

In [None]:
%lsmagic

### Справка по магическим функциям
Добавьте знак ? после команды

In [None]:
%who?

### Переменные среды
Можно управлять переменными среды для вашего блокнота без перезапуска Jupyter-сервера. Некоторые
библиотеки (такие, как theano) используют переменные среды, чтобы контролировать поведение, и %env
— самый удобный способ.
```
%env```

In [None]:
#%env - without arguments lists environmental variables
%env OMP_NUM_THREADS=4

### Выполнение shell-команд
Используйте символ ! перед shell-командами
```
!pip install numpy```

In [None]:
!pip list

In [None]:
!java -version

###  Выполнение кода Python
%run  - выполняет код на Python. %run может выполнить код на языке Python из файлов
с расширением .py.
Но эта команда может выполнять и другие блокноты из Jupyter! Иногда это очень полезно.
Обратите внимание, что %run — это не то же, что импорт python-модуля.

In [None]:
%run

### Загрузка кода в ячейку

In [None]:
%load ipython_log.py

### Тайминг

In [None]:
%%time
import time
time.sleep(2)

In [None]:
%%timeit
import time
time.sleep(2)

### Запись ячейки в файл

In [None]:
%%writefile pythoncode.py
import numpy
def append_if_not_exists(arr, x):
    if x not in arr:
        arr.append(x)
        
def some_useless_slow_function():
    arr = list()
    for i in range(10000):
        x = numpy.random.randint(0, 10000)
        append_if_not_exists(arr, x)

In [None]:
!pip install pandas

***
# Using Pandas

### Importing pandas

In [None]:
import pandas

In [None]:
pandas.__version__

In [None]:
import pandas as pd

In [None]:
pd.__version__

### Pandas documentation

In [None]:
pd.show_versions()

In [None]:
# показать доки
pd.show_versions?

In [None]:
pd.read_csv?

### Pandas vs SQL
[Comparison with SQL](https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html)
***

### Series and DataFrames

In [None]:
oo = pd.read_csv('olympics.csv', skiprows=4)
oo.head(10)

### Доступ к DataFrame

In [None]:
oo

### Доступ к Series

In [None]:
oo['Athlete']

In [None]:
oo[['City','Edition','Athlete']]

In [None]:
type(oo)

In [None]:
type(oo.City)

In [None]:
type(oo[['City','Edition','Athlete']])

### Предпросмотр и валидация данных
#### Shape

In [None]:
oo.shape

#### head() and tail()

In [None]:
oo.head(3)

In [None]:
oo.tail()

In [None]:
oo.info()

### Базовый анализ
#### value_counts()

In [None]:
oo.Edition.value_counts()

In [None]:
oo.Gender.value_counts(ascending=True,dropna=False)

#### sort_values()

In [None]:
ath = oo.Athlete.sort_values()
ath

In [None]:
oo.sort_values(by=['Edition','Athlete'])

#### Boolean indexing

In [None]:
oo[(oo.Medal == 'Gold') & (oo.Gender == 'Women')]

#### String handling

In [None]:
oo[oo.Athlete.str.contains('Florence')]

***
### Basic plotting

https://matplotlib.org/stable/contents.html

In [None]:
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
fo = oo[oo.Edition == 1896]
fo.head()

#### Line plot

In [None]:
fo.Sport.value_counts().plot(kind='line');

#### Bar plot

In [None]:
fo.Sport.value_counts().plot(kind='bar');

#### Horizontal bar plot

In [None]:
fo.Sport.value_counts().plot(kind='barh');

#### Pie chart

In [None]:
fo.Sport.value_counts().plot(kind='pie');

#### figsize()

In [None]:
fo.Sport.value_counts().plot(figsize=(10,3));

### Seaborn basic plotting
Как много медалей было выйграно мужчинами и женщинами в истории
олимпиады. Как много золотых, серебрянных и бронзовых медалей было
выйграно каждым полом?

In [None]:
import seaborn as sns

In [None]:
sns.countplot(x='Medal',data=oo, hue='Gender');

### Groupby

In [None]:
oo.groupby('Edition')

In [None]:
type(oo.groupby('Edition'))

In [None]:
list(oo.groupby('Edition'))

### Итерирование по группам

In [None]:
for group_key, group_value in oo.groupby('Edition'):
    print(group_key)
    print(group_value)    

### Groupby computations

In [None]:
oo.groupby('Edition').size()

### agg([...])

In [None]:
oo.groupby(['Edition','NOC','Medal']).agg(['min','max','count'])

In [None]:
oo.groupby(['Edition','NOC','Medal']).size()

### agg({ : [ ... ]})

In [None]:
oo.groupby(['Edition','NOC','Medal']).agg({'Edition' :['min','max','count']})

In [None]:
oo.loc[oo.Athlete == 'LEWIS, Carl'].groupby('Athlete').agg({'Edition': ['min','max','count']})

***
### stack() and unstack()
Атлеты выйгравшие медали в Beijing на дистанции 100m или
200m

In [None]:
mw = oo[(oo.Edition == 2008) & ( (oo.Event == '100m') | (oo.Event == '200m'))]
mw

In [None]:
g = mw.groupby(['NOC','Gender','Discipline','Event']).size()
g

In [None]:
df = g.unstack(['Discipline','Event'])
df

In [None]:
df = g.unstack(['Event'])
df

#### stack()

In [None]:
df

In [None]:
df.stack()

#### unstack()

In [None]:
df

In [None]:
df.unstack()

In [None]:
df.unstack('Gender')

## Data visualizations
### Seaborn с heatmaps
Cуммарное количество медалей выйгранных странами в
последних олимпийских играх.

In [None]:
lo = oo[oo.Edition == 2008]
lo

In [None]:
g = lo.groupby(['NOC','Medal']).size().unstack('Medal',fill_value=0)
g = g.sort_values(['Gold','Silver','Bronze'],ascending=False)[['Gold'
,'Silver','Bronze']]
g

In [None]:
sns.heatmap(g)

***
# Numpy

In [None]:
import numpy as np

### Arrays

In [None]:
a = np.array([1, 4, 5, 8], float)

In [None]:
type(a)

In [None]:
a[:2]

In [None]:
a[3]

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)

In [None]:
a

In [None]:
a[0,0]

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a[1,:]

In [None]:
a[:,2]

In [None]:
a.shape

In [None]:
a = np.array(range(6), float).reshape((2, 3))

In [None]:
a

In [None]:
a.transpose()

In [None]:
a = np.array([1,2], float)
b = np.array([3,4,5,6], float)
c = np.array([7,8,9], float)
np.concatenate((a, b, c))

#### Other ways to create arrays

In [None]:
np.arange(5, dtype=float)

In [None]:
np.ones((2,3), dtype=float)

In [None]:
np.zeros(7, dtype=int)

#### Array mathematics

In [None]:
a = np.array([1,2,3], float)
b = np.array([5,2,6], float)
a + b

In [None]:
a - b

In [None]:
a * b

In [None]:
b / a

In [None]:
a % b

In [None]:
b**a

In [None]:
a = np.array([1,2,3], float)
b = np.array([4,5], float)
a + b

#### Basic array operations

In [None]:
a = np.array([2, 4, 3], float)
a.sum()

In [None]:
a.mean()

In [None]:
a.std()

In [None]:
a.min()

In [None]:
a.max()

#### Array item selection and manipulation

In [None]:
a = np.array([[6, 4], [5, 9]], float)

In [None]:
a[a >= 6]

In [None]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int)
a.take(b)