<h2 style="text-align: center;"><b>Python. Занятие 1: Основы</b></h2>

## Основы Python

### Структуры данных и встроенные функции

**Все типы данных** в Python относятся к одной из **2-х категорий**: **изменяемые (mutable)** и **неизменяемые (unmutable)**.   

*Неизменяемые объекты*:  
* числовые данные (int, float), 
* bool,
* None,
* символьные строки (class 'str'), 
* кортежи (tuple).  

*Изменяемые объекты*:  
* списки (list), 
* множества (set), 
* словари (dict).  

Вновь определяемые пользователем типы (классы) могут быть определены как неизменяемые или изменяемые. Изменяемость объектов определённого типа является принципиально важной характеристикой, определяющей, может ли объект такого типа **выступать в качестве ключа для словарей (dict)** или нет.

### tuple

In [None]:
t = ('a', 5, 12.345)
t

In [None]:
t.append(5)

In [None]:
len(t)

#### Поменять переменные местами

In [None]:
a = -5
b = 100

a, b = b, a

print('a:', a, '\nb:', b)

### list

In [None]:
a = list()
b = []

print(a == b)

In [None]:
my_list = ['string', 100, 5.678, None]
my_list

In [None]:
array = [37,34,26,85,67,96,53,42,45,65,74,78,]
array = list(array)
print(array, '|', type(array))

In [None]:
array[1]

In [None]:
array[-1]

In [None]:
for i in range(0, 5):
    print(i)

* Перевернуть список:

In [None]:
array = array[::-1]
array

* Срезы (`slice`'s) - это объекты языка Python, позволяющие получить какую-то часть итерируемого объекта.  
Пример:

In [None]:
foo = list(range(10))
foo

In [None]:
foo[:5]

In [None]:
foo[5:]

In [None]:
foo[2:5]

* Списки можно "склеивать":

In [None]:
a = [1, 2, 3]
b = [4, 5, 6]

print(a + b)

### Задание 1

1. Даны два списка одинаковых размеров из одинаковых элементов:  
`items = [1 5 6 9 8 7 2 3 4]`  
`shuffled_items = [2 3 4 1 6 5 7 9 8]`  

2. Расставьте элементы (с помощью функции `sort()`) в списоке `items` так, чтобы получился список `shuffled_items`  

In [None]:
items = [1, 5, 6, 9, 8, 7, 2, 3, 4]
shuffled_items = [2, 3, 4, 1, 6, 5, 7, 9, 8]
items.sort(key=lambda x: shuffled_items.index(x))
print(items)
print(shuffled_items)

---

### enumerate, zip

In [None]:
first = 'a b c d e f g'.split(' ')
second = '1 2 3 4 '.split(' ')
print(first, second)
zip(first, second)

In [None]:
first, second

In [None]:
list(zip(first, second * 3, first, second * 2))

---

### Задание 2

1. Создайте список `a`, состоящий из каких-то элементов.
2. Создайте список `b` такого же размера, как `a`, состоящий из каких-то элементов.
3. Выведите нумерованный список пар из элементов списков `a` и `b`.

In [None]:
a, b = ['a', 'b', 'c'], [1, 6, 9]
for i, pair in enumerate(zip(a, b)):
    print(f"IDX: {i}, PAIR: {pair}")

---

### Задание 3

*Выведите* список из 100 чисел *через запятую*. **Чистыми циклами пользоваться нельзя.** (list comprehensions можно)

In [None]:
", ".join([str(i) for i in range(100)])

---

In [None]:
l = ['agfkd.,f', 'Qksdf;sb&..', 'asdoo*', 'bgf...d', 're54()kj[]].']
for num, s in zip([x.count('.') for x in l], l):
    if num > 2:
        print(s)

In [None]:
[s for num, s in zip([x.count('.') for x in l], l) if num > 2]

---

### modules

**Модули** - это "библиотеки" Python. То есть это самостоятельные, объединённые технически и логически, именованные части Python кода

* О модулях необходимо знать только одно - как их импортировать:

In [None]:
import collections

* Импортировать только какой-то компонент из модуля:

In [None]:
from collections import Counter

* Импортировать с другим именем (чаще всего используется для локаничности кода):

In [None]:
import collections as cl

In [None]:
count = cl.Counter()

Жизненный пример:

In [None]:
import numpy as np

### files

In [None]:
!echo 'test file for python-intro notebook' > test.txt

In [None]:
path = './test.txt'

In [None]:

file = open(path, mode='r')
print([line for line in file][0])
file.close()

| Режим | Обозначение |
|-------|-------------|
| **'r'**  | Открытие на **чтение** (является значением по умолчанию) |
| **'rb'** | Открытие на **чтение**, в предположении, что будут считываться **байты** |
| **'w'** | Открытие на **запись**, содержимое файла удаляется. Если файла не существует, создается новый |
| **'wb**' | Открытие на **запись байтов**, содержимое файла удаляется. Если файла не существует, создается новый |
| **'a'** | Открытие на **дозапись**, информация добавляется **в конец файла** |
| **'r+'** | Открыть файл на **чтение И запись**. Если файла нет, **новый НЕ создаётся** |
| **'a+'** | Открыть файл на **чтение И запись в конец файла**. Если файла нет, **новый создаётся** |
| **'t'** | Открытие файла **как текстового** (по умолчанию) |

In [None]:
with open(path, mode='r') as test_file:
    for line in test_file:
        print(line)



### exceptions

In [None]:
dir(__builtin__)

In [None]:
raise KeyboardInterrupt()

In [None]:
my_dict = {1: 100, 2: 200}
print(my_dict['NEW'])

In [None]:
try:
    my_dict = {1: 100, 2: 200}
    print(my_dict['NEW'])
except KeyError:
    print('Caught KeyError!')

### Полезные библиотеки Python

### glob

In [None]:
import glob

In [None]:
!ping google.com

In [None]:
glob.glob('./[0-9].*')

In [None]:
glob.glob('*.png')

In [None]:
glob.glob('?.jpg')

In [None]:
glob.glob('./**/', recursive=True)

In [None]:
glob.glob('**/*.txt', recursive=True)

### tqdm

* Устанавливаем виджеты:

`pip install ipywidgets`  

(или `conda install -c conda-forge ipywidgets`)

* Разрешаем их использование в Jupyter Notebook:  

`jupyter nbextension enable --py --sys-prefix widgetsnbextension`  

* Перезагружаем ядро (Restart Kernel)  


* Устанавливаем tqdm:  

`pip install tqdm`  

(или `conda install -c conda-forge tqdm`)  

Больше про tqdm: https://pypi.python.org/pypi/tqdm

In [None]:
from tqdm import tqdm
from tqdm import tnrange, tqdm_notebook
from time import sleep

In [None]:
cnt = 0
for i in tqdm(range(1000)):
    sleep(0.01)
    cnt += 1

In [None]:
for i in tnrange(10, desc='1st loop'):
    print(i)
    for j in tqdm_notebook(range(100), desc='2nd loop', leave=False):
        print(j)
        sleep(0.01)

### collections

* `defaultdict()` - класс словаря, у которого есть значение по умолчанию - порой очень пригождается:

In [None]:
from collections import defaultdict

In [None]:
d = defaultdict(int)

print(d.get('key', 0))

d['key'] = 5
print(d['key'])  # 5

In [None]:
d = defaultdict(lambda: 'empty')
print(d['key'])

d['key'] = 'full'
print(d['key'])

In [None]:
temp = defaultdict(lambda: 'empty')
temp['trata']
print(temp.keys(), temp['trata'])

In [None]:
d = dict()
print(d)
if 'list1' in d.keys():
    d['list1'].append(100)
    d['list1'].append(200)
else:
    d['list1'] = []
print(d)
print(d['list1'])

* `Counter()` - класс словаря, предназначенного для счётчиков. По сути, `== defaultdict(int)`:

In [None]:
from collections import Counter

In [None]:
counter = Counter()

for word in dir(__builtin__):
    for letter in word:
        counter[letter] += 1  # или .update(value)
    
print(counter)

---

# Библиотека Numpy.
- ***``Numpy`` - это библиотека Python для вычислительно эффективных операций с многомерными массивами, предназначенная в основном для научных вычислений.***


- ***Пакет ``Numpy`` предоставляет $n$-мерные однородные массивы (все элементы одного типа) в них нельзя вставить или удалить элемент в произвольном месте. В ``Numpy`` реализовано много операций над массивами в целом.***

In [None]:
# !conda install numpy
# !pip3 install numpy

In [2]:
import numpy as np

## 1. Одномерные массивы

***Если вы не знаете нужной функции, но понимаете, чего хотите, тогда можно воспользоваться поиском в документации.***

In [None]:
np.lookfor('mean value of array') 

***Далее можно почитать документацию про контретную функцию.***

In [None]:
?np.ma.mean

In [None]:
np.con*?

***Посмотрим на количественные характеристики ``ndarray``.***

In [None]:
arr = np.array([[[1, 2, 3, 4],
                [2, 3, 4, 3],
                [1, 1, 1, 1]], 
                [[1, 2, 3, 4],
                [2, 3, 4, 3],
                [1, 1, 1, 1]]])
print(arr)

In [None]:
print("len:", len(arr), "-- количество элементов по первой оси.",
      "\nsize:", arr.size, "-- всего элементов в матрице.",
      "\nndim:", arr.ndim, "-- размерность матрицы.",
      "\nshape:", arr.shape, "-- количество элементов по каждой оси.")

***Индексы.***

In [None]:
a = np.array([1, 2, 3, 4])
a[0], a[1]

***Последний элемент.***

In [None]:
a[-1]

***Можем изменять объекты массива.***

In [None]:
a[2] = -1
a

### **Задача 1:** 
Создать numpy-массив, состоящий из первых четырех простых чисел, выведите его тип и размер:

In [None]:
# решение


## Создание массивов.

In [None]:
a = np.zeros(7) # массив из нулей
b = np.ones(7, dtype=np.int16) # массив из единиц
print(a)
print(b)

***Часто нужно создать нулевой массив такой же как другой.***

In [None]:
c = np.zeros(7)
c

In [None]:
c = np.zeros_like(b)
c

***Функция `np.arange` подобна `range`. Аргументы могут быть с плавающей точкой. Следует избегать ситуаций, когда (конец-начало)/шаг -- целое число, потому что в этом случае включение последнего элемента зависит от ошибок округления. Лучше, чтобы конец диапазона был где-то посредине шага.***

In [None]:
a = np.arange(1, 16, 4)
b = np.arange(5., 21, 2)
c = np.arange(1, 10)
d = np.arange(5)
print(a)
print(b)
print(c)
print(d)

***Последовательности чисел с постоянным шагом можно также создавать функцией `linspace`. Начало и конец диапазона включаются; последний аргумент -- число точек.***

In [None]:
a = np.linspace(1, 15, 2)
b = np.linspace(5, 12, 10)
print(a)
print(b)

### **Задача 2:** 
создать и вывести последовательность чисел от 10 до 32 с постоянным шагом, длина последовательности -- 12. Чему равен шаг?

In [None]:
# решение


***Последовательность чисел с постоянным шагом по логарифмической шкале от $10^0$ до $10^3$.***

In [None]:
#решенение



## 2. Операции над одномерными массивами.

***Все арифметические операции производятся поэлементно.***

In [None]:
print(a)
print(b)

In [None]:
a = np.linspace(3, 33, 11)
b = np.linspace(-2, -22, 11)
print(a + b)
print(a - b)
print(a * b)
print(a / b)

***Один из операндов может быть скаляром, а не массивом.***

In [None]:
print(5*a)
print(10 + b)

In [None]:
print((a + b) ** 2)
print(2 ** (a + b))

In [None]:
np.cos(a)

In [None]:
np.log(b)

***Логические операции также производятся поэлементно.***

In [None]:
print(a > b)
print(a == b)
print(a >= 10)

In [None]:
print(np.e, np.pi)

***Посмотрим на сортировку numpy-массивов.***

In [None]:
a = np.array([1, 5, 6, 10, -2, 0, 18])

In [None]:
print(np.sort(a))
print(a)

***Теперь попробуем как метод.***

In [None]:
a.sort()
print(a)

In [None]:
b = np.ones(5)
b

## Индексирование массивов и срезы

***Массив в обратном порядоке.***

In [None]:
a[::-1]

***Диапазон индексов. Создаётся новый заголовок массива, указывающий на те же данные. Изменения, сделанные через такой массив, видны и в исходном массиве.***

In [None]:
print(a)

In [None]:
a[2:5]

In [None]:
b = a[0:6] # копия не создается
b[1] = -1000
print(a)

***Диапозоны с шагами.***

In [None]:
b = a[0:4:2]
print(b)

# подмассиву можно присваивать скаляр
a[1:6:3] = 0
print(a)

### **Задание 3:**  
- Создать массив чисел от $-4\pi$  до $4\pi $, количество точек 100
- Посчитать сумму поэлементных квадратов синуса и косинуса для данного массива  
- С помощью ``np.all`` проверить, что все элементы равны единице.

In [None]:
# решение



## 3. Двумерные массивы

In [None]:
a = np.array([[1, 2], [3, 4]])
print(a)

In [None]:
a.ndim, a.shape, len(a), a.size

***Обращение по индексу.***

In [None]:
a[1][1], a[1,1]

In [None]:
a = np.ones((3, 3)) # подать tuple
print(a)

In [None]:
b = np.zeros((3, 4))
print(b)

In [None]:
c = np.eye(3)
print(c)

In [None]:
d = np.diag(np.array([1, 2, 3, 4]))
print(d)

### ***Задание 4:***
Создать квадратную матрицу размера 8, на главной диаг. арифметическая прогрессия с шагом 3 (начиная с 3), а на побочной -1, остальные элементы 0.

In [None]:
# решение


***Умножение матриц.***

In [None]:
a = 5*np.ones((5, 5))
b = np.eye(5) + 1
print(a, '\n')
print(b)

In [None]:
print(a*b, '\n') # поэлементное умножение
print(a @ b, '\n') # матричное умножение
print(a.dot(b)) 
a =np.array([2,5,8])
b= np.array([5,3,7])
print(a.dot(b))

***Маски.***

In [None]:
a = np.arange(20)
print(a % 3 == 0)
print(a[a % 3 == 0])

***След (trace) - сумма диагональных элементов.***

In [None]:
b = np.diag(a[a >= 10])
print(b)
print(np.trace(b))

## 4. Тензоры (многомерные массивы)

In [None]:
X = np.arange(64).reshape(8, 2, 4)
print(X)

In [None]:
X.shape, len(X), X.size, X.ndim

***Посмотрим на суммы по разным осям.***

In [None]:
print(np.sum(X, axis=0), '\n')
print(np.sum(X, axis=1), '\n')
print(np.sum(X, axis=2), '\n')

# суммируем сразу по двум осям, то есть для фиксированной i 
# суммируем только элементы с индексами (i, *, *)
print(np.sum(X, axis=(1, 2)))

## 5. Линейная алгебра

In [None]:
a = np.array([[2, 1], [2, 3]])
print(a)

***Определитель.***

In [None]:
np.linalg.det(a)

***Нахождениия обратной.***

In [None]:
b = np.linalg.inv(a)
print(b)

# Pandas

Библиотека `pandas` активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных)

`pandas` есть в пакете Anaconda, но если вдруг у Вас её по каким-то причинам нет, то можно установить, раскомментировав одну из следующих команд:

In [None]:
# !pip3 install pandas
# !conda install pandas

In [3]:
import numpy as np
import pandas as pd # Стандартное сокращение для pandas. Всегда используйте его!

## pd.Series

Тип данных pd.Series представляет собой одномерный набор данных. Отсутствующий данные записываются как `np.nan` (в этот день термометр сломался или метеоролог был пьян); они не участвуют в вычислении средних, среднеквадратичных отклонений и т.д.

### Создание
Создадим Series из списка температур

In [None]:
some_list = [1, 3, 5, np.nan, 6, 8]
ser_1 = pd.Series(some_list)
ser_1

In [None]:
# Так же можно в явном виде указать индексы, чтобы потом было более удобно обращаться к элементам
ind = ['1st day', '2nd day', '3rd day', '4th day', '5rd day', '6th day']

ser_2 = pd.Series(some_list, index=ind)
ser_2

In [None]:
ser_2['4th day']

In [None]:
# А еще можно дать pd.Series имя, чтобы было совсем красиво
ser_3 = pd.Series(some_list, index=ind, name='Temperature')
ser_3

### Индексирование
С индексами можно работать так же, как и в случае с обычным list.

In [None]:
print(ser_3[0])

print('-----------')

print(ser_3[1:3])

print('-----------')

print(ser_3[::-1])

### Индексирование pd.Series по условиям

In [None]:
date_range = pd.date_range('20190101', periods=10)
ser_4 = pd.Series(np.random.rand(10), index=date_range)
ser_4

In [None]:
ser_4 > 0.5

В качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых значение является `True`

In [None]:
ser_4[ser_4 > 0.5]

In [None]:
ser_4[(ser_4 > 0.6) | (ser_4 < 0.2)]

In [None]:
ser_4[(ser_4 > 0.6) & (ser_4 < 0.2)]

### Сортировки
Тип `pd.Series` можно отсортировать как по значениям, так и по индексу.

In [None]:
ser_4.sort_index()

In [None]:
ser_4 = ser_4.sort_values()

In [None]:
ser_4

### Операции с series
Тип `pd.Series` можно модифицировать проще, чем стандартный ``list`` из Python.

In [None]:
ser_4 + 100

In [None]:
np.exp(ser_4)

In [None]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 6))

term_1 + term_2

In [None]:
term_1.shape

# pd.DataFrame

Тип данных pd.DataFrame представляет собой двумерную таблицу с данными. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.
### Создание и основные объекты

In [4]:
# Dataframe можно составить из словаря. Ключ будет соответсовать колонке
some_dict = {'one': pd.Series([1,2,3], index=['a','b','c']),
             'two': pd.Series([1,2,3,4], index=['a','b','c','d']),
             'three': pd.Series([5,6,7,8], index=['a','b','c','d'])}
df = pd.DataFrame(some_dict)
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [5]:
#Альтернативно, из списка списков с аргументом columns

some_array = [[1,1,5], [2,2,6], [3,3,7], [np.nan, 4,8]]
df = pd.DataFrame(some_array, index=['a', 'b', 'c', 'd'], columns=['one', 'two', 'three'])
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [6]:
df.values

array([[ 1.,  1.,  5.],
       [ 2.,  2.,  6.],
       [ 3.,  3.,  7.],
       [nan,  4.,  8.]])

In [7]:
df.columns

Index(['one', 'two', 'three'], dtype='object')

In [8]:
df.columns = ['first_column', 'second_column', 'third_column']
df.index = [1,2,3,4]
df

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5
2,2.0,2,6
3,3.0,3,7
4,,4,8


### Индексирование 
Есть очень много способов индексировать DataFrame в Pandas. Не все из них хорошие! Вот несколько удобных, но не универсальных.

#### По колонкам
Индексирование по колонке возращает pd.Series. Можно выбирать не одну колонку, а сразу несколько. Тогда снова вернётся pd.DataFrame.

In [None]:
first_column = df['first_column']
first_column

In [None]:
df.first_column

In [None]:
subset_dataframe = df[['first_column', 'second_column']]
subset_dataframe

In [None]:
one_column_dataframe = df[['first_column']]
one_column_dataframe

#### По строкам
Можно писать любые слайсы, как в Python-списке. Они будут применяться к строкам. Нельзя обращаться по элементу!

In [None]:
df[1] # не сработает

In [None]:
df[:1]

In [None]:
df[1:4]

#### Универсальное индексирование: .loc и .iloc

.loc и .iloc --- это два взаимозаменяемых атрибута, которые позволяют индексировать по обеим осям сразу. Путаницы не возникает из-за фиксированного порядка перечисления осей.

In [None]:
# По индексам: 
df.iloc[1:3, :2]

In [None]:
df.loc[1:3, ['first_column', 'second_column']]

Лучше использовать по умолчанию либо только loc, либо только .iloc! А лучше вообще всегда только .iloc, чтобы не запутаться.

### Модификации датасета, создание новых колонок
Можно просто брать и создавать новую колонку. Синтаксис тут вполне естественный.

In [None]:
new_column = [5,2,1,4]
df['new_column'] = new_column
df

Аналогично, можно применять к отдельным колонкам арифметические операции (ведь колонки --- это Series!)

In [None]:
df['first_column'] = df['first_column'] * 10
df

## Реальный датасет
Мы будем работать с датасетом ``Титаник``. Файлы необходимо скачать локально или загрузить с помощью функции ниже.
![alt text](https://drive.google.com/uc?id=1Tb52nFFsjI8sqv0AlMpx25aNJ62xzp5w)

Информация о файлах: 
 - *titanic_data.csv* содержит различную информацию о пассажирах Титаника (билет, класс, возраст и т.п.)
 - *titanic_surv.csv* содержит для каждого пассажира из первого файла информацию о том, выжил ли этот пассажир (метка 1) или нет (метка 0)


### Чтение из файла
Обычно данные хранятся в виде таблиц в файлах формата .csv или .xlsx. На этом семинаре мы будем загружать данные из .csv файлов.


 
Загрузим первый файл

In [None]:
# df_1 = pd.read_csv('titanic_data.csv')
pass_link = 'https://www.dropbox.com/s/lyzcuxu1pdrw5qb/titanic_data.csv?dl=1'
titanic_passengers = pd.read_csv(pass_link, index_col='PassengerId') # index_col=?

In [None]:
print('Всего пассажиров: ', len(titanic_passengers))
titanic_passengers.head(10)

### Разная информация о датасете

Можно узнать размер таблицы, информацию о значениях таблицы, различные статистики по значениям.

In [None]:
titanic_passengers.shape

In [None]:
titanic_passengers.info()

In [None]:
titanic_passengers.describe()

## Задание 1 
Опишите данный датасет: какое расределение женщин/мужчин в нем? Сколько пассажиров ехало в каждом классе? Какой средний/минимальный/максимальный возраст пассажиров?

In [None]:
(titanic_passengers['Age'].min(), titanic_passengers['Age'].mean(), titanic_passengers['Age'].max())

In [None]:
titanic_passengers['Sex'].value_counts()

In [None]:
titanic_passengers['Pclass'].value_counts()

## Задание 2
Сгруппируйте записи по классам пассажиров, в каждой группе посчитайте средний возраст. Используйте метод ``pandas.DataFrame.groupby``.

In [None]:
# решение


## Слияние таблиц
Таблицы можно сливать несколькими способами. Мы рассмотрим слияние по индексу: метод называется ``pd.join``.

In [None]:
# df_2 = pd.read_csv('titanic_surv.csv')
surv_link = 'https://www.dropbox.com/s/v35x9i6a1tc7emm/titanic_surv.csv?dl=1'
df_2 = pd.read_csv(surv_link)

In [None]:
df_2.head()

### Задание 3.
Слейте два датасета по колонке индекса.

In [None]:
# решение

### Задание 4. 
Сколько всего выживших пассажиров? Выживших пассажиров по каждому из полов? Постройте матрицу корреляций факта выживания, пола и возраста.

In [None]:
# решение

In [None]:
import seaborn as sns

In [None]:
sns.heatmap(
    # сюда нужно подставить матрицу корреляции
    annot=True, cmap='coolwarm',
    vmin=-1, vmax=1,
    annot_kws={"size": 16})