# Введение в методы анализа данных. Язык Python.

## Лекция 1:  Обзор синтаксиса языка Python
<br><br><br><br>
__Аксентьев Артем (akseart@ya.ru)__

__Ксемидов Борис (bworkboris@yandex.ru)__
<br>

# Организационная часть

## Для общего комфорта:
- Во время лекций микрофоны лучше отключить
- Вопросы предпочтительнее в чат(если короткие), если вопрос долго печатать, то голосом
- Создана беседа в Telegram

## Как исполнять код на Python?

Python - скриптовый язык, который исполняется интерпретатором
- Установить интерпретатор + стандартные библиотеки (python.org)
- Установить Anaconda
- Использовать Google Colab   [https://colab.research.google.com](https://colab.research.google.com) или подобные сервисы

## Установка Python

Для установки Python предлагаю использовать miniconda(рассмотрим подробнее в дальнейшем):
[https://docs.conda.io/en/latest/miniconda.html](https://docs.conda.io/en/latest/miniconda.html)

После установки:
- На Windows открыть программу "Anaconda Prompt"
- На Mac/Linux открыть терминал

Необходимо убедиться в том, что conda установилась, сделать это можно с помощью команды ```conda --version```.

Если всё прошло корректно, необходимо создать виртуальное окружение(некий контейнер) для наших учебных работ:
```sh
conda create --name python_MSU python=3.8
```
Необходимо согласиться с тем, что необходимо установить пакеты и после этого выполнить:
```sh
conda activate python_MSU
```
Установить пакет jupyter notebook:
```sh
conda install jupyter
```

### Для запуска jupyter notebook:
Необходимо убедиться, что используется виртуальное окружение "python_MSU" (в командной строке в круглых скобках должно быть указано имя окружения).
В противном случае необходимо активировать окружение:
```sh
conda activate python_MSU
```

А затем ввести команду:
```sh
jupyter-notebook
```
В результате откроется браузер с jupyter. Если же браузер не откроется, то в командной строке будет отображен адрес следующего вида:
```http://localhost:8890/?token=32b08886b4bdf9e66a6b4bfdea842571ae331dfa3eca5180```
Необходимо по нему перейти в окне браузера






## Где писать код на Python

- Режим REPL (read-eval-print loop — «цикл „чтение — вычисление — вывод“»)
- Любой текстовый редактор (Notepad++, Atom, Sublime Text3, vim, nano) и запуск файла
- Специализированные оболочки для режима REPL
    - Jupyter Notebook
    - JupyterLab
    - __VSCode__
    - DataSpell (Платный продукт)
- Специализированные IDE
    - Pycharm (Есть бесплатная версия)
    - Spyder
    - Eclipse + PyDev

__В данном курсе мы используем специальные оболочки для режиме REPL (Jupyter Notebook), для более удобной работы преподаватели показывают примеры в Visual Studio Code__

## Почему?
1. Получаются наглядный код с возможностью вывода результатов. 

In [None]:
print("Hello")
print("world")


2. Есть возможность использовать утилиты терминала/командной строки для вывода какой-либо информации(например структуры текущей директории)

In [None]:
!ls

In [None]:
!echo 123

3. Можно выводить результаты без использования функции print

In [None]:
2+2

4. Возможность понятно оформлять код и его результаты с комментариями([Markdown](https://guides.hexlet.io/ru/markdown/))

## Версии Python

### Python 2 vs Python 3
- Поддержка версии Python 2 закончилась в 2020 году
- В Python 3 устранены многие недостатки архитектуры с максимально возможным (но не полным) сохранением совместимости со старыми версиями Python
- В большинстве случаев выбор следует делать в пользу Python 3

### Реализации Python
- CPython
- Jython
- IronPython (.Net)
- PyPy
- MicroPython

В данном курсе мы рассматриваем __Python 3.8__ в реализации CPython(де-факто являющейся стандартом)

## Отличие Python 2 и Python 3

1. В Python 2 print -- ключевое слово. В Python 3 -- функция. То есть раньше можно было писать без скобок, а в новой версии со скобками:
    ```python
    print "Hello world"
    ```

    ```python
    print("Hello world")
    ```
2. raw_input vs input:
    ```python
    raw_input('Number: ')
    ```

    ```python
    input('Number: ')
    ```

# Практика
## План
- Типы данных
- Условные операторы
- Циклы



## Первая программа

In [None]:
print("Hello world")

- ``print`` - функция вывода, как и во многих ЯП
- Нет необходимости в каком-либо дополнительном коде(ф-я main)

С++
```cpp
#include <iostream>
using namespace std;

int main() 
{ 
    cout << "Hello, world!" << endl;
    return 0; 
}
```

In [None]:
if __name__ == '__main__':
    print("Hello world")

## Переменные и объекты в языке Python

Python -- язык с сильной динамической типизацией. 

 __Статическая типизация__ -- тип переменной известен во время компиляции, а не выполнения
  <br> <br>
  
 C++:
```cpp
#include <iostream>
using namespace std;

int main() 
{ 
    int a = 5;
    float b = 2.0;
    
    a = "Hello world"; //error: invalid conversion from ‘const char*’ to ‘int’ 

    return 0; 
}
```

__Динамическая типизация__ - тип переменной неизвестен на этапе компиляции/интерпретации:
 <br> <br>
 
Python 3:
```python
a = 5
b = 2.

a = 5.
```

__Сильная типизация__ -- переменные строго привязаны к типу данных
 <br> <br> Python 3
```python
a = 5
b = "Hello world"

print(a+b) # err
```

__Слабая типизация__ -- переменные непривязаны к типу данных
 <br> <br>
JS:
```js
console.log(2001 + ': A Space Odyssey');
// result: "2001: A Space Odyssey"
```

Иногда говорят, что Python язык с утиной типизацией:
> Если это выглядит как утка, плавает как утка и крякает как утка, то это, вероятно, и есть утка

![Duck](image/duck.jpeg)

### Немного примеров

In [None]:
1000

- Объект типа __int__ (целое число)

In [None]:
num_of_cars = 1000

- Объект типа int
- Создана переменная с именем a, которая ссылается на этот объект

![](image/Mem_1.png)

In [None]:
a = 1000
b = a
c = "Hello world"

In [None]:
a + c

- Объект типа int
- Переменная a на этот объект
- Переменная b на тот же объект
- Переменная c на объект типа str

![](image/Mem_2.png)

In [None]:
print(a)

In [None]:
a = 'Hello '
b = 'World'

a + b

## Типы данных

1. __None__ (неопределенное значение переменной)
2. __Логические переменные__ (Boolean Type)
3. Числа (Numeric Type)
    - __int__ – целое число
    - __float__ – число с плавающей точкой
    - complex – комплексное число
4. Последовательности (Sequence Type)
    - __list__ – список
    - __tuple__ – кортеж
    - __range__ – диапазон
5. Строки (Text Sequence Type)
    - __str__
6. Бинарные последовательности (Binary Sequence Types)
    - bytes – байты
    - bytearray – массивы байт
    - memoryview – специальные объекты для доступа к внутренним данным объекта через protocol buffer
7. Множества (Set Types)
    - __set__ – множество
    - frozenset – неизменяемое множество
8. Словари (Mapping Types)
    - __dict__ – словарь
<br><br><br><br>
https://docs.python.org/3/library/stdtypes.html?highlight=sequence

### Тип None

In [None]:
n = 0
n = ''
n = None

n == None, n is None

### Логический тип

In [None]:
True == False

In [None]:
1 == True, [] == True, 0 == True, '' == False

In [None]:
False == 255, 255 == True, bool(0)

In [None]:
bool([1, 2])

In [None]:
0 == True, 0 == False

In [None]:
None is True

In [None]:
None is False

In [None]:
bool(None)

In [None]:
True and True, True and False

In [None]:
False or True, True or False

In [None]:
not True

In [None]:
None or 0 or 5 or 10

In [None]:
bool(None or 0 or [] or '')

In [None]:
print(10 and 1 and 0 and 30)

### Числа
#### Целые

In [None]:
5 + 5

In [None]:
5 - 5

In [None]:
5 * 2

In [None]:
5 % 2

In [None]:
5 // 2

In [None]:
5 / 2

In [None]:
1_000 ** 10_000

In [None]:
10_000_000

In [None]:
2 ** -8

In [None]:
int('10')

In [None]:
int(10.5)

#### Числа с плавающей точкой

In [None]:
5 / 2

In [None]:
2.0 + 2.5

In [None]:
2. - 0.5

In [None]:
2 - .5

In [None]:
2 * 1.5

In [None]:
2 / 4.6

In [None]:
10 // 4.6, 10 / 4.6

In [None]:
10. % 2.4

In [None]:
float(1), float("2")

In [None]:
0.1 + 0.1 + 0.1 == 0.3

In [None]:
0.1 + 0.1 + 0.1

In [None]:
abs((0.1 + 0.1 + 0.1) - 0.3) < 0.00000001

### Коллекции

#### Str

In [None]:
print("Hello 'world'")

In [None]:
'Hello "world"'

In [None]:
""" Hello
    World
"""

In [None]:
print(
"""Hello
World
""")

##### Управляющие символы кодировки ASCII

Рассмотрим только набор управляющих символов из стандарта POSIX (portable character set)

| Название         | Строка |
|------------------|--------|
| NUL              |\0	    |
| alert	 	       |\a      |
| backspace	       |\b      |
| tab	 	       |\t      |
| newline	       |\n      |
| vertical-tab     |\v      |
| form-feed        |\f      |
| carriage-return  |\r      |

In [None]:
print("\0")

In [None]:
print("\a")

In [None]:
print("Hello, world!\b")

In [None]:
print("Hello,\tworld!")

In [None]:
print("Hello,\vworld!")

In [None]:
print("Hello,\fworld!")

In [None]:
print("Hello,\nworld!")
print()
print("Hello,\rworld!")
print()
print("Hello,\r\nworld!")

##### CRLF vs LF 

CR = \r 

LF = \n

Возврат каретки (англ. carriage return, CR) — управляющий символ ASCII ('\r'), при выводе которого курсор перемещается к левому краю поля. Отдельно рассматривается, как перевод строки, только в старых системах Macintosh

Подача на строку или Перевод на строку (от англ. line feed, LF — «подача бумаги на строку») — управляющий символ ASCII ('\n'), при выводе которого курсор перемещается на следующую строку. В случае принтера это означает сдвиг бумаги вверх, в случае дисплея — сдвиг курсора вниз, если ещё осталось место, и прокрутку текста вверх, если курсор находился на нижней строке. Как перенос строки(в привычном понимании со сдвигом курсора влево) используется в UNIX системах(в том числе и macOS/Os X).

Большинство не Unix систем (Windows, Symbian OS)  используют последовательность этих двух символов('\r\n')


##### Форматирование строк

In [None]:
name = "Petr"
age = 45
weight = 65.5

res = "Name: " + name + '\n' + "Age: " + str(age) + '\n' + "Weight: " + str(weight)
print("Name: " + name, "Age: " + str(age))

In [None]:
name = "Petr"
age = 45
weight = 65.5

res = """Name: {}
Age: {}
Weight: {}
""".format(name, age, weight)

print(res)

In [None]:
name = "Petr"
age = 45
weight = 65.5

res = f"""Name: {name}
Age: {age}
Weight: {weight}
"""

print(res)

In [None]:
res

##### Сырые строки (raw string)

In [None]:
print("1231231231 \\n \\")

In [None]:
path = 'C:\ProgrammFiles\new_Python'

print(path)

In [None]:
path = 'C:\\ProgrammFiles\\new_Python'

print(path)

In [None]:
path = r'C:\ProgrammFiles\new_Python'

print(path)

In [None]:
r""" ' " """

#### range

In [None]:
range(10)

In [None]:
print(range(5, 10))

In [None]:
list(range(5, 10))

In [None]:
list(range(5, 12, 2))

#### Обзор коллекций

##### list

list - аналог массива в других ЯП. 

<br><br>
<font size="5" color="red" face="Arial"> __Важно:__ list/список не структура данных под названием список </font>

In [None]:
b = [1, 2, 3, 4]
b

In [None]:
a = list("Hello world")
a

In [None]:
[], list()

In [None]:
a

In [None]:
a[3] = 'p'
a

In [None]:
a[2]

In [None]:
b[2] = 'Hello world'
b

In [None]:
[1, 2., "qwert", [10, 10]]

In [None]:
b[2], a[3]

##### tuple

"Константный" массив

In [None]:
a = (1, 2, 3, 4)
a

In [None]:
a[1]

In [None]:
a[1] = 1

In [None]:
b = tuple([1, 2, [1, 2, 3]])
b

In [None]:
b[2][0] = 0
b

##### Множества

Множество(set) - это неупорядоченная коллекция без повторяющихся элементов

In [None]:
a = {1, 2, '1', 3, 4, 4, 3, 2, 1}
a

In [None]:
a[1]

In [None]:
(1, 2, 3, [1, 2])

In [None]:
b = {1, 2, 3, 4, 5, 'Hello', (1, 2, 3, [1, 2])}
b

In [None]:
a = 'Hello'
a[2] = 'p'

In [None]:
hash('Hello world 2')

In [None]:
hash([1, ])

In [None]:
a

In [None]:
'2' in a

In [None]:
type(set())

In [None]:
type({1, })

In [None]:
type(set())

##### Словари

In [None]:
a = {'One': 1, 'Two': 2, 'Three': 3}
a

In [None]:
a['One']

In [None]:
a['Four'] = [4, 'IV']
a

In [None]:
a[{1, 2, 3}] = 123

In [None]:
a[(1, 2, 3)] = 123
a

In [None]:
a[{1, 2, 3}] = 123

In [None]:
a[frozenset([1, 2])] = 12
a

#### Общие подходы 

In [None]:
my_list = [1, 2, 3, 4]
my_tuple = (1, 2, 3, 4)
my_set = {1, 2, 3, 3}
my_dict = {'One': 1, 'Two': 2, 'Three': 3}

##### Вывод коллекции

In [None]:
print(my_list)
print(my_tuple)
print(my_set)
print(my_dict)

In [None]:
my_dict['Two'] = [2, 'II']

##### Количество элементов

In [None]:
len(my_list), len(my_tuple), len(my_set), len(my_dict)

##### Наличие элемента в коллекции

In [None]:
print(1 in my_list, 5 in my_list)
print(1 in my_tuple, 5 in my_tuple)
print(1 in my_set, 5 in my_set)
print('One' in my_dict, 5 in my_dict)

In [None]:
'Hel0' in 'Hello'

##### Обход элементов

In [None]:
for i in my_list:
    print(i)

In [None]:
for i in my_set:
    print(i)

In [None]:
my_dict

In [None]:
my_dict['Four'] = 4

In [None]:
for i in my_dict:
    print(i)
    
for i in my_dict.values():
    print(i)

for i in my_dict.items():
    print(i)

##### Агрегирующие функции

In [None]:
max(my_list)

In [None]:
min(my_list)

In [None]:
my_list[3] = 'qwe'

In [None]:
my_list

In [None]:
sum(my_list)

#### Методы общие для части коллекций


| Коллекция | .count() | .index() | .copy() | .clear() |
|-----------|----------|----------|---------|----------|
| list      |    +     |    +     |    +    |    +     |
| tuple     |    +     |    +     |    -    |    -     |
| string    |    +     |    +     |    -    |    -     |
| set       |    -     |    -     |    +    |    +     |
|  dict     |    -     |    -     |    +    |    +     |


In [None]:
my_list = [1, 2, 3, 4, 1, 2, 3, 5]
my_tuple = (1, 2, 3, 4)
my_set = {1, 2, 3}
my_dict = {'One': 1, 'Two': 2, 'Three': 3}

In [None]:
my_list

In [None]:
my_list.count(3)

In [None]:
my_list.index(5)

In [None]:
my_new_list = my_list.copy()
my_new_old_list = my_list
my_new_list, my_new_old_list

In [None]:
my_list[0] = 0
my_new_list, my_new_old_list

In [None]:
my_list[0] = 1

In [None]:
my_list

In [None]:
my_new_list

In [None]:
my_new_list == my_list, my_new_list is my_list

In [None]:
my_new_old_list is my_list

In [None]:
my_new_list, my_new_old_list

In [None]:
my_list = [1, 2, 3, [4, 5, 6]]
my_new_list = my_list.copy()

my_list

In [None]:
my_new_list

In [None]:
my_list[3][0] = 10
my_list[0] = 11
my_list

In [None]:
my_new_list

#### Методы работы со множествами

In [None]:
A = {1, 2, 3}
B = {3, 4, 3}

A, B

![title](image/AorB.png)

In [None]:
A | B, A.union(B)

![title](image/AandB.png)

In [None]:
A & B, A.intersection(B)

![title](image/A-B.png)

In [None]:
A - B, A.difference(B)

![title](image/Asymmetric_differenceB.png)

In [None]:
A ^ B, A.symmetric_difference(B)

In [None]:
A = {1, 2, 3, 4}

In [None]:
A, B

In [None]:
A <= B, A.issubset(B)

In [None]:
A >= B, A.issuperset(B)

In [None]:
A = {3, 4}
B = {1, 2, 3, 4}

In [None]:
A = {1, 2}
B = {3, 4, 5, 6}

In [None]:
A.isdisjoint(B)

#### Индексирование

In [None]:
my_list = [0, 1, 2, 3, 4, 5, 6]
my_list[0]

In [None]:
my_list[6]

In [None]:
my_list[-1], my_list[len(my_list) - 1]

In [None]:
my_list[-7], my_list[len(my_list) - 7]

In [None]:
len(my_list) - 8

In [None]:
my_list[len(my_list) - 8]

In [None]:
my_list[-8]

In [None]:
my_list[-5] = 11
my_list

In [None]:
my_list[10] = 11
my_list

In [None]:
my_list[-10]

##### Срезы (Slice)

In [None]:
my_list

In [None]:
my_list[1:5]

In [None]:
my_list[1:5:2]

In [None]:
my_list[:5]

In [None]:
my_list[5:]

In [None]:
EVEN = slice(1, None, 2)
print(my_list[EVEN])

In [None]:
my_list[1::2]

##### Изменение списка

In [None]:
my_list[1:2]

In [None]:
my_list = [1, 2, 3, 4, 5]
my_list[1:2] = [1]
print(my_list)     

##### Выход за границы 

In [None]:
my_list = [1, 2, 3, 4, 5]
my_list[10]

In [None]:
my_list[0:100], my_list[50:100]

In [None]:
my_list[50:51]

In [None]:
my_list[0:2] = [10]

In [None]:
my_list

#### Сортировка коллекций


In [None]:
my_list = [55, 22, 33, 79, 60]

sorted(my_list), my_list

In [None]:
my_list = sorted(my_list)

In [None]:
my_list

In [None]:
sorted({3, 1, 5})

In [None]:
sorted(["Hello", "Hell", "M"])

In [None]:
def cmp(a):
    return len(a) % 3

sorted(["Hell", "Hello", "M"], key=cmp)


In [None]:
len("M") % 3

In [None]:
sorted(['QWER', 1, 2])

#### Некоторые методы для строк

In [None]:
"hello, " + "world"

In [None]:
"Hello " * 3 + " world"

In [None]:
len("hello")

In [None]:
"Hello, Hell".find("H"), "Hello, Hell".rfind("H")

In [None]:
"Hello, Hell".replace("H", 'h')

In [None]:
"Hello, Hell".replace("H", 'h', 1)

In [None]:
"Lorem ipsum dolor sit amet, consectetur adipiscing.".split()

In [None]:
"Lorem ipsum dolor sit amet, consectetur adipiscing.".split(', ')

In [None]:
"5".zfill(3)

In [None]:
"Hello".lower(), "Hello".upper()

In [None]:
"   Hello       ".rstrip(), "Hello   ".lstrip(), "   Hello         q  ".strip()

In [None]:
"aello".capitalize()

# Условные операторы

In [None]:
a = 10
if a < 5:
    print(a)

In [None]:
a = 10
if a < 5:
    print(a)
    ...
else:
    print('Else')

In [None]:
a = 7
if a < 5:
    print('a < 5')
elif a < 10:
    print('5 <= a < 10')
elif a < 15:
    print('10 <= a <= 15')
else:
    print('Else')

print('END')

# Циклы

In [None]:
i = 5
while i < 10:
    print(i)
    i += 1
    # i = i + 1
print('END')

In [None]:
m = [1, 2, 3]
for i in m:
    print(i)
    print(i + 1)

In [None]:
for i in range(len(m)):
    print(i, '-', m[i])

In [None]:
for i, item in enumerate(m):
    print(i, '-', item)

In [None]:
my_dict

In [None]:
for i, item in [(1, 4), (2, 5)]:
    print(i, item)

In [None]:
m = [88, 16, 13, 41, 52, 66, 3, 21, 77, 63, 97, 5, 54, 54]

for i in m:
    if i == 66:
        print("Элемент 66 существует в коллекции")
        break
    print(i)

In [None]:
66 in m

In [None]:
m = [16, 13, 41, 52, 62, 3, 21, 20, 71, 63, 97, 5, 54, 54, 22]
for i in m:
    if i % 11 == 0:
        print(i)
        print("Элемент который делится на 11 существует в коллекции")
        break
else:
    print("Такого числа не существует")



# Некоторые задачи на Python

Нарисуйте треугольник: 
```
*_____
**____
***___
****__
*****_
******
```

In [None]:
count_of_string = 6
for i in range(count_of_string):
    print('*' * (i + 1) + '_' * (count_of_string - (i + 1)))


Проверить делится ли число на 5:

In [None]:
num = 25
if num % 5 == 0:
    print('Число делится на 5')

In [None]:
num % 5

In [None]:
num = 25
if num % 10 == 0 or num % 10 == 5:
    print('Число делится на 5')

In [None]:
a = set()

a.add('1234567')

a = '12345'

# Рекомендуемая литература:

- Марк Лутц: Изучаем Python
- https://younglinux.info/python/course
- https://telegra.ph/Oshibki-v-botah-i-kak-ih-chitat-01-11
- Грокаем алгоритмы(примеры на Python 2)
- Н.Вирт: Алгоритмы и структуры данных
- Томас Кормен: Алгоритмы. Построение и анализ

# Вопросы для самостоятельного изучения:
- Рекурсия. Что такое, зачем используется?
- Бинарный поиск
- Почитать про сложность алгоритмов
- Хеширование. Хеш таблицы *
- Системы счисления 
    - [Статья на thecode](https://thecode.media/binary-notation/)
    - Петцольд Ч. Код: тайный язык информатики. – " Манн, Иванов и Фербер", 2001.
- Отличия Python 2 и Python 3:
    - [Отличия Python 2.7 и Python 3.6](https://pyneng.readthedocs.io/ru/latest/book/additional_info/py2_vs_py3.html)
- [Числа с плавающей точкой](https://habr.com/ru/post/337260/)

# Вопросы к зачету

- Модель памяти Python
- Синтаксис языка
- Чем отличаются циклы While и For
- Как работают логические операторы and, or, not

# Задания для самостоятельного решения

Задание не оценивается и не проверяется


1. Нарисовать Пирамиду из символов *:
```
    *
   ***
  *****
 *******
*********
```
2. Вычислить сумму цифр трехзначного числа
```
123 = 1 + 2 + 3 = 6
```
3. Дано несколько значений, требуется получить только уникальные:
```
"H", "e", "l", "l", "o" -> "H", "e", "l", "o"
```