# Урок 1. Анализ данных. Введение в Python

### История языка

Python был разработан в конце 1989г. Гуидо ван Россумом (Guido van Rossum) во время рождественских каникул, когда его исследовательская лаборатория была закрыта и ему просто некуда было деваться. Он позаимствовал многие средства программирования, присущие другим языкам.

<img width = '200px' src="images/lesson_1/1200px-Guido_van_Rossum_OSCON_2006.jpg">

В июле 2018 года Гвидо ван Россум (Guido van Rossum) сообщил о намерении покинуть пост великодушного пожизненного диктатора (BDFL) проекта Python и полностью отстраниться от участия в процессах принятия решений. Основной причиной ухода является нежелание больше тратить своё время на баталии при принятии PEP-спецификаций (в январе Гвидо исполнилось 62 года и он устал от сложившегося темпа работы).

**PEP - спецификации** - рекомендации по написанию коду на Python, руководство о согласованности и единстве.


Код читается намного больше раз, чем пишется. Собственно, рекомендации о стиле написания кода направлены на то, чтобы улучшить читаемость кода и сделать его согласованным между большим числом проектов. В идеале, весь код будет написан в едином стиле, и любой сможет легко его прочесть.

### Питон - это змея?

Название языка произошло вовсе не от вида пресмыкающихся. Автор назвал язык в честь популярного британского комедийного телешоу 1970-х <B>"Летающий цирк Монти Пайтона"</B>. Впрочем, всё равно название языка чаще связывают именно со змеёй, нежели с передачей — пиктограммы файлов в KDE или в Microsoft Windows и даже эмблема на сайте python.org (до выхода версии 2.5) изображают змеиные головы. Важная цель разработчиков Python — создавать его забавным для использования. 

### "Батарейки в комплекте"

<img height = '200px' src="images/lesson_1/Python_batteries_included.jpg">

Что это может означать?

 <img height = '200px' src="images/lesson_1/python_fly.png">

**Jupyter Notebook** (прежнее название -  IPython Notebook) - популярнейшая бесплатная интерактивная оболочка для языка программирования Python, позволяющая объединить код, текст и диаграммы, и распространять их для других пользователей.

 <img height = '200px' src="images/lesson_1/jupyterpreview.png">

In [9]:
# Разные типы разметки ячеек
# Command Mode|Edit mode

### Философия Python

In [1]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


 <img height = '200px' src="images/lesson_1/mlwdc.jpg">

### Основы Python

Для нас важно помнить, что Python:

- интерпретируемый;
- с динамической типизацией;
- имеет возможности как для ООП, так и для ФП.

Официальная документация Python доступна по ссылке https://docs.python.org/3/.

### Пример программы

In [1]:
import time

def learn_python_function(on_lecture=True):
    print("Продолжать изучать анализ данных с помощью Python?")

    dark = {
        1: 16, 2: 17, 3: 18, 4: 19, 5: 19,
        6: 20, 7: 20, 8: 19, 9: 18,
        10: 17, 11: 16, 12: 16
    }

    light = {
        1: 8, 2: 7, 3: 6, 4: 5, 5: 4,
        6: 4, 7: 4, 8: 5, 9: 6, 10: 6,
        11: 7, 12: 8
    }

    time_now = time.localtime()

    if time_now.tm_hour >= dark[time_now.tm_mon] or time_now.tm_hour < light[time_now.tm_mon]:
        if on_lecture == False:
            print("Нет, пора немного отдохнуть!")
        else:
            print("Продолжай изучать на лекции!")
    else:
        print("Да, продолжай!")


learn_python_function(True)

Продолжать изучать анализ данных с помощью Python?
Продолжай изучать на лекции!


- блоки в Python всегда выделены отступом;
- двоеточие (:) важно, поскольку вводит новый блок кода, который должен быть смещен на один отступ вправо;
- каждый блок кода может содержать любое количество вложенных блоков, которые также отделяются отступами.

### Комментарии

In [2]:
# это первый комментарий
spam = 1  # а это второй комментарий
# ... а сейчас третий!
text = "# Это не комментарий, потому что он внутри кавычек."

# CTRL + /

### Вывод данных

In [70]:
print("Всем привет!")
print("A", "B", "C")
print("A", "B", "C", sep="!")

Всем привет!
A B C
A!B!C


In [8]:
for i in range(3):
    print("i: " + str(i))  

i: 0
i: 1
i: 2


In [9]:
for i in range(3):
    print("i: " + str(i), end=" ---- ")

i: 0 ---- i: 1 ---- i: 2 ---- 

In [13]:
a = input()
print('Вывод: ' + a)

56
Вывод: 56


In [14]:
a

'56'

### Числа

In [15]:
2+2

4

In [16]:
50 - 5*6

20

In [17]:
(50 - 5*6) / 4

5.0

In [18]:
8 / 5  # деление всегда возвращает число с плавающей точкой

1.6

Целые числа (например, 2, 4, 20) имеют тип int, те, что с дробной частью, (e.g. 5.0, 1.6) имеют тип float.

Деление (/) в третьем питоне всегда возвращает float (во втором питоне деление целого числа на целое даёт целочисленное деление). Чтобы сделать целочисленное деление (отметая дробную часть) вы можете использовать оператор //; чтобы посчитать остаток от деления, вы можете использовать %:

In [15]:
17 // 3

5

In [16]:
17 % 3

2

In [17]:
5 ** 2 #возведение в степень

25

Знак равенства (=) используется для присвоения значения переменной.

In [19]:
width = 20
height = 30
S = width * height
S

600

Присутствует полная поддержка операций с плавающей точкой; операции над операндами смешанного типа конвертируют целочисленный операнд в число с плавающей запятой:

In [20]:
3 * 3.75 / 1.5

7.5

В дополнении к int и float Python поддерживает другие типы чисел, такие как Decimal и Fraction. Python также имеет встроенную поддержку для комплексных чисел, и использует суффикс j или J для указания мнимой части (например, 3+5j).

### Строки

Помимо чисел, Python может работать со строками, которые, в свою очередь, могут быть описаны различными способами. Строки могут быть заключены в одинарные ('...') или двойные кавычки ("..."), без разницы; \ может быть использован для экранирования кавычек:

In [21]:
print('spam eggs') 
print('doesn\'t') 
print("doesn't")
print('"Yes," he said.')

spam eggs
doesn't
doesn't
"Yes," he said.


Строковые литералы могут занимать несколько строк. Один из способов сделать это — тройные кавычки: """...""" или '''...'''. Концы строк автоматически включаются в строку, но возможно избежать этого добавлением \ в конце строки. Следующий пример:

In [19]:
print("""
Usage: thingy [OPTIONS]
     -h                        Display this usage message
     -H hostname               Hostname to connect to 
""")


Usage: thingy [OPTIONS]
     -h                        Display this usage message
     -H hostname               Hostname to connect to 



In [25]:
print("""\
Usage: thingy [OPTIONS]
     -h                        Display this usage message
     -H hostname               Hostname to connect to \
""")

Usage: thingy [OPTIONS]
     -h                        Display this usage message
     -H hostname               Hostname to connect to 


Строки могут быть конкатенированы (соединены вместе) с помощью оператора +, и повторены с помощью *:

In [27]:
3 * 'un' + 'ium'

'unununium'

In [21]:
print('Hello, {}, {}!'.format('Vasya', 'Kostya'))
print('{0}, {2}, {1}'.format('a', 'b', 'c'))

Hello, Vasya, Kostya!
a, c, b


### Модель данных

Часто можно услышать утверждение о том, что в питоне **все является объектом**. Утверждение верное, причем у каждого объекта есть:
- сущность (identity);
- тип (type);
- значение (value).

Сущность (identity) объекта не меняется после создания, можно думать о ней как об адресе в памяти компьютера.

Например, если мы пишем: `a = 42` создается объект типа int со значением 42. Сущность (identity) объекта в таком случае - это его адрес в памяти, 'а' - имя указателя на этот адрес.

Для того, чтобы посмотреть на объект с каким идентификатором ссылается данная переменная, можно использовать функцию id().

In [22]:
a = 4
b = 4

In [23]:
id(a)

140729452630944

In [24]:
id(b)

140729452630944

In [25]:
a is b

True

In [26]:
a == b

True

Рассмотрим другой пример.

In [30]:
c = [1,2,3]
d = [1,2,3]

In [31]:
id(c)

2188457926152

In [32]:
id(d)

2188457925640

In [33]:
c == d

True

In [34]:
c is d

False

<img width = '350px' src="images/lesson_1/wat.jpg">

В Python существуют <B>изменяемые</B> и <B>неизменяемые</B> типы.

К <B>неизменяемым</B> (immutable) типам относятся: целые числа (int),  числа с плавающей точкой (float), комплексные числа (complex), логические переменные (bool), кортежи (tuple), строки (str) и неизменяемые множества (frozen set).

К <B>изменяемым</B> (mutable) типам относятся: списки (list), множества (set), словари (dict).

При создании переменной, вначале создается объект, который имеет уникальный идентификатор, тип и значение, после этого переменная может ссылаться на созданный объект.

Неизменяемость типа данных означает, что созданный объект больше не изменяется. 

Неизменяемые объекты передаются по *значению*. Это значит, что при изменении значения переменной будет создан новый объект.

Изменяемые объекты передаются по *ссылке*. Это значит, что при изменении значения переменной объект будет изменен. 

In [35]:
def updatenum(x):
    print('first call from function ',id(x))
    x += 3
    print('first call from function ', id(x)) #тут уже новый объект

a = 5
print('first call ',id(a))

updatenum(a)

print(a) # 5
print('second call ',id(a))

first call  140729452630976
first call from function  140729452630976
first call from function  140729452631072
5
second call  140729452630976


In [36]:
def updatenum(x):
    print('first call from function ',id(x))
    x.append(4)
    print('first call from function ', id(x)) #тут уже новый объект

a = [1,2,3]
print('first call ',id(a))

updatenum(a)

print(a) # 5
print('second call ',id(a))

first call  2188458255432
first call from function  2188458255432
first call from function  2188458255432
[1, 2, 3, 4]
second call  2188458255432


Более подробно про типы данных можно прочитать https://docs.python.org/3/library/stdtypes.html

### Условные операторы 

In [45]:
a = 1
if a > 2:
   print("H")
else:
   print("L")

L


In [4]:
a = int(input("введите число:"))
if a < 0:
   print("Neg")
elif a == 0:
   print("Zero")
else:
   print("Pos")

введите число:12
Pos


### Операторы цикла

Оператор цикла while  выполняет указанный набор инструкций до тех пор, пока условие цикла истинно.

In [5]:
a = 0
while a < 3:
   print("A")
   a += 1

A
A
A


Оператор <B>break</B> предназначен для досрочного прерывания работы цикла while.

In [6]:
a = 0
while a >= 0:
   if a == 3:
       break
   a += 1
   print("A")

A
A
A


Оператор <B>continue</B>  запускает цикл заново, при этом код, расположенный после данного оператора, не выполняется.

In [7]:
a = -1
while a < 10:
   a += 1
   if a >= 7:
       continue
   print("A")

A
A
A
A
A
A
A


Оператор <B>for</B>  выполняет указанный набор инструкций заданное количество раз, которое определяется количеством элементов в наборе.

In [73]:
for i in range(10):
    print("Hello")
    print(i)

Hello
0
Hello
1
Hello
2
Hello
3
Hello
4
Hello
5
Hello
6
Hello
7
Hello
8
Hello
9


### Списки

Список (list) – это структура данных для хранения объектов различных типов. Размер списка не статичен, его можно изменять. Список по своей природе является изменяемым типом данных. 

 При его создании в памяти резервируется область, которую можно условно назвать некоторым “контейнером”, в котором хранятся ссылки на другие элементы данных в памяти. В отличии от таких типов данных как число или строка, содержимое “контейнера” списка можно менять.

 <img height = '200px' src="images/lesson_1/python-lesson3-2-1.png">

In [80]:
a = []
b = list()
с = [1, 2, 3]

In [37]:
a = [1, 3, 5, 7]
b = a
b[3] = 15
a[1] = 10
print(a)
print(b)

[1, 10, 5, 15]
[1, 10, 5, 15]


In [1]:
#Добавление элементов в список
a = []
a.append(3)
a.append(3)
a.append("hello")
a

[3, 3, 'hello']

In [2]:
#Удаление элементов
a.remove(3)
print(a)
del a[0]
print(a)

[3, 'hello']
['hello']


In [13]:
#Доступ к элементам списка
a = [3, 5, 7, 10, 3, 2, 6, 0]
print(a[2])
print(a[-1])
print(a[1:4])

7
0
[5, 7, 10]


In [3]:
#Методы списков 
#Для удобного воспроизведения есть шорткат ctrl+shift+-
a = [1, 2]
a.append(3)
print(a)

a = [1, 2]
b = [3, 4]
a.append(b)
print(a)

[1, 2, 3]
[1, 2, [3, 4]]


In [4]:
a = [1, 2]
b = [3, 4]
a.extend(b)
print(a)

[1, 2, 3, 4]


In [5]:
a = [1, 2]
a.insert(0, 5)
print(a)

[5, 1, 2]


In [6]:
a = [1, 2, 3]
a.remove(1)
print(a)

[2, 3]


In [15]:
a = [1, 2, 3, 4, 5]
print(a.pop(2))
print(a.pop())
print(a)

a.clear()
print(a)

a = [1, 2, 3, 4, 5]
a.index(4)

print(a.count(2))

a.sort()
print(a)

a.reverse()
print(a)

3
5
[1, 2, 4]
[]
1
[1, 2, 3, 4, 5]
[5, 4, 3, 2, 1]


### Абстракция списков

In [42]:
n = int(input())
a = []
for i in range(n):
    a.append(i)
print(a)

20
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]


In [92]:
[i for i in range(int(input()))]

12


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

In [45]:
[str(i) for i in range(20) if i < 10]

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

### Кортеж

Кортеж (tuple) – это неизменяемая структура данных, которая по своему подобию очень похожа на список. 

In [98]:
b = (1, 2, 3)
print(b)

b[1] = 15

(1, 2, 3)


TypeError: 'tuple' object does not support item assignment

Существует несколько причин, по которым стоит использовать кортежи вместо списков.

- Одна из них – это обезопасить данные от случайного изменения.
- Во-вторых – прирост производительности, который связан с тем, что кортежи работают быстрее, чем списки (т.е. на операции перебора элементов и т.п. будет тратиться меньше времени). Важно также отметить, что кортежи можно использовать в качестве ключа у словаря.

In [110]:
a = tuple()
b = ()
c = tuple([1, 2, 3])
d = ([1], 2, 3, 4, 5)
d[0].append(2)
d

([1, 2], 2, 3, 4, 5)

In [113]:
d = ([1], 2, 3, 4, 5)
id(d)

1672876760496

In [116]:
d[0].append(2)
d

([1, 2, 2], 2, 3, 4, 5)

In [115]:
id(d)

1672876760496

Используется для хранения данных вместо списка (если они не предполагают изменений).

### Множества

Множество (set) - это набор уникальных элементов в случайном порядке (неупорядоченный список). 

In [46]:
my_set = set()
my_set = {1, 2, 3, 4, 5}
my_set2 = (({5, 6, 7, 8}))
my_set3 = set("hello world")

In [47]:
my_set3

{' ', 'd', 'e', 'h', 'l', 'o', 'r', 'w'}

In [119]:
my_set & my_set2

{5}

In [120]:
my_set ^ my_set2

{1, 2, 3, 4, 6, 7, 8}

In [121]:
my_set | my_set2

{1, 2, 3, 4, 5, 6, 7, 8}

Используется, когда необходимо проверять принадлежит ли значение набору уникальных элементов и отсутствует необходимость поддерживать порядок в данном наборе.

### Словари

Словарь (dict) представляет собой структуру данных (которая ещё называется ассоциативный массив), предназначенную для хранения произвольных объектов с доступом по ключу. Данные в словаре хранятся в формате ключ – значение.

In [39]:
d1 = dict()
d2 = {}
d3 = dict(Ivan="manager", Mark="worker")

In [50]:
d1 = {"Russia":"Moscow", "USA":"Washington"}
d1["China"]="Beijing"
d1

{'Russia': 'Moscow', 'USA': 'Washington', 'China': 'Beijing'}

In [89]:
d1.items()

dict_items([('Russia', 'Moscow'), ('USA', 'Washington'), ('China', 'Beijing')])

In [88]:
del d1["China"]

In [51]:
#Методы словарей
d2 = {"A1":"123", "A2":"456"}
d2.clear()
print(d2)

d2 = {"A1":"123", "A2":"456"}
d3 = d2.copy()

print(d3.get("A1"))

print(d3.items())

print(d3.keys())

print(d3.values())

print(d3.pop("A2"))
print(d3)

print(d3.popitem())
print(d3)

{}
123
dict_items([('A1', '123'), ('A2', '456')])
dict_keys(['A1', 'A2'])
dict_values(['123', '456'])
456
{'A1': '123'}
('A1', '123')
{}


### Немного про функции

Функция в python - объект, принимающий аргументы и возвращающий значение. Обычно функция определяется с помощью инструкции **def**.

In [52]:
def add(x, y):
    #     pass
    return x + y

In [53]:
add(5, 6)

11

In [54]:
def func(a, b, c=2):  # c - необязательный аргумент
    return a + b + c

In [57]:
func(3, 4)

9

Функция также может принимать переменное количество позиционных аргументов (аргументы, передаваемые в вызов в определённой последовательности (на определённых позициях), без указания их имён), тогда перед именем ставится *.

In [44]:
def func(*args):
    return args

In [45]:
func(1, 2, 3, "abc")

(1, 2, 3, 'abc')

Функция может принимать и произвольное число именованных аргументов (аргументы, передаваемые в вызов при помощи имени), тогда перед именем ставится **.

In [46]:
def func(**kwargs):
    return kwargs

In [47]:
func(a=1, b=2, c=3)

{'a': 1, 'b': 2, 'c': 3}

### Функция main

Хотя в Python можно вызывать функцию, которая находится в конце программы, во многих языках программирования (таких как C++ и Java) для выполнения программы требуется функция main. Применение функции main() не обязательно, но поможет организовать логику программы, помещая важные элементы в одну функцию.

In [58]:
# Файл hello.py
def hello():
    print("Hello, World!")


def main():
    print("Это главная функция")
    hello()


main()

Это главная функция
Hello, World!


На языке Python ‘__main__’ — это имя области, в которой будет выполняться код верхнего уровня. Если программа запускается стандартным вводом или с помощью интерактивного запроса, то __name__ устанавливается равным ‘__main__’.

In [6]:
# if __name__ == '__main__':

    # Код для выполнения, когда это главная программа

Так мы получаем возможность использовать программные файлы в качестве:

- главной программы и запускать ту часть, которая следует после инструкции if;
- модуля и не запускать то, что следует после инструкции if.

In [59]:
# Объявляем глобальную переменную name для применения во всех функциях
name = str(input('Your name: '))

# Определяем функцию, чтобы проверить, содержит ли имя гласную букву
def has_vowel():
    if set('aeiou').intersection(name.lower()):
        print('Has Vowel!')
    else:
        print('There is no Vowel! :(')
        
def welcome():
    print('Welcome!')

# Выполняем функцию main()
if __name__ == '__main__':
    has_vowel()
    
welcome()

Your name: Kostya
Has Vowel!
Welcome!


In [1]:
import names

Your name: Kostya
Welcome!


In [3]:
names.welcome()

Welcome!


Попробуйте запутсить код программы из консоли.

In [64]:
import importlib
importlib.reload(names)

Your name: Kostya
Welcome!


<module 'names' from 'D:\\Sphere\\Лекции - 2020 (осень)\\Лекция_1\\names.py'>

### Google Colab

 <img height = '300px' src="images/lesson_1/637034055037377500.jpg">