# Вспомнить то, чего не знали :)

(python)

## О курсе

В курсе вы познакомитесь с языком программирования `Python` и с некоторыми методами анализа данных.

### Анализ данных
Сначала обсудим более ясное понятие — **анализ данных**. Что вообще может быть **данными**?

Ну, в филологии это скорее всего тексты на каком-то языке. Уже *по одним текстам* можно смотреть что-то интересное: по литературным — как часто встречается персонаж, какие персонажи встречаются вместе, по-разному ли автор говорит про женских и мужских персонажей. Может быть и что-то более языковое-лингвистическое: активные или пассивные формы глаголов используются (опять же, например, в связи с персонажами). Можно работать со стихами, разбираться какие рифмы использует автор. Можно даже делать атрибуцию текстов (это непросто и требует много математики-статистики). Когда мы выполняем подобные задачи, у нас есть какие-то данные (здесь — текст), и мы по ним стараемся сделать выводы, анализируя их. Это и есть **анализ данных**. И конечно, большая часть этого и многое другое актуальны не только для литературных текстов, но и для публицистических и научных. И анализировать таким образом можно их.

*О тексте* нам может быть известно что-то ещё:
- автор
- год(ы) написания
- место написания
- и т.д. ...

Это что-то, что не содержится в самом тексте непосредственно. Это **метаданные**, т.е. данные о данных. Про них не стоит забывать, они полезны.

Мы будем заниматься анализом данных наиболее подробно в 4 модуле. Там поговорим немного о статистике, графиках и т.д.

### Программирование, код программ как просто текст 

Теперь обсудим **программирование** и *языки программирования*. С изучения языка `Python` мы начнём, это модуль 3.

Программирование это создание компьютерных программ :))

Программы же решают для нас какую-то задачу:
- от тривиальной, типа распечатать строчку "Привет, мир!", [смотрите ниже](#first-code)
- до очень большой и сложной типа поддержания работы сайта или обучения нейронной сети делать картинку из текста [[Midjouney](https://habr.com/ru/company/selectel/blog/709944/)]

Код на языке программирования это просто текст, открыть его можно в любом текстовом редакторе. Да и писать можно в редакторе.
Но использовать и запускать код можно только в специальных программах, типа текстовых редакторов с расширениями или больших (и иногда громоздких) *IDE* (*интегрированных средах разработки* с кучей функционала)

Если я помещу простенький код в текстовый файл с расширением `.py` (таково расширение у файлов с кодом на питоне), но **не скажу** своему текстовому редактору, **что это содержательно код на питоне**, а скажу, что просто текст, то будет вот так:

![скрин-блокнот-сказано_обычный_текст-без_подсветки](./assets/py_nohl.png)

Видим просто текст чёрным цветом.

Но вот если скажу то будет красиво разноцветно! (опять же, сравните с кодом, который печатает `"Привет, мир!"`, [смотрите ниже](#first-code)) 

![скрин-блокнот-сказано_код_python-с_подсветкой](./assets/py_hl.png)

### Исполнение кода
<a name="run"></a>

**Так откуда тогда магия, что делает код кодом, выполняющим действия, а не просто текстом?**

Код делает кодом и позволяет программам работать другая программа. Для нашего языка `Python` эта программа называется *интерпретатор языка `Python`*.

#### Со звёздочкой* (необязательно): интерпретируемый sigma `Python` и компилируемые alpha языки 

Ниже в ячейке материал со звёздочкой, это для общего развития и необязательно хорошо понимать. Не расстраивайтесь, если не было понятно на паре, и если здесь не понятно тоже. (Но если интересно, то порасспрашивайте нас!).

`<начало материала со звёздочкой>`

Вообще вы, наверняка знаете, что самая главная на компьютере и очень сложная программа это операционная система. У кого-то из вас это Windows, у кого-то MacOs, и возможно вы слышали про разные системы, основанные на Linux.

Благодаря этой главной программе мы вообще можем пользоваться компьютером как привыкли: включать **другие программы** с интерфейсом, водить мышкой и нажимать на кнопки.

Так вот, есть языки программирования, на которых мы написали код, но потом нам нужно подождать, пока он переведётся в понятный для компьютера вид. Ясное дело, что понимает компьютер единицы 1 и нули 0, а не умные программы на языках программирования. Языки, где нужен вот такой вот этап перевода красивого написанного программистом кода в машинный код нулей и единиц называются **компилируемыми**. К ним относятся например C++, Rust, Java, Go.

К таким языкам НЕ относится Python. Это язык интерпретируемый. Это значит, что с кодом, который написал программист быстренько разбирается промежуточная программа — интерпретатор, она чуть его упрощает, но не до нулей и единиц, и потом запускает и на ходу выполняет. Ровно поэтому не нужно ждать, когда мы запишем в питоне `2 + 2`: мы сразу получаем ответ `4`, потому что интерпретатор быстренько это выполняет на ходу. Таким образом, `python` — **интерпретируемый** язык. Сюда же язык для статистики и анализа данных R.

[[StackOverflow: Разница между компилятором и интерпретатором](https://ru.stackoverflow.com/questions/606941/%D0%A0%D0%B0%D0%B7%D0%BD%D0%B8%D1%86%D0%B0-%D0%BC%D0%B5%D0%B6%D0%B4%D1%83-%D0%BA%D0%BE%D0%BC%D0%BF%D0%B8%D0%BB%D1%8F%D1%82%D0%BE%D1%80%D0%BE%D0%BC-%D0%B8-%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%BF%D1%80%D0%B5%D1%82%D0%B0%D1%82%D0%BE%D1%80%D0%BE%D0%BC)]

`<конец материала со звёздочкой>`

## На что вы смотрите и что видите

Вы видите тетрадку, где бок о бок с кодом на `python` есть и просто текст-текст. Это удобно, всё рядом, код можно обширно пояснять.


Сами по себе тетрадки это просто вот этот сохранённый текст и код на языке `python` (который вообще-то тоже текст, как мы помним!). Но сейчас они у нас в чём-то открыты, будь то `GitHub`, `Google Colab`, `Jupyter` или что-то ещё. Тогда они ещё довольно красиво оформлены (с разными шрифтами для текста и кода, серым фоном для кода и т.д.). Т.е. красивое представление тетрадок и возможность запускать код даются не ими самими, а программами, где мы их открываем. (так же как и просто с кодом, [см. выше!!](#run)) 

Они имеют расширение `.ipynb`. 

## Первый код 
<a name="first-code"></a>

Первое, что обычно делают при знакомстве с языком программирования это печатают `"Привет, мир!"`.
Не будем отступать от традиции. Вот так это выглядит на языке python: 

In [58]:
print('Hello, world!')

Hello, world!


Заметьте, как `Hello, world!` распечаталось под ячейкой с кодом! Это **вывод ячейки**.

Ну, выглядит как будто несложно: мы даём команду `печатать` — `print`
    (в языках программирования обычно используются английские слова и сокращения от них),
    и пишем что печатать — строчку `'Hello, world!'`.
    
Но вообще происходит тут немало! Команда `print` это функция. Функции выполняют какое-то предопределённое действие с тем, с чем их попросят, — **со своими аргументами**.
Функция `print` печатает, а выполнить это действие мы попросили со строкой `Hello, world!`. То, что мы просим функцию выполнить действие, вызываем её показано круглыми скобками `(...)`. Именно внутри скобок пишут **аргументы**.

Строка это набор символов и записываются строки просто между кавычками, одинарными `'`, как выше, или двойными `"`. Можно использовать одинарные, или двойные, как больше нравится. Главное чтобы набор символов с двух сторон охватывался одинаковыми кавычками: `'Hello, world!'` или `"Hello, world!"`.

Распечатайте в ячейке ниже `And hello, philology!`. Используйте здесь двойные кавычки, чтобы попробовать! 

In [65]:
# Ваш код здесь, результат должен быть как в ячейке ниже.


In [63]:
# Ваш код здесь


And hello, philology!


## Переменные

*What's in a name?*

Если мы хотим взять что-то и использовать это не сразу, потом, может даже несколько раз, то нам нужно это что-то **назвать**. 


Ниже мы создаём переменную, название для числа 5. Это название `a`. Переменная `a` теперь равна пяти.

In [None]:
a = 5
print(a)

5


**Обратите внимание!** Чуть раньше мы печатали строку `"Hello, world!"` и прямо передавали эту строку как аргумент в функцию `print`. Здесь же мы передаём штуку другого характера: переменную `a`. Функция выяснит значение переменной и сработает с этим значением.

In [67]:
b = 7
c =  a + b
print(c)
print(a + b)

12
12


**Обратите внимание! [2]** Теперь мы вообще передали в функцию арифметическое выражение. Так можно! Точно как с переменными: выражение посчитается и функция сработает с результатом этого выражения.

In [66]:
print("a + b =", c)  # Можно указать через запятую несколько сущностей для печати
print(10 / 3)  # Комментарии можно писать после решётки
# В дробях точка

a + b = это ц
3.3333333333333335


In [6]:
А без решётки не код ломает программу.
print('работает')

SyntaxError: invalid syntax (1379360594.py, line 1)

Ещё можно создать несколько переменных с одинаковым значением (несколько имён для значения!):

In [69]:
x = y = z = 42 

print(x)
print(y)
print(z)

42
42
42


## Распаковка / множественное присвоение

можно записать слева и справа от `=` одинаковое количество объектов, и присвоить так: 

In [4]:
a, b, c = 'это а', 'это б', 'это ц' 

print(a)
print(b)
print(c)

это а
это б
это ц


**одинаковое!!**

In [28]:
a, b, c = 'это а', 'это б'

print(a)
print(b)
print(c)

ValueError: not enough values to unpack (expected 3, got 2)

In [60]:
a, b, = 'это а', 'это б', 'это ц' 

print(a)
print(b)
print(c)

ValueError: too many values to unpack (expected 2)

## Математические операторы
`+ - * / =` , а ещё есть остаток от деления (`%`), целая часть при делении (`//`), возведение в степень (`**`)

Каждое выражение с новой строки.

Порядок действий привычный.

In [1]:
print(2 + 2 * 2)  # = 6
print((2 + 2) * 2)  # = 8

6
8


В десятичных дробях точка `.` (не запятая `,`). Так принято в англоязычном мире.

In [70]:
print(10 / 3)

3.3333333333333335


Обратите внимание, что `10 / 3` должно бы быть 3.(3) - три целых три в периоде. Но тут в конце почему-то `5`. Возможно дело в несовершенном хранении в компьютере дробных чисел

In [74]:
print(10/9)

1.1111111111111112


Посмотрим на менее известные операции

In [80]:
5 % 2  # 1 - остаток от деления (5 = 2 * 2 + 1)
5 // 2  # 2 - целая часть       (5 = 2 * 2 + 1)
5 ** 3  # 125 - возведение в степень
# В таких тетрадках с кодом выводится последнее действие

125

Произвели три действия, а вывелось одно число.

Потому что в .ipynb тетрадках выводится последнее действие в ячейке, даже если не просить его напечатать.

Если нужно напечать конкретное действие или переменную, используем print()

In [81]:
print(5 % 2)
print(5 // 2)
print(5 ** 3)

1
2
125


## Типы данных
Есть разные объекты: числа, строки с текстом, списки, словари и т.д.

Посмотрим на 3 типа данных:
- целые числа
- десятичные дроби (числа с точкой)
- строки

In [12]:
number = 324  # целое число
number_float = 324.52 # число "с плавающей точкой"
text = 'что-то в кавычках' # строка # кавычки могут быть одинарные, двойные, тройные

# Мы храним их в переменных
# number, number_float, text - переменные

# Название переменных может быть любое. Лучше латиницей, лучше говорящие.
плим = "а я придумал слово"  # не делайте так

`type()` - узнать тип данных

In [13]:
print(type(324)) # целое число - int (от integer number)
print(type(324.3407))  # число с плавающей точкой - float (от floating-point number)
print(type(text))  # строка - str (от string)

<class 'int'>
<class 'float'>
<class 'str'>


- целое число - `int` (от integer number)
- число с плавающей точкой - `float` (от floating-point number)
- строка - `str` (от string)

Знать тип данных важно, потому что не с любым типом данных можно совершать определённые действия

In [3]:
# Что будет, если сложить две строчки?
print("строчка1" + "строчка2")  # 'строчка1строчка2'
print("1" + "2")  # '12' будет

# А если сложить два числа:
print(1 + 2)  # тут 3 будет

строчка1строчка2
12
3


In [17]:
# складывать строки и числа вообще нельзя
print(1 + " " + 2)

TypeError: ignored

##### *Про ошибки*

Если у вас возникла ошибка, прочитайте объяснение. Здесь нам говорят, что + не умеет складывать int с str.

Можно гуглить ошибки. Обычно на сайте stackoverflow уже решили вашу проблему.

In [19]:
# К счастью, числа int и float складываются

number_int = 3
number_float = 2.5
print(number_int + number_float)
print(type(number_int + number_float))  # получается тип float

5.5
<class 'float'>


## Есть функции:

Их можно вызывать:

Общий вид: `<function>(то_к_чему_надо_применить)`

`print()` - мы видели выше. Печатает то, к чему применяется. Дополнительные аргументы это  

- `sep=<строка>` &mdash; разделитель, когда печатаем несколько вещей (по умолчанию пробел)  
- и `end=<строка>` &mdash; что распечатать в конце (по умолчанию новая строка `\n`)



`type()` - узнать тип данных

вот эта новая!

### `input()` - функция принимает текст от пользователя

Функции input() можно передать в качестве аргумента строку, которую увидит пользователь перед вводом.

Аргументы - значения, которые принимает функция. (То, что в скобках пишем).

In [8]:
# по умолчанию пользователь получает нулевую строку перед вводом (то есть ничего не видит)
unknown_input = input()

А что вы хотите? Я просто пользователь.


In [14]:
# А вот тут мы объяснили, что от него хотим
user_input = input('Введите число и нажмите enter ')

Введите число и нажмите enter 42


In [15]:
print(user_input)
print(type(user_input))  # Всегда принимаем от пользователя строку

42
<class 'str'>


### Тип данных можно иногда поменять
`int()` - в целое число

`float()` - в число с точкой

`str()` - в строку

In [16]:
print(type(user_input))
user_input_int = int(user_input)
print(user_input_int)  # превратили строку в число
print(type(user_input_int))

<class 'str'>
42
<class 'int'>


In [17]:
print(type(int("sjkkd")))  # не всё можно превратить в число

ValueError: ignored

In [22]:
pi_string = '3.1415'
pi = int(pi_string)  # так тоже нельзя, int - целые числа

ValueError: ignored

In [23]:
pi_string = '3.1415'
pi = float(pi_string)  # переводим строку в float
print(pi)

3.1415


In [25]:
d = 2.3
int(d)  # дробное число можно перевести в целое

2

In [27]:
e = 2.72
int(e)  # это не округление, просто отбрасывается дробная часть

2

In [28]:
# целое в дробное тоже можно
f = 10
float(f)

10.0

### Потренируемся!
Напишите код, берущий два числа у пользователя и выдающий их сумму

In [2]:
# принимаем 2 числа
answer1 = input('Введите первое число: ')
answer2 = input('Введите второе число: ')

# переводим в целочисленный формат
number1 = int(answer1)
number2 = int(answer2)

summa = number1 + number2  # складываем
print('Сумма: ', summa)  # печатаем ответ

Введите первое число: 2
Введите второе число: 3
Сумма:  5


In [2]:
# То же самое, но короче. Оба варианта правильные.

number1 = int(input('Введите первое число: '))
number2 = int(input('Введите второе число: '))
print('Сумма: ', number1 + number2)

Введите первое число: 6
Введите второе число: 8
Сумма:  14


## Про красоту кода

- переменные латиницей, названия говорящие: `newspaper_text` ~~bkjkbg~~, ~~плим~~
- вокруг математических операторов пробелы: `c = a + b` ~~c=a+b~~
- между функцией и скобкой нет пробела: `type('string')`~~type ('string')~~

In [2]:
# регистр в названии важен
some_name = 'Лёша'
Some_name = 'Алёша'
print(some_name, Some_name)

Лёша Алёша


In [16]:
list('строка')  # это те самые elementы in 'строка'

['с', 'т', 'р', 'о', 'к', 'а']