# Анализ данных на Python

## О курсе

В курсе вы познакомитесь с языком программирования `Python` и с некоторыми методами анализа данных.

### Анализ данных
Сначала обсудим более ясное понятие — **анализ данных**. Что вообще может быть **данными**?

Ну, в филологии это скорее всего тексты на каком-то языке. Уже *по одним текстам* можно смотреть что-то интересное: по литературным — как часто встречается персонаж, какие персонажи встречаются вместе, по-разному ли автор говорит про женских и мужских персонажей. Может быть и что-то более языковое-лингвистическое: активные или пассивные формы глаголов используются (опять же, например, в связи с персонажами). Можно работать со стихами, разбираться, какие рифмы использует автор. Можно даже делать атрибуцию текстов (это непросто и требует много математики-статистики). Когда мы выполняем подобные задачи, у нас есть какие-то данные (здесь — текст), и мы по ним стараемся сделать выводы, анализируя их. Это и есть **анализ данных**. И конечно, большая часть этого и многое другое актуальны не только для литературных текстов, но и для публицистических и научных. И анализировать таким образом можно их.

*О тексте* нам может быть известно что-то ещё:
- автор
- год(ы) написания
- место написания
- и т.д. ...

Это что-то, что не содержится в самом тексте непосредственно. Это **метаданные**, т.е. данные о данных. Про них не стоит забывать, они полезны.

Мы будем заниматься анализом данных наиболее подробно в 4 модуле. Там поговорим немного о статистике, графиках и т.д.

### Программирование, код программ как просто текст 

Теперь обсудим **программирование** и *языки программирования*. С изучения языка `Python` мы начнём, это модуль 3.

Программирование - это создание компьютерных программ :))

Программы же решают для нас какую-то задачу:
- от тривиальной, типа распечатать строчку "Привет, мир!" ([смотрите ниже](#Первый-код))
- до очень большой и сложной типа поддержания работы сайта или обучения нейронной сети делать картинку из текста [[Midjouney](https://habr.com/ru/company/selectel/blog/709944/)]

Код на языке программирования это просто текст, открыть его можно в любом текстовом редакторе. Да и писать можно в редакторе.
Но использовать и запускать код можно только в специальных программах, типа текстовых редакторов с расширениями или больших (и иногда громоздких) *IDE* (*интегрированных средах разработки* с кучей функционала)

Если я помещу простенький код в текстовый файл с расширением `.py` (таково расширение у файлов с кодом на питоне), но **не скажу** своему текстовому редактору, **что это содержательно код на питоне**, а скажу, что просто текст, то будет вот так:

![скрин-блокнот-сказано_обычный_текст-без_подсветки](./assets/py_nohl.png)

Видим просто текст чёрным цветом.

Но вот если скажу, то будет красиво разноцветно! Фиолетовый `print` и серым выделена строка.  
(опять же, сравните с кодом, который печатает `"Привет, мир!"`, [смотрите ниже](#first-code)) 

![скрин-блокнот-сказано_код_python-с_подсветкой](./assets/py_hl.png)

### Исполнение кода <a name="run"></a>

**Так откуда тогда магия, что делает код кодом, выполняющим действия, а не просто текстом?**

Код делает кодом и позволяет программам работать другая программа. Для нашего языка `Python` эта программа называется *интерпретатор языка `Python`*.

#### Со звёздочкой* (необязательно): интерпретируемый sigma `Python` и компилируемые alpha языки 

Ниже в ячейке материал со звёздочкой, это для общего развития и необязательно хорошо понимать. Не расстраивайтесь, если не было понятно на паре, и если здесь не понятно тоже. (Но если интересно, то порасспрашивайте нас!).

`<начало материала со звёздочкой>`

Вообще вы, наверняка знаете, что самая главная на компьютере и очень сложная программа это операционная система. У кого-то из вас это Windows, у кого-то MacOs, и возможно вы слышали про разные системы, основанные на Linux.

Благодаря этой главной программе мы вообще можем пользоваться компьютером как привыкли: включать **другие программы** с интерфейсом, водить мышкой и нажимать на кнопки.

Так вот, есть языки программирования, на которых мы написали код, но потом нам нужно подождать, пока он переведётся в понятный для компьютера вид. Ясное дело, что понимает компьютер единицы 1 и нули 0, а не умные программы на языках программирования. Языки, где нужен вот такой вот этап перевода красивого написанного программистом кода в машинный код нулей и единиц называются **компилируемыми**. К ним относятся например C++, Rust, Java, Go.

К таким языкам НЕ относится Python. Это язык интерпретируемый. Это значит, что с кодом, который написал программист быстренько разбирается промежуточная программа — интерпретатор, она чуть его упрощает, но не до нулей и единиц, и потом запускает и на ходу выполняет. Ровно поэтому не нужно ждать, когда мы запишем в питоне `2 + 2`: мы сразу получаем ответ `4`, потому что интерпретатор быстренько это выполняет на ходу. Таким образом, `python` — **интерпретируемый** язык. Сюда же язык для статистики и анализа данных R.

[[StackOverflow: Разница между компилятором и интерпретатором](https://ru.stackoverflow.com/questions/606941/%D0%A0%D0%B0%D0%B7%D0%BD%D0%B8%D1%86%D0%B0-%D0%BC%D0%B5%D0%B6%D0%B4%D1%83-%D0%BA%D0%BE%D0%BC%D0%BF%D0%B8%D0%BB%D1%8F%D1%82%D0%BE%D1%80%D0%BE%D0%BC-%D0%B8-%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%BF%D1%80%D0%B5%D1%82%D0%B0%D1%82%D0%BE%D1%80%D0%BE%D0%BC)]

[[StackOverflow: Python Compilation/Interpretation Process](https://stackoverflow.com/questions/3299648/python-compilation-interpretation-process)]

`<конец материала со звёздочкой>`