# Colab

Добро пожаловать в [Colab](https://colab.google/)!

Colab — это интерактивная веб-среда разработки для блокнотов, кода и данных. Ее гибкий интерфейс позволяет пользователям настраивать и организовывать рабочие процессы в области науки о данных, научных вычислений, вычислительной журналистики и машинного обучения. Модульный дизайн позволяет использовать расширения для обогащения функциональности.

# Виды ячеек

Весь код в блокнотах мы ведем в **ячейках** разных типов:
* **Markdown** — ячейки для текста в формате [Markdown](https://ru.wikipedia.org/wiki/Markdown).
* **Raw** — неформатированный текст.
* **Code** — ячейки с кодом (в нашем случае на языке Python).

Для выполнения ячейки нажми <kbd>shift</kbd> + <kbd>return</kbd> или используй кнопку <kbd>&#9654;</kbd> в панели инструментов.

## Raw ячейки

## Markdown ячейки
Это тип ячейки, который позволяет тебе создавать и форматировать текст с помощью языка разметки [Markdown](https://daringfireball.net/projects/markdown/).

Примеры форматирования:

- *курсив*
- **полужирный**
- `код`
- [ссылки](https://jupyterlab.readthedocs.io/)
- поддержка LaTeX: \begin{equation}
e^x=\sum_{i=0}^\infty \frac{1}{i!}x^i
\end{equation}




## Code ячейки
Это тип ячейки, в которой можно исполнять код на выбранном языке программирования (в нашем случае Python). Code ячейки позволяют пользователю вводить код, выполнять его и получать результаты непосредственно внутри ячейки. Каждая ячейка с кодом содержит один или несколько кодовых блоков, которые могут быть выполнены последовательно или в произвольном порядке.

In [1]:
2 + 2

4

# Иерархия ячеек

Markdown поддерживает шесть уровней заголовков для упорядочивания документа. Заголовки — это текст, которому предшествуют 1-4 символов `#`. Чем больше символов, тем ниже уровень.
Эти заголовки помогают быстро осуществлять навигацию по блокноту.

```
# H1 Заголовок 1-ого уровня
## H2 Заголовок 2-ого уровня
### H3 Заголовок 3-ого уровня
#### H4 Заголовок 4-ого уровня
```

# H1 Заголовок 1-ого уровня

## H2 Заголовок 2-ого уровня

### H3 Заголовок 3-ого уровня

#### H4 Заголовок 4-ого уровня

# Введение в Python

## Оператор присваивания и переменные

Имя, которое используется для обозначения какого-либо значения, называется переменной. В Python переменные объявляются следующим образом:

In [2]:
x = 21 # операция присваивания переменной x значения 21
y = 'Cбер' # операция присваивания переменной y строки 'Сбер'

В Python конец строки является концом инструкции. Никаких символов на конце не требуется. 

Теперь наши значения хранятся в переменных x и y. Можем в этом убедиться, выведя эти переменные.
Воспользуемся функцией `print()` для вывода.

In [3]:
print(x)

21


In [4]:
print(y)

Cбер


Правила для названия переменной:
* Допустимые символы в названиях переменной: буквы, цифры, _ (подчеркивание)
* Название может начинаться только с буквы или _

In [5]:
name = 1
_name = 2
name_21 = 21

Попробуем начать название с цифры:

In [6]:
1_num = 1 # Получаем SyntaxError — ошибку синтаксиса

SyntaxError: invalid decimal literal (<ipython-input-6-94f606fbc010>, line 1)

## Математические операторы и численные типы

| Обозначение | Оператор |
|----|---|
| +  | Сложение |
| -  | Вычитание |
| /  | Деление |
| //  | Целочисленное деление |
| %  | Взятие остатка от деления |
| *  | Умножение |
| **  | Возведение в степень |

In [7]:
a = 12
b = 4

In [8]:
type(a)

int

In [9]:
c = a + b

In [10]:
print(c)

16


In [11]:
type(c)

int

In [12]:
d = 3.5

In [13]:
print(d)

3.5


In [14]:
type(d)

float

In [15]:
f = a / 2

In [16]:
print(f)

6.0


In [17]:
type(f)

float

In [18]:
a * b

48

Также аккуратнее при использовании различных операций с типом float. Посмотрим на примере:

In [19]:
0.1 + 0.2

0.30000000000000004

## Логические операторы и булевый тип

In [20]:
is_true = True # или False

In [21]:
is_true

True

| Обозначение | Оператор |
|----| :--- |
| and | Логическое И |
| or  | Логическое ИЛИ |
| not | Отрицание |

Примеры логических операторов:

In [22]:
print(True and False)
print(True or False)
print(not False)

False
True
True


### Операторы сравнения

| Обозначение | Оператор |
|----| :--- |
| == | True, если равно |
| !=  | True, если не равно |
| < | меньше чем |
| > | больше чем |
| <=  | меньше чем или равно |
| >=  | больше чем или равно |

In [23]:
4 * 2 == 8

True

In [24]:
5 > 7

False

## None

`None` используется для определения отсутствия значения

In [25]:
x = None  # Это значит, что переменной x не присвоено никакое значение.

## Строки

Строки в Python — это тип данных, в которых содержатся текстовые символы. Для создания строки мы должны записать символы в \"\" (двойные) или '' (одинарные) кавычки.

In [26]:
s_1 = "Sber"  # str

Функция `len()` возвращает длину строки.

In [27]:
len("Sber 21")

7

У строк огромное количество методов, например, метод `.replace()`, который позволяет заменять символы в строке:

In [28]:
string = 'малако'

In [29]:
string.replace('а', 'о')

'молоко'

## Коллекции

До сих пор мы рассматривали только числа и строки и то, как писать простые выражения с их участием. В целом, написание программ — это управление более сложными коллекциями таких элементов. Это значит, что нужно думать о структурах данных для хранения данных и алгоритмах для манипулирования ими.

### Списки

Списки (List) — это наиболее часто используемая структура данных. Считай, что это последовательность данных, заключенных в квадратные скобки, которые разделяются запятой. Каждый элемент списка может быть доступен по позиции элемента в списке.

In [30]:
lst = ['Hello', 2, True]

In [31]:
type(lst)

list

К элементу списка можно обратиться по его индексу. В Python индексация начинается с 0, как уже было замечено для строк.

In [32]:
lst[0]

'Hello'

In [33]:
lst[2]

True

### Словари

Словари (Dict) — это отображения между ключами и элементами, хранящимися в словарях. В качестве альтернативы можно рассматривать словари как множества, в которых что-то хранится против каждого элемента множества. Они могут быть определены следующим образом:

In [34]:
d = {}
d['key'] = 'value'

In [35]:
d

{'key': 'value'}

In [36]:
d = {1: 'Один', 2: 'Два', 3: 'Три'}

In [37]:
d[3] # Можно получить значение по ключу

'Три'

## Функции

Функции — это механизм, позволяющий повторно использовать код, чтобы сложные программы можно было строить из более простых частей. Важно: начинать писать программу на Python с написания нескольких строк кода и тестирования по ходу дела — это здорово, но распространенная ошибка новичков — продолжать в том же духе. Ты не захочешь иметь программу, состоящую из 20 000 строк в одном длинном файле/блокноте. Думай о функциях, как об абзацах в английском языке. Каждый раз, когда ты начинаешь новую идею, начинай новую функцию. Это сделает твой код более читабельным, легким для отладки и, в конечном итоге, для повторного использования частей кода таким образом, который, возможно, не предполагался при первоначальном написании кода.

In [38]:
print("Привет, Андрей!")
print("Как твои дела?")

Привет, Андрей!
Как твои дела?


Вместо того, чтобы каждый раз писать весь повторяющийся код, можно заменить определением функции, которая выполнит эту работу всего за одну строку.

Функции в Python определяются с использованием ключевого слова ```def```, за которым следует имя функции, аргументы в круглых скобках и двоеточие. Тело функции начинается с отступа и может содержать любое количество выражений.

In [39]:
def имя_функции(аргументы):
    тело_функции

Например, реализуем функцию приветствия:

In [40]:
def hello():
    # После вызова этой функции исполнится код, написанный ниже
    print("Добрый день, Андрей!")
    print("Как твои дела?")

In [41]:
hello()

Добрый день, Андрей!
Как твои дела?


Наша функция `hello()` всегда будет приветствовать Андрея. Мы можем сделать нашу функцию `hello()` принимающей аргументы, которые будут хранить имя, с кем нужно поздороваться. Для этого добавь аргумент в функцию.

In [42]:
def hello(name):
    # После вызова этой функции исполнится код, написанный ниже
    print("Добрый день, %s!" % name)
    print("Как твои дела?")

In [43]:
hello("Андрей")

Добрый день, Андрей!
Как твои дела?


In [44]:
hello("Света")

Добрый день, Света!
Как твои дела?


## Pandas

### Импортирование библиотек

In [46]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [47]:
import pandas as pd

### Чтение данных

In [None]:
df1 = pd.read_csv('../datasets/users_1.csv') #указываем путь к файлу

In [None]:
df1

Unnamed: 0,ID,пол,возраст,в_браке,город
0,123123,М,23,нет,101000
1,393812,Ж,24,да,101000
2,891828,Ж,52,да,620000
3,128932,М,34,да,630000
4,928345,М,46,,385000


In [None]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   ID       5 non-null      int64 
 1   пол      5 non-null      object
 2   возраст  5 non-null      int64 
 3   в_браке  4 non-null      object
 4   город    5 non-null      int64 
dtypes: int64(3), object(2)
memory usage: 328.0+ bytes


In [None]:
df1.columns

Index(['ID', 'пол', 'возраст', 'в_браке', 'город'], dtype='object')

### Дополение данных

In [None]:
df2 = pd.read_csv('../datasets/users_2.csv')

In [None]:
df2

Unnamed: 0,ID,пол,возраст,в_браке,город
0,123112,М,19,нет,420000
1,478193,Ж,31,да,460000
2,891828,Ж,22,да,690001


In [None]:
df = pd.concat([df1, df2])

In [None]:
df

Unnamed: 0,ID,пол,возраст,в_браке,город
0,123123,М,23,нет,101000
1,393812,Ж,24,да,101000
2,891828,Ж,52,да,620000
3,128932,М,34,да,630000
4,928345,М,46,,385000
0,123112,М,19,нет,420000
1,478193,Ж,31,да,460000
2,891828,Ж,22,да,690001


### Колонки и индексы

In [None]:
df.columns

Index(['ID', 'пол', 'возраст', 'в_браке', 'город'], dtype='object')

In [None]:
df.index

Index([0, 1, 2, 3, 4, 0, 1, 2], dtype='int64')

In [None]:
df.set_index("ID", inplace=True)

In [None]:
df

Unnamed: 0_level_0,пол,возраст,в_браке,город
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
123123,М,23,нет,101000
393812,Ж,24,да,101000
891828,Ж,52,да,620000
128932,М,34,да,630000
928345,М,46,,385000
123112,М,19,нет,420000
478193,Ж,31,да,460000
891828,Ж,22,да,690001


### Объединение данных

In [None]:
cities = pd.read_csv('../datasets/city.csv')

In [None]:
df

Unnamed: 0_level_0,пол,возраст,в_браке,город
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
123123,М,23,нет,101000
393812,Ж,24,да,101000
891828,Ж,52,да,620000
128932,М,34,да,630000
928345,М,46,,385000
123112,М,19,нет,420000
478193,Ж,31,да,460000
891828,Ж,22,да,690001


In [None]:
cities

Unnamed: 0,Индекс,Регион,Город,Широта,Долгота,Население
0,385200.0,Адыгея,Адыгейск,44.878372,39.190172,12689
1,385000.0,Адыгея,Майкоп,44.609827,40.100653,144055
2,649000.0,Алтай,Горно-Алтайск,51.958268,85.960296,62861
3,658125.0,Алтайский,Алейск,52.492091,82.779415,28528
4,656000.0,Алтайский,Барнаул,53.348115,83.779836,635585
...,...,...,...,...,...,...
1106,152150.0,Ярославская,Ростов,57.205018,39.437836,31791
1107,152900.0,Ярославская,Рыбинск,58.048380,38.858338,200771
1108,152300.0,Ярославская,Тутаев,57.867424,39.536823,41001
1109,152610.0,Ярославская,Углич,57.522387,38.301979,34505


In [None]:
df_with_city = df.merge(
    cities,
    how='left',
    left_on='город', right_on='Индекс',
    indicator=True,
)

In [None]:
df_with_city

Unnamed: 0,пол,возраст,в_браке,город,Индекс,Регион,Город,Широта,Долгота,Население,_merge
0,М,23,нет,101000,101000.0,Москва,,55.753879,37.620373,11514330.0,both
1,Ж,24,да,101000,101000.0,Москва,,55.753879,37.620373,11514330.0,both
2,Ж,52,да,620000,620000.0,Свердловская,Екатеринбург,56.838633,60.605489,1377738.0,both
3,М,34,да,630000,630000.0,Новосибирская,Новосибирск,55.028102,82.921058,1498921.0,both
4,М,46,,385000,385000.0,Адыгея,Майкоп,44.609827,40.100653,144055.0,both
5,М,19,нет,420000,420000.0,Татарстан,Казань,55.794388,49.111531,1216965.0,both
6,Ж,31,да,460000,460000.0,Оренбургская,Оренбург,51.787519,55.101738,570329.0,both
7,Ж,22,да,690001,,,,,,,left_only
