# Kaggle

Добро пожаловать в [Kaggle](https://www.kaggle.com/)!

Kaggle — это платформа для соревнований по анализу данных и машинному обучению. Здесь можно находить различные наборы 
данных, решать задачи и участвовать в конкурсах на создание лучших алгоритмов для предсказаний или классификации. 
Kaggle объединяет сообщество специалистов по анализу данных, где можно обмениваться опытом, изучать новые техники 
и создавать портфолио проектов.

Kaggle предоставляет интерактивную веб-среду для написания и выполнения кода на Python, работы с большими наборами 
данных прямо в браузере, без необходимости настраивать окружение. Платформа также предоставляет бесплатные 
вычислительные ресурсы, что делает её отличным выбором для экспериментов и разработки моделей машинного обучения.

# Виды ячеек

Весь код в блокнотах мы ведем в **ячейках** разных типов:
* **Markdown** — ячейки для текста в формате [Markdown](https://ru.wikipedia.org/wiki/Markdown).
* **Raw** — неформатированный текст.
* **Code** — ячейки с кодом (в нашем случае на языке Python).

Для выполнения ячейки нажми <kbd>shift</kbd> + <kbd>return</kbd> или используй кнопку <kbd>&#9654;</kbd> в панели инструментов.

## Raw ячейки

## Markdown ячейки
Это тип ячейки, который позволяет тебе создавать и форматировать текст с помощью языка разметки [Markdown](https://daringfireball.net/projects/markdown/).

Примеры форматирования:

- *курсив*
- **полужирный**
- `код`
- [ссылки](https://jupyterlab.readthedocs.io/)
- поддержка LaTeX: \begin{equation}
e^x=\sum_{i=0}^\infty \frac{1}{i!}x^i
\end{equation}




## Code ячейки
Это тип ячейки, в которой можно исполнять код на выбранном языке программирования (в нашем случае Python). Code ячейки позволяют пользователю вводить код, выполнять его и получать результаты непосредственно внутри ячейки. Каждая ячейка с кодом содержит один или несколько кодовых блоков, которые могут быть выполнены последовательно или в произвольном порядке.

In [1]:
2 + 2

4

# Иерархия ячеек

Markdown поддерживает шесть уровней заголовков для упорядочивания документа. Заголовки — это текст, которому предшествуют 1-4 символов `#`. Чем больше символов, тем ниже уровень.
Эти заголовки помогают быстро осуществлять навигацию по блокноту.

```
# H1 Заголовок 1-ого уровня
## H2 Заголовок 2-ого уровня
### H3 Заголовок 3-ого уровня
#### H4 Заголовок 4-ого уровня
```

# H1 Заголовок 1-ого уровня

## H2 Заголовок 2-ого уровня

### H3 Заголовок 3-ого уровня

#### H4 Заголовок 4-ого уровня

# Введение в Python

## Оператор присваивания и переменные

Имя, которое используется для обозначения какого-либо значения, называется переменной. В Python переменные объявляются следующим образом:

In [2]:
x = 21 # операция присваивания переменной x значения 21
y = 'Cбер' # операция присваивания переменной y строки 'Сбер'

В Python конец строки является концом инструкции. Никаких символов на конце не требуется. 

Теперь наши значения хранятся в переменных x и y. Можем в этом убедиться, выведя эти переменные.
Воспользуемся функцией `print()` для вывода.

In [3]:
print(x)

21


In [4]:
print(y)

Cбер


Правила для названия переменной:
* Допустимые символы в названиях переменной: буквы, цифры, _ (подчеркивание)
* Название может начинаться только с буквы или _

In [5]:
name = 1
_name = 2
name_21 = 21

Попробуем начать название с цифры:

In [6]:
1_num = 1 # Получаем SyntaxError — ошибку синтаксиса

SyntaxError: invalid decimal literal (<ipython-input-6-f8c8f200fb9f>, line 1)

## Математические операторы и численные типы

| Обозначение | Оператор |
|----|---|
| +  | Сложение |
| -  | Вычитание |
| /  | Деление |
| //  | Целочисленное деление |
| %  | Взятие остатка от деления |
| *  | Умножение |
| **  | Возведение в степень |

In [None]:
a = 12
b = 4

In [None]:
type(a)

In [None]:
c = a + b

In [None]:
print(c)

In [None]:
type(c)

In [None]:
d = 3.5

In [None]:
print(d)

In [None]:
type(d)

In [None]:
f = a / 2

In [None]:
print(f)

In [None]:
type(f)

In [None]:
a * b

Также аккуратнее при использовании различных операций с типом float. Посмотрим на примере:

In [None]:
0.1 + 0.2

## Логические операторы и булевый тип

In [None]:
is_true = True # или False

In [None]:
is_true

| Обозначение | Оператор |
|----| :--- |
| and | Логическое И |
| or  | Логическое ИЛИ |
| not | Отрицание |

Примеры логических операторов:

In [None]:
print(True and False)
print(True or False)
print(not False)

### Операторы сравнения

| Обозначение | Оператор |
|----| :--- |
| == | True, если равно |
| !=  | True, если не равно |
| < | меньше чем |
| > | больше чем |
| <=  | меньше чем или равно |
| >=  | больше чем или равно |

In [None]:
4 * 2 == 8

In [None]:
5 > 7

## None

`None` используется для определения отсутствия значения

In [None]:
x = None  # Это значит, что переменной x не присвоено никакое значение.

## Строки

Строки в Python — это тип данных, в которых содержатся текстовые символы. Для создания строки мы должны записать символы в \"\" (двойные) или '' (одинарные) кавычки.

In [None]:
s_1 = "Sber"  # str

Функция `len()` возвращает длину строки.

In [None]:
len("Sber 21")

У строк огромное количество методов, например, метод `.replace()`, который позволяет заменять символы в строке:

In [None]:
string = 'малако'

In [None]:
string.replace('а', 'о')

## Коллекции

До сих пор мы рассматривали только числа и строки и то, как писать простые выражения с их участием. В целом, написание программ — это управление более сложными коллекциями таких элементов. Это значит, что нужно думать о структурах данных для хранения данных и алгоритмах для манипулирования ими.

### Списки

Списки (List) — это наиболее часто используемая структура данных. Считай, что это последовательность данных, заключенных в квадратные скобки, которые разделяются запятой. Каждый элемент списка может быть доступен по позиции элемента в списке.

In [None]:
lst = ['Hello', 2, True]

In [None]:
type(lst)

К элементу списка можно обратиться по его индексу. В Python индексация начинается с 0, как уже было замечено для строк.

In [None]:
lst[0]

In [None]:
lst[2]

### Словари

Словари (Dict) — это отображения между ключами и элементами, хранящимися в словарях. В качестве альтернативы можно рассматривать словари как множества, в которых что-то хранится против каждого элемента множества. Они могут быть определены следующим образом:

In [None]:
d = {}
d['key'] = 'value'

In [None]:
d

In [None]:
d = {1: 'Один', 2: 'Два', 3: 'Три'}

In [None]:
d[3] # Можно получить значение по ключу

## Функции

Функции — это механизм, позволяющий повторно использовать код, чтобы сложные программы можно было строить из более простых частей. Важно: начинать писать программу на Python с написания нескольких строк кода и тестирования по ходу дела — это здорово, но распространенная ошибка новичков — продолжать в том же духе. Ты не захочешь иметь программу, состоящую из 20 000 строк в одном длинном файле/блокноте. Думай о функциях, как об абзацах в английском языке. Каждый раз, когда ты начинаешь новую идею, начинай новую функцию. Это сделает твой код более читабельным, легким для отладки и, в конечном итоге, для повторного использования частей кода таким образом, который, возможно, не предполагался при первоначальном написании кода.

In [None]:
print("Привет, Андрей!")
print("Как твои дела?")

Вместо того, чтобы каждый раз писать весь повторяющийся код, можно заменить определением функции, которая выполнит эту работу всего за одну строку.

Функции в Python определяются с использованием ключевого слова ```def```, за которым следует имя функции, аргументы в круглых скобках и двоеточие. Тело функции начинается с отступа и может содержать любое количество выражений.

In [None]:
def имя_функции(аргументы):
    тело_функции

Например, реализуем функцию приветствия:

In [None]:
def hello():
    # После вызова этой функции исполнится код, написанный ниже
    print("Добрый день, Андрей!")
    print("Как твои дела?")

In [None]:
hello()

Наша функция `hello()` всегда будет приветствовать Андрея. Мы можем сделать нашу функцию `hello()` принимающей аргументы, которые будут хранить имя, с кем нужно поздороваться. Для этого добавь аргумент в функцию.

In [None]:
def hello(name):
    # После вызова этой функции исполнится код, написанный ниже
    print("Добрый день, %s!" % name)
    print("Как твои дела?")

In [None]:
hello("Андрей")

In [None]:
hello("Света")

## Pandas

### Импортирование библиотек

In [None]:
import pandas as pd

### Чтение данных

In [None]:
df1 = pd.read_csv('/kaggle/input/day-00-workshop-data-v1/users_1.csv') #указываем путь к файлу

In [None]:
df1

In [None]:
df1.info()

In [None]:
df1.columns

### Дополение данных

In [None]:
df2 = pd.read_csv('/kaggle/input/day-00-workshop-data-v1/users_2.csv')

In [None]:
df2

In [None]:
df = pd.concat([df1, df2])

In [None]:
df

### Колонки и индексы

In [None]:
df.columns

In [None]:
df.index

In [None]:
df.set_index("ID", inplace=True)

In [None]:
df

### Объединение данных

In [None]:
cities = pd.read_csv('/kaggle/input/day-00-workshop-data-v1/city.csv')

In [None]:
df

In [None]:
cities

In [None]:
df_with_city = df.merge(
    cities,
    how='left',
    left_on='город', right_on='Индекс',
    indicator=True,
)

In [None]:
df_with_city