# Git

`git init` - инициализировать репозиторий

`git add .` - добавить все файлы к отслеживанию

`git commit -m "commit message"` - сделать коммит с названием commit message

`git push origin master` - сделать пуш в удаленный репозиторий origin в ветку master

`git pull` - подтянуть изменения

`git branch new-feature` - сделать ветку new-feature

`git checkout new-feature` - перейти на ветку new-feature

`git log` - посмотреть историю коммитов

`git log --all --decorate --oneline --graph` - посмотреть красивую историю коммитов

`git checkout 978be83` - перейти к коммиту 978be83

При создании репозитория на github, будут написаны команды как запушить код в первый раз

## Задача - учимся коммитить

Последовательно сделать следующее:

1. Создать новую папку test_git

2. Инициализировать репозиторий

3. Сделать текстовый файл 1.txt, заполнить его по своему усмотрению

4. Сделать коммит

5. Сделать новую ветку second-file, перейти в нее

6. Закоммитить новый файл 2.txt с произвольным содержимым

7. Перейти к master-ветке, проверить, что файл 2.txt остался в другой ветке

8. Замержить ветку second-file в master

## Задача - создаем конфликты

1. В ветке master создаем файл 3.txt и что-то туда пишем
2. В ветке second-file создаем файл 3.txt и пишем туда что-то другое
3. Мержим second-file в master и решаем конфликт

## Материалы по питону (для самых заинтересованных)

https://drive.google.com/drive/folders/1EdPbnImcIt0Hrjy56FveACdM-uc2anCP?usp=sharing

## Задача 1.

Нужно написать функцию, которая определяет, является ли переданная строка палиндромом.

Примеры палиндромов:
- Казак
- А роза упала на лапу Азора
- Do geese see God?
- Madam, I’m Adam

Ограничение по памяти - исходную строку нельзя копировать.

Необходимо исключить все non alpha-numerical символы, и считать большие и маленькие буквы равными.



In [1]:
def solution_1(s):
    if len(s) == 0:
      return True
    l, r = 0, len(s) - 1
    while r > l + 1:
      if not (s[l].isalpha() or s[l].isnumeric()):
        l += 1
        continue
      if not (s[r].isalpha() or s[r].isnumeric()):
        r -= 1
        continue
      if s[l].lower() != s[r].lower():
        return False
      l += 1
      r -= 1
    return True

In [2]:
solution_1('кффк')

True

In [3]:
import re

examples = [
    'Казак',
    'А роза упала на лапу Азора',
    'Do geese see God?',
    'Madam, I’m Adam'
]

def test_solution_1():
    def non_optimal_solution(s):
        regex = re.compile('[^a-zA-Zа-яА-Я]')
        clean = regex.sub('', s).lower()
        return clean == clean[::-1]

    for example in examples:
        assert non_optimal_solution(example) == solution_1(example)

test_solution_1()

## Задача 2.

Дан текст T и строка S. Требуется найти подстроку S' в T такую, что она совпадает с S с точностью до перестановки букв.
В качестве ответа стоит вернуть индекс первого вхождения, или -1, если такая подстрока S' не нашлась.

Задача со звездочкой: решить за O(|T|)

In [4]:
def solution_2(t, s):
  lens = len(s)
  lent = len(t)
  if lent < lens:
    return -1
  up = 0
  d = {}
  for el in s:
    d[el] = d.get(el, 0) + 1
    if d[el] == 1:
      up += 1
  l = 0
  while l < lens:
    d[t[l]] = d.get(t[l], 0) - 1
    if d[t[l]] == -1:
      up += 1
    elif d[t[l]] == 0:
      up -= 1
    l += 1
  if up == 0:
    return 0
  for i in range(lens, lent):
    d[t[i - lens]] = d.get(t[i - lens], 0) + 1
    if d[t[i - lens]] == 1:
      up += 1
    elif d[t[i - lens]] == 0:
      up -= 1
    if up == 0:
      return i - lens
    d[t[i]] = d.get(t[i], 0) - 1
    if d[t[i]] == -1:
      up += 1
    elif d[t[i]] == 0:
      up -= 1
    if up == 0:
      return i - lens + 1
  return -1

In [5]:
solution_2('vavvcbab', 'cba')

4

In [6]:
solution_2("abdcda", "bcdd")

1

# Домашнее задание

Установить Anaconda и Git. Создать репозиторий на GitHub.

## Easy (+0.1)

Написать функцию, которая на вход принимает список, а возвращает словарь со среднием, медианой и модой, например вот такой: `{"mean": ..., "median": ..., "mode": ...}`.f

Пример:

```python

func([0, 1, 1, 10, 5, 4, 3])

# Должно вернуть: {"mean": 3.4285, "median": 3, "mode": 1}

```

## Medium (+0.4)

https://www.kaggle.com/datasets/databanditofficial/dota-hero-stats

Написать функцию, которая будет парсить csv-файл dota_hero_stats.csv

Сигнатура функции:

```
def parse_csv(file_content: str) -> List[Dict]
```

Найти персонажа с максимальным количеством ног (сторонние библиотеки использовать нельзя)


## Hard (+ в карму)

Придумать меру близости между двумя персонажами, описать текстом, реализовать кодом. Мера должна использовать все содержательные колонки: attack_type, legs, primary_attr, roles

Найти двух персонажей, которые наиболее близки друг к другу.

Также нельзя использовать сторонние библиотеки.


## Байка

В реально жизни, конечно, уже написаны парсеры для основных форматов данных, но кто вам гарантирует, что ваши данные будут в нужном формате? Нужно уметь парсить разные странные форматы данных.

Когда-то я работал в компании, которая не умела в DWH и хранила все данные в продовых базах. Ну, "базах". Это были терабайты xml-файлов, поверх которых была настроена репликация и прод умел быстро по ним искать. Конечно же, эти xml-файлы были неструктурированы, пришлось освоить специальный язык для индексации по xml-файлам - xpath - чтобы привести данные в хоть сколько-то табличный вид. Парсер имел отвратительный код, а данные на выходе были еще хуже. А через пару месяцев я уволился оттуда и дальше проект не полетел (надеюсь, это независимые события). Какой вывод? Держите данные в DWH в понятном и удобном формате и не храните данные в проде в xml.