# Заключение к первому модулю

## Git

1. Клонируем репозиторий
2. Заходим в папку
3. (где-то меняем файлы, что-то с ними делаем)
4. Добавляем их как измененные
5. Делаем коммит с комментарием (сообщением)
6. Пушим в удаленный репозиторий

Ниже на скриншоте есть всякие дополнительные команды - это просто для демонстрации. Не все работает в виндоус

<img src="https://github.com/hse-python-2nd-2019/seminars/raw/master/finals/git.png">

## Немного про организацию данных

**1.** У нас много объектов или один? Если много, то лучше сделать так, чтобы у них была одна структура и одним действием мы получали, что хотим

Пример плохой:

```{python}
[{'слову': 'слово'}, {'о': 'о'}, {'полку': 'полк'}]
```

Почему? Мы хотим сказать дай нам словоформу, дай нам лемму. А тут еще эту словоформу надо найти... Взять ключи словаря, потом от них словоформу, от нее лемму

Пример хороший:

```{python}
[{'word':'слову', 'lemma':'слово'}, {'word':'о', 'lemma':'о'}, {'word':'полку', 'lemma':'полк'}]
```

Ура! У нас все по одинакому запросу


**2.** У нас важен порядок данных?

Например:
- если мы хотим запомнить все разборы для пайморфи (чтобы знакомые слова искать там, а незнакомые парсить), то нам нужно соответствие словоформа - разбор, то есть один словарь
- если мы хотим разобрать текст, то мы хотим потом восстановить порядок слов, поэтому тут нам нужен упорядоченный список разборов - массив разборов

## Полезные штуки

In [2]:
array = ['John', 'Mary', 'Alex']

# Вариант 1 (хуже)

for i in range(len(array)):
    name = array[i]
    print(name, i)

# Вариант 2

for idx, name in enumerate(array):
    print(name, idx)


John 0
Mary 1
Alex 2
John 0
Mary 1
Alex 2


In [3]:
array = [('John', 21, 'USA'), ('Mary', 43, 'Russia'), ('Alex', 5, 'UK')]

for name, age, country in array:
    print(age, country, name)

21 USA John
43 Russia Mary
5 UK Alex


## Правила хорошего тона

1. Называть переменные не транслитом или однобуквенно, а по-английски и словами
2. Называть файлы латиницей без пробелов (вместо них _) и следить за кодировкой (utf-8)
3. Выносить импорты в начало тетрадки (в конспектах они в разных местах специально, чтобы рядом с логическим блоком)
4. Удалять строчки установки
5. Оформлять повторяющийся код как функцию и параметризовать (переменные части задавать аргументами)
6. Не делать слишком длинные строчки или огромные клетки с кучей кода

## Ответы на вопросы

### Intro

**Юпитер**

Вообще юпитер в основном используется для машинного обучения, визуализации и вообще всегда, когда нужно как-то представить свой код или если он долго работает (ML), но там мало строчек кода. Если хочется понять больше (что-то, что может пригодиться именно вам), то лучше погуглить тьюториалы, потому что там много чего есть, но не все всем нужно.

### Структуры данных

Главная мысль - читайте документацию питона, там много чего интересного есть по методам и всяким фишкам, что можно делать с простыми структурами. Правильное использование позволяет вам ускорить работу вашей программы и скоратить количество ошибок и строк кода

### JSON

**Что это такое?**

Это еще один способ представить данные так, чтобы было понятно, в каком поле что лежит, но при этом мы можем менять структуру того, как мы опишем какой-то свой объект, так как словарь это позволяет.

Идея: у нас много каких-то однотипных объектов, у которых есть разные характеристики, мы хотим хранить информацию и извлекать ее, запросив какое-то значение по ключу или индексу


### Морфология

**Про выводы программ**

Да, возможно, у нас не все есть в конспекте, но тут, опять же, нужно просто сидеть и разбираться (в зависимости от того, что нужно для вашей задачи)

**Майстем очень долгий**

Ага, есть такое. Но плюс в том, что он хорошо работает)) 

**почему теги корпуса это какой-то отдельный формат**

Этот формат у пайморфи вообще какой-то странный - это факт. Просто им так удобнее и почему-то они считают, что это круто... Но это точно не очень удобно. Зато вы можете обращаться по атрибутам и легко доставать вашу категорию (в отличие от майстема)

**Майстем долго работает и мало времени на все остальное**

Здесь лучше спланировать свою работу. Скорее всего, то, что работает на маленьком кусочке текста, будет работать и на большом. Лучше делать так:

1. Берете часть текста (одну пятую, например)
2. Прогоняете на ней все, что есть в тетрадке, отлаживаете
3. Запускаете на полном тексте

### Визуализация

**слова типа "загуглите и посмотрите как делать" так себе**

К сожалению, шутки про то, что программирование стоит переименовать в гугление на стаковерфлоу не очень далеки от реальности. Лучше научиться этому сейчас. А в конспекте даются начальные знания,которые дают представление о том, как это базово работает и выглядит - а дальше ваша фантазия и гугл


### Оргвопросы

**первая пара**

Извините, у нас не так много вариантов, куда вам поставить пары + есть еще и другая работа (а еще и магистратура у кого-то), на которую тоже надо ходить : ( Дубки особенно жалко, конечно

**ГИТХАБ ПАДАЕТ 24/7**

для этого есть целая неделя на домашнее задание...

а что тетрадки не отображаются, есть два варианта: скачать ее и открыть у себя или открыть на nbviewer

**два огромных дз в десятку**

Да, мы как-то не упоминули о том,что домашние задания имеют разный вес (первое - 0.4, второе - 0.8, третье - 0.8 из итоговых 10). Поэтому не переживайте, мы следим за тем, чтобы было адекватное сочетание сложности и веса дз. В следющем модуле будут два больших дз (каждое из 3 частей), оба по 2 балла в итоговую оценку.

**Бонусные задачи**

Мы подумаем и что-нибудь сделаем.

**Искать семинары по гитхабу**

Для этого есть страничка сайта и там есть ссылки

**проблемы с ПО**

С мэджик в юпитере реально не очень получилось. С остальными пакетами - в пределе нормы, это так часто бывает. Особенно с виндой) а вообще если будете серьезно программированием заниматься, лучше всего линукс.

**зачем комментарии к дз и насколько подробные**

Где-то это было, чтобы вы научились использовать маркдаун. Но вообще - это лишний способ перечитать код, постараться его описать, перечитать, найти при это ошибки и неточности. Плюс тетрадки обычно самодостаточны и читатель должен из нее понять, что происходит.

**Объем дз увеличивается к концу модуля**

Да, тут как-то пары сдвинулись и получилось не очень. В следующем мы вроде нормально спланировали.


**Очень много материала за семинар**

Да, хочется дать как можно больше. И это большая проблема для преподавателя. Особенно в этому модуле, где темы очень разные и не очень связаны между собой. Во втором модуле будет более однородные и связные.


**мини-задания и копирование кода**

Если вам кажется, что вы копируете код из задания в задание - это хороший повод написать функцию. Копирование кода - это вообще очень плохо. Если есть какой-то паттерн, то его нужно описывать функцией и просто передавать аргументы.


**"Все смотрим да смотрим как у крутых прогеров все круто выходит..."(c)**

Эх... Да, надо побольше практики, это правда!


**Сложные и непонятные дз**

Услышали, будем над этим работать. Хочется и избежать тупого копирования кода (что нужно делать на семинаре), и дать что-то самостоятельное, и при этом чтобы не слишком сложно...