## Домашнее задание 3
### Описание
Вам предстоит решить три задания. При решении можно пользоваться только базовыми функциями Python (если специально не указано иное).

### Задание 1 (5 баллов)

Известно, что подготовка и исследование данных для машинного обучения занимают куда больше времени, чем собственно машинное обучение. В частности, существует такая процедура, как создание т. н. dummy-переменных.

![dummy](https://www.statology.org/wp-content/uploads/2021/02/dummyvartrap1-768x344.png)

В `pandas` уже есть функция, которая принимает на вход текстовую колонку таблицы и возвращает вместо неё много колонок с dummy-переменными. Однако проблема в том, что в ваших данных есть переменные, имена которых представляют собой словосочетания со знаками препинания (количество таких слов формально не ограничено). Некоторые алгоритмы «предпочитают» только простые имена переменных вида `variable` или `simple_variable`. Кроме того, так или иначе для последующей работы неплохо было бы стандартизировать все имена.

Поэтому вам необходимо создать функцию, которая принимала бы на вход список из имён переменных и производила следующую предобработку всех значений в колонке:

- удаление всех знаков препинания;
- приведение всех букв к нижнему регистру;
- замена всех пробелов на нижнее подчеркивание;
- ограничение длины каждого слова первыми четырьмя буквами.

Функция должна возвращать словарь (т. н. mapper), по которому можно преобразовать переменную в новый вид (с помощью методов `.map()` / `.apply` — о них вы узнаете чуть позднее). Ключами должны быть старые имена, а значениями — новые. Гарантируется, что словосочетания приводятся на английском языке.

**Пример:**

```
function input:
['Agree', 'Agree', 'Neither agree nor disagree', "Don't know", 'Neither agree nor disagree', 'Neither agree nor disagree', 'Disagree', 'No answer', 'Agree strongly', 'No answer', 'Agree', 'Refusal', 'Refusal', 'Disagree strongly', 'Disagree']

function return:
{
    'Agree strongly': 'agre_stro',
    'Agree': 'agre',
    'Neither agree nor disagree': 'neit_agre_nor_disa',
    'Disagree': 'disa',
    'Disagree strongly': 'disa_stro',
    'Refusal': 'refu',
    "Don't know": 'dont_know',
    'No answer': 'no_answ'
}
```

**Критерии:**

- Реализованы **все** условия, функция принимает на вход и возвращает предусмотренные условиями объекты — *3 балла*.
- Реализовано **50 %** условий, функция работает, принимает на вход и возвращает предусмотренные условиями объекты — *2 балла*.
- Иное — *0 баллов*.

In [None]:
# ваш код здесь

def column_conversion(simple_variable):
    
    # Удаление всех знаков препинания, приведение всех букв к нижнему регистру, замена всех пробелов на нижнее подчеркивание
    variables_without_signs = simple_variable.copy()
    symbols_list = [".", ",", "!", "(", ")", "?", "-", ":", ";", "'", "  ", " "]
    for i in symbols_list:
        for variable in  range(len(variables_without_signs)):
            if i == "  " or i == " ":
                variables_without_signs[variable] = variables_without_signs[variable].strip().replace(i, "_").lower()
            else:
                variables_without_signs[variable] = variables_without_signs[variable].strip().replace(i, "").lower()
                
    # Создание списка коротких слов или фраз из коротких слов с нижним подчеркиванием вместо пробелов       
    list_cut = []
    for variable in variables_without_signs:
        variable_list = variable.split("_")
        cut_variable_list = []
        for word in variable_list:
            word = word[:4]
            cut_variable_list.append(word)
        list_cut.append("_".join(cut_variable_list))
        
    # Создание словаря
    dict_join = dict(zip(simple_variable, list_cut))
    return dict_join
        
text = input("Введите данные: ")
print(column_conversion(eval(text)))

### Задание 2 (2 балла)

Имена переменных не всегда бывают записаны на латинице. Модифицируйте вашу функцию так, чтобы она по умолчанию обрабатывала англоязычные имена переменных, но также имела возможность (при соответствующем значении аргумента) обработать и имена на кириллице. Вам может пригодиться функция `translit` из модуля `transliterate` (пример работы с кириллицей вы сможете найти ниже).

Если у вас не установлен модуль `transliterate`, выполните в отдельной ячейке следующий код:

```
!pip install transliterate
```

**Пример:**

```
function input:
['Согласен', 'Согласен', 'И да, и нет', 'Не знаю', 'И да, и нет', 'И да, и нет', 'Не согласен', 'Нет ответа', 'Полностью согласен', 'Нет ответа', 'Согласен', 'Отказ от ответа', 'Отказ от ответа', 'Полностью не согласен', 'Не согласен']

function return:
{
    'Полностью согласен': 'poln_sogl',
    'Согласен': 'sogl',
    'И да, и нет': 'i_da_i_net',
    'Не согласен': 'ne_sogl',
    'Полностью не согласен': 'poln_ne_sogl',
    'Отказ от ответа': 'otka_ot_otve',
    'Не знаю': 'ne_znaj',
    'Нет ответа': 'net_otve'
}
```

**Критерии:**

- Правильно добавлена транслитерация — *2 балла*.
- Иное — *0 баллов*.

In [None]:
# пример работы функции translit

from transliterate import translit


print(translit('Полностью не согласен', 'ru', reversed=True))

In [None]:
# ваш код здесь

from transliterate import translit

def column_conversion(simple_variable, language_code, reversed=False):
           
    # Удаление всех знаков препинания, приведение всех букв к нижнему регистру, замена всех пробелов на нижнее подчеркивание
    variables_without_signs = simple_variable.copy()
    symbols_list = [".", ",", "!", "(", ")", "?", "-", ":", ";", "'", "  ", " "]
    for i in symbols_list:
        for variable in  range(len(variables_without_signs)):
            if i == "  " or i == " ":
                variables_without_signs[variable] = variables_without_signs[variable].strip().replace(i, "_").lower()
            else:
                variables_without_signs[variable] = variables_without_signs[variable].strip().replace(i, "").lower()
                
    # Создание списка коротких слов или фраз из коротких слов с нижним подчеркиванием вместо пробелов       
    list_cut = []
    for variable in variables_without_signs:
        variable_list = variable.split("_")
        cut_variable_list = []
        for word in variable_list:
            word = word[:4]
            cut_variable_list.append(word)
        list_cut.append("_".join(cut_variable_list))
        
    # Обработка имён на другом языке  
    list_cut_tranlit = list(map(lambda x: translit(x, language_code, reversed), list_cut))
    
    # Создание словаря
    dict_join = dict(zip(simple_variable, list_cut_tranlit))
    return dict_join

text = input("Введите данные: ")
reversed = input("Введите True или False: ")
print(column_conversion(eval(text), 'ru', eval(reversed)))

### Задание 3 (7 баллов)

Перед вами стоит новая задача — создать dummy-переменные в PostgreSQL. К сожалению, это не `pandas` и готовой функции на этот случай не предусмотрено. Однако вы знаете, что можно создавать новые переменные, базируясь на значении старых и используя конструкцию `CASE...WHEN...THEN...END`:

```
PostgreSQL:
CASE WHEN <condition> THEN <value1> ELSE <value2> END AS <variable_name>
В ТОМ СЛУЧАЕ КОГДА <условие> ТОГДА <значение1> ИНАЧЕ <значение2> КОНЕЦ НАЗВАТЬ <имя_переменной>

Python:
if <condition>:
    <value1>
else:
    <value2>
```

Если категорий немного, то написать такой код несложно. Однако что делать, если их, к примеру, 100? В этом случае придётся писать `CASE WHEN` столько раз, сколько уникальных значений содержит ваша переменная, а также придумывать каждый раз соответствующее название.

Используйте свои знания Python, чтобы автоматизировать процесс написания SQL-запроса — напишите соответствующую функцию. Для автоматизированной генерации имени переменной используйте наработки из предыдущих заданий. **Учтите**, что значения переменной не обязательно будут написаны на латинице.

- На вход функция должна получать словарь из одной пары «ключ — значение», в которой ключом будет название колонки, а значением — список её значений.

- На выходе функция должна печатать (в таком же формате, как в примере ниже) законченный блок SQL-запроса.

**Пример:**
```
function input:
{
    'gincdif': ['Agree', 'Agree', 'Neither agree nor disagree', "Don't know", 'Neither agree nor disagree', 'Neither agree nor disagree', 'Disagree', 'No answer', 'Agree strongly', 'No answer', 'Agree', 'Refusal', 'Refusal', 'Disagree strongly', 'Disagree']
}

function return:
    CASE WHEN gincdif = 'Agree strongly' THEN 1 ELSE 0 END AS agre_stro,
    CASE WHEN gincdif = 'Agree' THEN 1 ELSE 0 END AS agre,
    CASE WHEN gincdif = 'Neither agree nor disagree' THEN 1 ELSE 0 END AS neit_agre_nor_disa,
    CASE WHEN gincdif = 'Disagree' THEN 1 ELSE 0 END AS disa,
    CASE WHEN gincdif = 'Disagree strongly' THEN 1 ELSE 0 END AS disa_stro,
    CASE WHEN gincdif = 'Refusal' THEN 1 ELSE 0 END AS refu,
    CASE WHEN ginsdif = "Don't know" THEN 1 ELSE 0 END AS dont_know,
    CASE WHEN ginsdif = "No answer" THEN 1 ELSE 0 END AS no_answ
```

**Критерии:**

- Реализовано создание SQL-запроса — *2 балла*.
- Предусмотрены кириллические имена исходной переменной — *3 балла*.
- Правильно создаются имена переменных — *2 балла*.
- Иное — *0 баллов*.

In [None]:
# ваш код здесь

from transliterate import translit

def column_conversion(simple_dict, language_code, reversed=False):

    simple_variable = list(simple_dict.values())

    # Удаление всех знаков препинания, приведение всех букв к нижнему регистру, замена всех пробелов на нижнее подчеркивание
    variables_without_signs = simple_variable[0].copy()
    symbols_list = [".", ",", "!", "(", ")", "?", "-", ":", ";", "'", "  ", " "]
    for i in symbols_list:
        for variable in  range(len(variables_without_signs)):
            if i == "  " or i == " ":
                variables_without_signs[variable] = variables_without_signs[variable].strip().replace(i, "_").lower()
            else:
                variables_without_signs[variable] = variables_without_signs[variable].strip().replace(i, "").lower()

    # Создание списка коротких слов или фраз из коротких слов с нижним подчеркиванием вместо пробелов
    list_cut = []
    for variable in variables_without_signs:
        variable_list = variable.split("_")
        cut_variable_list = []
        for word in variable_list:
            word = word[:4]
            cut_variable_list.append(word)
        list_cut.append("_".join(cut_variable_list))

    # Обработка имён на другом языке
    list_cut_trasnlit = list(map(lambda x: translit(x, language_code, reversed), list_cut))

    # Выберем уникальные переменные
    print_variable = list(set(simple_variable[0]))
    print_variable.sort()

    print_cut_trasnlit = list(set(list_cut_trasnlit))
    print_cut_trasnlit.sort()

    # Формируем вывод
    dikt_key = list(simple_dict.keys())
    for var, var_cut in zip(print_variable, print_cut_trasnlit):
        if var == "Don't know" or var == "No answer":
            print(f'CASE WHEN {dikt_key[0]} = "{var}" THEN 1 ELSE 0 END AS {var_cut}')

        else:
            print(f"CASE WHEN {dikt_key[0]} = '{var}' THEN 1 ELSE 0 END AS {var_cut}")

# Вывод 
dict_in = eval(input("Введите данные в виде словаря: "))
reversed = eval(input("Введите False для использования транслитерации на русском языке, иначе True: "))

column_conversion(dict_in, 'ru', reversed)