## Домашнее задание 3
### Описание
Вам предстоит решить три задания. При решении можно пользоваться только базовыми функциями Python (если специально не указано иное).

### Задание 1 (3 балла)

Известно, что подготовка и исследование данных для машинного обучения занимают куда больше времени, чем собственно машинное обучение. В частности, существует такая процедура, как создание т. н. dummy-переменных.

![dummy](https://www.statology.org/wp-content/uploads/2021/02/dummyvartrap1-768x344.png)

В `pandas` уже есть функция, которая принимает на вход текстовую колонку таблицы и возвращает вместо неё много колонок с dummy-переменными. Однако проблема в том, что в ваших данных есть переменные, имена которых представляют собой словосочетания со знаками препинания (количество таких слов формально не ограничено). Некоторые алгоритмы «предпочитают» только простые имена переменных вида `variable` или `simple_variable`. Кроме того, так или иначе для последующей работы неплохо было бы стандартизировать все имена.

Поэтому вам необходимо создать функцию, которая принимала бы на вход список из имён переменных и производила следующую предобработку всех значений в колонке:

- удаление всех знаков препинания;
- приведение всех букв к нижнему регистру;
- замена всех пробелов на нижнее подчеркивание;
- ограничение длины каждого слова первыми четырьмя буквами.

Функция должна возвращать словарь (т. н. mapper), по которому можно преобразовать переменную в новый вид (с помощью методов `.map()` / `.apply` — о них вы узнаете чуть позднее). Ключами должны быть старые имена, а значениями — новые. Гарантируется, что словосочетания приводятся на английском языке.

**Пример:**

```
function input:
['Agree', 'Agree', 'Neither agree nor disagree', "Don't know", 'Neither agree nor disagree', 'Neither agree nor disagree', 'Disagree', 'No answer', 'Agree strongly', 'No answer', 'Agree', 'Refusal', 'Refusal', 'Disagree strongly', 'Disagree']

function return:
{
    'Agree strongly': 'agre_stro',
    'Agree': 'agre',
    'Neither agree nor disagree': 'neit_agre_nor_disa',
    'Disagree': 'disa',
    'Disagree strongly': 'disa_stro',
    'Refusal': 'refu',
    "Don't know": 'dont_know',
    'No answer': 'no_answ'
}
```

**Критерии:**

- Реализованы **все** условия, функция принимает на вход и возвращает предусмотренные условиями объекты — *3 балла*.
- Реализовано **50 %** условий, функция работает, принимает на вход и возвращает предусмотренные условиями объекты — *2 балла*.
- Иное — *0 баллов*.

In [2]:
input = ['Agree', 'Agree', 'Neither agree nor disagree', "Don't know", 'Neither agree nor disagree', 'Neither agree nor disagree', 'Disagree', 'No answer', 'Agree strongly', 'No answer', 'Agree', 'Refusal', 'Refusal', 'Disagree strongly', 'Disagree']


def simple_variable(list_in):
    
    punctuation_list = ['.', ',', ';', ':', '...', '!', '?', '-', "—", '"', '(', ')', '`', "'"]

    ls = []
    
    # for each element in the input list
    for elem in list_in:
        # eleminate punctuation
        for char in punctuation_list:
            elem = elem.replace(char,"")
        # cast the expressions to lower case, split to words and reduce the length of each word to 4 characters max
        elem = elem.lower().split()
        short = list(map(lambda x: x[0:4], elem))
        # join the reduced parts using _ in between
        ls.append('_'.join(short))

        # zip the two lists into a dictionary
        expr_to_varname = dict(zip(list_in, ls))
    
    return expr_to_varname


print(simple_variable(input))

{'Agree': 'agre', 'Neither agree nor disagree': 'neit_agre_nor_disa', "Don't know": 'dont_know', 'Disagree': 'disa', 'No answer': 'no_answ', 'Agree strongly': 'agre_stro', 'Refusal': 'refu', 'Disagree strongly': 'disa_stro'}


### Задание 2 (2 балла)

Имена переменных не всегда бывают записаны на латинице. Модифицируйте вашу функцию так, чтобы она по умолчанию обрабатывала англоязычные имена переменных, но также имела возможность (при соответствующем значении аргумента) обработать и имена на кириллице. Вам может пригодиться функция `translit` из модуля `transliterate` (пример работы с кириллицей вы сможете найти ниже).

Если у вас не установлен модуль `transliterate`, выполните в отдельной ячейке следующий код:

```
!pip install transliterate
```

**Пример:**

```
function input:
['Согласен', 'Согласен', 'И да, и нет', 'Не знаю', 'И да, и нет', 'И да, и нет', 'Не согласен', 'Нет ответа', 'Полностью согласен', 'Нет ответа', 'Согласен', 'Отказ от ответа', 'Отказ от ответа', 'Полностью не согласен', 'Не согласен']

function return:
{
    'Полностью согласен': 'poln_sogl',
    'Согласен': 'sogl',
    'И да, и нет': 'i_da_i_net',
    'Не согласен': 'ne_sogl',
    'Полностью не согласен': 'poln_ne_sogl',
    'Отказ от ответа': 'otka_ot_otve',
    'Не знаю': 'ne_znaj',
    'Нет ответа': 'net_otve'
}
```

**Критерии:**

- Правильно добавлена транслитерация — *2 балла*.
- Иное — *0 баллов*.

In [None]:
# пример работы функции translit

from transliterate import translit

print(translit('Полностью не согласен', 'ru', reversed=True))

Polnost'ju ne soglasen


In [5]:
from transliterate import translit

#input = ['Agree', 'Agree', 'Neither agree nor disagree', "Don't know", 'Neither agree nor disagree', 'Neither agree nor disagree', 'Disagree', 'No answer', 'Agree strongly', 'No answer', 'Agree', 'Refusal', 'Refusal', 'Disagree strongly', 'Disagree']
input = ['Согласен', 'Согласен', 'И да, и нет', 'Не знаю', 'И да, и нет', 'И да, и нет', 'Не согласен', 'Нет ответа', 'Полностью согласен', 'Нет ответа', 'Согласен', 'Отказ от ответа', 'Отказ от ответа', 'Полностью не согласен', 'Не согласен']


def simple_variable(list_in):
    
    punctuation_list = ['.', ',', ';', ':', '...', '!', '?', '-', "—", '"', '(', ')', '`', "'"]

    ls = []
    
    # for each element in the input list
    for elem in list_in:
        # add transliteration
        # if the input language is english, the translit func raises a LanguageDetectionError
        # --> handle it as an exception 
        try:
            elem = translit(elem, 'ru', reversed=True)
        except Exception:
            pass
        
        # eleminate punctuation
        for char in punctuation_list:
            elem = elem.replace(char,"")
        # cast the expressions to lower case, split to words and reduce the length of each word to 4 characters max
        elem = elem.lower().split()
        short = list(map(lambda x: x[0:4], elem))
        # join the reduced parts using _ in between
        ls.append('_'.join(short))

        # zip the two lists into a dictionary
        expr_to_varname = dict(zip(list_in, ls))
    
    return expr_to_varname


print(simple_variable(input))

{'Согласен': 'sogl', 'И да, и нет': 'i_da_i_net', 'Не знаю': 'ne_znaj', 'Не согласен': 'ne_sogl', 'Нет ответа': 'net_otve', 'Полностью согласен': 'poln_sogl', 'Отказ от ответа': 'otka_ot_otve', 'Полностью не согласен': 'poln_ne_sogl'}


### Задание 3 (7 баллов)

Перед вами стоит новая задача — создать dummy-переменные в PostgreSQL. К сожалению, это не `pandas` и готовой функции на этот случай не предусмотрено. Однако вы знаете, что можно создавать новые переменные, базируясь на значении старых и используя конструкцию `CASE...WHEN...THEN...END`:

```
PostgreSQL:
CASE WHEN <condition> THEN <value1> ELSE <value2> END AS <variable_name>
В ТОМ СЛУЧАЕ КОГДА <условие> ТОГДА <значение1> ИНАЧЕ <значение2> КОНЕЦ НАЗВАТЬ <имя_переменной>

Python:
if <condition>:
    <value1>
else:
    <value2>
```

Если категорий немного, то написать такой код несложно. Однако что делать, если их, к примеру, 100? В этом случае придётся писать `CASE WHEN` столько раз, сколько уникальных значений содержит ваша переменная, а также придумывать каждый раз соответствующее название.

Используйте свои знания Python, чтобы автоматизировать процесс написания SQL-запроса — напишите соответствующую функцию. Для автоматизированной генерации имени переменной используйте наработки из предыдущих заданий. **Учтите**, что значения переменной не обязательно будут написаны на латинице.

- На вход функция должна получать словарь из одной пары «ключ — значение», в которой ключом будет название колонки, а значением — список её значений.

- На выходе функция должна печатать (в таком же формате, как в примере ниже) законченный блок SQL-запроса.

**Пример:**
```
function input:
{
    'gincdif': ['Agree', 'Agree', 'Neither agree nor disagree', "Don't know", 'Neither agree nor disagree', 'Neither agree nor disagree', 'Disagree', 'No answer', 'Agree strongly', 'No answer', 'Agree', 'Refusal', 'Refusal', 'Disagree strongly', 'Disagree']
}

function return:
    CASE WHEN gincdif = 'Agree strongly' THEN 1 ELSE 0 END AS agre_stro,
    CASE WHEN gincdif = 'Agree' THEN 1 ELSE 0 END AS agre,
    CASE WHEN gincdif = 'Neither agree nor disagree' THEN 1 ELSE 0 END AS neit_agre_nor_disa,
    CASE WHEN gincdif = 'Disagree' THEN 1 ELSE 0 END AS disa,
    CASE WHEN gincdif = 'Disagree strongly' THEN 1 ELSE 0 END AS disa_stro,
    CASE WHEN gincdif = 'Refusal' THEN 1 ELSE 0 END AS refu,
    CASE WHEN ginsdif = "Don't know" THEN 1 ELSE 0 END AS dont_know,
    CASE WHEN ginsdif = "No answer" THEN 1 ELSE 0 END AS no_answ
```

**Критерии:**

- Реализовано создание SQL-запроса — *2 балла*.
- Предусмотрены кириллические имена исходной переменной — *3 балла*.
- Правильно создаются имена переменных — *2 балла*.
- Иное — *0 баллов*.

In [17]:
from transliterate import translit

#input = {'gincdif': ['Agree', 'Agree', 'Neither agree nor disagree', "Don't know", 'Neither agree nor disagree', 'Neither agree nor disagree', 'Disagree', 'No answer', 'Agree strongly', 'No answer', 'Agree', 'Refusal', 'Refusal', 'Disagree strongly', 'Disagree']}
input ={'gincdif': ['Согласен', 'Согласен', 'И да, и нет', 'Не знаю', 'И да, и нет', 'И да, и нет', 'Не согласен', 'Нет ответа', 'Полностью согласен', 'Нет ответа', 'Согласен', 'Отказ от ответа', 'Отказ от ответа', 'Полностью не согласен', 'Не согласен']}


def simple_variable(list_in):
    
    punctuation_list = ['.', ',', ';', ':', '...', '!', '?', '-', "—", '"', '(', ')', '`', "'"]

    ls = []
    # for each element in the input list
    for elem in list_in:
        # add transliteration
        # if the input language is english, the translit func raises a LanguageDetectionError
        # --> handle it as an exception 
        try:
            elem = translit(elem, 'ru', reversed=True)
        except Exception:
            pass
        
        # eleminate punctuation
        for char in punctuation_list:
            elem = elem.replace(char,"")
        # cast the expressions to lower case, split to words and reduce the length of each word to 4 characters max
        elem = elem.lower().split()
        short = list(map(lambda x: x[0:4], elem))
        # join the reduced parts using _ in between
        ls.append('_'.join(short))

        # zip the two lists into a dictionary
        expr_to_varname = dict(zip(list_in, ls))
    
    return expr_to_varname

# add function generating SQL queries
def sql_query(dict_in):
    
    dictkey = dict_in.keys()
    dct = dict_in.values()
    d = simple_variable(list(*dct))
    print(",\n".join("CASE WHEN {} = '{}' THEN 1 ELSE 0 END AS {}".format(*dictkey, k, v) for k, v in d.items()))
# the function prints the query and returns None    
    return None


sql_query(input)

CASE WHEN gincdif = 'Согласен' THEN 1 ELSE 0 END AS sogl,
CASE WHEN gincdif = 'И да, и нет' THEN 1 ELSE 0 END AS i_da_i_net,
CASE WHEN gincdif = 'Не знаю' THEN 1 ELSE 0 END AS ne_znaj,
CASE WHEN gincdif = 'Не согласен' THEN 1 ELSE 0 END AS ne_sogl,
CASE WHEN gincdif = 'Нет ответа' THEN 1 ELSE 0 END AS net_otve,
CASE WHEN gincdif = 'Полностью согласен' THEN 1 ELSE 0 END AS poln_sogl,
CASE WHEN gincdif = 'Отказ от ответа' THEN 1 ELSE 0 END AS otka_ot_otve,
CASE WHEN gincdif = 'Полностью не согласен' THEN 1 ELSE 0 END AS poln_ne_sogl


Функцию для переименования переменных можно включить в тело функции, генерирующей SQL-запросы. Последнюю можно заставить не печатать запрос, а возвращать строку, содержащую запрос целиком. 

In [20]:
#input = {'gincdif': ['Agree', 'Agree', 'Neither agree nor disagree', "Don't know", 'Neither agree nor disagree', 'Neither agree nor disagree', 'Disagree', 'No answer', 'Agree strongly', 'No answer', 'Agree', 'Refusal', 'Refusal', 'Disagree strongly', 'Disagree']}
input ={'знач': ['Согласен', 'Согласен', 'И да, и нет', 'Не знаю', 'И да, и нет', 'И да, и нет', 'Не согласен', 'Нет ответа', 'Полностью согласен', 'Нет ответа', 'Согласен', 'Отказ от ответа', 'Отказ от ответа', 'Полностью не согласен', 'Не согласен']}


# function generating SQL queries from a dictionary
def sql_query(dict_in):
    
    dictkey = list(dict_in.keys())
    dct = dict_in.values()
    list_in = list(*dct)
    
    punctuation_list = ['.', ',', ';', ':', '...', '!', '?', '-', "—", '"', '(', ')', '`', "'"]

    ls = []
    # for each element in the input list
    for elem in list_in:
        # add transliteration
        # if the input language is english, the translit func raises a LanguageDetectionError
        # --> handle it as an exception 
        try:
            elem = translit(elem, 'ru', reversed=True)
        except Exception:
            pass
        
        # eleminate punctuation
        for char in punctuation_list:
            elem = elem.replace(char,"")
        # cast the expressions to lower case, split to words and reduce the length of each word to 4 characters max
        elem = elem.lower().split()
        short = list(map(lambda x: x[0:4], elem))
        # join the reduced parts using _ in between
        ls.append('_'.join(short))

        # zip the two lists into a dictionary
        expr_to_varname = dict(zip(list_in, ls))
    
       
    queries = []
    for k, v in expr_to_varname.items():
        queries.append("CASE WHEN " + str(dictkey[0]) + " = '" + k + "' THEN 1 ELSE 0 END AS " + v )
    final_query = ",\n".join(queries) 
# return a string contining the query    
    return final_query


print(sql_query(input))

CASE WHEN знач = 'Согласен' THEN 1 ELSE 0 END AS sogl,
CASE WHEN знач = 'И да, и нет' THEN 1 ELSE 0 END AS i_da_i_net,
CASE WHEN знач = 'Не знаю' THEN 1 ELSE 0 END AS ne_znaj,
CASE WHEN знач = 'Не согласен' THEN 1 ELSE 0 END AS ne_sogl,
CASE WHEN знач = 'Нет ответа' THEN 1 ELSE 0 END AS net_otve,
CASE WHEN знач = 'Полностью согласен' THEN 1 ELSE 0 END AS poln_sogl,
CASE WHEN знач = 'Отказ от ответа' THEN 1 ELSE 0 END AS otka_ot_otve,
CASE WHEN знач = 'Полностью не согласен' THEN 1 ELSE 0 END AS poln_ne_sogl
