# Программирование на Python
## Семинар 3. Повторение основ
#### Задача с прошлого занятия
Мы хотим автоматизировать процесс перекладки текстовых файлов с данными из хранилища в БД (Postgres). Предположим, что таблицы каждый раз разные. Соответственно, перед записью данных необходимо создать таблицу. Это можно сделать примерно так:

```
CREATE TABLE distributors (
    did integer,
    name varchar(40)
);
```

PostgreSQL [располагает](https://www.postgresql.org/docs/current/datatype.html) следующими типами данных (это не все, что есть, но все, что нам сейчас пригодится):

<table>
    <tr>
        <th>Python</th>
        <th>PostgreSQL</th>
    </tr>
    <tr>
        <td>int</td>
        <td>smallint, integer, bigint</td>
    </tr>
    <tr>
        <td>float</td>
        <td>real</td>
    </tr>
    <tr>
        <td>bool</td>
        <td>boolean</td>
    </tr>
    <tr>
        <td>str</td>
        <td>varchar, text</td>
    </tr>
</table>

Реализуйте соответствующую функцию. Она должна иметь следующие аргументы:

- `filename` (строка) - путь к текстовому файлу;
- `sep` (строка, по дефолту для CSV) - разделитель;
- `tablename` (строка, по дефолту соответствует названию файла без расширения);
- `varnames` (либо должны быть предоставлены в виде списка, либо добываются из данных если `None`);
- `dtypes` (либо должны быть предоставлены в виде списка, либо добываются из данных если `None`).

Функция должна записывать получившийся скрипт в файл 'create_table.sql' и возвращать путь к этому файлу.

In [None]:
# надо проверять на bool
# надо проверять на int -> smallint, integer, bigint
# надо проверять на float
# все, что осталось в строки

In [55]:
big_list = list(range(100000))
big_set = set(range(100000))

In [56]:
%%timeit

_ = 50000 in big_list

743 µs ± 46.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [57]:
%%timeit

_ = 50000 in big_set

56.1 ns ± 3.53 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


In [58]:
all([True, True])

True

In [59]:
all([1, 1])

True

In [60]:
trash_symbols = '" \n'

def check_dtype(vector, fun) -> bool:
    indicators = [fun(elem) for elem in vector]

    # strict rule
    return all(indicators)

def check_bool_(value: str) -> bool:
    return value.lower() in {'true', 'false'}

def tablename_from_path(path):
    slash_index = path.rfind('/')
    dot_index = path.rfind('.')

    return path[slash_index + 1:dot_index]

def sql_from_file(
    filename: str,
    sep=',',  # sep: str = ','
    tablename=None,
    varnames=None,
    dtypes=None
) -> str:
    # read file
    with open(filename, 'r') as file:  # file = open(path, 'r')
        lines = []
        
        for line in file:  # iter(file) -> next
            line_split = line.split(sep)
            line_clean = [elem.strip(trash_symbols) for elem in line_split]
            
            lines.append(line_clean)

    # guess tablename
    if tablename is None:
        tablename = tablename_from_path(filename)

    # guess varnames
    if varnames is None:
        varnames = lines[0].copy()  # list(lines[0])

    # transpose lines
    lines_t = list(zip(*lines[1:]))
    
    # guess dtypes
    

In [53]:
template = 'My name is {name}, I am {age} old, my profession is {prof}'

params = {
    'name': 'Ioann',
    'age': 24,
    'prof': 'ML-engineer'
}

In [68]:
import re

In [76]:
pattern = re.compile('-{0,1}\d+')  # [0-9]

In [77]:
pattern.fullmatch('-123csakmnjbh')

In [78]:
pattern.fullmatch('-123')

<re.Match object; span=(0, 4), match='-123'>

In [73]:
pattern.search('-123csakmnjbh')

<re.Match object; span=(0, 4), match='-123'>

In [65]:
linesT = list(zip(*lines[1:]))

In [66]:
c = check_dtype(linesT[0], check_bool_)

In [67]:
c

False

In [52]:
template.format(name='Ioann', age=24, prof='ML-engineer')

'My name is Ioann, I am 24 old, my profession is ML-engineer'

In [54]:
template.format(**params)

'My name is Ioann, I am 24 old, my profession is ML-engineer'

In [41]:
list(zip([1, 2, 3], ['a', 'b', 'c'], [True, True]))

[(1, 'a', True), (2, 'b', True)]

In [43]:
dict(zip([1, 2, 3], ['a', 'b', 'c']))  # *args

{1: 'a', 2: 'b', 3: 'c'}

In [44]:
dict(zip([1, 2, 3], ['a', 'b', 'c'], [True, False, True]))

ValueError: dictionary update sequence element #0 has length 3; 2 is required

In [46]:
print([1, 2, 3, 4, 5], sep=':')

[1, 2, 3, 4, 5]


In [48]:
print(*[1, 2, 3, 4, 5], sep=':')

1:2:3:4:5


In [50]:
len(list(zip(*lines)))

8

In [37]:
lines

[['gender',
  'race/ethnicity',
  'parental level of education',
  'lunch',
  'test preparation course',
  'math score',
  'reading score',
  'writing score'],
 ['female',
  'group B',
  "bachelor's degree",
  'standard',
  'none',
  '72',
  '72',
  '74'],
 ['female',
  'group C',
  'some college',
  'standard',
  'completed',
  '69',
  '90',
  '88'],
 ['female',
  'group B',
  "master's degree",
  'standard',
  'none',
  '90',
  '95',
  '93'],
 ['male',
  'group A',
  "associate's degree",
  'free/reduced',
  'none',
  '47',
  '57',
  '44'],
 ['male', 'group C', 'some college', 'standard', 'none', '76', '78', '75'],
 ['female',
  'group B',
  "associate's degree",
  'standard',
  'none',
  '71',
  '83',
  '78'],
 ['female',
  'group B',
  'some college',
  'standard',
  'completed',
  '88',
  '95',
  '92'],
 ['male', 'group B', 'some college', 'free/reduced', 'none', '40', '43', '39'],
 ['male',
  'group D',
  'high school',
  'free/reduced',
  'completed',
  '64',
  '64',
  '67'],
 [

In [33]:
lst.append(9)

In [34]:
list_of_lists

[[1, 2, 3], [3, 2, 1]]

In [35]:
lst

[1, 2, 3, 9]

In [28]:
a == b, a is b, a is a

(True, False, True)

In [3]:
path = '../Занятие 1/StudentsPerformance.csv'

In [8]:
trash_symbols = '" \n'

with open(path, 'r') as file:  # file = open(path, 'r')
    lines = []
    
    for line in file:  # iter(file) -> next
        line_split = line.split(',')
        line_clean = [elem.strip(trash_symbols) for elem in line_split]
        
        lines.append(line_clean)

In [None]:
for elem in sequence:  # для чего, где
    do_smth(elem)  # сделать что

[do_smth(elem) for elem in sequence]  # сделать что, для чего, где

In [7]:
[elem.strip(trash_symbols) for elem in lines[0]]

['gender',
 'race/ethnicity',
 'parental level of education',
 'lunch',
 'test preparation course',
 'math score',
 'reading score',
 'writing score']

In [20]:
{(-1) ** i for i in range(10) if i % 2 == 0}

{1}

In [17]:
((-1) ** i for i in range(10),)

SyntaxError: invalid syntax (1997625108.py, line 1)

In [22]:
words = ['word', 'wooord', 'wooooooord', 'wrd']

wdict = {}

for word in words:
    wdict[word] = len(set(word))  # wdict.update({word: len(set(word))})

wdict

{'word': 4, 'wooord': 4, 'wooooooord': 4, 'wrd': 3}

In [24]:
wdict = {word: len(set(word)) for word in words}
wdict

{'WORD': 4, 'WOOORD': 4, 'WOOOOOOORD': 4, 'WRD': 3}

In [6]:
' "gender"a'.strip('" a')

'gender'

#### Задача 1

Известно, что подготовка и исследование данных для машинного обучения занимают куда больше времени, чем собственно машинное обучение. В частности, существует такая процедура, как создание т. н. dummy-переменных.

![dummy](https://www.statology.org/wp-content/uploads/2021/02/dummyvartrap1-768x344.png)

В `pandas` уже есть функция, которая принимает на вход текстовую колонку таблицы и возвращает вместо нее много колонок с dummy-переменными. Однако проблема в том, что в ваших данных есть переменные, значения которых представляют из себя словосочетания со знаками препинания (количество таких слов формально не ограничено). Некоторые алгоритмы "любят" только простые названия переменных вида `variable` или `simple_variable`. Кроме того, так или иначе для последующей работы неплохо было бы стандартизировать все названия.

Поэтому вам нужно создать функцию, которая бы принимала на вход список из значений переменной и производила следующую предобработку всех значений в колонке:

- удаление всех знаков препинания;
- приведение всех букв к нижнему регистру;
- замену всех пробелов на нижнее подчеркивание;
- ограничение длины каждого слова первыми четырьмя буквами.

Функция должна возвращать словарь (т. н. mapper), по которому можно преобразовать переменную в новый вид (с помощью методов `.map()` / `.apply` - о них вам расскажут позднее). Ключами должны быть старые значения, а собственно значениями - новые.

Не всегда бывает так, что значения переменной написаны на латинице. Напишите вашу функцию таким образом, чтобы по дефолту она обрабатывала англоязычные переменные, но также имела возможность (при соответствующем значении аргумента) обработать и кириллические. Вам может пригодиться функция `translit` из модуля `transliterate` (пример работы с кириллицей можете найти ниже).

**Пример**

```
function input:
['Agree', 'Agree', 'Neither agree nor disagree', "Don't know", 'Neither agree nor disagree', 'Neither agree nor disagree', 'Disagree', 'No answer', 'Agree strongly', 'No answer', 'Agree', 'Refusal', 'Refusal', 'Disagree strongly', 'Disagree']

function return:
{
    'Agree strongly': 'agre_stro',
    'Agree': 'agre',
    'Neither agree nor disagree': 'neit_agre_nor_disa',
    'Disagree': 'disa',
    'Disagree strongly': 'disa_stro',
    'Refusal': 'refu',
    "Don't know": 'dont_know',
    'No answer': 'no_answ'
}
```

In [None]:
# пример работы функции translit

from transliterate import translit

print(translit('Полностью не согласен', 'ru', reversed=True))

In [None]:
# наш код здесь

#### Задача 2
Предположим, что перед нами стоит задача создать dummy-переменные в PostgreSQL. К сожалению, это не `pandas`, и готовой функции на этот случай не предусмотрено. Однако вы знаете, что можно создавать новые переменные базируясь на значении старых используя конструкцию case...when...then...end:

```
PostgreSQL:
CASE WHEN <condition> THEN <value1> ELSE <value2> END AS <variable_name>
В ТОМ СЛУЧАЕ КОГДА <условие> ТОГДА <значение1> ИНАЧЕ <значение2> КОНЕЦ НАЗВАТЬ <имя_переменной>

Python:
if <condition>:
    <value1>
else:
    <value2>
```

Если категорий немного, то написать такой код несложно. Однако что делать, если их, к примеру, 100? В этом случае придется писать `CASE WHEN` столько раз, сколько уникальных значений содержит ваша переменная, да еще и придумывать каждый раз соответствующее название.

Используйте свои знания Python, чтобы автоматизировать процесс написания SQL-запроса. Напишите соответствующую функцию. Для автоматизированной генерации названия переменной используйте наработки предыдущей задачи. Учтите, что значения переменной не обязательно будут написаны на латинице.

На выходе функция должна печатать (в таком же формате, как в примере ниже) законченный блок SQL-запроса.

**Пример**
```
function return:
    CASE WHEN gincdif = 'Agree strongly' THEN 1 ELSE 0 END AS agre_stro,
    CASE WHEN gincdif = 'Agree' THEN 1 ELSE 0 END AS agre,
    CASE WHEN gincdif = 'Neither agree nor disagree' THEN 1 ELSE 0 END AS neit_agre_nor_disa,
    CASE WHEN gincdif = 'Disagree' THEN 1 ELSE 0 END AS disa,
    CASE WHEN gincdif = 'Disagree strongly' THEN 1 ELSE 0 END AS disa_stro,
    CASE WHEN gincdif = 'Refusal' THEN 1 ELSE 0 END AS refu,
    CASE WHEN ginsdif = "Don't know" THEN 1 ELSE 0 END AS dont_know,
    CASE WHEN ginsdif = "No answer" THEN 1 ELSE 0 END AS no_answ
```

In [None]:
# наш код здесь