# Подготовка к собеседованиям

## Вопросы по Python, SQL, теории вероятности

### Добыча вопросов

In [2]:
# !pip install beautifulsoup4

In [1]:
import requests
from bs4 import BeautifulSoup
import re
import random


def parse_headers(link, header_level='h2'):
    parsed_headers = []
    try:
        # Send a GET request to the provided link
        response = requests.get(link)
        # Check if the request was successful
        if response.status_code == 200:
            # Parse the HTML content of the page using BeautifulSoup
            soup = BeautifulSoup(response.content, 'html.parser')
            # Find all headers and extract their text
            h2_headers = soup.find_all(header_level)
            # Extract text from each header and append it to the list
            for header in h2_headers:
                parsed_headers.append(header.text.strip())
        else:
            print("Failed to retrieve the webpage. Status code:", response.status_code)
    except Exception as e:
        print("An error occurred:", str(e))
    return parsed_headers


def remove_digits_from_start(strings):
    # Compile a regex pattern to match digits at the start of a string
    pattern = re.compile(r'^\d+\.\s*')
    # Remove digits from the beginning of each string
    cleaned_strings = [pattern.sub('', s) for s in strings]
    return cleaned_strings


def get_random_string(strings):
    if not strings:
        return None  # Return None if the list is empty
    return random.choice(strings)



In [2]:
# Python questions 1:
python_qstns_1_link = 'https://habr.com/ru/articles/782266/' 
python_qstns_1 = parse_headers(python_qstns_1_link)
print(python_qstns_1[:5])

['1. Какие типы данных есть в python? На какие классы делятся?', '2. Что такое лямбда-функция? Какое у неё назначение?', '3. Что такое docstring?', '4. Как получить документацию по атрибутам объекта?', '5. В чём разница между типами list и tuple?']


In [3]:
python_qstns_1[-1:-10:-1]

['Ближайшие события',
 'Работа',
 'Истории',
 'Публикации',
 '100. Что такое аксессоры, мутаторы, @property?',
 '99. В чем разница между NumPy и SciPy?',
 '98. Назовите модули в Python, связанные с файлами',
 '97. Что такое функции высшего порядка?',
 '96. Как создать свой собственный пакет в Python?']

In [4]:
# уберём лишнее
python_qstns_1 = python_qstns_1[:-4]

In [6]:
# Python questions 2:
python_qstns_2_link = 'https://habr.com/ru/companies/vk/articles/506824/' 
python_qstns_2 = parse_headers(python_qstns_2_link)
print(python_qstns_2[:5])

['1. В чем разница между списком и кортежем?', '2. Как выполняется интерполяция строк?', '3. В чем разница между is и ==?', '4. Что такое декоратор?', '5. Объясните функцию range']


In [7]:
python_qstns_2[-1:-5:-1]

['Публикации',
 '53. Как выполняется обработка исключений в Python?',
 '52. Приведите пример генератора словарей (dict comprehension)',
 '51. В чем разница между remove, del и pop?']

In [8]:
# уберём лишнее
python_qstns_2 = python_qstns_2[:-1]

In [9]:
# DS questions 1:
ds_qstns_link = 'https://habr.com/ru/articles/783766/' 
ds_qstns = parse_headers(ds_qstns_link, header_level='h3')
print(ds_qstns[:5])

['Секция "Статистика"', 'Секция "SQL"', 'Секция "Python"', 'Секция "Data Science"', 'Секция "Machine Learning"']


In [10]:
# уберём лишнее
ds_qstns = ds_qstns[5:]

In [7]:
# ds_qstns_link_2 = 'https://github.com/masmahbubalom/InterviewQuestions/tree/main/ML%20Interview%20Question'
# ds_qstns_2 = parse_headers(ds_qstns_link_2, header_level='h3')
# print(ds_qstns_2)

In [11]:
# объединим вопросы 
qstns = python_qstns_1 + python_qstns_2 + ds_qstns

In [12]:
#очистим вопросы от нумерации
qstns = remove_digits_from_start(qstns)

In [13]:
references = [
    '\n\nИсточники',
    'https://habr.com/ru/articles/782266/',
    'https://habr.com/ru/companies/vk/articles/506824/',
    'https://habr.com/ru/articles/783766/'
]

In [14]:
with open ('ds_interview_questions.txt', 'w') as f:
    f.writelines([line+'\n' for line in qstns])

# В конце укажем источники
# with open ('ds_interview_questions.txt', 'a') as f:
#     f.writelines([line+'\n' for line in references])

Ссылки для поиcка ответов:
* https://habr.com/ru/articles/782266/
* https://habr.com/ru/companies/vk/articles/506824/
* https://habr.com/ru/articles/783766/
* https://github.com/masmahbubalom/InterviewQuestions/tree/main/ML%20Interview%20Question

### Вопросы

In [15]:
with open ('ds_interview_questions.txt', 'r') as f:
    qstns = f.readlines()

In [102]:
random_qstn = get_random_string(qstns)
print(random_qstn.strip())

Объясните и дайте примеры коллаборативной фильтрации, фильтрации контента и гибридной фильтрации


### Тренировка

In [111]:
# Что такое декоратор? Как написать собственный?
# https://realpython.com/primer-on-python-decorators/
# f = decorator(f)

def logging(func):
    def log_function_called(*args, **kwargs):
        print(f'{func.__name__} called with args: {args} and kwargs: {kwargs}')
        return func(*args, **kwargs)
    return log_function_called

# @logging
def summ(a, b):
    return a + b

summ = logging(summ)


s = summ(5, b=6)
print(s)

summ called with args: (5,) and kwargs: {'b': 6}
11


In [112]:
# В чем разница между is и ==?
a = [1, 2, 3]
b = [1, 2, 3]
c = a

print(a == b)
print(a is b)
print(a == c)
print(a is c)
print('a:', id(a), 'b:', id(b), 'c:', id(c))

True
False
True
True
a: 2226370321344 b: 2226370250560 c: 2226370321344


In [113]:
# A0 — zip попарно читает кортежи и создаёт такие пары "ключ-значение": 'a' : 1, 'b' : 2, ...
a0 = dict(zip(('a', 'b', 'c', 'd', 'e'), (1, 2, 3, 4, 5)))
print(a0)

# A1 — просто диапазон от 0 до 9, но сейчас это именно что диапазон, а не список или что-то ещё
a1 = range(10)
print(a1)

# A2 — берём по элементу из A1, и если этот элемент есть в A0, то добавляем его в A2. Позже сортируем A2 по возрастанию
a2 = sorted([el for el in a1 if el in a0.values()])
print(a2)

# A3 — достаём значения словаря A0 по ключам из A0, сортируем
a3 = sorted([a0[key] for key in ['a', 'c', 'e']]) # вариант, когда нужны определённые ключи
a3 = sorted([a0[key] for key in a0])  # вариант
print(a3)

# A4 — берём по элементу из A1, и если этот элемент есть в A3, добавляем в A4 этот элемент
a4 = [el for el in a1 if el in a3]
print(a4)

# А5 — создаём словарь со значениями, которые равны квадрату ключей. Ключи берём из A1
a5 = {i:i**2 for i in a1}
print(a5)

# A6 — создаём списки в одном списке, каждый маленький список вида [элемент, элемент**2]. Элементы берём из A1
a6 = [[el, el**2] for el in a1]
print(a6)

# A7 — берём элементы из A1, если элемент из интервала (2, 8), то проверяем чётность элемента.
# Если элемент нечётный, то добавляем его в A7, иначе добавляем 0.
a7 = [el if el%2 else 0 for el in a1 if 2 < el < 8]
print(a7)

{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
range(0, 10)
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]
{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}
[[0, 0], [1, 1], [2, 4], [3, 9], [4, 16], [5, 25], [6, 36], [7, 49], [8, 64], [9, 81]]
[3, 0, 5, 0, 7]


## Тренировки по алгоритмам от Яндекс

https://yandex.ru/yaintern/algorithm-training#trainings-group

**[Тренировки 1.0 (2021)](https://yandex.ru/yaintern/algorithm-training_1)**

1. [Лекция 1: «Сложность, тестирование, особые случаи»](https://www.youtube.com/watch?v=QLhqYNsPIVo)
2. [Лекция 2: «Линейный поиск»](https://www.youtube.com/watch?v=SKwB41FrGgU)
3. [Лекция 3: «Множества»](https://www.youtube.com/watch?v=PUpmV2ieIHA)
4. [Лекция 4: «Словари и сортировка подсчётом»](https://www.youtube.com/watch?v=Nb5mW1yWVSs)
5. [Лекция 5: «Префиксные суммы и два указателя»](https://www.youtube.com/watch?v=de28y8Dcvkg)
6. [Лекция 6: «Бинарный поиск»](https://www.youtube.com/watch?v=YENpZexHfuk)
7. [Лекция 7: «Сортировка событий»](https://www.youtube.com/watch?v=hGixDBO-p6Q)
8. [Лекция 8: «Деревья»](https://www.youtube.com/watch?v=lEJzqHgyels)

## Тренировки на LeetCode.com

https://leetcode.com/problemset/

## Время

In [107]:
time_spent = {
    '2024-04-15': 25/60*4,
    
}

In [109]:
25/60*4, 1 + 39/60

(1.6666666666666667, 1.65)

In [117]:
from math import sqrt

n = 500
p = 260 / n
z = 1.96

p + z * sqrt(p * (1 - p) / n)

0.5637918567772594