## ДЗ 1 (Numpy, Pandas, Scipy)

### Базовый уровень

#### Задние 1

In [None]:
import numpy as np
import pandas as pd
from scipy import stats

In [None]:
def task1_numpy_arrays(matrix_file='../data/matrix.npy'):
    """
    Задание 1: Работа с NumPy массивами

    Дана матрица корреляций в файле matrix.npy.
    
    Вычислите:
    1. Сумму всех элементов матрицы (округлите до 2 знаков после запятой)
    2. Среднее значение элементов матрицы (округлите до 2 знаков после запятой)
    3. Максимальное значение в матрице (округлите до 2 знаков после запятой)
    4. Минимальное значение в матрице (округлите до 2 знаков после запятой)

    Returns:
        dict: {
            'sum': сумма, 
            'mean': среднее, 
            'max': максимум, 
            'min': минимум
        }
    """
    # Загрузка данных
    matrix = np.load(matrix_file)
    
    # Ваше решение

    return {
        'sum': matrix.sum().round(2),
        'mean': matrix.mean().round(2),
        'max': matrix.max().round(2),
        'min': matrix.min().round(2)
    } # Верните словарь с результатами

In [None]:
print(np.load('../data/matrix.npy'))
task1_numpy_arrays()

[[1.         0.55017376 0.37340995 0.58408758 0.44032665]
 [0.55017376 1.         0.65890815 0.06621102 0.66006718]
 [0.37340995 0.65890815 1.         0.3514742  0.68561376]
 [0.58408758 0.06621102 0.3514742  1.         0.6113814 ]
 [0.44032665 0.66006718 0.68561376 0.6113814  1.        ]]


{'sum': 14.96, 'mean': 0.6, 'max': 1.0, 'min': 0.07}

#### Задние 2

In [None]:
def task2_dataframe_basic(data_file='../data/data_pd.csv'):
    """
    Задание 2: Базовые операции с DataFrame

    Используя DataFrame из сгенерированных данных в data_pd.csv, вычислите:
    1. Средний возраст сотрудников (округлите до 2 знаков после запятой)
    2. Медианный доход (округлите до 2 знаков после запятой)
    3. Количество сотрудников с высшим образованием (PhD)
    4. Максимальный опыт работы (округлите до 2 знаков после запятой)
    5. Среднюю производительность (округлите до 3 знаков после запятой)
    6. Количество сотрудников в IT отделе

    Returns:
        dict: {
            'mean_age': средний_возраст, 
            'median_income': медианный_доход, 
            'phd_count': количество_PhD, 
            'max_experience': максимальный_опыт, 
            'mean_performance': средняя_производительность, 
            'it_count': количество_IT
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение
    
    return {
        'mean_age': df['age'].mean().round(2),
        'median_income': df['income'].median().round(2),
        'phd_count': (df['education'] == 'PhD').sum(),
        'max_experience': df['experience'].max().round(2),
        'mean_performance': df['performance'].mean().round(3),
        'it_count': (df['department'] == 'IT').sum()
    } # Верните словарь с результатами

In [None]:
pd.read_csv('../data/data_pd.csv').head()

Unnamed: 0,age,income,education,experience,performance,department,satisfaction,bonus
0,21.072681,74562.784638,Master,4,0.374508,Finance,3,965.918456
1,28.217903,41063.253861,PhD,4,0.252764,Finance,1,9726.694926
2,24.687776,67080.000231,Bachelor,7,0.272606,IT,1,3411.828701
3,30.408827,8746.205642,Master,9,0.479447,IT,4,5269.686697
4,26.081664,11268.720259,PhD,4,0.336153,Finance,5,7160.761956


In [None]:
task2_dataframe_basic()

{'mean_age': 24.99,
 'median_income': 35020.3,
 'phd_count': 2001,
 'max_experience': 15,
 'mean_performance': 0.285,
 'it_count': 1475}

#### Задние 3

In [None]:
def task3_groupby_aggregation(data_file='../data/data_pd.csv'):
    """
    Задание 3: Группировка и агрегация

    Используя DataFrame из data_pd.csv, вычислите:
    1. Средний доход по отделам (округлите до 2 знаков после запятой для каждого отдела)
    2. Максимальный бонус по уровням образования (округлите до 2 знаков после запятой для каждого уровня)
    3. Количество сотрудников по отделам
    4. Средний опыт работы по отделам (округлите до 2 знаков после запятой для каждого отдела)

    Returns:
        dict: {
            'avg_income_by_dept': {
                'IT': средний_доход_IT,
                'HR': средний_доход_HR,
                'Finance': средний_доход_Finance,
                'Marketing': средний_доход_Marketing
            },
            'max_bonus_by_education': {
                'Bachelor': максимальный_бонус_Bachelor,
                'Master': максимальный_бонус_Master,
                'PhD': максимальный_бонус_PhD
            },
            'count_by_dept': {
                'IT': количество_IT,
                'HR': количество_HR,
                'Finance': количество_Finance,
                'Marketing': количество_Marketing
            },
            'avg_exp_by_dept': {
                'IT': средний_опыт_IT,
                'HR': средний_опыт_HR,
                'Finance': средний_опыт_Finance,
                'Marketing': средний_опыт_Marketing
            }
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение
    
    return {
        'avg_income_by_dept': df.groupby('department')['income'].mean().round(2).to_dict(),
        'max_bonus_by_education': df.groupby('education')['bonus'].max().round(2).to_dict(),
        'count_by_dept': df.groupby('department').size().to_dict(),
        'avg_exp_by_dept': df.groupby('department')['experience'].mean().round(2).to_dict()
    } # Верните словарь с результатами

In [None]:
task3_groupby_aggregation()

{'avg_income_by_dept': {'Finance': 49531.8,
  'HR': 50592.75,
  'IT': 49756.31,
  'Marketing': 48626.71},
 'max_bonus_by_education': {'Bachelor': 9985.22,
  'Master': 9994.35,
  'PhD': 9993.97},
 'count_by_dept': {'Finance': 1559, 'HR': 1490, 'IT': 1475, 'Marketing': 1476},
 'avg_exp_by_dept': {'Finance': 5.05,
  'HR': 4.93,
  'IT': 5.09,
  'Marketing': 4.99}}

#### Задние 4

In [None]:
def task4_data_filtering(data_file='../data/data_pd.csv'):
    """
    Задание 4: Фильтрация данных

    Используя DataFrame из data_pd.csv, вычислите:
    1. Средний доход сотрудников старше 30 лет (округлите до 2 знаков после запятой)
    2. Максимальный бонус в IT отделе (округлите до 2 знаков после запятой)
    3. Средний опыт работы сотрудников с PhD (округлите до 2 знаков после запятой)
    4. Количество сотрудников с доходом выше 100000
    5. Среднюю удовлетворенность в Finance отделе (округлите до 2 знаков после запятой)

    Returns:
        dict: {
            'mean_income_over_30': средний_доход_старше_30,
            'max_bonus_it': максимальный_бонус_IT,
            'mean_exp_phd': средний_опыт_PhD,
            'high_income_count': количество_высокий_доход,
            'mean_satisfaction_finance': средняя_удовлетворенность_Finance
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение
    
    return {
        'mean_income_over_30': df[df['age'] > 30]['income'].mean().round(2),
        'max_bonus_it': df[df['department'] == 'IT']['bonus'].max().round(2),
        'mean_exp_phd': df[df['education'] == 'PhD']['experience'].mean().round(2),
        'high_income_count': (df['income'] > 100000).sum(),
        'mean_satisfaction_finance': df[df['department'] == 'Finance']['satisfaction'].mean().round(2)
    } # Верните словарь с результатами

In [None]:
task4_data_filtering()

{'mean_income_over_30': 51475.52,
 'max_bonus_it': 9993.52,
 'mean_exp_phd': 5.01,
 'high_income_count': 783,
 'mean_satisfaction_finance': 3.01}

#### Задние 5

In [None]:
def task5_sorting_ranking(data_file='../data/data_pd.csv'):
    """
    Задание 5: Сортировка и ранжирование

    Используя DataFrame из data_pd.csv, вычислите:
    1. Топ-5 сотрудников по доходу (округлите до 2 знаков после запятой)
    2. Топ-5 сотрудников по опыту работы
    3. Топ-5 сотрудников по производительности (округлите до 3 знаков после запятой)
    4. Топ-5 сотрудников по бонусу (округлите до 2 знаков после запятой)

    Returns:
        dict: {
            'top_income': [доход_1, доход_2, доход_3, доход_4, доход_5],
            'top_experience': [опыт_1, опыт_2, опыт_3, опыт_4, опыт_5],
            'top_performance': [производительность_1, производительность_2, производительность_3, производительность_4, производительность_5],
            'top_bonus': [бонус_1, бонус_2, бонус_3, бонус_4, бонус_5]
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение
    
    return {
        'top_income': df['income'].sort_values(ascending=False).head(5).round(2).to_list(),
        'top_experience': df['experience'].sort_values(ascending=False).head(5).to_list(),
        'top_performance': df['performance'].sort_values(ascending=False).head().round(3).to_list(),
        'top_bonus': df['bonus'].sort_values(ascending=False).head(5).round(2).to_list()
    } # Верните словарь с результатами

In [None]:
task5_sorting_ranking()

{'top_income': [489462.13, 447885.59, 367934.05, 349946.31, 318273.12],
 'top_experience': [15, 15, 14, 14, 14],
 'top_performance': [0.885, 0.836, 0.835, 0.829, 0.827],
 'top_bonus': [9994.35, 9993.97, 9993.52, 9991.29, 9990.62]}

#### Задние 6

In [None]:
def task6_income_statistics(data_file='../data/data_pd.csv'):
    """
    Задание 6: Вычисление статистик

    Используя DataFrame из data_pd.csv, вычислите:
    1. Среднее значение дохода (округлите до 2 знаков после запятой)
    2. Медиану дохода (округлите до 2 знаков после запятой)

    Returns:
        dict: {
            'mean_income': среднее_дохода,
            'median_income': медиана_дохода
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение
    
    return {
        'mean_income': df['income'].mean().round(2),
        'median_income': df['income'].median().round(2)
    } # Верните словарь с результатами

In [None]:
task6_income_statistics()

{'mean_income': 49627.81, 'median_income': 35020.3}

#### Задние 7

In [None]:
def task7_bernoulli_distribution(bernoulli_file='../data/bernoulli.npy'):
    """
    Задание 7: Распределение Бернулли

    Дана выборка из распределения Бернулли в файле bernoulli.npy.
    
    Вычислите:
    1. Оценку вероятности успеха p̂ (округлите до 3 знаков после запятой)
    2. Вероятность получить не менее 60 успехов в 100 испытаниях, если вероятность успеха равна p̂ 
       (округлите до 3 знаков после запятой)

    Returns:
        dict: {
            'p_hat': p̂,
            'p_at_least_60': P(X>=60)
        }
    """
    # Загрузка данных
    bernoulli_sample = np.load(bernoulli_file)
    
    # Ваше решение
    p_hat = bernoulli_sample.mean().round(3)
    n = 100
    k = 59
    p_at_least_60 = (1.0 - stats.binom.cdf(k, n, p_hat)).round(3)
    
    return {
        'p_hat': p_hat,
        'p_at_least_60': p_at_least_60
    } # Верните словарь с результатами

In [None]:
np.load('../data/bernoulli.npy')

array([0, 1, 0, ..., 1, 1, 0], dtype=int64)

In [None]:
task7_bernoulli_distribution()

{'p_hat': 0.699, 'p_at_least_60': 0.987}

#### Задние 8

In [None]:
def task8_poisson_distribution(poisson_file='../data/poisson.npy'):
    """
    Задание 8: Распределение Пуассона

    Дана выборка из распределения Пуассона в файле poisson.npy.
    
    Вычислите:
    1. Оценку параметра λ (округлите до 2 знаков после запятой)
    2. Вероятность того, что случайная величина примет значение 3 (округлите до 3 знаков после запятой)
    3. Вероятность того, что случайная величина примет значение больше 5 (округлите до 3 знаков после запятой)

    Returns:
        dict: {
            'lambda_hat': λ̂,
            'p_x_equals_3': P(X=3),
            'p_x_greater_5': P(X>5)
        }
    """
    # Загрузка данных
    poisson_sample = np.load(poisson_file)
    
    # Ваше решение
    lambda_hat = poisson_sample.mean().round(2)
    p_x_equals_3 = stats.poisson.pmf(3, mu=lambda_hat).round(3)
    p_x_greater_5 = 1 - stats.poisson.cdf(5, mu=lambda_hat).round(3)
    
    return {
        'lambda_hat': lambda_hat,
        'p_x_equals_3': p_x_equals_3,
        'p_x_greater_5': p_x_greater_5
    } # Верните словарь с результатами

In [None]:
np.load('../data/poisson.npy')

array([7, 5, 5, ..., 3, 8, 5], dtype=int64)

In [None]:
task8_poisson_distribution()

{'lambda_hat': 4.97, 'p_x_equals_3': 0.142, 'p_x_greater_5': 0.379}

#### Задние 9

In [None]:
def task9_exponential_distribution(exponential_file='../data/exponential.npy'):
    """
    Задание 9: Экспоненциальное распределение

    Дана выборка из экспоненциального распределения в файле exponential.npy.
    
    Вычислите:
    1. Оценку параметра λ (округлите до 3 знаков после запятой)
    2. Вероятность того, что случайная величина примет значение больше 15 (округлите до 3 знаков после запятой)

    Returns:
        dict: {
            'lambda_hat': λ̂,
            'p_x_greater_15': P(X>15)
        }
    """
    # Загрузка данных
    exp_sample = np.load(exponential_file)
    
    # Ваше решение
    lambda_hat = (1 / exp_sample.mean()).round(3)
    p_x_greater_15 = (1.0 - stats.expon.cdf(15, scale=1 / lambda_hat)).round(3)
    
    return {
        'lambda_hat': lambda_hat,
        'p_x_greater_15': p_x_greater_15
    } # Верните словарь с результатами 

In [None]:
np.load('../data/exponential.npy')

array([ 9.24670368, 25.19248645,  8.41129875, ..., 13.10455002,
       35.24265173, 13.47578032])

In [None]:
task9_exponential_distribution()

{'lambda_hat': 0.103, 'p_x_greater_15': 0.213}