# Проверочные задания по NumPy, Pandas и SciPy (числовые)

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

## Задание 1: Работа с NumPy массивами
Дана матрица корреляций matrix.npy.
Вычислите:

Сумму всех элементов матрицы (округлите до 2 знаков после запятой)
Среднее значение элементов матрицы (округлите до 2 знаков после запятой)
Максимальное значение в матрице (округлите до 2 знаков после запятой)
Минимальное значение в матрице (округлите до 2 знаков после запятой)

Ответ: [сумма, среднее, максимум, минимум]

In [10]:
def task1_numpy_arrays(matrix_file='/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/matrix.npy'):
    """
    Задание 1: Работа с NumPy массивами

    Дана матрица корреляций в файле matrix.npy.
    
    Вычислите:
    1. Сумму всех элементов матрицы (округлите до 2 знаков после запятой)
    2. Среднее значение элементов матрицы (округлите до 2 знаков после запятой)
    3. Максимальное значение в матрице (округлите до 2 знаков после запятой)
    4. Минимальное значение в матрице (округлите до 2 знаков после запятой)

    Returns:
        dict: {
            'sum': сумма, 
            'mean': среднее, 
            'max': максимум, 
            'min': минимум
        }
    """
    # Загрузка данных
    matrix = np.load(matrix_file)
    
    # Ваше решение
    total_sum = round(np.sum(matrix),2)
    mean_val = round(np.mean(matrix),2)
    max_val = round(np.max(matrix), 2)
    min_val = round(np.min(matrix), 2)

    return {
        'sum': total_sum,
        'mean': mean_val,
        'max': max_val,
        'min': min_val
    } # Верните словарь с результатами

In [12]:
task1_numpy_arrays()

{'sum': 14.96, 'mean': 0.6, 'max': 1.0, 'min': 0.07}

## Задание 2: Базовые операции с DataFrame

    Используя DataFrame из сгенерированных данных в data_pd.csv, вычислите:
    1. Средний возраст сотрудников (округлите до 2 знаков после запятой)
    2. Медианный доход (округлите до 2 знаков после запятой)
    3. Количество сотрудников с высшим образованием (PhD)
    4. Максимальный опыт работы (округлите до 2 знаков после запятой)
    5. Среднюю производительность (округлите до 3 знаков после запятой)
    6. Количество сотрудников в IT отделе

In [8]:
def task2_dataframe_basic(data_file='/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/data_pd.csv'):
    """
    Задание 2: Базовые операции с DataFrame

    Используя DataFrame из сгенерированных данных в data_pd.csv, вычислите:
    1. Средний возраст сотрудников (округлите до 2 знаков после запятой)
    2. Медианный доход (округлите до 2 знаков после запятой)
    3. Количество сотрудников с высшим образованием (PhD)
    4. Максимальный опыт работы (округлите до 2 знаков после запятой)
    5. Среднюю производительность (округлите до 3 знаков после запятой)
    6. Количество сотрудников в IT отделе

    Returns:
        dict: {
            'mean_age': средний_возраст, 
            'median_income': медианный_доход, 
            'phd_count': количество_PhD, 
            'max_experience': максимальный_опыт, 
            'mean_performance': средняя_производительность, 
            'it_count': количество_IT
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение

    # 1. Средний возраст сотрудников
    mean_age = round(df['age'].mean(),2)

    # 2. Медианный доход
    median_income = round(df['income'].median(),2)

    # 3. Количество сотрудников с высшим образованием (PhD)
    phd_count = df[df['education']=='PhD'].shape[0]

    # 4. Максимальный опыт работы
    max_experience = round(df['experience'].max(),2)

    # 5. Средняя производительность
    mean_performance=round(df['performance'].mean(),3)

    # 6. Количество сотрудников в IT отделе
    it_count = df[df['department']=='IT'].shape[0]

    
    return {
        'mean_age': mean_age,
        'median_income': median_income,
        'phd_count': phd_count,
        'max_experience': max_experience,
        'mean_performance': mean_performance,
        'it_count': it_count
    } # Верните словарь с результатами

In [9]:
task2_dataframe_basic()

{'mean_age': 24.99,
 'median_income': 35020.3,
 'phd_count': 2001,
 'max_experience': 15,
 'mean_performance': 0.285,
 'it_count': 1475}

## Задание 3: Группировка и агрегация

    Используя DataFrame из data_pd.csv, вычислите:
    1. Средний доход по отделам (округлите до 2 знаков после запятой для каждого отдела)
    2. Максимальный бонус по уровням образования (округлите до 2 знаков после запятой для каждого уровня)
    3. Количество сотрудников по отделам
    4. Средний опыт работы по отделам (округлите до 2 знаков после запятой для каждого отдела)

In [5]:
def task3_groupby_aggregation(data_file='/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/data_pd.csv'):
    """
    Задание 3: Группировка и агрегация

    Используя DataFrame из data_pd.csv, вычислите:
    1. Средний доход по отделам (округлите до 2 знаков после запятой для каждого отдела)
    2. Максимальный бонус по уровням образования (округлите до 2 знаков после запятой для каждого уровня)
    3. Количество сотрудников по отделам
    4. Средний опыт работы по отделам (округлите до 2 знаков после запятой для каждого отдела)

    Returns:
        dict: {
            'avg_income_by_dept': {
                'IT': средний_доход_IT,
                'HR': средний_доход_HR,
                'Finance': средний_доход_Finance,
                'Marketing': средний_доход_Marketing
            },
            'max_bonus_by_education': {
                'Bachelor': максимальный_бонус_Bachelor,
                'Master': максимальный_бонус_Master,
                'PhD': максимальный_бонус_PhD
            },
            'count_by_dept': {
                'IT': количество_IT,
                'HR': количество_HR,
                'Finance': количество_Finance,
                'Marketing': количество_Marketing
            },
            'avg_exp_by_dept': {
                'IT': средний_опыт_IT,
                'HR': средний_опыт_HR,
                'Finance': средний_опыт_Finance,
                'Marketing': средний_опыт_Marketing
            }
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение

    # Формируем финальный словарь с учетом возможных отсутствующих ключей
    departments = ['IT', 'HR', 'Finance', 'Marketing']
    education_levels = ['Bachelor', 'Master', 'PhD']

    # 1. Средний доход по отделам (округляем до 2 знаков)
    avg_income = df.groupby('department')['income'].mean().round(2).to_dict()

    # 2. Максимальный бонус по уровням образования (округляем до 2 знаков)
    max_bonus = df.groupby('education')['bonus'].max().round(2).to_dict()

    # 3. Количество сотрудников по отделам
    count_by_dept = df['department'].value_counts().to_dict()

    # 4. Средний опыт работы по отделам (округляем до 2 знаков)
    avg_experience = df.groupby('department')['experience'].mean().round(2).to_dict()

    
    return {
        'avg_income_by_dept': {dept: avg_income.get(dept,0.0) for dept in departments},
        'max_bonus_by_education': {edu: max_bonus.get(edu,0.0) for edu in education_levels},
        'count_by_dept': {dept: count_by_dept.get(dept,0.0) for dept in departments},
        'avg_exp_by_dept': {dept: avg_experience.get(dept, 0.0) for dept in departments}
    } # Верните словарь с результатами

In [7]:
task3_groupby_aggregation()

{'avg_income_by_dept': {'IT': 49756.31,
  'HR': 50592.75,
  'Finance': 49531.8,
  'Marketing': 48626.71},
 'max_bonus_by_education': {'Bachelor': 9985.22,
  'Master': 9994.35,
  'PhD': 9993.97},
 'count_by_dept': {'IT': 1475, 'HR': 1490, 'Finance': 1559, 'Marketing': 1476},
 'avg_exp_by_dept': {'IT': 5.09,
  'HR': 4.93,
  'Finance': 5.05,
  'Marketing': 4.99}}

In [2]:
df = pd.read_csv('/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/data_pd.csv')
df.head()

Unnamed: 0,age,income,education,experience,performance,department,satisfaction,bonus
0,21.072681,74562.784638,Master,4,0.374508,Finance,3,965.918456
1,28.217903,41063.253861,PhD,4,0.252764,Finance,1,9726.694926
2,24.687776,67080.000231,Bachelor,7,0.272606,IT,1,3411.828701
3,30.408827,8746.205642,Master,9,0.479447,IT,4,5269.686697
4,26.081664,11268.720259,PhD,4,0.336153,Finance,5,7160.761956


In [3]:
df['department'].unique()

array(['Finance', 'IT', 'Marketing', 'HR'], dtype=object)

In [4]:
df['education'].unique()

array(['Master', 'PhD', 'Bachelor'], dtype=object)

## Задание 4: Фильтрация данных

    Используя DataFrame из data_pd.csv, вычислите:
    1. Средний доход сотрудников старше 30 лет (округлите до 2 знаков после запятой)
    2. Максимальный бонус в IT отделе (округлите до 2 знаков после запятой)
    3. Средний опыт работы сотрудников с PhD (округлите до 2 знаков после запятой)
    4. Количество сотрудников с доходом выше 100000
    5. Среднюю удовлетворенность в Finance отделе (округлите до 2 знаков после запятой)

In [29]:
def task4_data_filtering(data_file='/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/data_pd.csv'):
    """
    Задание 4: Фильтрация данных

    Используя DataFrame из data_pd.csv, вычислите:
    1. Средний доход сотрудников старше 30 лет (округлите до 2 знаков после запятой)
    2. Максимальный бонус в IT отделе (округлите до 2 знаков после запятой)
    3. Средний опыт работы сотрудников с PhD (округлите до 2 знаков после запятой)
    4. Количество сотрудников с доходом выше 100000
    5. Среднюю удовлетворенность в Finance отделе (округлите до 2 знаков после запятой)

    Returns:
        dict: {
            'mean_income_over_30': средний_доход_старше_30,
            'max_bonus_it': максимальный_бонус_IT,
            'mean_exp_phd': средний_опыт_PhD,
            'high_income_count': количество_высокий_доход,
            'mean_satisfaction_finance': средняя_удовлетворенность_Finance
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение

    # 1. Средний доход сотрудников старше 30 лет
    mean_income_over_30 = df[df['age']>30]['income'].mean().round(2)

    # 2. Максимальный бонус в IT отделе
    max_bonus_it = df[df['department']=='IT']['bonus'].max().round(2)

    # 3. Средний опыт работы сотрудников с PhD
    mean_exp_phd = df[df['education']=='PhD']['experience'].mean().round(2)

    # 4. Количество сотрудников с доходом выше 100000
    high_income_count = (df[df['income']>100000]).count()['education']

    # 5. Средняя удовлетворенность в Finance отделе
    mean_satisfaction_finance = df[df['department']=='Finance']['satisfaction'].mean().round(2)
    
    
    return {
        'mean_income_over_30': mean_income_over_30,
        'max_bonus_it': max_bonus_it,
        'mean_exp_phd': mean_exp_phd,
        'high_income_count': high_income_count,
        'mean_satisfaction_finance': mean_satisfaction_finance
    } # Верните словарь с результатами

In [30]:
task4_data_filtering()

{'mean_income_over_30': 51475.52,
 'max_bonus_it': 9993.52,
 'mean_exp_phd': 5.01,
 'high_income_count': 783,
 'mean_satisfaction_finance': 3.01}

In [13]:
df.columns

Index(['age', 'income', 'education', 'experience', 'performance', 'department',
       'satisfaction', 'bonus'],
      dtype='object')

In [14]:
df['department'].unique()

array(['Finance', 'IT', 'Marketing', 'HR'], dtype=object)

## Задание 5: Сортировка и ранжирование

    Используя DataFrame из data_pd.csv, вычислите:
    1. Топ-5 сотрудников по доходу (округлите до 2 знаков после запятой)
    2. Топ-5 сотрудников по опыту работы
    3. Топ-5 сотрудников по производительности (округлите до 3 знаков после запятой)
    4. Топ-5 сотрудников по бонусу (округлите до 2 знаков после запятой)


In [32]:
def task5_sorting_ranking(data_file='/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/data_pd.csv'):
    """
    Задание 5: Сортировка и ранжирование

    Используя DataFrame из data_pd.csv, вычислите:
    1. Топ-5 сотрудников по доходу (округлите до 2 знаков после запятой)
    2. Топ-5 сотрудников по опыту работы
    3. Топ-5 сотрудников по производительности (округлите до 3 знаков после запятой)
    4. Топ-5 сотрудников по бонусу (округлите до 2 знаков после запятой)

    Returns:
        dict: {
            'top_income': [доход_1, доход_2, доход_3, доход_4, доход_5],
            'top_experience': [опыт_1, опыт_2, опыт_3, опыт_4, опыт_5],
            'top_performance': [производительность_1, производительность_2, производительность_3, производительность_4, производительность_5],
            'top_bonus': [бонус_1, бонус_2, бонус_3, бонус_4, бонус_5]
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение

    # 1. Топ-5 по доходу (округление до 2 знаков)
    top_income = df.sort_values('income',ascending=False)['income'].head(5).round(2).tolist()

    # 2. Топ-5 по опыту работы
    top_experience = df.sort_values('experience',ascending=False)['experience'].head(5).tolist()

    # 3. Топ-5 по производительности (округление до 3 знаков)
    top_performance = df.sort_values('performance',ascending=False)['performance'].head(5).round(3).tolist()

    # 4. Топ-5 по бонусу (округление до 2 знаков)
    top_bonus = df.sort_values(by='bonus', ascending=False)['bonus'].head(5).round(2).tolist()

    return {
        'top_income': top_income,
        'top_experience': top_experience,
        'top_performance': top_performance,
        'top_bonus': top_bonus
    } # Верните словарь с результатами

In [34]:
task5_sorting_ranking()

{'top_income': [489462.13, 447885.59, 367934.05, 349946.31, 318273.12],
 'top_experience': [15, 15, 14, 14, 14],
 'top_performance': [0.885, 0.836, 0.835, 0.829, 0.827],
 'top_bonus': [9994.35, 9993.97, 9993.52, 9991.29, 9990.62]}

In [31]:
df.columns

Index(['age', 'income', 'education', 'experience', 'performance', 'department',
       'satisfaction', 'bonus'],
      dtype='object')

## Задание 6: Вычисление статистик

    Используя DataFrame из data_pd.csv, вычислите:
    1. Среднее значение дохода (округлите до 2 знаков после запятой)
    2. Медиану дохода (округлите до 2 знаков после запятой)

In [35]:
def task6_income_statistics(data_file='/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/data_pd.csv'):
    """
    Задание 6: Вычисление статистик

    Используя DataFrame из data_pd.csv, вычислите:
    1. Среднее значение дохода (округлите до 2 знаков после запятой)
    2. Медиану дохода (округлите до 2 знаков после запятой)

    Returns:
        dict: {
            'mean_income': среднее_дохода,
            'median_income': медиана_дохода
        }
    """
    # Загрузка данных
    df = pd.read_csv(data_file)
    
    # Ваше решение
    # Среднее значение дохода
    mean_income = round(df['income'].mean(), 2)

    # Медиана дохода
    median_income = round(df['income'].median(), 2)

    
    return {
        'mean_income': mean_income,
        'median_income': median_income
    } # Верните словарь с результатами

In [36]:
task6_income_statistics()

{'mean_income': 49627.81, 'median_income': 35020.3}

## Задание 7: Распределение Бернулли

    Дана выборка из распределения Бернулли в файле bernoulli.npy.
    
    Вычислите:
    1. Оценку вероятности успеха p̂ (округлите до 3 знаков после запятой)
    2. Вероятность получить не менее 60 успехов в 100 испытаниях, если вероятность успеха равна p̂ 
       (округлите до 3 знаков после запятой)

In [37]:
def task7_bernoulli_distribution(bernoulli_file='/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/bernoulli.npy'):
    """
    Задание 7: Распределение Бернулли

    Дана выборка из распределения Бернулли в файле bernoulli.npy.
    
    Вычислите:
    1. Оценку вероятности успеха p̂ (округлите до 3 знаков после запятой)
    2. Вероятность получить не менее 60 успехов в 100 испытаниях, если вероятность успеха равна p̂ 
       (округлите до 3 знаков после запятой)

    Returns:
        dict: {
            'p_hat': p̂,
            'p_at_least_60': P(X>=60)
        }
    """
    # Загрузка данных
    bernoulli_sample = np.load(bernoulli_file)
    
    # Ваше решение

    # 1. Оценка вероятности успеха p̂ = среднее значение
    p_hat = round(np.mean(bernoulli_sample),3)

    # 2. Вероятность получить не менее 60 успехов в 100 испытаниях
    # P(X >= 60) = 1 - P(X <= 59)
    p_at_least_60 = round(1 - stats.binom.cdf(59,100,p_hat),3)


    return {
        'p_hat': p_hat,
        'p_at_least_60': p_at_least_60
    } # Верните словарь с результатами

In [39]:
task7_bernoulli_distribution()

{'p_hat': 0.699, 'p_at_least_60': 0.987}

## Задание 8: Распределение Пуассона
Дана выборка из распределения Пуассона:

poisson_sample = [4, 6, 3, ...]  


Вычислите:

Оценку параметра λ (округлите до 2 знаков после запятой)
Вероятность того, что случайная величина примет значение 3 (округлите до 3 знаков после запятой)
Вероятность того, что случайная величина примет значение больше 5 (округлите до 3 знаков после запятой)

Ответ: [λ̂, P(X=3), P(X>5)]

In [40]:
def task8_poisson_distribution(poisson_file='/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/poisson.npy'):
    """
    Задание 8: Распределение Пуассона

    Дана выборка из распределения Пуассона в файле poisson.npy.
    
    Вычислите:
    1. Оценку параметра λ (округлите до 2 знаков после запятой)
    2. Вероятность того, что случайная величина примет значение 3 (округлите до 3 знаков после запятой)
    3. Вероятность того, что случайная величина примет значение больше 5 (округлите до 3 знаков после запятой)

    Returns:
        dict: {
            'lambda_hat': λ̂,
            'p_x_equals_3': P(X=3),
            'p_x_greater_5': P(X>5)
        }
    """
    # Загрузка данных
    poisson_sample = np.load(poisson_file)
    
    # Ваше решение

    # 1. Оценка параметра λ — это просто среднее значение выборки
    lambda_hat = round(np.mean(poisson_sample),2)

    # 2. Вероятность P(X = 3) при λ̂
    p_x_equals_3 = round(stats.poisson.pmf(3,lambda_hat),3)

    # 3. Вероятность P(X > 5) = 1 - P(X ≤ 5)
    p_x_greater_5 = round(1 - stats.poisson.cdf(5,lambda_hat),3)
    
    return {
        'lambda_hat': lambda_hat,
        'p_x_equals_3': p_x_equals_3,
        'p_x_greater_5': p_x_greater_5
    } # Верните словарь с результатами

In [42]:
task8_poisson_distribution()

{'lambda_hat': 4.97, 'p_x_equals_3': 0.142, 'p_x_greater_5': 0.379}

## Задание 9: Экспоненциальное распределение
Дана выборка из экспоненциального распределения:

exp_sample = [8.5, 12.3, 15.7, ...]  


Вычислите:

Оценку параметра λ (округлите до 3 знаков после запятой)
Вероятность того, что случайная величина примет значение больше 15 (округлите до 3 знаков после запятой)

Ответ: [λ̂, P(X>15)]

In [43]:
def task9_exponential_distribution(exponential_file='/Users/mikhail/Data Science Projects/Цифровая кафедра/ML/Module 3.2. Библиотеки для машинного обучения/exponential.npy'):
    """
    Задание 9: Экспоненциальное распределение

    Дана выборка из экспоненциального распределения в файле exponential.npy.
    
    Вычислите:
    1. Оценку параметра λ (округлите до 3 знаков после запятой)
    2. Вероятность того, что случайная величина примет значение больше 15 (округлите до 3 знаков после запятой)

    Returns:
        dict: {
            'lambda_hat': λ̂,
            'p_x_greater_15': P(X>15)
        }
    """
    # Загрузка данных
    exp_sample = np.load(exponential_file)
    
    # Ваше решение

    # 1. Оценка параметра λ (лямбда) — это 1 / среднее
    lambda_hat = round(1/np.mean(exp_sample),3)

    # 2. Вероятность P(X > 15) = 1 - CDF(15)
    # В scipy экспоненциальное распределение параметризуется scale = 1/λ
    scale = 1/lambda_hat
    p_x_greater_15 = round(1 - stats.expon.cdf(15,scale = scale),3)
    
    return {
        'lambda_hat': lambda_hat,
        'p_x_greater_15': p_x_greater_15
    } # Верните словарь с результатами 

In [45]:
task9_exponential_distribution()

{'lambda_hat': 0.103, 'p_x_greater_15': 0.213}