Студент: Вичев Александр

Проект по созданию линейной модели для зарплаты работников:

1. Импорт данных

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

2. Получение данных

In [None]:
salary = pd.read_csv('Salary_Data.csv')
salary = salary.dropna()

Просматриваем первые строки и информацию о данных:

In [None]:
print(salary.head())
print(salary.info())
print(salary.describe())

3. Исследовательский анализ данных

Шаг 4: Опыт работы (Years of Experience) и зарплаты (Salary)

На графике ниже представлено отношение опыта работы и заработка. И мы видим чёткую зависимость от опыта работника и уровня его дохода.

In [None]:
sns.jointplot(x='Years of Experience', y='Salary', data=salary)
plt.show()

Шаг 5: Сравнение возраста (Age) и зарплаты (Salary)

На графике ниже представлено отношение возраста и заработка. И мы видим что возраст работника практически не влияет на уровень его заработка.

In [None]:
sns.jointplot(x='Age', y='Salary', data=salary)
plt.show()

Шаг 6: Сравнение опыта работа (Years of Experience) и опыта (Experience) в 2D

In [None]:
sns.jointplot(x='Years of Experience', y='Salary', kind='hex', data=salary)
plt.show()

Шаг 7: Исследование взаимосвязей

In [None]:
sns.pairplot(salary)
plt.show()

На основе графиков можно определить, какая характеристика наиболее коррелирует с Salary.

Шаг 8: Линейная регрессия для Experience и Salary

In [None]:
sns.lmplot(x='Years of Experience', y='Salary', data=salary)
plt.show()

4. Обучающие и тестовые данные

Шаг 9: Разделение набора данных

In [None]:
from sklearn.model_selection import train_test_split

X = salary[['Age', 'Years of Experience']]
y = salary['Salary']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

5. Обучение модели

Шаг 10-12: Обучение модели LinearRegression

In [None]:
from sklearn.linear_model import LinearRegression

X_train.dropna()
lm = LinearRegression()
lm.fit(X_train, y_train)

Шаг 13: Коэффициенты модели

In [None]:
print(lm.coef_)

6. Прогнозирование данных теста

Шаг 14: Прогнозирование тестовых значений

In [None]:
predictions = lm.predict(X_test)

Шаг 15: Создание диаграммы рассеяния реальных и предсказанных значений


In [None]:
plt.scatter(y_test, predictions)
plt.xlabel('Y Test')
plt.ylabel('Predictions')
plt.show()

7. Оценка модели

In [None]:
from sklearn import metrics

MAE = metrics.mean_absolute_error(y_test, predictions)
MSE = metrics.mean_squared_error(y_test, predictions)
RMSE = np.sqrt(MSE)

print('MAE:', MAE)
print('MSE:', MSE)
print('RMSE:', RMSE)

8. Остатки
Шаг 17: Распределение остатков

In [None]:
sns.histplot((y_test - predictions), bins=50, kde=True)
plt.show()

9. Заключение
Шаг 18-20: Интерпретация коэффициентов и выводы

In [None]:
coefficients = pd.DataFrame(lm.coef_, X.columns, columns=['Coefficient'])
print(coefficients)

Интерпретация:
Experience скорее всего будет иметь значительный положительный коэффициент, что указывает на зависимость зарплаты от опыта.
Age может иметь меньший эффект, если опыт будет играть более важную роль.

Вывод:
Компания может сосредоточиться на увеличении зарплат для сотрудников с большим опытом, хотя возраст также может играть роль.