In [3]:
# Модель: y = β₀ + β₁·x₁ + β₂·x₂ + ... + βₙ·xₙ + ε
#
# Где:
#   y    — целевая переменная (то, что предсказываем)
#   x    — признаки (features)
#   β    — коэффициенты (веса), которые модель учит
#   ε    — ошибка
#
# Метрики качества:
#   MAE  — средняя абсолютная ошибка
#   MSE  — среднеквадратичная ошибка
#   RMSE — корень из MSE
#   R²   — коэффициент детерминации (доля объяснённой дисперсии)
#
# Ключевые концепции:
#   - Train/Test split: разделение данных на обучающую и тестовую выборки
#   - Переобучение (overfitting): модель "заучивает" данные, плохо обобщает
#   - Feature engineering: создание информативных признаков
# ===========================================================================


from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# загрузим данные о людях, пристреленных полицейскими в США
shootings = pd.read_csv('Файлы с занятий\datasets\shootings.csv', sep =',')

In [19]:
shootings['race'].unique()

array(['Asian', 'White', 'Hispanic', 'Black', 'Other', 'Native'],
      dtype=object)

In [24]:
# зададим численные значения для столбца 'race'
# shootings['race_encoded'] = pd.factorize(shootings['race'])[0]
mapping = {'White': 0, 'Black': 1}
shootings['race_encoded'] = shootings['race'].map(mapping)

In [26]:
shootings.dropna(inplace=True)
shootings.head()

Unnamed: 0,id,name,date,manner_of_death,armed,age,gender,race,city,state,signs_of_mental_illness,threat_level,flee,body_camera,arms_category,race_encoded
1,4,Lewis Lee Lembke,2015-01-02,shot,gun,47.0,M,White,Aloha,OR,False,attack,Not fleeing,False,Guns,0.0
3,8,Matthew Hoffman,2015-01-04,shot,toy weapon,32.0,M,White,San Francisco,CA,True,attack,Not fleeing,False,Other unusual objects,0.0
5,11,Kenneth Joe Brown,2015-01-04,shot,gun,18.0,M,White,Guthrie,OK,False,attack,Not fleeing,False,Guns,0.0
7,15,Brock Nichols,2015-01-06,shot,gun,35.0,M,White,Assaria,KS,False,attack,Not fleeing,False,Guns,0.0
8,16,Autumn Steele,2015-01-06,shot,unarmed,34.0,F,White,Burlington,IA,False,other,Not fleeing,True,Unarmed,0.0


In [31]:
# посмотрим, есть ли взаимосвязь между расой и ментальным заболеванием
print("=" * 60)

X = shootings[['race_encoded']].values
y = shootings['signs_of_mental_illness'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(f"\nКоэффициент (β₁): {model.coef_[0]:.4f}")
print(f"Свободный член (β₀): {model.intercept_:.4f}")
print(f"\nМетрики на тестовой выборке:")
print(f"  MAE:  {mean_absolute_error(y_test, y_pred):.4f}")
print(f"  RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):.4f}")
print(f"  R²:   {r2_score(y_test, y_pred):.4f}")

fig, ax = plt.subplots(figsize=(10, 6))
ax.scatter(X_test, y_test, alpha=0.5, s=15, label='Реальные данные')

x_line = np.linspace(X.min(), X.max(), 100).reshape(-1, 1)
ax.plot(x_line, model.predict(x_line), color='red', linewidth=2, label='Регрессия')
ax.set_title('Линейная регрессия: Раса → Вероятность ментального заболевания', fontsize=14)
ax.set_xlabel('Раса')
ax.set_ylabel('Вероятность ментального заболевания')
ax.legend()
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig('plot_3_1_simple_regression.png', dpi=150)
plt.close()
print("График сохранён -> plot_3_1_simple_regression.png")

print("\nИнтерпретация: чем темнее кожа человека, тем ниже вероятность, что у тебя есть признаки ментального заболевания. При потемнении кожи на 1% вероятность снижается на {:.2f}%. Но помните, что это всего лишь корреляция, а не причинно-следственная связь!".format(model.coef_[0]))


Коэффициент (β₁): -0.1446
Свободный член (β₀): 0.2921

Метрики на тестовой выборке:
  MAE:  0.3449
  RMSE: 0.4075
  R²:   0.0274
График сохранён -> plot_3_1_simple_regression.png

Интерпретация: чем темнее кожа человека, тем ниже вероятность, что у тебя есть признаки ментального заболевания. При потемнении кожи на 1% вероятность снижается на -0.14%. Но помните, что это всего лишь корреляция, а не причинно-следственная связь!
