In [40]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.metrics import accuracy_score, classification_report

In [2]:
# Загружаем датасет
url = "https://vincentarelbundock.github.io/Rdatasets/csv/Ecdat/OFP.csv"
data = pd.read_csv(url)

In [None]:
# На основе проведенных наблюдений о взаимосвязи между переменными сформулируйте задачу классификации или регрессии,
# которая может иметь практическую ценность.
# Задача классификации: Определение наличия медицинской страховки (privins) на основе пола (Sex) и возраста (age).
# Описание задачи: Это поможет выявить, какие группы населения, основываясь на демографических характеристиках, имеют более высокие или низкие шансы на наличие медицинской страховки.
# Например, можно выделить пол, возраст и другие факторы, влияющие на возможность иметь медицинскую страховку, и на этой основе разрабатывать программы поддержки.

In [29]:
# Теперь разделим данные на обучающую (60%) и тестовую (40%) выборки. Затем разделим тестовую выборку пополам (по 20% каждая).

In [30]:
# Определим фичи и целевую переменную
X = data[['sex', 'age']]
y = data['privins']

In [31]:
# Преобразуем категориальные переменные в числовые
X = pd.get_dummies(X, drop_first=True)

In [32]:
# Разделяем данные на обучающую (60%) и тестовую (40%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

In [33]:
# Теперь делим тестовую выборку пополам (по 20% каждая)
X_val, X_pred, y_val, y_pred = train_test_split(X_test, y_test, test_size=0.5, random_state=42)

In [34]:
# Теперь обучим три разные модели: логистическую регрессию, случайный лес и метод опорных векторов.

In [35]:
# Логистическая регрессия
model_log = LogisticRegression()
model_log.fit(X_train, y_train)
y_val_pred_log = model_log.predict(X_val)

In [36]:
# Случайный лес
model_rf = RandomForestClassifier()
model_rf.fit(X_train, y_train)
y_val_pred_rf = model_rf.predict(X_val)

In [37]:
# Метод опорных векторов
model_svc = SVC()
model_svc.fit(X_train, y_train)
y_val_pred_svc = model_svc.predict(X_val)

In [38]:
# Теперь оценим качество каждой из моделей на валидирующей выборке.

In [41]:
# Оценка качества
print("Логистическая регрессия:")
print(classification_report(y_val, y_val_pred_log))

Логистическая регрессия:
              precision    recall  f1-score   support

          no       0.00      0.00      0.00       196
         yes       0.78      1.00      0.87       685

    accuracy                           0.78       881
   macro avg       0.39      0.50      0.44       881
weighted avg       0.60      0.78      0.68       881



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [42]:
print("Случайный лес:")
print(classification_report(y_val, y_val_pred_rf))

Случайный лес:
              precision    recall  f1-score   support

          no       0.27      0.02      0.03       196
         yes       0.78      0.99      0.87       685

    accuracy                           0.77       881
   macro avg       0.53      0.50      0.45       881
weighted avg       0.67      0.77      0.68       881



In [43]:
print("Метод опорных векторов:")
print(classification_report(y_val, y_val_pred_svc))

Метод опорных векторов:
              precision    recall  f1-score   support

          no       0.00      0.00      0.00       196
         yes       0.78      1.00      0.87       685

    accuracy                           0.78       881
   macro avg       0.39      0.50      0.44       881
weighted avg       0.60      0.78      0.68       881



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [44]:
# Исходя из полученных результатов, выберем модель с наилучшей оценкой и применим её на второй половине тестовой выборки.

In [45]:
# Прогнозирование на второй половине тестовой выборки
y_pred_log_final = model_log.predict(X_pred)

In [46]:
# Результаты предсказания
predictions_df = pd.DataFrame({'Predicted': y_pred_log_final})
print(predictions_df)

    Predicted
0         yes
1         yes
2         yes
3         yes
4         yes
..        ...
877       yes
878       yes
879       yes
880       yes
881       yes

[882 rows x 1 columns]


In [None]:
# Рекомендации
# На основе предсказаний можно сделать выводы и рекомендации для потенциальных пользователей.
# Целевая аудитория: Определить группы населения, такие как возрастные категории и пол, которые имеют высокий или низкий шанс наличия медицинской страховки.
# Программы поддержки: Разработать целевые программы, направленные на поддержку тех групп, которые, как показывает анализ, имеют наименьшие шансы иметь медицинскую страховку.
# Таким образом, данный анализ станет основой для дальнейших решений и рекомендаций в области здравоохранения.