## Columns

age: age of primary beneficiary

sex: insurance contractor gender, female, male

bmi: Body mass index, providing an understanding of body, weights that are relatively high or low relative to height,
objective index of body weight (kg / m ^ 2) using the ratio of height to weight, ideally 18.5 to 24.9

children: Number of children covered by health insurance / Number of dependents

smoker: Smoking

region: the beneficiary's residential area in the US, northeast, southeast, southwest, northwest.

charges: Individual medical costs billed by health insurance

## DATA:
https://www.kaggle.com/datasets/mirichoi0218/insurance

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

In [4]:
data = pd.read_csv("insurance.csv")
data

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


In [10]:
# 1 (L12 – 2 ქულა)
# ვქმნი simple linear regression მოდელს რათა ვივარაუდო სადაზღვეო ხარჯების დამოკიდებულება ერთ დამოუკიდებელ ცვლადზე, ამ შემტხვევაში 'bmi'
X = data[['bmi']]
y = data['charges']

# მონახემი დაიყო სატესტოდ და სატრენინგოდ
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Simple Linear Regression - BMI to Charges")
print(f"MSE: {mse}")
print(f"R-squared: {r2}")

"""
შედეგიდან გამომდინარე
MSE: 149085057.03839505
R-squared: 0.03970193117941878 
ჩანს რომ წრფივი კავშირი BMI-სა და სადაზღვეო ხარჯებს შორის სუსტია, რასაც დაბალი R-squared მიუთითებს
"""

Simple Linear Regression - BMI to Charges
MSE: 149085057.03839505
R-squared: 0.03970193117941878


In [13]:
# 2 (L12 – 2 ქულა)
# ვქმნი multiple linear regression მოდელს რათა ვივარაუდო სადაზღვეო ხარჯების დამოკიდებულება რამდენიმე დამოუკიდებელ ცვლადზე
X = data[['age', 'bmi', 'children', 'smoker', 'region']]
y = data['charges']

X = pd.get_dummies(X, drop_first=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

# Calculating evaluation metrics
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Displaying the results
print("Multiple Linear Regression - Multiple Variables to Charges")
print(f"MSE: {mse}")
print(f"R-squared: {r2}")

"""
შედეგებიდან გამომდინარე
MSE: 33602504.508081295
R-squared: 0.7835569786290855
ჩანს, რომ ეს მოდელი უკეთეს შედეგს აჩვენებს, ბევრად მაღალია R-squared-ის მაჩვენებელი.
"""

Multiple Linear Regression - Multiple Variables to Charges
MSE: 33602504.508081295
R-squared: 0.7835569786290855


'\nშედეგებიდან გამომდინარე\n'

In [18]:
# 3 (L13 – 3 ქულა)
# # ვქმნი გადაწყვეტილების ხის მოდელს რათა ვივარაუდო სადაზღვეო ხარჯების დამოკიდებულება რამდენიმე დამოუკიდებელ ცვლადზე
from sklearn.tree import DecisionTreeRegressor

#ვიყენებ იგივე ცვლადებს, რასაც 2-ში

model = DecisionTreeRegressor(random_state=42)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Decision Tree Regression - Multiple Variables to Charges")
print(f"MSE: {mse}")
print(f"R-squared: {r2}")

"""
შედეგებიდან გამომდინარე
MSE: 39876049.53214782
R-squared: 0.7431473407287659
მსგავსი შედეგი, რაც task2-ში
"""

Decision Tree Regression - Multiple Variables to Charges
MSE: 39876049.53214782
R-squared: 0.7431473407287659


'\nშედეგებიდან გამომდინარე\nMSE: 39876049.53214782\nR-squared: 0.7431473407287659\nმსგავსი შედეგი, რაც task2-ში\n'

In [20]:
# 4 (L14 – 3 ქულა)
# ვქმნი ლოჯისტიკურ რეგრესიის მოდელს, რათა დავადგინო არის თუ არა მაღალი დაზღვევოის ხარჯები, მრავალ დამოუკიდებელ ცვლადზე დაყრფნობით
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

median_charge = data['charges'].median()
data['high_charge'] = (data['charges'] > median_charge).astype(int)

X = data[['age', 'bmi', 'children', 'smoker', 'region']]
y = data['high_charge']

X = pd.get_dummies(X, drop_first=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression(max_iter=10000)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print("Logistic Regression - High Charge Classification")
print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

"""
შედეგების შედეგად
Accuracy: 0.9067164179104478
Precision: 0.875968992248062
Recall: 0.9262295081967213
F1 Score: 0.900398406374502

ეს მეტრიკა მიუთითებს იმაზე, რომ ლოჯისტიკური რეგრესიის მოდელი კარგად მუშაობს
"""




Logistic Regression - High Charge Classification
Accuracy: 0.9067164179104478
Precision: 0.875968992248062
Recall: 0.9262295081967213
F1 Score: 0.900398406374502


'\nშედეგების შედეგად\nAccuracy: 0.9067164179104478\nPrecision: 0.875968992248062\nRecall: 0.9262295081967213\nF1 Score: 0.900398406374502\n\nეს მეტრიკა მიუთითებს იმაზე, რომ ლოჯისტიკური რეგრესიის მოდელი კარგად მუშაობს\n'

In [22]:
# 5 (L13 – 4 ქულა)
# ვიყენებ გადაწყვეტილების ხის კლასიფიკაციის მოდელს, რათა დავადგინო არის თუ არა მაღალი დაზღვევოის ხარჯები, მრავალ დამოუკიდებელ ცვლადზე დაყრფნობით
from sklearn.tree import DecisionTreeClassifier

# ვიყენებ იგივე ცვლადებს, რასაც 4-ში

model = DecisionTreeClassifier(random_state=42)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print("Decision Tree Classification - High Charge Classification")
print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

"""
შედეგებზე დაყრდნობით
Accuracy: 0.8656716417910447
Precision: 0.8307692307692308
Recall: 0.8852459016393442
F1 Score: 0.8571428571428571
ეს მეტრიკა მიუთითებს იმაზე, რომ გადაწყვეტილების ხის კლასიფიკაციის მოდელი კარგად მუშაობს

"""

Decision Tree Classification - High Charge Classification
Accuracy: 0.8656716417910447
Precision: 0.8307692307692308
Recall: 0.8852459016393442
F1 Score: 0.8571428571428571


'\nშედეგებზე დაყრდნობით\n'