### ბიბლიოთეკების იმპორტი

In [None]:
import pandas as pd

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, mean_squared_error, r2_score
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier

### მონაცემების მომზადება

In [None]:
df = pd.read_csv('Airline_customer_satisfaction.csv')

In [None]:
# მონაცემთა ფორმა
df.shape

In [None]:
# პირველი 5 მწკრივი
df.head()

In [None]:
# გამოტოვებული მონაცემები მონაცემები
df.isnull().sum()

In [None]:
# შევავსოთ გამოტოვებული მნიშვნლეობები მედიანით
df['Arrival Delay in Minutes'] = df['Arrival Delay in Minutes'].fillna(df['Arrival Delay in Minutes'].median())

In [None]:
# დუბლირებული მონაცემები
df.duplicated().sum()

In [None]:
# მონაცემთა ტიპები
df.dtypes

In [None]:
# მონაცემთა აღწერა
df.describe()

In [None]:
# დავაკონვერტიროთ satisfaction სვეტი ბინალურ ველად
df['satisfaction'] = df['satisfaction'].map({'dissatisfied': 0, 'satisfied': 1})

# კატეგორიული ველების one-hot კოდირება
categorical_columns = ['Customer Type', 'Type of Travel', 'Class']
df = pd.get_dummies(df, columns=categorical_columns)

In [None]:
# სვეტები რომლებიც საჭიროებს ნორმალიზებას
columns = ['Age', 'Flight Distance', 'Departure Delay in Minutes', 'Arrival Delay in Minutes']

# გამოვიყენოთ StandartScaler
scaler = StandardScaler()
df[columns] = scaler.fit_transform(df[columns])

### ერთ ცვლადიანი რეგრესიის მოდელი (Simple linear Regression).

In [None]:

# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df[['Age']]
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

In [None]:
# გავწვრთნათ წრფივი რეგრესიის მოდელი
model = LinearRegression()
model.fit(X_train, y_train)

# დავაპროგნოზიროთ სატესტო მონაცემებზე
y_pred = model.predict(X_test)

# შევაფასოთ მოდელი პერფომანსი
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

mse, r2

### მრავალ ცვლადიანი რეგრესიის მოდელი (Multiple linear Regression)

In [None]:
# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df.drop('satisfaction', axis=1)
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

In [None]:
# გავჭვრთნათ წრფივი რეგრესიის მოდელი
model = LinearRegression()
model.fit(X_train, y_train)

# დავაპროგნოზიროთ სატესტო მონაცემებზე
y_pred = model.predict(X_test)

# შევაფასოთ მოდელი პერფომანსი
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

mse, r2

### გადაწყვეტილების ხის რეგრესიის მოდელი რამდენიმე ცვლადზე დამოკიდებულებით

In [None]:
# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df.drop('satisfaction', axis=1)
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

In [None]:
# გავწვრთნათ გადაწყვეტიკების ხის რეგრესიის მოდელი
model = DecisionTreeRegressor()
model.fit(X_train, y_train)

# დავაპროგნოზიროთ სატესტო მონაცემებზე
y_pred = model.predict(X_test)

# შევაფასოთ მოდელი პერფომანსი
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

mse, r2

### ლოგისტიკური რეგრესია

In [None]:
# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df.drop('satisfaction', axis=1)
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

In [None]:
# მოდელის გაწრთვნა
model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)

# სატესტო სეტზე მოდელის პროგნოზირება
y_pred = model.predict(X_test)

In [None]:
# მეტრიკების გამოთვლა
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"სიზუსტე: {accuracy:.2f}")
print(f"სიცხადე: {precision:.2f}")
print(f"მგრძნობელობა: {recall:.2f}")
print(f"F1 ქულა: {f1:.2f}")

###  გადაწყვეტილების ხის კლასიფიკაციის მოდელი რამდენიმე ცვლადზე

In [None]:
# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df.drop('satisfaction', axis=1)
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

In [None]:
# მოდელის გაწრთვნა
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)

# სატესტო სეტზე მოდელის პროგნოზირება
y_pred = model.predict(X_test)

In [None]:
# მეტრიკების გამოთვლა
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"სიზუსტე: {accuracy:.2f}")
print(f"სიცხადე: {precision:.2f}")
print(f"მგრძნობელობა: {recall:.2f}")
print(f"F1 ქულა: {f1:.2f}")

In [9]:
# მონაცემთა აღწერა
df.describe()

Unnamed: 0,Age,Flight Distance,Seat comfort,Departure/Arrival time convenient,Food and drink,Gate location,Inflight wifi service,Inflight entertainment,Online support,Ease of Online booking,On-board service,Leg room service,Baggage handling,Checkin service,Cleanliness,Online boarding,Departure Delay in Minutes,Arrival Delay in Minutes
count,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0
mean,39.427957,1981.409055,2.838597,2.990645,2.851994,2.990422,3.24913,3.383477,3.519703,3.472105,3.465075,3.485902,3.695673,3.340807,3.705759,3.352587,14.713713,15.045465
std,15.11936,1027.115606,1.392983,1.527224,1.443729,1.30597,1.318818,1.346059,1.306511,1.30556,1.270836,1.292226,1.156483,1.260582,1.151774,1.298715,38.071126,38.416353
min,7.0,50.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,27.0,1359.0,2.0,2.0,2.0,2.0,2.0,2.0,3.0,2.0,3.0,2.0,3.0,3.0,3.0,2.0,0.0,0.0
50%,40.0,1925.0,3.0,3.0,3.0,3.0,3.0,4.0,4.0,4.0,4.0,4.0,4.0,3.0,4.0,4.0,0.0,0.0
75%,51.0,2544.0,4.0,4.0,4.0,4.0,4.0,4.0,5.0,5.0,4.0,5.0,5.0,4.0,5.0,4.0,12.0,13.0
max,85.0,6951.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,1592.0,1584.0


In [10]:
# დავაკონვერტიროთ satisfaction სვეტი ბინალურ ველად
df['satisfaction'] = df['satisfaction'].map({'dissatisfied': 0, 'satisfied': 1})

# კატეგორიული ველების one-hot კოდირება
categorical_columns = ['Customer Type', 'Type of Travel', 'Class']
df = pd.get_dummies(df, columns=categorical_columns)

In [11]:
# სვეტები რომლებიც საჭიროებს ნორმალიზებას
columns = ['Age', 'Flight Distance', 'Departure Delay in Minutes', 'Arrival Delay in Minutes']

# გამოვიყენოთ StandartScaler
scaler = StandardScaler()
df[columns] = scaler.fit_transform(df[columns])

### ერთ ცვლადიანი რეგრესიის მოდელი (Simple linear Regression).

In [12]:

# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df[['Age']]
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

((103904, 1), (25976, 1), (103904,), (25976,))

In [13]:
# გავწვრთნათ წრფივი რეგრესიის მოდელი
model = LinearRegression()
model.fit(X_train, y_train)

# დავაპროგნოზიროთ სატესტო მონაცემებზე
y_pred = model.predict(X_test)

# შევაფასოთ მოდელი პერფომანსი
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

mse, r2

(0.24405416515889022, 0.013703528769026918)

### მრავალ ცვლადიანი რეგრესიის მოდელი (Multiple linear Regression)

In [14]:
# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df.drop('satisfaction', axis=1)
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

((103904, 25), (25976, 25), (103904,), (25976,))

In [15]:
# გავჭვრთნათ წრფივი რეგრესიის მოდელი
model = LinearRegression()
model.fit(X_train, y_train)

# დავაპროგნოზიროთ სატესტო მონაცემებზე
y_pred = model.predict(X_test)

# შევაფასოთ მოდელი პერფომანსი
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

mse, r2

(0.1323828825587708, 0.46500085407641445)

### გადაწყვეტილების ხის რეგრესიის მოდელი რამდენიმე ცვლადზე დამოკიდებულებით

In [16]:
# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df.drop('satisfaction', axis=1)
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

((103904, 25), (25976, 25), (103904,), (25976,))

In [17]:
# გავწვრთნათ გადაწყვეტიკების ხის რეგრესიის მოდელი
model = DecisionTreeRegressor()
model.fit(X_train, y_train)

# დავაპროგნოზიროთ სატესტო მონაცემებზე
y_pred = model.predict(X_test)

# შევაფასოთ მოდელი პერფომანსი
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

mse, r2

(0.06298121342777949, 0.7454739257688063)

### ლოგისტიკური რეგრესია

In [18]:
# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df.drop('satisfaction', axis=1)
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

((103904, 25), (25976, 25), (103904,), (25976,))

In [19]:
# მოდელის გაწრთვნა
model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)

# სატესტო სეტზე მოდელის პროგნოზირება
y_pred = model.predict(X_test)

In [20]:
# მეტრიკების გამოთვლა
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"სიზუსტე: {accuracy:.2f}")
print(f"სიცხადე: {precision:.2f}")
print(f"მგრძნობელობა: {recall:.2f}")
print(f"F1 ქულა: {f1:.2f}")

სიზუსტე: 0.83
სიცხადე: 0.84
მგრძნობელობა: 0.84
F1 ქულა: 0.84


###  გადაწყვეტილების ხის კლასიფიკაციის მოდელი რამდენიმე ცვლადზე

In [21]:
# განვსაზღვროთ დამოკიდებული და დამოუკიდებელი ცვლადები
X = df.drop('satisfaction', axis=1)
y = df['satisfaction']

# გავყოთ მონაცემები სატესტო და სატრენინგო ნაწილებად
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# სატესტო და სატრენინგო მონაცემების ზომა
(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

((103904, 25), (25976, 25), (103904,), (25976,))

In [22]:
# მოდელის გაწრთვნა
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)

# სატესტო სეტზე მოდელის პროგნოზირება
y_pred = model.predict(X_test)

In [23]:
# მეტრიკების გამოთვლა
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"სიზუსტე: {accuracy:.2f}")
print(f"სიცხადე: {precision:.2f}")
print(f"მგრძნობელობა: {recall:.2f}")
print(f"F1 ქულა: {f1:.2f}")

სიზუსტე: 0.94
სიცხადე: 0.94
მგრძნობელობა: 0.95
F1 ქულა: 0.94
