<a href="https://colab.research.google.com/github/Danil1D/Machine-learning/blob/main/%D0%94%D0%B0%D1%88%D0%BA%D0%B5%D0%B2%D0%B8%D1%87_%D0%BB%D0%B0%D0%B1%E2%84%964(%D0%B7%D0%B0%D0%B2%D0%B4_2).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

df = pd.read_csv('titanic.csv')

# 2. Попередній аналіз даних
print("Перші 5 рядків:")
print(df.head())

print("\nІнформація про датасет:")
print(df.info())

print("\nПеревірка на наявність пропущених значень:")
print(df.isnull().sum())

# 3. Попередня обробка даних
df.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

df['Age'].fillna(df['Age'].median(), inplace=True)
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

print("\nПеревірка після заповнення пропущених значень:")
print(df.isnull().sum())

le = LabelEncoder()
df['Sex'] = le.fit_transform(df['Sex'])
df['Embarked'] = le.fit_transform(df['Embarked'])

# 4. Розподіл змінних на X (вхідні дані) та y (ціль)
X = df.drop('Survived', axis=1)
y = df['Survived']

# 5. Розбиття датасету на тренувальні і тестові дані
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

print("\nПеревірка на наявність NaN у тренувальних даних після масштабування:")
print(np.isnan(X_train).sum())
print("\nПеревірка на наявність NaN у тестових даних після масштабування:")
print(np.isnan(X_test).sum())

X_train = np.nan_to_num(X_train)
X_test = np.nan_to_num(X_test)

# 6. Побудова моделей

# Модель 1: Logistic Regression
lr = LogisticRegression()
lr_params = {'C': [0.1, 1, 10, 100], 'solver': ['liblinear']}
grid_lr = GridSearchCV(lr, lr_params, cv=5)
grid_lr.fit(X_train, y_train)
best_lr = grid_lr.best_estimator_

# Модель 2: Random Forest Classifier
rf = RandomForestClassifier(random_state=42)
rf_params = {'n_estimators': [50, 100, 200], 'max_depth': [None, 10, 20]}
grid_rf = GridSearchCV(rf, rf_params, cv=5)
grid_rf.fit(X_train, y_train)
best_rf = grid_rf.best_estimator_

# Модель 3: Support Vector Classifier (SVC)
svc = SVC()
svc_params = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}
grid_svc = GridSearchCV(svc, svc_params, cv=5)
grid_svc.fit(X_train, y_train)
best_svc = grid_svc.best_estimator_

# 7. Оцінка моделей на тестовому наборі даних
models = {'Logistic Regression': best_lr, 'Random Forest': best_rf, 'SVC': best_svc}

for name, model in models.items():
    y_pred = model.predict(X_test)
    print(f"\nМодель: {name}")
    print(f"Точність: {accuracy_score(y_test, y_pred)}")
    print("Матриця плутанини:")
    print(confusion_matrix(y_test, y_pred))
    print("Звіт про класифікацію:")
    print(classification_report(y_test, y_pred))

# 8. Прогноз для 10 випадків (беремо перші 10 рядків з тестової вибірки)
print("\nПрогноз для перших 10 випадків:")
for name, model in models.items():
    predictions = model.predict(X_test[:10])
    print(f"\nМодель: {name}")
    print("Прогнози:", predictions)


Перші 5 рядків:
   PassengerId  Survived  Pclass  \
0          892         0       3   
1          893         1       3   
2          894         0       2   
3          895         0       3   
4          896         1       3   

                                           Name     Sex   Age  SibSp  Parch  \
0                              Kelly, Mr. James    male  34.5      0      0   
1              Wilkes, Mrs. James (Ellen Needs)  female  47.0      1      0   
2                     Myles, Mr. Thomas Francis    male  62.0      0      0   
3                              Wirz, Mr. Albert    male  27.0      0      0   
4  Hirvonen, Mrs. Alexander (Helga E Lindqvist)  female  22.0      1      1   

    Ticket     Fare Cabin Embarked  
0   330911   7.8292   NaN        Q  
1   363272   7.0000   NaN        S  
2   240276   9.6875   NaN        Q  
3   315154   8.6625   NaN        S  
4  3101298  12.2875   NaN        S  

Інформація про датасет:
<class 'pandas.core.frame.DataFrame'>
RangeIn