Цель: Предсказать, выживет ли пассажир Титаника, основываясь на доступных данных.

Тип задачи: Бинарная классификация.

Модель: Логистическая регрессия.


### План работы на второй спринт (25/01/25-07/02/25)
**Модель:** Логистическая Регрессия  
**Датасет:** [Titanic](https://www.kaggle.com/datasets/yasserh/titanic-dataset)

1. **Присоединить данные**  
   Загрузить данные из источника, организовать их в DataFrame.   

2. **Изучить датасет**  
   - Определить назначение колонок.  
   - Использовать .info(), .describe(), .head() и др. для анализа структуры данных и типов признаков.  
   -Построить пару графиков. Скажем, оценить распределение данных, например возраста. Или показать зависимость между ключевыми параметрами (для вдохновения смотри appendix).

3. **Почистить данные**  
   - Оценить наличие пропущенных данных (.isnull().sum()).
   - Если нужно, обработать их:
   - Удаление строк/столбцов с большим количеством пропусков.
   - (*) Или заполнение медианой, средним, модой.  
   - (**) Заменить категориальные данные числовыми (если необходимо). Использовать стандартные средства питона или, например, используя OneHotEncoder  
   - (***) Применить StandardScaler для числовых признаков.

4. **Создать базовую модель**  
   - Выбрать входные параметры (X) и целевой параметр (y). 
   - Разделить данные на тренировочный и тестовый наборы.
   - Построить модель логистической регрессии на основе X и y.  
   


5. **Проверка модели** 

[Метрики точности - видео](https://www.youtube.com/watch?v=gceP2AZcerw&t=175s)

   - Провести тестирование на отдельных примерах из датасета.

   - Провести тестирование на тестовых данных. Получить метрики 
      - accuracy 
      - (*) confusion matrix , 
      - (*) ROC-AUC .  
   
   

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (accuracy_score, precision_score, recall_score,
                             f1_score, confusion_matrix, roc_auc_score)

# Model Logistic regression
model = LogisticRegression()
model.fit(X_train, y_train)

# Prediction
y_pred = model.predict(X_test)
y_proba = model.predict_proba(X_test)[:, 1]

# Model evaluation
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1 Score:", f1_score(y_test, y_pred))
print("ROC AUC:", roc_auc_score(y_test, y_proba))

# Confusion Matrix
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))


- Распечатать отчет оценки точности модели

In [None]:
# Model evaluation
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
print("Classification Report:\n", classification_report(y_test, y_pred))



6. **Расширить модель**  
   - (**) Построить модель с использованием дополнительных фич (например, выделить title).  

7. **Работа с репозиторием**  
   - Выложить проект на GitHub:  
     - В личный репозиторий.  
     - В репозиторий проекта (сохранить в своей папке).

8. **Отчет о работе**  
   Написать Personal Reflection (2-4 абзаца) о выполненных задачах и результатах. **Желательно на английском.**

---

### Дополнительные задания (***)
1. **Эксперименты с параметрами**  
   - Изменить входные параметры и сравнить результаты модели.  
   - Подбор гиперпараметров:
      Использовать GridSearchCV или RandomizedSearchCV для оптимизации гиперпараметров модели.

- Регуляризация:
   Экспериментировать с параметром C в логистической регрессии.

### Appendix. Идеи для дополнительных графиков

Распределение выживших — график показывает, сколько пассажиров выжило и сколько нет.

Распределение пассажиров по классам — диаграмма отображает количество пассажиров в каждом классе (1-й, 2-й, 3-й).

Корреляционная матрица — тепловая карта, показывающая, насколько числовые признаки коррелируют друг с другом.

Распределение возраста пассажиров — гистограмма с линией KDE, иллюстрирующая, как распределен возраст пассажиров.

Распределение стоимости билетов — гистограмма с KDE, показывающая, какова структура цен на билеты.

Взаимосвязь между возрастом и стоимостью билета — scatter plot, визуализирующий связь между возрастом пассажира и стоимостью билета, с цветовой кодировкой по признаку выживания.
   