# Лабораторная работа №1: Первичное исследование данных
## Датасет: Titanic

## 1. Постановка задачи

Датасет содержит информацию о пассажирах Титаника: демографические данные, класс каюты, стоимость билета и факт выживания.

**Условный заказчик:** историко-исследовательская организация.

**Задачи интеллектуального анализа данных:**
1. Классификация (прогнозирование выживания)
2. Сегментация пассажиров по социально-демографическим признакам

## 2. Паспорт датасета

In [None]:
# Импорт библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Загрузка данных
df = pd.read_csv('../data/titanic.csv')

print("=== ПАСПОРТ ДАТАСЕТА ===")
print(f"Размер датасета: {df.shape[0]} строк, {df.shape[1]} столбцов")
print("\nТипы данных:")
print(df.dtypes)

print("\nПервые 5 строк:")
df.head()

In [None]:
# Преобразование типов данных
df['Survived'] = df['Survived'].astype('category')
df['Pclass'] = df['Pclass'].astype('category')
df['Sex'] = df['Sex'].astype('category')
df['Embarked'] = df['Embarked'].astype('category')

print("Обновлённые типы данных:")
print(df.dtypes)

## 3. Аудит качества данных

In [None]:
print("=== 3.1. ПРОПУСКИ ===")
missing = df.isnull().sum()
missing_percent = (missing / len(df)) * 100
missing_df = pd.DataFrame({
    'Пропущено': missing,
    'Процент': missing_percent.round(2)
})
print(missing_df[missing_df['Пропущено'] > 0])

In [None]:
print("\n=== 3.2. ДУБЛИКАТЫ ===")
duplicates = df.duplicated().sum()
print(f"Полных дубликатов: {duplicates}")

In [None]:
print("\n=== 3.3. СТАТИСТИКИ ===")
print("Числовые признаки:")
print(df.describe())

## 4. Разведочный анализ

In [None]:
# Распределение возраста
plt.figure(figsize=(10, 5))
df['Age'].hist(bins=30, edgecolor='black')
plt.title('Распределение возраста пассажиров')
plt.xlabel('Возраст')
plt.ylabel('Количество')
plt.grid(True, alpha=0.3)
plt.savefig('../report/age_distribution.png', dpi=100, bbox_inches='tight')
plt.show()

In [None]:
# Распределение по полу
plt.figure(figsize=(8, 5))
df['Sex'].value_counts().plot(kind='bar', color=['lightblue', 'lightcoral'])
plt.title('Распределение пассажиров по полу')
plt.xlabel('Пол')
plt.ylabel('Количество')
plt.grid(True, alpha=0.3)
plt.savefig('../report/sex_distribution.png', dpi=100, bbox_inches='tight')
plt.show()

In [None]:
# Возраст vs Стоимость билета
plt.figure(figsize=(10, 6))
plt.scatter(df['Age'], df['Fare'], alpha=0.5, c=df['Survived'].cat.codes, cmap='coolwarm')
plt.title('Зависимость: Возраст vs Стоимость билета')
plt.xlabel('Возраст')
plt.ylabel('Стоимость билета')
plt.colorbar(label='Выжил (1=Да, 0=Нет)')
plt.grid(True, alpha=0.3)
plt.savefig('../report/age_vs_fare.png', dpi=100, bbox_inches='tight')
plt.show()

## 5. Выводы

1. **Основные проблемы качества:** пропуски в Age (19.9%) и Cabin (77.1%)
2. **Распределение данных:** большинство пассажиров — мужчины 3-го класса
3. **Зависимости:** стоимость билета коррелирует с выживаемостью
4. **Рекомендации:** заполнить пропуски в Age, обработать выбросы в Fare