# Лабораторная работа 1: Введение в Data Science

**Дисциплина:** Основы Data Science  
**Продолжительность:** 90 минут  
**Цель:** Познакомиться с основами Data Science и библиотекой Pandas

## Цели:
- Понимать жизненный цикл проекта Data Science
- Работать с основными структурами данных в Pandas
- Выполнять базовые операции с данными
- Формулировать простые гипотезы на основе данных
- Создавать простые визуализации

## Необходимые библиотеки

In [None]:
# Импорт необходимых библиотек
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Настройка отображения
pd.set_option('display.max_columns', None)
plt.style.use('default')

print("Библиотеки успешно импортированы!")

## Задание 1: Загрузка и первичный анализ данных

В этом задании мы будем работать с классическим датасетом "Титаник", который содержит информацию о пассажирах знаменитого корабля.

### 1.1 Загрузите датасет

In [None]:
# Загрузка датасета Titanic
df = pd.read_csv('titanic.csv')

print("Датасет успешно загружен!")
print(f"Размер датасета: {df.shape}")

### 1.2 Изучите структуру данных

In [None]:
# Посмотрите на первые 5 строк
print("Первые 5 строк датасета:")
df.head()

In [None]:
# Посмотрите на последние 5 строк
print("Последние 5 строк датасета:")
df.tail()

In [None]:
# Получите общую информацию о датасете
print("Общая информация о датасете:")
df.info()

In [None]:
# Получите описательную статистику
print("Описательная статистика:")
df.describe()

### Вопросы:
1. Сколько строк и столбцов в датасете?
2. Какие типы данных представлены?
3. Есть ли пропущенные значения?
4. Что означает каждый столбец?

**Ваши ответы:**
1. 891 строка и 12 столбцов 
2. float64(2), int64(5), object(5)
3. да, age cabin, embarked
4. PassengerId - уникальный идентификатор пассажира
Survived - выжил (1) или не выжил (0) - целевая переменная
Pclass - класс билета (1-й, 2-й, 3-й класс)
Name - имя пассажира
Sex - пол (male/female)
Age - возраст
SibSp - количество братьев/сестер/супругов на борту
Parch - количество родителей/детей на борту
Ticket - номер билета
Fare - стоимость билета
Cabin - номер каюты
Embarked - порт посадки

## Задание 2: Работа с данными и фильтрация

### 2.1 Выбор столбцов

In [None]:
# Выберите один столбец (например, 'Age')
ages = df['Age']
print("Первые 10 значений возраста:")
print(ages.head(10))
print(f"Тип данных: {type(ages)}")

In [None]:
# Выберите несколько столбцов
basic_info = df[['Name', 'Sex', 'Age', 'Survived']]
print("Базовая информация о пассажирах:")
basic_info.head()

### 2.2 Фильтрация данных

In [None]:
# Отфильтруйте данные по одному условию (например, только женщины)
women = df[df['Sex'] == 'female']
print(f"Количество женщин на борту: {len(women)}")
women.head()

In [None]:
# Отфильтруйте данные по нескольким условиям (например, выжившие женщины)
survived_women = df[(df['Sex'] == 'female') & (df['Survived'] == 1)]
print(f"Количество выживших женщин: {len(survived_women)}")
survived_women.head()

In [None]:
# Попробуйте создать свои фильтры
# Например, пассажиры первого класса старше 30 лет
first_class_adults = df[(df['Pclass'] == 1) & (df['Age'] > 30)]
print(f"Пассажиры первого класса старше 30 лет: {len(first_class_adults)}")
first_class_adults[['Name', 'Age', 'Pclass', 'Survived']].head()

## Задание 3: Формулирование гипотез и анализ

### 3.1 Базовая статистика

In [None]:
# Посчитайте средний возраст пассажиров
average_age = df['Age'].mean()
print(f"Средний возраст пассажиров: {average_age:.2f} лет")

# Посчитайте медианный возраст
median_age = df['Age'].median()
print(f"Медианный возраст пассажиров: {median_age:.2f} лет")

In [None]:
# Посчитайте количество мужчин и женщин
gender_counts = df['Sex'].value_counts()
print("Распределение по полу:")
print(gender_counts)

# В процентах
gender_percentages = df['Sex'].value_counts(normalize=True) * 100
print("\nРаспределение по полу (в процентах):")
print(gender_percentages.round(2))

In [None]:
# Посчитайте общий процент выживших
survival_rate = df['Survived'].mean() * 100
print(f"Общий процент выживших: {survival_rate:.2f}%")

# Процент выживших по полу
survival_by_gender = df.groupby('Sex')['Survived'].mean() * 100
print("\nПроцент выживших по полу:")
print(survival_by_gender.round(2))

### 3.2 Формулирование гипотез

На основе полученных данных сформулируйте и проверьте простые гипотезы:

**Гипотеза 1:** Женщины имели больше шансов на выживание, чем мужчины.

**Ваша проверка:**

In [None]:
# Проверьте гипотезу 1
women_survival = df[df['Sex'] == 'female']['Survived'].mean() * 100
men_survival = df[df['Sex'] == 'male']['Survived'].mean() * 100

print(f"Процент выживших женщин: {women_survival:.2f}%")
print(f"Процент выживших мужчин: {men_survival:.2f}%")
print(f"Разница: {women_survival - men_survival:.2f} процентных пунктов")

if women_survival > men_survival:
    print("\nГипотеза ПОДТВЕРЖДАЕТСЯ: женщины действительно имели больше шансов на выживание.")
else:
    print("\nГипотеза НЕ ПОДТВЕРЖДАЕТСЯ.")

**Гипотеза 2:** Пассажиры первого класса имели больше шансов на выживание.

**Ваша проверка:**

In [None]:
# Проверьте гипотезу 2
survival_by_class = df.groupby('Pclass')['Survived'].mean() * 100
print("Процент выживших по классам:")
for pclass, survival in survival_by_class.items():
    print(f"Класс {pclass}: {survival:.2f}%")

print(f"\nРазница между 1-м и 3-м классом: {survival_by_class[1] - survival_by_class[3]:.2f} процентных пунктов")

## Задание 4: Простая визуализация

### 4.1 Гистограмма возраста

In [None]:
# Постройте гистограмму распределения возраста
plt.figure(figsize=(10, 6))
plt.hist(df['Age'].dropna(), bins=20, color='skyblue', alpha=0.7, edgecolor='black')
plt.title('Распределение возраста пассажиров Титаника', fontsize=16)
plt.xlabel('Возраст', fontsize=12)
plt.ylabel('Количество пассажиров', fontsize=12)
plt.grid(True, alpha=0.3)
plt.show()

print(f"Самый молодой пассажир: {df['Age'].min()} лет")
print(f"Самый старший пассажир: {df['Age'].max()} лет")

### 4.2 Столбчатая диаграмма выживаемости по полу

In [None]:
# Постройте столбчатую диаграмму выживаемости по полу
survival_by_gender = df.groupby('Sex')['Survived'].mean() * 100

plt.figure(figsize=(8, 6))
bars = plt.bar(survival_by_gender.index, survival_by_gender.values, 
               color=['pink', 'lightblue'], alpha=0.7, edgecolor='black')
plt.title('Процент выживших по полу', fontsize=16)
plt.xlabel('Пол', fontsize=12)
plt.ylabel('Процент выживших (%)', fontsize=12)
plt.ylim(0, 100)

# Добавим значения на столбцы
for bar, value in zip(bars, survival_by_gender.values):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1, 
             f'{value:.1f}%', ha='center', va='bottom', fontsize=12)

plt.grid(True, alpha=0.3)
plt.show()

## Рефлексия и выводы

### Что было изучено:
1. **Жизненный цикл Data Science** - как подходить к анализу данных систематически
2. **Основы Pandas** - загрузка, просмотр и фильтрация данных
3. **Формулирование гипотез** - как данные помогают отвечать на вопросы
4. **Базовая визуализация** - как графики помогают понять данные

### Ключевые выводы из анализа Титаника:
1. _Запишите ваш главный вывод о выживаемости женщин и мужчин_

Женщины имели больше шансов на выживание

2. _Запишите ваш вывод о влиянии класса на выживаемость_

Пассажиры первого класса имели больше шансов на выживание

3. _Какие еще закономерности вы заметили?_

Пассажиры 2 класса имели меньше шансов на выживание, чем пассажиры первого класса. А пассажиры 3 класса имели меньше всех шансов на выживание.

### Вопросы для дальнейшего исследования:
1. Влиял ли возраст на шансы выживания?
2. Как размер семьи (количество родственников на борту) влиял на выживаемость?
3. Были ли различия в выживаемости в зависимости от порта посадки?

**Эти вопросы мы изучим в следующих лабораторных работах!**

## Extras

### Задание 5: Исследуйте связь возраста и выживаемости

In [None]:
# Создайте возрастные группы и посмотрите на выживаемость
df['AgeGroup'] = pd.cut(df['Age'], bins=[0, 18, 35, 60, 100], 
                        labels=['Дети (0-18)', 'Молодые (18-35)', 
                               'Взрослые (35-60)', 'Пожилые (60+)'])

survival_by_age = df.groupby('AgeGroup')['Survived'].mean() * 100
print("Выживаемость по возрастным группам:")
print(survival_by_age.round(2))

### Задание 6: Создайте свою визуализацию

In [None]:
# Попробуйте создать свой график
# Например, выживаемость по классам
survival_by_class = df.groupby('Pclass')['Survived'].mean() * 100

plt.figure(figsize=(8, 6))
# Ваш код здесь
plt.show()

Самостоятельно найдите практики разведочного анализа данных (EDA - Exploratory Data Analysis) в виде различных блоков кода на Python в различных Jupyter-ноутбуках на ресурсах типа Kaggle. Проанализируйте эти Jupyter-ноутбуки, созданные другими людьми, сопоставляя всек действия, которые там выполнены на Python, со всеми основными  шагами технологии работы с большими данными CRISP-DM (Cross-Industry Standard Process for Data Mining), изучите релевантные онлайн-статьи с подробным описанием диаграммы разработки CRISP-DM. Определите для себя на каких этапах CRISP-DM (в ходе создания вашего личного Jupyter-ноутбука по данным Титаника) может применяться разведочный анализ данных (EDA).

Как правило техники анализа подразумевают также и построение разнообразных диаграмм (boxplot, bar plot, etc.) по тем или иным колонкам из той таблицы, с которой вы работаете. Разберите какие колонки (по их типам данных - числовые, категориальные (бинарные, ординальные, номинативные)) имеются в вашем датасете и подберите подходящие диаграммы для прорисовки колонок из различных данных. Ключевая деталь заколючается в том, что вы самостоятельно ищете в интернете и подбираете различные типы диаграмм по различным признакам (колонкам вашей исходной таблицы данных) таким образом, чтобы по этим диаграммам можно было сделать какие-то показательные выводы. Можно использовать различные заготовки кода на Python, сделанные в чужих Jupyter-ноутбуках на ресурсах типа Kaggle для построения различных диаграмм признаков. Основные библиотеки/фреймворки, которые надо для этого изучить - это сам pandas (для базовой работы с таблицами), matplotview, plotly, seaborn (!), bokeh (!) и так далее.

Также часто можно встретить вычисление различных матриц корреляций различными способами (различные коэффициенты корреляции), проверку гипотез относительно различных колонок в таблице данных (в данном примере - данные Титаника); очистку и фильтрацию входного изначального датасета различными способами. Поищите в интернете с помо