# Лабораторная работа №4.
# Анализ данных пассажиров "Титаника"

Гибель Титаника – одно из самых печально известных кораблекрушений в истории.

15 апреля 1912 года во время своего первого плавания считавшийся «непотопляемым» «Титаник» затонул после столкновения с айсбергом. 
К сожалению, спасательных шлюпок для всех находившихся на борту не хватило, в результате чего погибли 1502 из 2224 пассажиров и членов экипажа. 

Используя набор данных titanic.csv выполните следующие 10 заданий.

In [6]:
import pandas as pd
import numpy as np
import os
import sys

print("ЛАБОРАТОРНАЯ РАБОТА №4 - АНАЛИЗ ДАННЫХ ТИТАНИКА")

def load_titanic_data():
    local_paths = [
        'titanic.csv',
        'data/titanic.csv',
        '../data/titanic.csv',
        'les04/data/titanic.csv',
        'C:/python/dap-2024/les04/data/titanic.csv'
    ]
    
    for path in local_paths:
        if os.path.exists(path):
            print(f"Файл найден локально: {path}")
            return pd.read_csv(path, index_col='PassengerId')
    
    try:
        from google.colab import files
        print("Режим: Google Colab")
        print("Загрузите файл titanic.csv...")
        uploaded = files.upload()
        
        if not uploaded:
            print("Файл не был загружен!")
            return None
            
        filename = list(uploaded.keys())[0]
        print(f"Файл загружен: {filename}")
        return pd.read_csv(filename, index_col='PassengerId')
    except ImportError:
        print("Режим: Локальная среда (VS Code)")
        print("Файл titanic.csv не найден!")
        return None

def get_age_text(age):
    age_int = int(age)
    if age_int % 10 == 1 and age_int % 100 != 11:
        return f"{age_int} год"
    elif 2 <= age_int % 10 <= 4 and (age_int % 100 < 10 or age_int % 100 >= 20):
        return f"{age_int} года"
    else:
        return f"{age_int} лет"

df = load_titanic_data()

if df is None:
    print("ОШИБКА: Не удалось загрузить данные!")
    print("Для Google Colab: убедитесь, что выбрали файл titanic.csv")
    print("Для VS Code: поместите файл в одну из папок:")
    print("   - titanic.csv (в той же папке что и скрипт)")
    print("   - data/titanic.csv")
    print("   - les04/data/titanic.csv")
    sys.exit(1)

print(f"Данные успешно загружены: {df.shape[0]} строк, {df.shape[1]} столбцов")
print("="*80)

print("ЗАДАНИЕ 1")
print("Создайте DataFrame из файла titanic.csv, в качестве индекса используйте столбец PassengerId")
print("DataFrame создан с индексом PassengerId")
print(f"Размер данных: {df.shape[0]} строк, {df.shape[1]} столбцов")

print("="*80)

print("ЗАДАНИЕ 2")
print("Просмотрите первые 6 строк")
print("Первые 6 строк:")
print(df.head(6))

print("="*80)

print("ЗАДАНИЕ 3")
print("Выведите описание данных")
print("Описание данных:")
print(df.info())
print("Основные статистики:")
print(df.describe())

print("="*80)

print("ЗАДАНИЕ 4")
print("Сколько мужчин / женщин находилось на борту?")
gender_count = df['Sex'].value_counts()
print("Количество мужчин и женщин:")
print(gender_count)
print(f"Мужчин: {gender_count.get('male', 0)}")
print(f"Женщин: {gender_count.get('female', 0)}")

print("="*80)

print("ЗАДАНИЕ 5")
print("Выведите распределение переменной Pclass и это же распределение, только для мужчин / женщин по отдельности. Сколько было мужчин 2-го класса")

print("Распределение по классам:")
pclass_dist = df['Pclass'].value_counts().sort_index()
print(pclass_dist)

print("Распределение по классам для мужчин:")
men_pclass = df[df['Sex'] == 'male']['Pclass'].value_counts().sort_index()
print(men_pclass)

print("Распределение по классам для женщин:")
women_pclass = df[df['Sex'] == 'female']['Pclass'].value_counts().sort_index()
print(women_pclass)

men_2nd_class = men_pclass.get(2, 0)
print(f"Мужчин 2-го класса: {men_2nd_class}")

print("="*80)

print("ЗАДАНИЕ 6")
print("Каковы медиана и среднеквадратичное отклонение платежей (Fare)? Округлите до 2 десятичных знаков.")
fare_median = round(df['Fare'].median(), 2)
fare_std = round(df['Fare'].std(), 2)
print(f"Медиана платежей (Fare): {fare_median}")
print(f"Среднеквадратичное отклонение платежей (Fare): {fare_std}")

print("="*80)

print("ЗАДАНИЕ 7")
print("Правда ли, что люди моложе 30 лет выживали чаще, чем люди старше 60 лет? Каковы доли выживших в обеих группах?")

df_age_clean = df.dropna(subset=['Age'])
young_survived = df_age_clean[df_age_clean['Age'] < 30]['Survived'].mean()
old_survived = df_age_clean[df_age_clean['Age'] > 60]['Survived'].mean()

print(f"Доля выживших среди людей младше 30 лет: {young_survived:.2%}")
print(f"Доля выживших среди людей старше 60 лет: {old_survived:.2%}")

if young_survived > old_survived:
    difference = young_survived - old_survived
    print(f"ИТОГ: Правда, молодые выживали на {difference:.2%} чаще")
else:
    difference = old_survived - young_survived
    print(f"ИТОГ: Неправда, пожилые выживали на {difference:.2%} чаще")

print("="*80)

print("ЗАДАНИЕ 8")
print("Правда ли, что женщины выживали чаще мужчин? Каковы доли выживших в обеих группах?")

women_survival = df[df['Sex'] == 'female']['Survived'].mean()
men_survival = df[df['Sex'] == 'male']['Survived'].mean()

print(f"Доля выживших женщин: {women_survival:.2%}")
print(f"Доля выживших мужчин: {men_survival:.2%}")

if women_survival > men_survival:
    difference = women_survival - men_survival
    print(f"ИТОГ: Правда, женщины выживали на {difference:.2%} чаще")
else:
    difference = men_survival - women_survival
    print(f"ИТОГ: Неправда, мужчины выживали на {difference:.2%} чаще")

print("="*80)

print("ЗАДАНИЕ 9")
print("Найдите самое популярное имя среди пассажиров Титаника мужского пола?")

men_df = df[df['Sex'] == 'male'].copy()

def extract_first_name(name):
    try:
        if 'Mr.' in name:
            parts = name.split('Mr. ')
            if len(parts) > 1:
                return parts[1].split(' ')[0].strip('()."')
        elif 'Master.' in name:
            parts = name.split('Master. ')
            if len(parts) > 1:
                return parts[1].split(' ')[0].strip('()."')
        
        name_parts = name.split(' ')
        if len(name_parts) >= 2:
            return name_parts[1].strip('()."')
        return name_parts[0]
    except:
        return name

men_df['FirstName'] = men_df['Name'].apply(extract_first_name)
name_counts = men_df['FirstName'].value_counts()
most_common_name = name_counts.index[0] if len(name_counts) > 0 else "Не найдено"
print(f"Самое популярное имя среди мужчин: {most_common_name}")
print("Топ-5 имен среди мужчин:")
print(name_counts.head())

print("="*80)

print("ЗАДАНИЕ 10")
print("Как отличается средний возраст мужчин / женщин в зависимости от класса обслуживания? Выберите верные утверждения:")

age_by_class_sex = df_age_clean.groupby(['Pclass', 'Sex'])['Age'].mean()

print("Средний возраст по классам и полу:")
for (pclass, sex), age in age_by_class_sex.items():
    age_text = get_age_text(age)
    print(f"  Класс {pclass}, {sex}: {age_text}")

men_1st_class_age = age_by_class_sex.get((1, 'male'), 0)
women_1st_class_age = age_by_class_sex.get((1, 'female'), 0)

print("Проверка утверждений:")
print(f"1. В среднем мужчины 1-го класса старше 40 лет: {men_1st_class_age > 40} ({get_age_text(men_1st_class_age)})")
print(f"2. В среднем женщины 1-го класса старше 40 лет: {women_1st_class_age > 40} ({get_age_text(women_1st_class_age)})")

age_comparison = []
print("Сравнение возраста мужчин и женщин по классам:")
for pclass in [1, 2, 3]:
    men_age = age_by_class_sex.get((pclass, 'male'), 0)
    women_age = age_by_class_sex.get((pclass, 'female'), 0)
    
    if men_age > 0 and women_age > 0:
        is_older = men_age > women_age
        age_comparison.append(is_older)
        print(f"  Класс {pclass}: мужчины ({get_age_text(men_age)}) старше женщин ({get_age_text(women_age)}) - {is_older}")

print(f"3. Мужчины всех классов в среднем старше женщин того же класса: {all(age_comparison)}")

class_age = df_age_clean.groupby('Pclass')['Age'].mean()
class_comparison = class_age[1] > class_age[2] > class_age[3]
print(f"4. В среднем люди в 1 классе старше, чем во 2-ом, а те старше представителей 3-го класса: {class_comparison}")
print(f"   (1 класс: {get_age_text(class_age[1])}, 2 класс: {get_age_text(class_age[2])}, 3 класс: {get_age_text(class_age[3])})")

print("="*80)

print("ЗАДАНИЕ 11")
print("Сравните возраст у спасенных и у погибших пассажиров. Средний возраст погибших выше, верно?")

age_survived = df_age_clean[df_age_clean['Survived'] == 1]['Age'].mean()
age_died = df_age_clean[df_age_clean['Survived'] == 0]['Age'].mean()

print(f"Средний возраст выживших: {get_age_text(age_survived)}")
print(f"Средний возраст погибших: {get_age_text(age_died)}")

age_difference = age_died - age_survived

if age_died > age_survived:
    print(f"ИТОГ: Да, верно. Погибшие были в среднем на {get_age_text(abs(age_difference))} старше")
else:
    print(f"ИТОГ: Нет, неверно. Выжившие были в среднем на {get_age_text(abs(age_difference))} старше")

print("="*80)

ЛАБОРАТОРНАЯ РАБОТА №4 - АНАЛИЗ ДАННЫХ ТИТАНИКА
Файл найден локально: data/titanic.csv
Данные успешно загружены: 891 строк, 11 столбцов
ЗАДАНИЕ 1
Создайте DataFrame из файла titanic.csv, в качестве индекса используйте столбец PassengerId
DataFrame создан с индексом PassengerId
Размер данных: 891 строк, 11 столбцов
ЗАДАНИЕ 2
Просмотрите первые 6 строк
Первые 6 строк:
             Survived  Pclass  \
PassengerId                     
1                   0       3   
2                   1       1   
3                   1       3   
4                   1       1   
5                   0       3   
6                   0       3   

                                                          Name     Sex   Age  \
PassengerId                                                                    
1                                      Braund, Mr. Owen Harris    male  22.0   
2            Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0   
3                                       Heikki

### Дополнительные вопросы для защиты

1. Что такое медиана? Рассчитать медиану для предложенного ряда чисел.

In [126]:
print("1. Медиана - значение, разделяющее упорядоченный набор данных пополам")
import numpy as np
numbers = [3, 1, 7, 2, 9]
median = np.median(numbers)
print(f"   Медиана для {numbers}: {median}")

1. Медиана - значение, разделяющее упорядоченный набор данных пополам
   Медиана для [3, 1, 7, 2, 9]: 3.0


2. Что такое дисперсия? Рассчитать дисперсию для предложенного ряда чисел.

In [127]:
print("\n2. Дисперсия - среднее арифметическое квадратов отклонений от среднего")
numbers = [2, 4, 6, 8, 10]
variance = np.var(numbers)
print(f"   Дисперсия для {numbers}: {variance}")



2. Дисперсия - среднее арифметическое квадратов отклонений от среднего
   Дисперсия для [2, 4, 6, 8, 10]: 8.0


3. Что такое среднеквадратичное отклонение? Рассчитать среднеквадратичное отклонение для предложенного ряда чисел.

In [128]:
print("\n3. Среднеквадратичное отклонение - квадратный корень из дисперсии")
std_deviation = np.std(numbers)
print(f"   Среднеквадратичное отклонение для {numbers}: {std_deviation}")


3. Среднеквадратичное отклонение - квадратный корень из дисперсии
   Среднеквадратичное отклонение для [2, 4, 6, 8, 10]: 2.8284271247461903


4. Что такое Series и чем он отличается от DataFrame

In [129]:
# 4. Что такое Series и чем он отличается от DataFrame
print("\n4. Series - одномерный массив с метками, DataFrame - двумерная таблица")
import pandas as pd
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
df = pd.DataFrame({'A': [1, 2], 'B': ['x', 'y']})
print(f"   Series: {s}")
print(f"   DataFrame:\n{df}")


4. Series - одномерный массив с метками, DataFrame - двумерная таблица
   Series: a    1
b    2
c    3
dtype: int64
   DataFrame:
   A  B
0  1  x
1  2  y


5. Можно ли изменить индекс в Series после создания объекта?

In [130]:
# 5. Можно ли изменить индекс в Series после создания объекта?
print("\n5. Да, можно изменить индекс в Series после создания")
s = pd.Series([1, 2, 3])
print(f"   До: {s}")
s.index = ['x', 'y', 'z']
print(f"   После: {s}")



5. Да, можно изменить индекс в Series после создания
   До: 0    1
1    2
2    3
dtype: int64
   После: x    1
y    2
z    3
dtype: int64


6. Можно ли выполнить операцию сложения над двумя объектами Series, если они имеют:
- одинаковые типы данных, одинаковые размеры и одинаковые индексы? 
- одинаковые типы данных, одинаковые размеры, но разные индексы?,  
- одинаковые типы данных, разные размеры и одинаковые индексы?
- разные типы данных, одинаковые размеры и одинаковые индексы? 
- разные типы данных, одинаковые размеры и разные индексы?
- разные типы данных, разные размеры и разные индексы?

In [137]:
import pandas as pd
import numpy as np

print("6. Операции сложения над двумя объектами Series:")

# 1. Одинаковые типы данных, одинаковые размеры и одинаковые индексы
print("\n1. Одинаковые типы, размеры и индексы:")
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], index=['a', 'b', 'c'])
result1 = s1 + s2
print(f"   s1: {s1.to_dict()}")
print(f"   s2: {s2.to_dict()}")
print(f"   Результат: {result1.to_dict()}")
print(f"   Можно ли сложить: ДА")

# 2. Одинаковые типы данных, одинаковые размеры, но разные индексы
print("\n2. Одинаковые типы, размеры, но разные индексы:")
s3 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s4 = pd.Series([4, 5, 6], index=['x', 'y', 'z'])
result2 = s3 + s4
print(f"   s3: {s3.to_dict()}")
print(f"   s4: {s4.to_dict()}")
print(f"   Результат: {result2.to_dict()}")
print(f"   Можно ли сложить: ДА (но результат содержит NaN)")

# 3. Одинаковые типы данных, разные размеры и одинаковые индексы
print("\n3. Одинаковые типы, разные размеры, одинаковые индексы:")
s5 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s6 = pd.Series([4, 5], index=['a', 'b'])
result3 = s5 + s6
print(f"   s5: {s5.to_dict()}")
print(f"   s6: {s6.to_dict()}")
print(f"   Результат: {result3.to_dict()}")
print(f"   Можно ли сложить: ДА (но результат содержит NaN)")

# 4. Разные типы данных, одинаковые размеры и одинаковые индексы
print("\n4. Разные типы, одинаковые размеры и индексы:")
s7 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s8 = pd.Series(['x', 'y', 'z'], index=['a', 'b', 'c'])
try:
    result4 = s7 + s8
    print(f"   Результат: {result4.to_dict()}")
    print(f"   Можно ли сложить: ДА")
except Exception as e:
    print(f"   Ошибка: {e}")
    print(f"   Можно ли сложить: НЕТ")

# 5. Разные типы данных, одинаковые размеры и разные индексы
print("\n5. Разные типы, одинаковые размеры, разные индексы:")
s9 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s10 = pd.Series(['x', 'y', 'z'], index=['x', 'y', 'z'])
try:
    result5 = s9 + s10
    print(f"   Результат: {result5.to_dict()}")
    print(f"   Можно ли сложить: ДА")
except Exception as e:
    print(f"   Ошибка: {e}")
    print(f"   Можно ли сложить: НЕТ")

# 6. Разные типы данных, разные размеры и разные индексы
print("\n6. Разные типы, разные размеры, разные индексы:")
s11 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
s12 = pd.Series(['x', 'y'], index=['x', 'y'])
try:
    result6 = s11 + s12
    print(f"   Результат: {result6.to_dict()}")
    print(f"   Можно ли сложить: ДА")
except Exception as e:
    print(f"   Ошибка: {e}")
    print(f"   Можно ли сложить: НЕТ")

6. Операции сложения над двумя объектами Series:

1. Одинаковые типы, размеры и индексы:
   s1: {'a': 1, 'b': 2, 'c': 3}
   s2: {'a': 4, 'b': 5, 'c': 6}
   Результат: {'a': 5, 'b': 7, 'c': 9}
   Можно ли сложить: ДА

2. Одинаковые типы, размеры, но разные индексы:
   s3: {'a': 1, 'b': 2, 'c': 3}
   s4: {'x': 4, 'y': 5, 'z': 6}
   Результат: {'a': nan, 'b': nan, 'c': nan, 'x': nan, 'y': nan, 'z': nan}
   Можно ли сложить: ДА (но результат содержит NaN)

3. Одинаковые типы, разные размеры, одинаковые индексы:
   s5: {'a': 1, 'b': 2, 'c': 3}
   s6: {'a': 4, 'b': 5}
   Результат: {'a': 5.0, 'b': 7.0, 'c': nan}
   Можно ли сложить: ДА (но результат содержит NaN)

4. Разные типы, одинаковые размеры и индексы:
   Ошибка: unsupported operand type(s) for +: 'int' and 'str'
   Можно ли сложить: НЕТ

5. Разные типы, одинаковые размеры, разные индексы:
   Результат: {'a': nan, 'b': nan, 'c': nan, 'x': nan, 'y': nan, 'z': nan}
   Можно ли сложить: ДА

6. Разные типы, разные размеры, разные индексы:

7. Что такое DataFrame и чем он отличается от Series

In [132]:
# 7. Что такое DataFrame и чем он отличается от Series
print("\n7. DataFrame - двумерная таблица, Series - одномерный массив")
print(f"   Тип Series: {type(s1)}")
print(f"   Тип DataFrame: {type(df)}")
print(f"   Размерность Series: {s1.ndim}")
print(f"   Размерность DataFrame: {df.ndim}")



7. DataFrame - двумерная таблица, Series - одномерный массив
   Тип Series: <class 'pandas.core.series.Series'>
   Тип DataFrame: <class 'pandas.core.frame.DataFrame'>
   Размерность Series: 1
   Размерность DataFrame: 2


8. Что необходимо сделать, чтобы число строк в DateFrame при его просмотре, по умолчанию составляло 8?

In [133]:

# 8. Чтобы число строк в DataFrame при просмотре составляло 8
print("\n8. Установить число строк для просмотра:")
print("   pd.set_option('display.max_rows', 8)")


8. Установить число строк для просмотра:
   pd.set_option('display.max_rows', 8)


9. Чем отличается метод iloc от метода loс

In [134]:
# 9. Чем отличается метод iloc от метода loc
print("\n9. iloc - по позициям, loc - по меткам")
df_example = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['x', 'y', 'z'])
print(f"   DataFrame:\n{df_example}")
print(f"   iloc[0]: {df_example.iloc[0].tolist()}")  # первая строка по позиции
print(f"   loc['x']: {df_example.loc['x'].tolist()}")  # строка с индексом 'x'


9. iloc - по позициям, loc - по меткам
   DataFrame:
   A  B
x  1  4
y  2  5
z  3  6
   iloc[0]: [1, 4]
   loc['x']: [1, 4]


10. Можно ли добавить в DateFrame дополнительный Series?

In [135]:
# 10. Можно ли добавить в DataFrame дополнительный Series?
print("\n10. Да, можно добавить Series в DataFrame")
df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
new_series = pd.Series([5, 6], name='C')
df['C'] = new_series
print(f"   DataFrame после добавления Series:\n{df}")


10. Да, можно добавить Series в DataFrame
   DataFrame после добавления Series:
   A  B  C
0  1  3  5
1  2  4  6


11. Требуются ли установка дополнительных библиотек для загрузки с помощью pandas файлов в формате CSV? Excel (.xls)? Json?

In [136]:
# 11. Дополнительные библиотеки для загрузки файлов
print("\n11. Дополнительные библиотеки для загрузки:")
print("   CSV: не требуются")
print("   Excel: требуются openpyxl или xlrd")
print("   JSON: не требуются")
print("   Установка: pip install openpyxl")


11. Дополнительные библиотеки для загрузки:
   CSV: не требуются
   Excel: требуются openpyxl или xlrd
   JSON: не требуются
   Установка: pip install openpyxl
