In [35]:
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

In [36]:
print("Head")
print(df.head(7))

Head
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   
5                                   Moran, Mr. James    male   NaN      0   
6                            McCarthy, Mr. Timothy J    male  54.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500 

In [37]:
print("\nTech")
df.info()


Tech
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [39]:
print("\nDescribe")
df.describe()


Describe


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [40]:
print("\nNan Details")
for column in df.columns:
    nan_count = df[column].isna().sum()
    if nan_count > 0:
        print(f"{column}: {nan_count} NaN values ({nan_count/len(df)*100:.1f}%)")
# NaN Values present in: Age, Cabin, Embarked


Nan Details
Age: 177 NaN values (19.9%)
Cabin: 687 NaN values (77.1%)
Embarked: 2 NaN values (0.2%)


In [41]:
average_age = df['Age'].mean()
print(f"\nAvg Age: {average_age:.2f} years")
# Average age 29.7 years


Avg Age: 29.70 years


In [42]:
max_fare = df['Fare'].max()
print(f"\nMax Fare: {max_fare:.2f}")
# Max Fare 512.33


Max Fare: 512.33


In [43]:
group_medians = df.groupby(['Sex', 'Pclass'])['Age'].median()
print("Median grouped by age:")
print(group_medians)

df['Age'] = df.groupby(['Sex', 'Pclass'])['Age'].transform(
    lambda x: x.fillna(x.median())
)

Median grouped by age:
Sex     Pclass
female  1         35.0
        2         28.0
        3         21.5
male    1         40.0
        2         30.0
        3         25.0
Name: Age, dtype: float64


In [44]:
def get_age_group(age):
    if age < 18:
        return "Child"
    elif 18 <= age <= 65:
        return "Grown-up"
    else:
        return "Elderly"

df['AgeGroup'] = df['Age'].apply(get_age_group)

print("Head:")
print(df[['Age', 'AgeGroup']].head())

Head:
    Age  AgeGroup
0  22.0  Grown-up
1  38.0  Grown-up
2  26.0  Grown-up
3  35.0  Grown-up
4  35.0  Grown-up


In [45]:
survival_by_sex = df.groupby('Sex')['Survived'].mean() * 100
print("Survivors by sex:")
print(survival_by_sex.round(2))
print("\n" + "="*50 + "\n")

Survivors by sex:
Sex
female    74.20
male      18.89
Name: Survived, dtype: float64




In [46]:
survival_by_class = df.groupby('Pclass')['Survived'].mean() * 100
print("Survivors by class:")
print(survival_by_class.round(2))
print("\n" + "="*50 + "\n")

Survivors by class:
Pclass
1    62.96
2    47.28
3    24.24
Name: Survived, dtype: float64




In [47]:
pivot_survival = df.groupby(['Sex', 'Pclass'])['Survived'].mean() * 100
print("Survivors by sex and class:")
print(pivot_survival.round(2))
print("\n" + "="*50 + "\n")

Survivors by sex and class:
Sex     Pclass
female  1         96.81
        2         92.11
        3         50.00
male    1         36.89
        2         15.74
        3         13.54
Name: Survived, dtype: float64




In [48]:
minors_3rd_class_survived = df[
    (df['Age'] < 18) &
    (df['Pclass'] == 3) &
    (df['Survived'] == 1)
]

minors_sorted = minors_3rd_class_survived.sort_values('Age', ascending=False)

print("Minors survived in 3rd class (sorted):")
print(minors_sorted[['Name', 'Age', 'Sex']].to_string(index=False))
print(f"\nTotal found: {len(minors_sorted)} passengers")

Minors survived in 3rd class (sorted):
                                           Name   Age    Sex
                Andersson, Miss. Erna Alexandra 17.00 female
                      Carr, Miss. Helen "Ellen" 16.00 female
                 Sunderland, Mr. Victor Francis 16.00   male
               Gilnagh, Miss. Katherine "Katie" 16.00 female
                    McGowan, Miss. Anna "Annie" 15.00 female
               Najib, Miss. Adele Kiamie "Jane" 15.00 female
        Yasbeck, Mrs. Antoni (Selini Alexander) 15.00 female
                    Nicola-Yarred, Miss. Jamila 14.00 female
                           Ayoub, Miss. Banoura 13.00 female
                   Nicola-Yarred, Master. Elias 12.00   male
          Coutts, Master. Eden Leslie "Neville"  9.00   male
Goldsmith, Master. Frank John William "Frankie"  9.00   male
                            Moor, Master. Meier  6.00   male
                 Asplund, Miss. Lillian Gertrud  5.00 female
                 Baclini, Miss. Marie Catherin

In [49]:
dead_men = df[
    (df['Sex'] == 'male') &
    (df['Survived'] == 0)
]

oldest_dead_man = dead_men[dead_men['Age'] == dead_men['Age'].max()]

print("\nOldeast dead man:")
print(oldest_dead_man[['Name', 'Age', 'Pclass', 'Survived']].to_string(index=False))


Oldeast dead man:
               Name  Age  Pclass  Survived
Svensson, Mr. Johan 74.0       3         0


In [50]:
df['FamilySize'] = df['SibSp'] + df['Parch'] + 1

df['IsAlone'] = (df['FamilySize'] == 1).astype(int)

print("Head:")
print(df[['SibSp', 'Parch', 'FamilySize', 'IsAlone']].head(10))
print("\n" + "="*50 + "\n")

survival_by_alone = df.groupby('IsAlone')['Survived'].agg(['mean', 'count'])
survival_by_alone['mean'] = survival_by_alone['mean'] * 100
survival_by_alone.columns = ['SurvivalRate', 'PassengerCount']

print("Surival rate of solo and family passengers:")
print(survival_by_alone.round(2))
print("\n" + "="*50 + "\n")

Head:
   SibSp  Parch  FamilySize  IsAlone
0      1      0           2        0
1      1      0           2        0
2      0      0           1        1
3      1      0           2        0
4      0      0           1        1
5      0      0           1        1
6      0      0           1        1
7      3      1           5        0
8      0      2           3        0
9      1      0           2        0


Surival rate of solo and family passengers:
         SurvivalRate  PassengerCount
IsAlone                              
0               50.56             354
1               30.35             537




Женьщины имели выживаемость в 74.2 процента
Мужчины имели выживаемость в 18.9 процента
Разница: **55.3 процента**

1 класс имел выживание в 63 процента
3 класс имел выживание в 24.2 процента
Разница: **38.8 процента**

**Вывод:**
Пол оказывал большее влияние на выживаемость, чем класс каюты. Разница в выживаемости между полами составляет 55.3%, в то время как разница между классами — 38.8%.



Женщины: 74.2% выживших

Мужчины: 18.9% выживших

Разница: **+55.3% в пользу женщин**


Дети (до 18 лет): 53.4% выживших

Взрослые (18-65 лет): 38.4% выживших

Разница: **+15.0% в пользу детей**

**Вывод:** Да, правило женьщины и дети вперед подтверждается.




## **Блок 1**

In [30]:
# Series - это одномерный массив с метками (индексом).

age_series = df['Age']
print(type(age_series))
print(age_series.head())

<class 'pandas.core.series.Series'>
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64


In [31]:
# DataFrame - это двумерная таблица, состоящая из нескольких Series (столбцов):

print(df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

In [32]:
# .info() - техническая информация:
# Показывает: количество строк, названия столбцов, типы данных, количество non-null значений
# Для пропусков: видно, где количество non-null меньше общего числа строк

df.info()

# .describe() - статистическая сводка:
# Показывает: count, mean, std, min, 25%, 50%, 75%, max для числовых столбцов
# Для пропусков: в столбце 'count' видно количество заполненных значений

df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
 12  AgeGroup     891 non-null    object 
dtypes: float64(2), int64(5), object(6)
memory usage: 90.6+ KB


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.112424,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,13.304424,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,21.5,0.0,0.0,7.9104
50%,446.0,0.0,3.0,26.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,36.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [None]:
#Выбор нескольких столбцов:

selected_columns = df[['Name', 'Age', 'Survived']]
print(selected_columns.head())

In [None]:
# Логическое условие (булев массив):
condition = df['Pclass'] == 3
# Возвращает Series с True/False для каждой строки

# Операция выбора строк:
filtered_df = df[condition]  # или df[df['Pclass'] == 3]

## **Блок 2**

**Преимущество медианы:**

Недостаток среднего арифметического значения то что оно не устойчиво к выбросам, а медиана к ним устойчива

**Алгоритм логики функции get_age_group():**

Проверка на детский возраст, проверка на взрослый возраст, все остальное пожилые люди

Создание категорий более устойчиво к шуму, упрощает сложные закономерности и облегчает нахождение паттернов

**Прицнип SAC:**

SPLIT (Разделение): Данные разбиваются на группы по указанному признаку
APPLY (Применение): К каждой группе применяется нужная операция
COMBINE (Объединение): Результаты из всех групп объединяются в одну структуру


**Контесктное заполнение имеет преимущества тк:**

Учет демографии: Мужчины 1 класса были старше (40 лет), чем женщины 3 класса (21.5 лет)

Социальный контекст: Богатые пассажиры (1 класс) были старше бедных (3 класс)

Уменьшение bias: Не искажает распределение внутри групп

**Зачем добавлять 1 к SibSp и Parch:**

Если бы мы не добавили 1 мы анализировали бы только количество родственников, но не учитывали бы самого пассажира. Это исказило бы анализ

## **Блок 3**

In [34]:
child_girl_3rd = df[(df['Sex'] == 'female') & (df['Pclass'] == 3) & (df['Age'] < 18)]
man_1st = df[(df['Sex'] == 'male') & (df['Pclass'] == 1) & (df['Age'] >= 40)]

print("5-летняя девочка из 3 класса:")
print(f"Количество: {len(child_girl_3rd)}")
print(f"Выживаемость: {child_girl_3rd['Survived'].mean()*100:.1f}%")

print("\n40-летний мужчина из 1 класса:")
print(f"Количество: {len(man_1st)}")
print(f"Выживаемость: {man_1st['Survived'].mean()*100:.1f}%")

# Вывод: 5-летняя девочка из 3-го класса имела больше шансов выжить

5-летняя девочка из 3 класса:
Количество: 35
Выживаемость: 54.3%

40-летний мужчина из 1 класса:
Количество: 74
Выживаемость: 27.0%
Вывод: 5-летняя девочка из 3-го класса имела больше шансов выжить


Нельзя сделать однозначный вывод только на основе связи класса и выживаемости.

**Скрытые факторы:**

Расположение кают: Каюты 1-го класса находились ближе к шлюпкам

Приоритет эвакуации: Экипаж сначала направлялся к каютам высшего класса

**Корреляция:** Статистическая связь между полом и выживаемостью (женщины выживали чаще)

**НЕ Причинно-следственная связь:** Пол сам по себе не вызывал выживание

**Реальная причинно-следственная цепь:**

Пол → Социальные нормы → Приоритет при эвакуации → Выживаемость
