# Цель анализа:

**проверка гипотезы о том, что женатые мужчины живут дольше, чем замужние женщины.**

# Загрузка и очистка данных

In [15]:
!pip install pyreadstat



In [16]:
import pandas as pd
import pyreadstat

file_path = '/content/Dannye_po_domokhozyaystvam_za_2022_god.dta'
data, meta = pyreadstat.read_dta(file_path)

print(data.head())

   idind  aaredid_i     aaid_i   aaid_h      zid_i    zid_h      yid_i  \
0    7.0    55901.0  1000301.0  10003.0  1000301.0  10003.0  1000301.0   
1    9.0    56001.0  1000401.0  10004.0  1000401.0  10004.0  1000401.0   
2   36.0    56601.0  1002401.0  10024.0  1002401.0  10024.0  1002401.0   
3   60.0    57602.0  1004702.0  10047.0  1004702.0  10047.0  1004702.0   
4   92.0    58201.0  1008401.0  10084.0  1008401.0  10084.0  1008401.0   

     yid_h      xid_i    xid_h  ...  aal53  aal54  aam96  aam97  aam98  aam99  \
0  10003.0  1000301.0  10003.0  ...    NaN    NaN    NaN    NaN    NaN    NaN   
1  10004.0  1000401.0  10004.0  ...    NaN    NaN    NaN    NaN    NaN    NaN   
2  10024.0  1002401.0  10024.0  ...    NaN    NaN    NaN    NaN    NaN    NaN   
3  10047.0  1004702.0  10047.0  ...    NaN    NaN    NaN    NaN    NaN    NaN   
4  10084.0  1008401.0  10084.0  ...    NaN    NaN    NaN    NaN    NaN    NaN   

   aam100  aam101  aam109  aam111  
0     NaN     NaN     NaN     Na

In [17]:
print(data.columns)

Index(['idind', 'aaredid_i', 'aaid_i', 'aaid_h', 'zid_i', 'zid_h', 'yid_i',
       'yid_h', 'xid_i', 'xid_h',
       ...
       'aal53', 'aal54', 'aam96', 'aam97', 'aam98', 'aam99', 'aam100',
       'aam101', 'aam109', 'aam111'],
      dtype='object', length=741)


In [20]:
data = data.rename(columns={
    'aa_age': 'age',
    'aah5': 'gender',
    'aa_marst': 'marital_status'
})

In [21]:
# Удалим строки с недействительными значениями в marital_status
data = data[~data['marital_status'].isin([99999997, 99999998, 99999999])]

**Данные были разделены на четыре группы:**

**Женатые мужчины:** мужчины с семейным положением, указанным как "женат".

**Неженатые мужчины:** мужчины, которые никогда не были женаты, разведены или вдовцы.

**Замужние женщины:** женщины с семейным положением, указанным как "замужем".

**Незамужние женщины:** женщины, которые никогда не были замужем, разведены или вдовы.

In [22]:
# Мужчины
men = data[data['gender'] == 1]
# Женщины
women = data[data['gender'] == 2]

In [23]:
# Женатые мужчины
married_men = men[men['marital_status'] == 2]
# Неженатые мужчины (никогда не были в браке, разведены, вдовцы)
unmarried_men = men[men['marital_status'].isin([1, 4, 5])]

In [24]:
# Замужние женщины
married_women = women[women['marital_status'] == 2]
# Незамужние женщины (никогда не были в браке, разведены, вдовы)
unmarried_women = women[women['marital_status'].isin([1, 4, 5])]

In [25]:
# Вычисление средней продолжительности жизни
mean_age_married_men = married_men['age'].mean()
mean_age_unmarried_men = unmarried_men['age'].mean()

mean_age_married_women = married_women['age'].mean()
mean_age_unmarried_women = unmarried_women['age'].mean()

# Вывод результатов
print(f"Средняя продолжительность жизни женатых мужчин: {mean_age_married_men}")
print(f"Средняя продолжительность жизни неженатых мужчин: {mean_age_unmarried_men}")
print(f"Средняя продолжительность жизни замужних женщин: {mean_age_married_women}")
print(f"Средняя продолжительность жизни незамужних женщин: {mean_age_unmarried_women}")

Средняя продолжительность жизни женатых мужчин: 43007.62671821306
Средняя продолжительность жизни неженатых мужчин: 33.96436208125446
Средняя продолжительность жизни замужних женщин: 50.15375051802735
Средняя продолжительность жизни незамужних женщин: 32584.175341574497


**Данные для женатых мужчин и незамужних женщин содержат выброса, приступим к их удалению**

In [26]:
# Фильтрация данных, удаление значений возраста выше 100
filtered_data = data[data['age'] <= 100]

# Мужчины
men = filtered_data[filtered_data['gender'] == 1]
# Женщины
women = filtered_data[filtered_data['gender'] == 2]

# Женатые мужчины
married_men = men[men['marital_status'] == 2]
# Неженатые мужчины (никогда не были в браке, разведены, вдовцы)
unmarried_men = men[men['marital_status'].isin([1, 4, 5])]

# Замужние женщины
married_women = women[women['marital_status'] == 2]
# Незамужние женщины (никогда не были в браке, разведены, вдовы)
unmarried_women = women[women['marital_status'].isin([1, 4, 5])]

# Вычисление средней продолжительности жизни после фильтрации
mean_age_married_men = married_men['age'].mean()
mean_age_unmarried_men = unmarried_men['age'].mean()

mean_age_married_women = married_women['age'].mean()
mean_age_unmarried_women = unmarried_women['age'].mean()

# Вывод результатов после фильтрации
print(f"Средняя продолжительность жизни женатых мужчин: {mean_age_married_men}")
print(f"Средняя продолжительность жизни неженатых мужчин: {mean_age_unmarried_men}")
print(f"Средняя продолжительность жизни замужних женщин: {mean_age_married_women}")
print(f"Средняя продолжительность жизни незамужних женщин: {mean_age_unmarried_women}")

Средняя продолжительность жизни женатых мужчин: 52.324022346368714
Средняя продолжительность жизни неженатых мужчин: 33.96436208125446
Средняя продолжительность жизни замужних женщин: 50.15375051802735
Средняя продолжительность жизни незамужних женщин: 53.289293849658314


# Присутпим к проверке гипотезы

**H: мужчины в браке живут дольше, чем женщины в браке**

In [28]:
from scipy.stats import ttest_ind

Для проверки значимости различий между группами проведем **t-тест**. Этот тест помогает определить, являются ли различия в средних значениях статистически значимыми или они могли возникнуть случайно.

In [29]:
# Проведение t-теста для проверки значимости различий
t_stat_men, p_value_men = ttest_ind(married_men['age'], unmarried_men['age'])
print(f"t-статистика для мужчин: {t_stat_men}, p-значение: {p_value_men}")

t_stat_women, p_value_women = ttest_ind(married_women['age'], unmarried_women['age'])
print(f"t-статистика для женщин: {t_stat_women}, p-значение: {p_value_women}")

t-статистика для мужчин: 33.40491234573103, p-значение: 2.909636504555738e-214
t-статистика для женщин: -5.86950184003826, p-значение: 4.627337795009375e-09


**Для мужчин:**

t-статистика: 33.40

p-значение: 2.91e-214 (очень близко к нулю, указывая на статистически значимое различие)

Это означает, что различия в средней продолжительности жизни между женатыми и неженатыми мужчинами являются статистически значимыми. Женатые мужчины живут дольше.

Для женщин:

t-статистика: -5.87

p-значение: 4.63e-09 (очень низкое значение, также указывая на статистически значимое различие)

Это означает, что различия в средней продолжительности жизни между замужними и незамужними женщинами также являются статистически значимыми, и замужние женщины живут дольше.

In [30]:
# Проверка гипотезы о том, что мужчины в браке живут дольше, чем женщины в браке
if mean_age_married_men > mean_age_married_women:
    print("Гипотеза подтверждена: Женатые мужчины живут дольше, чем замужние женщины.")
else:
    print("Гипотеза не подтверждена: Женатые мужчины живут не дольше, чем замужние женщины.")

Гипотеза подтверждена: Женатые мужчины живут дольше, чем замужние женщины.


Анализ **подтверждает гипотезу** о том, что женатые мужчины живут дольше, чем замужние женщины. Эти результаты показывают значимое влияние семейного положения на продолжительность жизни как мужчин, так и женщин. Статистически значимые различия в продолжительности жизни между женатыми и неженатыми респондентами показывают, что семейное положение может быть важным фактором, влияющим на продолжительность жизни.