# **Giới thiệu**

Như chúng ta đều biết, các cụ và cả nhiều bạn trẻ rất tin vào hợp tuổi. Tuy nhiên từ trước tới nay chưa có một bài báo khoa học nào đưa ra được bằng chứng để khẳng định hay phủ nhận điều này. Hôm nay, nhân dịp dịch Covid-19 không cho ra khỏi nhà, tôi xin được mạn phép đăng một bài phân tích thực nghiệm đầu tiên để trả lời câu hỏi: Hợp tuổi liệu có dẫn đến hôn nhân bền vững?

Trong bài phân tích này, câu hỏi trên sẽ được chia ra làm 2 phần:
1. So với tương quan của kết hôn, phân phối theo mức độ hợp của ly hôn có khác biệt không?
2. Trong các cặp ly hôn, tuổi hợp hay xung có ảnh hưởng gì đến tổng thời gian kết hôn không?

Nếu như niềm tin vào hợp tuổi của những người mê tín là đúng, thì câu trả lời cho 1 phải là có vì ta kỳ vọng là những người hợp tuổi phải ít ly dị. Tức là ví dụ nếu 30% dân số lấy nhau là hợp tuổi, thì chỉ có 10% (hoặc một số khác nhỏ hơn 30%) dân số ly hôn là hợp tuổi chẳng hạn. Chứ nếu 30% dân số kết hôn là hợp tuổi mà cũng 30% ly hôn cũng hợp tuổi nốt thì... tuổi liệu có ý nghĩa gì không??

Tương tự thế, câu trả lời cho 2 phải là không những tuổi hợp hay xung có ảnh hưởng đến tổng thời gian kết hôn, mà là càng hợp thì thời gian kết hôn phải càng dài.

# **Dữ liệu**

Dữ liệu của bài phân tích này lấy từ [the National Bureau of Economic Research](http://data.nber.org/data/marrdivo.html) của Mỹ. Trang này chứa thống kê đăng ký kết hôn và ly hôn của nước này từ năm 1968 đến năm 1995. Tuy nhiên, vì không muốn phải decode nhiều file nên tôi chỉ lấy dữ liệu từ năm 1989 đến năm 1995. 

Tôi lấy dữ liệu của Mỹ là vì cơ sở dữ liệu đó có tồn tại, không như dữ liệu của Việt Nam.

Với dữ liệu ly hôn, sau khi lấy ra được tháng và năm sinh của vợ chồng tháng và năm kết hôn và ly hôn, sau khi xóa những điểm dữ liệu không có tháng và năm sinh, bộ dữ liệu còn lại 767,050 điểm; sau khi xóa cả những điểm dữ liệu không có tháng và năm kết hôn hoặc ly hôn, bộ dữ liệu còn 639,259 điểm.

Với dữ liệu kết hôn, sau khi xóa những điểm dữ liệu không có tháng và năm sinh, bộ dữ liệu còn 1,123,302 điểm.

Bởi chỉ có tháng và năm sinh nên tôi tự thêm ngày sinh cho tất cả mọi người là ngày 15 hàng tháng. Việc thêm ngày sinh này không gây ảnh hưởng tới quy đổi năm sinh từ Dương lịch qua Âm lịch với tất cả những người sinh từ tháng 3 tới tháng 12, tuy nhiên sẽ ảnh hưởng đến những người sinh tháng 1 và tháng 2. Nếu xóa tất cả những trường hợp này thì sẽ mất khoảng 30% số điểm dữ liệu - quá nhiều! Vậy nên tôi giữ cả lại, nếu ai khác muốn chạy phân tích này mà bỏ qua tất cả những người sinh tháng 1 hoặc tháng 2 thì có thể tự lọc trong bộ dữ liệu.

Sau khi có năm sinh theo âm lịch, tôi tính tuổi (zodi) và mệnh (element). Thế nào là xung, thế nào là hợp thì được tính theo định nghĩa trên website [Vạn Sự](http://vansu.net/tam-hop-tu-hanh-xung.html) này.

Mức độ hợp tuổi được tính bằng Hợp tuổi + Hợp mệnh, trong đó mỗi cặp xung là -1, mỗi cặp hợp là 1. Mức độ hợp tuổi chạy từ -2: không hợp cả mệnh lẫn tuổi đến 2 hợp cả mệnh lẫn tuổi. Với giá trị 0, có thể là hai người không xung không hợp, hoặc xung mệnh nhưng hợp tuổi, hoặc hợp mệnh nhưng xung tuổi.

# **Phân tích**

## So với tương quan của kết hôn, phân phối theo mức độ hợp của ly hôn có khác biệt không?

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

divorce = pd.read_csv("../input/divorce-data/divorce_comp.csv")
marriage = pd.read_csv("../input/marriage/marriage_comp.csv", index_col = 0)

**Ly hôn**

In [None]:
sns.catplot(x="age_compatibility", data=divorce, kind = 'count')

Chủ yếu các cặp vợ chồng trong bộ dữ liệu Ly hôn không ở mức quá xung hay quá hợp. Số lượng các cặp ly hôn mà hợp tuổi nhiều hơn hẳn số lượng các cặp ly hôn mà xung tuổi. Cụ thể, chỉ khoảng 3.2% số cặp đã ly hôn là xung cả về tuổi và mệnh và 9.6% hợp cả về tuổi và mệnh.

In [None]:
divorce.groupby('age_compatibility')['w_luna'].count()/len(divorce)*100

**Kết hôn**

In [None]:
sns.catplot(x="age_compatibility", data=divorce, kind = 'count')

Phân phối theo mức độ hợp tuổi của các cặp Kết hôn có sự tương đồng rất lớn với bộ dữ liệu của các cặp Ly hôn. Cụ thể, khoảng 3.4% số cặp kết hôn là xung cả về tuổi và mệnh và 9.5% hợp cả về tuổi và mệnh. Những con số % này khá gần với số % chia theo mức độ hợp tuổi của các cặp ly hôn.

In [None]:
marriage.groupby('age_compatibility')['w_luna'].count()/len(marriage)*100

Hai bộ dữ liệu Kết hôn và Ly hôn là hai bộ dữ liệu tách biệt, không có thông tin định danh vì vậy không thể xác định là cặp kết hôn nào trong bộ dữ liệu Kết hôn về sau sẽ Ly hôn trong bộ dữ liệu Ly hôn. Hơn nữa, tuy mốc thời gian đều là từ năm 1989 đến năm 1995, nhưng đó là những cặp kết hôn trong khoảng thời gian này và ly hôn cũng trong khoảng thời gian này. Đương nhiên các cặp ly hôn trong khoảng thời gian từ năm 1989 - 1995 có thể kết hôn từ trước đó. Vậy thì, việc phân phối theo mức độ hợp tuổi thế này không phải là ngẫu nhiên mà hai bộ dữ liệu lại giống nhau nhiều đến thế.

Như đã bàn ở phần Giới thiệu, sự giống nhau gần như y đúc trong phân phối của Ly hôn và Kết hôn theo mức độ hợp tuổi đã phủ nhận giả thuyết rằng hợp tuổi thì người ta sẽ ít ly dị hơn.

## Trong các cặp ly dị, tuổi hợp hay xung có ảnh hưởng gì đến tổng thời gian kết hôn không?

In [None]:
divorce2 = pd.read_csv("../input/divorce-data/divorce_lasted_comp.csv")

Bộ dữ liệu ly dị thứ nhất không tính đến số ngày cuộc hôn nhân tồn tại trước khi ly dị. Bộ dữ liệu thứ hai đã xóa khoảng 130 nghìn điểm dữ liệu trong đó tháng hoặc năm kết hôn hay ly dị không được ghi lại để tính số ngày hôn nhân tồn tại trước khi ly dị. Với bộ dữ liệu này, ta có thể kiểm tra xem liệu mức độ hợp tuổi có ảnh hưởng gì đến thời gian kết hôn không.


Để xem thời gian kết hôn trước khi ly dị, tương tự như cách xử lý với ngày sinh, tôi mặc định tất cả các ngày kết hôn là ngày 15 hàng tháng và khoảng cách số ngày từ kết hôn đến ly hôn.

In [None]:
sns.relplot(x="age_compatibility", y="days_lasted", data=divorce2, kind="line", ci="sd")

Nhìn qua thì có thể thấy là số ngày kết hôn của các cặp xung hay hợp cũng không khác nhau nhiều cả về trung bình và độ lệch chuẩn. 

Bởi mức độ hợp tuổi tăng dần từ -2 đến 2, để kiểm tra xem liệu hợp tuổi có khiến người ta kết hôn với nhau lâu hơn trước khi ly dị không, tôi tính spearman correlation và p-value cho dữ liệu này. Spearman correlation thường được dùng để kiểm tra tương quan (cùng tăng giảm hay ngược lại) khi một trong hai biến cần kiểm tra là xếp hạng.

In [None]:
from scipy.stats.stats import spearmanr
r,p_value = spearmanr(divorce2.age_compatibility, divorce2.days_lasted)
print('% .3f'%r,'% .3f'%p_value)

Với độ tin cậy 99% (p-value < 0.01), r << 0 chứng tỏ có tương quan ngược chiều rất yếu giữa mức độ hợp tuổi và số ngày ở cùng nhau trước khi ly dị. Nói cách khác, những người tuổi càng hợp thì thời gian ở cùng nhau trước khi ly dị lại càng ngắn hơn một chút. Nói cách khác, không những kết quả này phủ nhận giả thuyết rằng hợp tuổi ở được với nhau lâu hơn, thậm chí nó còn cho thấy xung tuổi, nếu đằng nào cũng ly dị, thì lại còn ở được với nhau lâu hơn một tí.