# Câu 1

In [4]:
import pandas as pd
import numpy as np

# Giả sử có DataFrame df với hai cột A và B
# Ví dụ tạo giả:
df = pd.DataFrame({
     'A': [1, 2, 3, 4, 5],
     'B': [2, 4, 6, 8, 10]
 })

def pearson_correlation(df, col_a, col_b):
    n = len(df)
    sum_a = df[col_a].sum()
    sum_b = df[col_b].sum()
    sum_ab = (df[col_a] * df[col_b]).sum()
    sum_a2 = (df[col_a] ** 2).sum()
    sum_b2 = (df[col_b] ** 2).sum()
    
    numerator = n * sum_ab - sum_a * sum_b
    denominator = np.sqrt((n * sum_a2 - sum_a ** 2) * (n * sum_b2 - sum_b ** 2))
    
    if denominator == 0:
        return None  # Tránh chia cho 0
    return numerator / denominator

# Sử dụng:
r = pearson_correlation(df, 'A', 'B')
print("Hệ số tương quan Pearson:", r)


Hệ số tương quan Pearson: 1.0


# Câu 2 

In [5]:
import pandas as pd
import scipy.stats as stats

# Tạo DataFrame từ dữ liệu bảng
data = {
    'Day': ['Day 1', 'Day 2', 'Day 3', 'Day 4'],
    'A': [8, 7.5, 6, 7],
    'B': [9, 8.5, 7, 6],
    'C': [7, 7, 8, 5]
}
df = pd.DataFrame(data)

# Chuyển sang dạng quan hệ (long format)
df_long = df.melt(id_vars='Day', var_name='Car', value_name='Score')

# Phân loại điểm thành các nhóm (ví dụ: thấp <=6, trung bình <=8, cao >8)
def classify(score):
    if score <= 6:
        return 'Low'
    elif score <= 8:
        return 'Medium'
    else:
        return 'High'

df_long['Score_Category'] = df_long['Score'].apply(classify)

# Tạo bảng chéo: mẫu xe vs phân loại điểm
contingency_table = pd.crosstab(df_long['Car'], df_long['Score_Category'])

# Kiểm định Chi-squared
chi2, p, dof, expected = stats.chi2_contingency(contingency_table)

print("Contingency Table:")
print(contingency_table)
print(f"\nChi-squared: {chi2:.4f}, p-value: {p:.4f}")


Contingency Table:
Score_Category  High  Low  Medium
Car                              
A                  0    1       3
B                  2    1       1
C                  0    1       3

Chi-squared: 5.1429, p-value: 0.2730


# Câu 3

In [7]:
import pandas as pd
from datetime import time

# Giả sử đây là dữ liệu ban đầu
df = pd.DataFrame({
    'flight_id': [1, 2, 3],
    'departure_time': [830, 1445, 5]  # 5 = 00:05 AM
})

# Hàm chuyển đổi số nguyên thành thời gian
def convert_to_time(val):
    val = int(val)
    hour = val // 100
    minute = val % 100
    return time(hour=hour, minute=minute)

# Áp dụng hàm chuyển đổi
df['departure_time_converted'] = df['departure_time'].apply(convert_to_time)

print(df)


   flight_id  departure_time departure_time_converted
0          1             830                 08:30:00
1          2            1445                 14:45:00
2          3               5                 00:05:00


# Câu 4

In [8]:
import pandas as pd
import numpy as np

# Giả sử bạn có DataFrame với cột giá trị cần phát hiện ngoại lệ
df = pd.DataFrame({
    'value': [10, 12, 11, 10, 200, 11, 9, 10, 13, 300]
})

# Tính trung vị và MAD
median = df['value'].median()
mad = np.median(np.abs(df['value'] - median))

# Đặt ngưỡng, ví dụ x = 1.5
x = 1.5
threshold = x * mad

# Đánh dấu ngoại lệ
df['is_outlier'] = np.abs(df['value'] - median) > threshold

print(df)


   value  is_outlier
0     10       False
1     12       False
2     11       False
3     10       False
4    200        True
5     11       False
6      9        True
7     10       False
8     13        True
9    300        True


# Câu 5  

In [9]:
import pandas as pd

# Dữ liệu mẫu
data = [
    {'last_name': 'Nguyen', 'weight': 60, 'height': 170},
    {'last_name': 'Nguyen', 'weight': 60, 'height': 168},
    {'last_name': 'Tran', 'weight': 65, 'height': 175}
]
df = pd.DataFrame(data)

# Hàm kiểm tra khoảng cách Boolean kết hợp
def is_same_person(p1, p2):
    return int((p1['last_name'] == p2['last_name']) and (p1['weight'] == p2['weight']))

# So sánh từng cặp
for i in range(len(df)):
    for j in range(i + 1, len(df)):
        result = is_same_person(df.iloc[i], df.iloc[j])
        print(f"So sánh người {i} và {j}: {'Trùng' if result == 1 else 'Khác'}")


So sánh người 0 và 1: Trùng
So sánh người 0 và 2: Khác
So sánh người 1 và 2: Khác
