# 가설 검정 : 지역별 중고 차량 가격 검정 

In [66]:
df['Location'].value_counts()

Mumbai        804
Hyderabad     738
Kochi         669
Coimbatore    659
Pune          611
Delhi         566
Kolkata       542
Chennai       490
Jaipur        414
Bangalore     359
Ahmedabad     230
Name: Location, dtype: int64

In [67]:
groups = [df[df['Location'] == location]['Price'] for location in df['Location'].unique()]

# ANOVA 검정을 수행합니다.
anova_result = stats.f_oneway(*groups)

In [68]:
print("ANOVA 검정 결과:")
print("검정 통계량 (F-value):", anova_result.statistic)
print("p-value:", anova_result.pvalue)


ANOVA 검정 결과:
검정 통계량 (F-value): 38.34486468655015
p-value: 8.196424841467488e-74


In [69]:
if anova_result.pvalue < 0.05:
    print("p-value가 0.05보다 작으므로, 지역별 차량 가격이 유의미하게 다릅니다.")
else:
    print("p-value가 0.05 이상이므로, 지역별 차량 가격이 유의미하게 다르지 않습니다.")

p-value가 0.05보다 작으므로, 지역별 차량 가격이 유의미하게 다릅니다.


In [70]:
print("정규성 검정 결과:")
for i, group in enumerate(groups):
    stat, p_value = stats.shapiro(group)
    print(f"지역 '{df['Location'].unique()[i]}'의 p-value: {p_value:.4f}")

# 등분산성 검정 (Levene Test 사용)
print("\n등분산성 검정 결과:")
stat, p_value = stats.levene(*groups)
print(f"p-value: {p_value:.4f}")

정규성 검정 결과:
지역 'Chennai'의 p-value: 0.0000
지역 'Mumbai'의 p-value: 0.0000
지역 'Delhi'의 p-value: 0.0000
지역 'Kolkata'의 p-value: 0.0000
지역 'Hyderabad'의 p-value: 0.0000
지역 'Kochi'의 p-value: 0.0000
지역 'Ahmedabad'의 p-value: 0.0000
지역 'Bangalore'의 p-value: 0.0000
지역 'Coimbatore'의 p-value: 0.0000
지역 'Pune'의 p-value: 0.0000
지역 'Jaipur'의 p-value: 0.0000

등분산성 검정 결과:
p-value: 0.0000


# 가설 검정 : 제조사별로 중고차 가격 검정

In [71]:
# Group the 'Price' values by 'Brand' into a list of arrays
brand_groups = [df[df['Brand'] == brand]['Price'] for brand in df['Brand'].unique()]

# Check if any group has less than three data points and exclude it
brand_groups = [group for group in brand_groups if len(group) >= 3]

if len(brand_groups) < 2:
    print("Error: Not enough groups with at least three data points to perform ANOVA.")
else:
    # One-way ANOVA
    f_result = stats.f_oneway(*brand_groups)
    f, p = f_result.statistic.round(3), f_result.pvalue.round(3)

    print("One-way ANOVA")
    print("F 통계량:", f)
    print("p-value:", p)

    # Normality test (Shapiro-Wilk test) for each group
    print("\n정규성 검정 결과:")
    for i, group in enumerate(brand_groups):
        stat, p_value = stats.shapiro(group)
        print(f"브랜드 '{df['Brand'].unique()[i]}'의 p-value: {p_value:.4f}")

    # Homogeneity of variance test (Levene Test)
    print("\n등분산성 검정 결과:")
    stat, p_value = stats.levene(*brand_groups)
    print(f"p-value: {p_value:.4f}")

One-way ANOVA
F 통계량: 323.303
p-value: 0.0

정규성 검정 결과:
브랜드 'Ambassador'의 p-value: 0.0000
브랜드 'Audi'의 p-value: 0.0000
브랜드 'BMW'의 p-value: 0.0000
브랜드 'Bentley'의 p-value: 0.0062
브랜드 'Chevrolet'의 p-value: 0.0050
브랜드 'Datsun'의 p-value: -0.0000
브랜드 'Fiat'의 p-value: 0.0000
브랜드 'Force'의 p-value: 0.0000
브랜드 'Ford'의 p-value: 0.0000
브랜드 'Honda'의 p-value: 0.6210
브랜드 'Hyundai'의 p-value: 0.0001
브랜드 'ISUZU'의 p-value: 0.0122
브랜드 'Jaguar'의 p-value: 0.0000
브랜드 'Jeep'의 p-value: 0.0001
브랜드 'Lamborghini'의 p-value: 0.0000
브랜드 'Land'의 p-value: 0.0000
브랜드 'Mahindra'의 p-value: 0.0347
브랜드 'Maruti'의 p-value: 0.0005
브랜드 'Mercedes-Benz'의 p-value: 0.0000
브랜드 'Mini'의 p-value: 0.2277
브랜드 'Mitsubishi'의 p-value: 0.0000
브랜드 'Nissan'의 p-value: 0.0000
브랜드 'Porsche'의 p-value: 0.0000
브랜드 'Renault'의 p-value: 0.0000
브랜드 'Skoda'의 p-value: 0.0000
브랜드 'Tata'의 p-value: 0.9061

등분산성 검정 결과:
p-value: 0.0000


## 가설 검정 owner_type에 따라 중고차량 가격이 같다.

In [72]:
df["Owner_Type"] = df["Owner_Type"].replace({"first": 1, "second": 2, "third": 3})

In [73]:
groups = [df[df['Owner_Type'] == owner]['Price'] for owner in df['Owner_Type'].unique()]

# ANOVA 검정을 수행합니다.
anova_result = stats.f_oneway(*groups)

# ANOVA 결과를 출력합니다.
print("ANOVA 검정 결과:")
print("검정 통계량 (F-value):", anova_result.statistic)
print("p-value:", anova_result.pvalue)

# p-value를 통해 결과를 해석합니다.
if anova_result.pvalue < 0.05:
    print("p-value가 0.05보다 작으므로, 중고차량의 횟수에 따라 가격이 유의미하게 다릅니다.")
else:
    print("p-value가 0.05 이상이므로, 중고차량의 횟수에 따라 가격이 유의미하게 다르지 않습니다.")


ANOVA 검정 결과:
검정 통계량 (F-value): 18.457253899565238
p-value: 6.455370608241317e-12
p-value가 0.05보다 작으므로, 중고차량의 횟수에 따라 가격이 유의미하게 다릅니다.


In [74]:
print("정규성 검정 결과:")
for i, group in enumerate(groups):
    stat, p_value = stats.shapiro(group)
    print(f"중고횟수 '{df['Owner_Type'].unique()[i]}'의 p-value: {p_value:.4f}")

# 등분산성 검정 (Levene Test 사용)
print("\n등분산성 검정 결과:")
stat, p_value = stats.levene(*groups)
print(f"p-value: {p_value:.4f}")

정규성 검정 결과:
중고횟수 'Third'의 p-value: 0.0000
중고횟수 'First'의 p-value: 0.0000
중고횟수 'Second'의 p-value: 0.0000
중고횟수 'Fourth & Above'의 p-value: 0.5480

등분산성 검정 결과:
p-value: 0.0005


