## Проверка гипотез

*Подключаем нужные библиотеки*

In [5]:
import numpy as np
import pandas as pd
import scipy.stats as sts

In [6]:
df = pd.read_csv("data/auto_new_.csv")
df.head(5)

Unnamed: 0,model auto,year of production,mileage,exterior colour,tax,transmission,wheel drive,number of owners,engine volume,engine power,...,acceleration,MPG,country of the car brand,class,top speed,environmental class,price,fuel utilization efficiency,engine optimality,intensity of use
0,Mercedes-Benz,2019,98500.0,чёрный,55050.0,автоматическая,полный,1 владелец,3.0,367.0,...,6.2,9.4,Германия,F,246.0,Euro 6,9299000.0,3.133333,6826.2,16416.666667
1,Mercedes-Benz,2018,51400.0,чёрный,4760.0,автоматическая,задний,2 владельца,2.1,136.0,...,12.8,5.8,Германия,M,181.0,Euro 5,12800000.0,2.761905,3655.68,7342.857143
2,Mercedes-Benz,2020,23500.0,чёрный,18675.0,автоматическая,полный,1 владелец,2.9,249.0,...,7.4,9.8,Германия,J,199.0,Euro 6,17499000.0,3.37931,5343.54,4700.0
3,BMW,2021,50300.0,чёрный,51000.0,автоматическая,полный,2 владельца,3.0,340.0,...,5.5,8.6,Германия,E,250.0,Euro 6,9990000.0,2.866667,5610.0,12575.0
4,BMW,2022,6152.0,серый,51000.0,автоматическая,полный,1 владелец,3.0,340.0,...,4.6,5.1,Германия,E,250.0,Euro 6,9900000.0,1.7,4692.0,2050.666667


*Гипотеза: Мощность двигателя автомобилей с объемом двигателя более 2.0 литров в среднем больше мощности двигателя автомобилей с объемом двигателя менее 2.0 литров на 20% и более*

In [7]:
engine_power_l = df[df["engine volume"] <= 2.0]["engine power"]
engine_power_m = df[df["engine volume"] > 2.0]["engine power"]

n_l = engine_power_l.shape[0]
n_m = engine_power_m.shape[0]

l_mean = engine_power_l.mean()
m_mean = engine_power_m.mean()
l_var = engine_power_l.var(ddof = 1)
m_var = engine_power_m.var(ddof = 1)

z_obs = (l_mean - 0.8 * m_mean) / np.sqrt(l_var / n_l + 0.64 * m_var / n_m)
z_crit = sts.norm.ppf(0.99)
print(z_obs, z_crit)

# Видим, что наблюдаемое значение меньше критического
z_obs < z_crit

-19.124971542799923 2.3263478740408408


True

*Гипотеза о том, что автомобили, у которых объём двигателя больше 2.0 литров имеют мощность больше на 20%, чем у автомобилей с объёмом двигателя меньше 2.0 литров, не отвергается на данном уровне значимости*

*Гипотеза: В среднем цена на автомобили, произведённые в Германии, выше, чем цена на автомобили, произведённые в США*

In [8]:
price_auto_G = df[df["country of the car brand"] == "Германия "]["price"]
price_auto_U = df[df["country of the car brand"] == "США "]["price"]

n_G = price_auto_G.shape[0]
n_U = price_auto_U.shape[0]

G_mean = price_auto_G.mean()
U_mean = price_auto_U.mean()
G_var = price_auto_G.var(ddof = 1)
U_var = price_auto_U.var(ddof = 1)

z_obs = (G_mean - U_mean) / np.sqrt(G_var / n_G + U_var / n_U)
z_crit = sts.norm.ppf(0.95)
print(z_obs, z_crit)

# Видим, что наблюдаемое значение по модулю превышает критическое
z_obs > z_crit

14.518944569885198 1.6448536269514722


True

*Гипотеза о том, что германские автомобили стоят больше, чем автомобили, произведённые в США, принимается на данном уровне значимости*

*Гипотеза: Автомобили с автоматической коробкой передач имеют в среднем более высокий расход топлива, чем автомобили с механической коробкой передач*

In [9]:
price_auto_a = df[df["transmission"] == "автоматическая"]["MPG"]
price_auto_m = df[df["transmission"] == "механическая"]["MPG"]

n_a = price_auto_a.shape[0]
n_m = price_auto_m.shape[0]

a_mean = price_auto_a.mean()
m_mean = price_auto_m.mean()
a_var = price_auto_a.var(ddof = 1)
m_var = price_auto_m.var(ddof = 1)

z_obs = (a_mean - m_mean) / np.sqrt(a_var / n_a + m_var / n_m)
z_crit = sts.norm.ppf(0.95)
print(z_obs, z_crit)

# Видим, что наблюдаемое значение по модулю превышает критическое
z_obs > z_crit

10.132872827905564 1.6448536269514722


True

*Гипотеза о том, что автомобили с автоматической коробкой передач имеют в среднем более высокий расход топлива, чем автомобили с механической коробкой передач, принимается на данном уровне значимости*

*Гипотеза: Автомобили с экологическим классом "Евро-6" имеют в среднем более высокую стоимость, чем автомобили с экологическим классом "Евро-5"*

In [10]:
price_auto_e6 = df[df["environmental class"] == "Euro 6 "]["price"]
price_auto_e5 = df[df["environmental class"] == "Euro 5 "]["price"]

n_e6 = price_auto_e6.shape[0]
n_e5 = price_auto_e5.shape[0]

e6_mean = price_auto_e6.mean()
e5_mean = price_auto_e5.mean()
e6_var = price_auto_e6.var(ddof = 1)
e5_var = price_auto_e5.var(ddof = 1)

z_obs = (G_mean - U_mean) / np.sqrt(G_var / n_G + U_var / n_U)
z_crit = sts.norm.ppf(0.95)
print(z_obs, z_crit)

# Видим, что наблюдаемое значение по модулю превышает критическое
z_obs > z_crit

14.518944569885198 1.6448536269514722


True

*Гипотеза о том, что автомобили с экологическим классом "Евро-6" имеют в среднем более высокую стоимость, чем автомобили с экологическим классом "Евро-5", принимается на данном уровне значимости*

*Гипотеза: Автомобили с пробегом менее 50 000 км стоят в среднем на 30% дороже, чем автомобили с пробегом более 100 000 км*

In [11]:
mileage_l = df[df["mileage"] <= 50000]["price"]
mileage_m = df[df["mileage"] >= 100000]["price"]

n_l = mileage_l.shape[0]
n_m = mileage_m.shape[0]

l_mean = mileage_l.mean()
m_mean = mileage_m.mean()
l_var = mileage_l.var(ddof = 1)
m_var = mileage_m.var(ddof = 1)

z_obs = (l_mean - 0.7 * m_mean) / np.sqrt(l_var / n_l + 0.49 * m_var / n_m)
z_crit = sts.norm.ppf(0.99)
print(z_obs, z_crit)

# Видим, что наблюдаемое значение по модулю превышает критическое
z_obs > z_crit

17.363043399569204 2.3263478740408408


True

*Гипотеза о том, что автомобили с пробегом менее 50 000 км в среднем на 30% дороже, чем автомобили с пробегом более 100 000 км отвергается на данном уровне значимости*