In [1]:
import numpy as np
import pandas as pd

import scipy.stats as sts
import matplotlib.pyplot as plt
import seaborn as sns

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [11]:
df_final = pd.read_csv('final.csv')
df_final.head()

Unnamed: 0,class,av_flat,min_ceiling_h,parking_ratio,infr_access,lift_ratio
0,Типовой,44.46,2.7,0.0,5,0.0
1,Комфорт,69.358974,2.95,1.426282,8,46.8
2,Комфорт,37.243697,2.7,1.878151,8,69.133333
3,Комфорт,40.970794,2.72,0.964953,5,72.004706
4,Комфорт,40.695195,2.72,1.040541,6,70.027941


Установим допустимый уровень значимости 10%

## Гипотеза 1
Средняя площадь квартиры положительно зависит от класса недвижимости

В качестве основной гипотезы примем равенство матожиданий средних площадей квартир в разных классах недвижимости, а в качестве альтернативной - их одностороннее неравенство.
$$H0: \mu_{a-t}=\mu_{a-c}=\mu_{a-b}=\mu_{a-e}$$
$$H1: \mu_{a-t}<\mu_{a-c}<\mu_{a-b}<\mu_{a-e}$$
$\mu_{a-t}$ - средняя площадь квартиры для типового класса недвижимости

$\mu_{a-c}$ - средняя площадь квартиры для комфорт класса недвижимости

$\mu_{a-b}$ - средняя площадь квартиры для бизнес класса недвижимости

$\mu_{a-e}$ - средняя площадь квартиры для элитного класса недвижимости

In [4]:
from scipy.stats import f_oneway

In [5]:
av_flat_t = df_final[df_final['class'] == 'Типовой']['av_flat'].tolist()
av_flat_c = df_final[df_final['class'] == 'Комфорт']['av_flat'].tolist()
av_flat_b = df_final[df_final['class'] == 'Бизнес']['av_flat'].tolist()
av_flat_e = df_final[df_final['class'] == 'Элитный']['av_flat'].tolist()

In [6]:
f_oneway(av_flat_t, av_flat_c, av_flat_b, av_flat_e)

F_onewayResult(statistic=1213.6871209486123, pvalue=0.0)

Однофакторный дисперсионный анализ показал, что различия не могут быть объяснены случайностью (`p_value` = 0.0), следовательно, класс недвижимости связан со средней площадью квартиры, основная гипотеза $H0$ отвергается.

Кроме того, можно из интереса посмотреть на средние и медианы для всех объектов недвижимости каждого класса:

In [12]:
print(df_final[df_final['class'] == 'Типовой']['av_flat'].mean(),
      df_final[df_final['class'] == 'Комфорт']['av_flat'].mean(),
      df_final[df_final['class'] == 'Бизнес']['av_flat'].mean(),
    df_final[df_final['class'] == 'Элитный']['av_flat'].mean())

50.15446950345209 52.33037685218932 68.28370096136035 106.67710530982505


In [13]:
print(df_final[df_final['class'] == 'Типовой']['av_flat'].median(),
      df_final[df_final['class'] == 'Комфорт']['av_flat'].median(),
      df_final[df_final['class'] == 'Бизнес']['av_flat'].median(),
    df_final[df_final['class'] == 'Элитный']['av_flat'].median())

48.031496062992126 50.20488968395945 63.44444444444444 89.09895833333334


Можно заметить, что средняя площадь квартиры в ЖК элитного класса значительно выше остальных, в то время как разница между типовым и комфорт классами не столь существенна. Чтобы проверить, точно ли все 3 неравенства выполняются в той последовательности, как задано в основной гипотезе, проведем анализ для каждого из трех неравенств:

In [9]:
from scipy import stats

In [10]:
t_stat, p_value = stats.ttest_ind(av_flat_t, av_flat_c)
p_value

1.1141506280418542e-14

In [11]:
t_stat, p_value = stats.ttest_ind(av_flat_c, av_flat_b)
p_value

1.106616199345403e-191

In [12]:
t_stat, p_value = stats.ttest_ind(av_flat_b, av_flat_e)
p_value

3.0206106834704303e-56

Во всех случаях `p_value` стремится к 0. Подтверждается, что с улучшением класса недвижимости средняя площадь квартиры увеличивается.

## Гипотеза 2
Минимальная высота потолков положительно зависит от класса недвижимости

В качестве основной гипотезы примем равенство матожиданий минимальной высоты потолков в разных классах недвижимости, а в качестве альтернативной - их одностороннее неравенство.
$$H0: \mu_{c-t}=\mu_{c-c}=\mu_{c-b}=\mu_{c-e}$$
$$H1: \mu_{c-t}<\mu_{c-c}<\mu_{c-b}<\mu_{c-e}$$
$\mu_{c-t}$ - средняя площадь квартиры для типового класса недвижимости

$\mu_{c-c}$ - средняя площадь квартиры для комфорт класса недвижимости

$\mu_{c-b}$ - средняя площадь квартиры для бизнес класса недвижимости

$\mu_{c-e}$ - средняя площадь квартиры для элитного класса недвижимости

In [20]:
min_c_t = df_final[df_final['class'] == 'Типовой']['min_ceiling_h'].tolist()
min_c_c = df_final[df_final['class'] == 'Комфорт']['min_ceiling_h'].tolist()
min_c_b = df_final[df_final['class'] == 'Бизнес']['min_ceiling_h'].tolist()
min_c_e = df_final[df_final['class'] == 'Элитный']['min_ceiling_h'].tolist()
f_oneway(min_c_t, min_c_c, min_c_b, min_c_e)

F_onewayResult(statistic=1212.2921614297188, pvalue=0.0)

Однофакторный дисперсионный анализ показал, что различия не могут быть объяснены случайностью (`p_value` = 0.0), следовательно, класс недвижимости связан с минимальной высотой потолков, основная гипотеза $H0$ отвергается.

Чтобы проверить, точно ли все 3 неравенства в составе альтернативной гипотезы выполняются, проведем для каждого из них t-тестирование:

In [21]:
t_stat, p_value = stats.ttest_ind(min_c_t, min_c_c)
p_value

2.101009742041225e-71

In [22]:
t_stat, p_value = stats.ttest_ind(min_c_c, min_c_b)
p_value

8.28958197381792e-285

In [23]:
t_stat, p_value = stats.ttest_ind(min_c_b, min_c_e)
p_value

2.0189935326509245e-26

Чтобы удостовериться, что связь положительна, посмотрим на средние и медианы для высоты потолков каждого класса недвижимости:

In [3]:
print(df_final[df_final['class'] == 'Типовой']['min_ceiling_h'].mean(),
      df_final[df_final['class'] == 'Комфорт']['min_ceiling_h'].mean(),
      df_final[df_final['class'] == 'Бизнес']['min_ceiling_h'].mean(),
    df_final[df_final['class'] == 'Элитный']['min_ceiling_h'].mean())

2.6970282836110036 2.745843588725685 2.9280891719745226 3.1071462264150944


In [4]:
print(df_final[df_final['class'] == 'Типовой']['min_ceiling_h'].median(),
      df_final[df_final['class'] == 'Комфорт']['min_ceiling_h'].median(),
      df_final[df_final['class'] == 'Бизнес']['min_ceiling_h'].median(),
    df_final[df_final['class'] == 'Элитный']['min_ceiling_h'].median())

2.7 2.72 2.9 3.08


Во всех случаях `p_value` стремится к 0. Подтверждается, что в более высоких классах недвижимости минимальная высота потолков в среднем больше.

## Гипотеза 3
Количество парковочных мест положительно зависит от класса недвижимости

В качестве основной гипотезы примем равенство матожиданий `parking_ratio` в разных классах недвижимости, а в качестве альтернативной - их одностороннее неравенство.
$$H0: \mu_{p-t}=\mu_{p-c}=\mu_{p-b}=\mu_{p-e}$$
$$H1: \mu_{p-t}<\mu_{p-c}<\mu_{p-b}<\mu_{p-e}$$

$\mu_{p-t}$ - среднее количество парковочных мест на квартиру для типового класса недвижимости

$\mu_{p-c}$ - среднее количество парковочных мест на квартиру для комфорт класса недвижимости

$\mu_{p-b}$ - среднее количество парковочных мест на квартиру для бизнес класса недвижимости

$\mu_{p-e}$ - среднее количество парковочных мест на квартиру для элитного класса недвижимости

In [18]:
parking_r_t = df_final[df_final['class'] == 'Типовой']['parking_ratio'].tolist()
parking_r_c = df_final[df_final['class'] == 'Комфорт']['parking_ratio'].tolist()
parking_r_b = df_final[df_final['class'] == 'Бизнес']['parking_ratio'].tolist()
parking_r_e = df_final[df_final['class'] == 'Элитный']['parking_ratio'].tolist()
f_oneway(parking_r_t, parking_r_c, parking_r_b, parking_r_e)

F_onewayResult(statistic=152.2087530343328, pvalue=4.0335425468119985e-96)

Однофакторный дисперсионный анализ показал, что различия не могут быть объяснены случайностью (`p_value` близко к 0), следовательно, класс недвижимости связан с количеством парковочных мест, основная гипотеза $H0$ отвергается.

Чтобы проверить, точно ли все 3 неравенства в составе альтернативной гипотезы выполняются, проведем для каждого из них t-тестирование:

In [24]:
t_stat, p_value = stats.ttest_ind(parking_r_t, parking_r_c)
p_value

3.0827758100713186e-10

In [25]:
t_stat, p_value = stats.ttest_ind(parking_r_c, parking_r_b)
p_value

0.03775051412473566

In [26]:
t_stat, p_value = stats.ttest_ind(parking_r_b, parking_r_e)
p_value

2.161682608620691e-36

Чтобы удостовериться, что связь положительна, посмотрим на средние и медианы количества парковочных мест на квартиру для каждого класса недвижимости:

In [5]:
print(df_final[df_final['class'] == 'Типовой']['parking_ratio'].mean(),
      df_final[df_final['class'] == 'Комфорт']['parking_ratio'].mean(),
      df_final[df_final['class'] == 'Бизнес']['parking_ratio'].mean(),
    df_final[df_final['class'] == 'Элитный']['parking_ratio'].mean())

0.6355876582584669 0.733629908565177 0.7866353145308372 1.6496553517483148


In [6]:
print(df_final[df_final['class'] == 'Типовой']['parking_ratio'].median(),
      df_final[df_final['class'] == 'Комфорт']['parking_ratio'].median(),
      df_final[df_final['class'] == 'Бизнес']['parking_ratio'].median(),
    df_final[df_final['class'] == 'Элитный']['parking_ratio'].median())

0.4739336492890995 0.5070672260513436 0.6184895833333334 1.2655589602704986


Во всех случаях `p_value` меньше допустимого уровня значимости, поэтому действительно количество парковочных мест на квартиру больше в жилой недвижимости более высокого класса.

## Гипотеза 4
Индекс доступности инфраструктуры положительно зависит от класса недвижимости

В качестве основной гипотезы примем равенство матожиданий индекса доступности инфраструктуры в разных классах недвижимости, а в качестве альтернативной - их одностороннее неравенство.
$$H0: \mu_{i-t}=\mu_{i-c}=\mu_{i-b}=\mu_{i-e}$$
$$H1: \mu_{i-t}<\mu_{i-c}<\mu_{i-b}<\mu_{i-e}$$
$\mu_{i-t}$ - средний индекс доступности инфраструктуры для типового класса недвижимости

$\mu_{i-c}$ - средний индекс доступности инфраструктуры для комфорт класса недвижимости

$\mu_{i-b}$ - средний индекс доступности инфраструктуры для бизнес класса недвижимости

$\mu_{i-e}$ - средний индекс доступности инфраструктуры для элитного класса недвижимости

In [27]:
infr_a_t = df_final[df_final['class'] == 'Типовой']['infr_access'].tolist()
infr_a_c = df_final[df_final['class'] == 'Комфорт']['infr_access'].tolist()
infr_a_b = df_final[df_final['class'] == 'Бизнес']['infr_access'].tolist()
infr_a_e = df_final[df_final['class'] == 'Элитный']['infr_access'].tolist()
f_oneway(infr_a_t, infr_a_c, infr_a_b, infr_a_e)

F_onewayResult(statistic=128.78258199800484, pvalue=1.3184784892761298e-81)

Однофакторный дисперсионный анализ показал, что различия не могут быть объяснены случайностью (`p_value` меньше установленного уровня значимости 10%), следовательно, класс недвижимости связан с индексом доступности инфраструктуры, основная гипотеза $H0$ отвергается.

Чтобы проверить, точно ли все 3 неравенства в составе альтернативной гипотезы выполняются, проведем для каждого из них t-тестирование:

In [28]:
t_stat, p_value = stats.ttest_ind(infr_a_t, infr_a_c)
p_value

1.1489721434004961e-20

In [29]:
t_stat, p_value = stats.ttest_ind(infr_a_c, infr_a_b)
p_value

2.203046814579973e-24

In [30]:
t_stat, p_value = stats.ttest_ind(infr_a_b, infr_a_e)
p_value

4.067987226360227e-07

Чтобы удостовериться, что связь положительна, посмотрим на средние и медианы индекса доступности инфраструктуры для каждого класса недвижимости:

In [7]:
print(df_final[df_final['class'] == 'Типовой']['infr_access'].mean(),
      df_final[df_final['class'] == 'Комфорт']['infr_access'].mean(),
      df_final[df_final['class'] == 'Бизнес']['infr_access'].mean(),
    df_final[df_final['class'] == 'Элитный']['infr_access'].mean())

5.313831848120883 5.900158793171894 6.9197452229299365 7.995283018867925


In [8]:
print(df_final[df_final['class'] == 'Типовой']['infr_access'].median(),
      df_final[df_final['class'] == 'Комфорт']['infr_access'].median(),
      df_final[df_final['class'] == 'Бизнес']['infr_access'].median(),
    df_final[df_final['class'] == 'Элитный']['infr_access'].median())

6.0 7.0 8.0 9.0


Во всех случаях `p_value` меньше допустимого уровня значимости, поэтому действительно индекс доступности инфраструктуры выше в жилой недвижимости более высокого класса.

## Гипотеза 5
Оснащенность лифтами выше в недвижимости более высокого класса (то есть, на один лифт приходится большее количество квартир, `lift_ratio` для более низких классов недвижимости принимает большие значения).

В качестве основной гипотезы примем равенство матожиданий `lift_ratio` в разных классах недвижимости, а в качестве альтернативной - их одностороннее неравенство.
$$H0: \mu_{l-t}=\mu_{l-c}=\mu_{l-b}=\mu_{l-e}$$
$$H1: \mu_{l-t}>\mu_{l-c}>\mu_{l-b}>\mu_{l-e}$$

$\mu_{l-t}$ - средняя лифтовооруженность для типового класса недвижимости

$\mu_{l-c}$ - средняя лифтовооруженность для комфорт класса недвижимости

$\mu_{l-b}$ - средняя лифтовооруженность для бизнес класса недвижимости

$\mu_{l-e}$ - средняя лифтовооруженность для элитного класса недвижимости

In [31]:
lift_r_t = df_final[df_final['class'] == 'Типовой']['lift_ratio'].tolist()
lift_r_c = df_final[df_final['class'] == 'Комфорт']['lift_ratio'].tolist()
lift_r_b = df_final[df_final['class'] == 'Бизнес']['lift_ratio'].tolist()
lift_r_e = df_final[df_final['class'] == 'Элитный']['lift_ratio'].tolist()
f_oneway(lift_r_t, lift_r_c, lift_r_b, lift_r_e)

F_onewayResult(statistic=38.90480196006327, pvalue=5.78471945464981e-25)

Однофакторный дисперсионный анализ показал, что различия не могут быть объяснены случайностью (`p_value` меньше установленного уровня значимости 10%), следовательно, класс недвижимости связан с количеством лифтов на квартиру, основная гипотеза $H0$ отвергается.

Чтобы проверить, точно ли все 3 неравенства в составе альтернативной гипотезы выполняются, проведем для каждого из них t-тестирование:

In [32]:
t_stat, p_value = stats.ttest_ind(lift_r_t, lift_r_c)
p_value

0.0002706799284418396

In [33]:
t_stat, p_value = stats.ttest_ind(lift_r_c, lift_r_b)
p_value

2.2948138521037797e-10

In [34]:
t_stat, p_value = stats.ttest_ind(lift_r_b, lift_r_e)
p_value

2.406399953420519e-10

Чтобы удостовериться, что связь отрицательна, посмотрим на средние и медианы лифтовооруженности для каждого класса недвижимости:

In [9]:
print(df_final[df_final['class'] == 'Типовой']['lift_ratio'].mean(),
      df_final[df_final['class'] == 'Комфорт']['lift_ratio'].mean(),
      df_final[df_final['class'] == 'Бизнес']['lift_ratio'].mean(),
    df_final[df_final['class'] == 'Элитный']['lift_ratio'].mean())

31.97833288427023 34.21584153407808 28.488637530360606 18.023282323594067


In [10]:
print(df_final[df_final['class'] == 'Типовой']['lift_ratio'].median(),
      df_final[df_final['class'] == 'Комфорт']['lift_ratio'].median(),
      df_final[df_final['class'] == 'Бизнес']['lift_ratio'].median(),
    df_final[df_final['class'] == 'Элитный']['lift_ratio'].median())

29.385714285714283 32.12 24.13355555555556 13.839142628205128


Во всех случаях `p_value` меньше допустимого уровня значимости, но анализ средних и медиан показал, что разница в лифтовооруженности между ЖК различных классов действительно есть, причем худший показатель лифтовооруженности наблюдается не у типового, а у комфорт класса недвижимости, хотя разница не такая существенная. Показатель лифтовооруженности для элитного класса недвижимости значительно лучше, чем у более низких классов