Курсовой проект для курса "Python для Data Science"

Материалы к проекту (файлы):
train.csv
test.csv

Задание:
Используя данные из train.csv, построить
модель для предсказания цен на недвижимость (квартиры).
С помощью полученной модели предсказать
цены для квартир из файла test.csv.

Целевая переменная:
Price

Метрика:
R2 - коэффициент детерминации (sklearn.metrics.r2_score)

Сдача проекта:
1. Прислать в раздел Задания Урока 10 ("Вебинар. Консультация по итоговому проекту")
ссылку на программу в github (программа должна содержаться в файле Jupyter Notebook 
с расширением ipynb). (Pull request не нужен, только ссылка ведущая на сам скрипт).
2. Приложить файл с названием по образцу SShirkin_predictions.csv
с предсказанными ценами для квартир из test.csv (файл должен содержать два поля: Id, Price).
В файле с предсказаниями должна быть 5001 строка (шапка + 5000 предсказаний).

Сроки и условия сдачи:
Дедлайн: сдать проект нужно в течение 72 часов после начала Урока 10 ("Вебинар. Консультация по итоговому проекту").
Для успешной сдачи должны быть все предсказания (для 5000 квартир) и R2 должен быть больше 0.6.
При сдаче до дедлайна результат проекта может попасть в топ лучших результатов.
Повторная сдача и проверка результатов возможны только при условии предыдущей неуспешной сдачи.
Успешный проект нельзя пересдать в целях повышения результата.
Проекты, сданные после дедлайна или сданные повторно, не попадают в топ лучших результатов, но можно узнать результат.
В качестве итогового результата берется первый успешный результат, последующие успешные результаты не учитываются.

Примечание:
Все файлы csv должны содержать названия полей (header - то есть "шапку"),
разделитель - запятая. В файлах не должны содержаться индексы из датафрейма.

Рекомендации для файла с кодом (ipynb):
1. Файл должен содержать заголовки и комментарии
2. Повторяющиеся операции лучше оформлять в виде функций
3. Не делать вывод большого количества строк таблиц (5-10 достаточно)
4. По возможности добавлять графики, описывающие данные (около 3-5)
5. Добавлять только лучшую модель, то есть не включать в код все варианты решения проекта
6. Скрипт проекта должен отрабатывать от начала и до конца (от загрузки данных до выгрузки предсказаний)
7. Весь проект должен быть в одном скрипте (файл ipynb).
8. При использовании статистик (среднее, медиана и т.д.) в качестве признаков,
лучше считать их на трейне, и потом на валидационных и тестовых данных не считать 
статистики заново, а брать их с трейна. Если хватает знаний, можно использовать кросс-валидацию,
но для сдачи этого проекта достаточно разбить данные из train.csv на train и valid.
9. Проект должен полностью отрабатывать за разумное время (не больше 10 минут),
поэтому в финальный вариант лучше не включать GridSearch с перебором 
большого количества сочетаний параметров.
10. Допускается применение библиотек Python и моделей машинного обучения,
которые были в курсе Python для Data Science. Градиентный бустинг изучается
в последующих курсах, поэтому в этом проекте его применять не следует.
Самая сложная из допустимых моделей - RandomForestRegressor из sklearn.

In [75]:
#Подключаем библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, RandomForestClassifier
from sklearn.metrics import r2_score as r2, accuracy_score
from sklearn.linear_model import Ridge, Lasso, LinearRegression
from sklearn.model_selection import KFold, GridSearchCV
#from xgboost import XGBRegressor, XGBClassifier
#from lightgbm import LGBMRegressor, LGBMClassifier
import seaborn as sns

In [76]:
%matplotlib inline
%config InlineBackend.figure_format = 'svg'

In [77]:
import warnings
warnings.filterwarnings('ignore')

In [78]:
plt.rcParams.update({'font.size': 14})

In [79]:
def evaluate_preds(train_true_values, train_pred_values, test_true_values, test_pred_values):
    print('Train R2:\t' + str(round(r2(train_true_values, train_pred_values), 3)))
    print('Test R2:\t' + str(round(r2(test_true_values, test_pred_values), 3)))
    
    plt.figure(figsize = (18,10))
    
    plt.subplot(121)
    sns.scatterplot(x=train_pred_values, y=train_true_values)
    plt.xlabel('Predicted values')
    plt.ylabel('True values')
    plt.title('Train sample prediction')
    
    plt.subplot(122)
    sns.scatterplot(x=test_pred_values, y=test_true_values)
    plt.xlabel('Predicted values')
    plt.ylabel('True values')
    plt.title('Test sample prediction')
    plt.show()

In [80]:
def show_dstr(train_df, column):
    plt.figure(figsize = (16,8))
    
    train_df[column].hist(bins=18)
    plt.ylable('count')
    plt.xlable(column)
    
    plt.title('Target distribution')
    plt.show()
    return None
    

# Пути к директориям файла

In [81]:
TRAIN_DATASET_PATH ='train.csv'
TEST_DATASET_PATH ='test.csv'

In [82]:
train_df = pd.read_csv(TRAIN_DATASET_PATH)
print(train_df.shape)
train_df.head()

(10000, 20)


Unnamed: 0,Id,DistrictId,Rooms,Square,LifeSquare,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,Ecology_2,Ecology_3,Social_1,Social_2,Social_3,Healthcare_1,Helthcare_2,Shops_1,Shops_2,Price
0,14038,35,2.0,47.981561,29.442751,6.0,7,9.0,1969,0.08904,B,B,33,7976,5,,0,11,B,184966.93073
1,15053,41,3.0,65.68364,40.049543,8.0,7,9.0,1978,7e-05,B,B,46,10309,1,240.0,1,16,B,300009.450063
2,4765,53,2.0,44.947953,29.197612,0.0,8,12.0,1968,0.049637,B,B,34,7759,0,229.0,1,3,B,220925.908524
3,5809,58,2.0,53.352981,52.731512,9.0,8,17.0,1977,0.437885,B,B,23,5735,3,1084.0,0,5,B,175616.227217
4,10783,99,1.0,39.649192,23.776169,7.0,11,12.0,1976,0.012339,B,B,35,5776,1,2078.0,2,4,B,150226.531644


In [83]:
train_df.isna().sum()

Id                  0
DistrictId          0
Rooms               0
Square              0
LifeSquare       2113
KitchenSquare       0
Floor               0
HouseFloor          0
HouseYear           0
Ecology_1           0
Ecology_2           0
Ecology_3           0
Social_1            0
Social_2            0
Social_3            0
Healthcare_1     4798
Helthcare_2         0
Shops_1             0
Shops_2             0
Price               0
dtype: int64

In [84]:
train_df.nunique()

Id               10000
DistrictId         205
Rooms                9
Square           10000
LifeSquare        7887
KitchenSquare       58
Floor               33
HouseFloor          44
HouseYear           97
Ecology_1          129
Ecology_2            2
Ecology_3            2
Social_1            51
Social_2           142
Social_3            30
Healthcare_1        79
Helthcare_2          7
Shops_1             16
Shops_2              2
Price            10000
dtype: int64

In [85]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             10000 non-null  int64  
 1   DistrictId     10000 non-null  int64  
 2   Rooms          10000 non-null  float64
 3   Square         10000 non-null  float64
 4   LifeSquare     7887 non-null   float64
 5   KitchenSquare  10000 non-null  float64
 6   Floor          10000 non-null  int64  
 7   HouseFloor     10000 non-null  float64
 8   HouseYear      10000 non-null  int64  
 9   Ecology_1      10000 non-null  float64
 10  Ecology_2      10000 non-null  object 
 11  Ecology_3      10000 non-null  object 
 12  Social_1       10000 non-null  int64  
 13  Social_2       10000 non-null  int64  
 14  Social_3       10000 non-null  int64  
 15  Healthcare_1   5202 non-null   float64
 16  Helthcare_2    10000 non-null  int64  
 17  Shops_1        10000 non-null  int64  
 18  Shops_2

Базовая модель. Выбрасываем признаки.

In [86]:
train_df.replace({'Ecology_2':{'A':0, 'B':1}, 'Ecology_3':{'A':0, 'B':1},'Shops_2':{'A':0, 'B':1}}, inplace=True)

In [88]:
X_train, X_test, y_train, y_test = train_test_split(train_df.set_index('Id').drop(['LifeSquare', 'Healthcare_1', 'Price'], axis= 'columns'),
                                                   train_df['Price'], test_size =0.2, random_state=22)

In [89]:
#Модель основанная на признаках, где нет пропущеных значений
model_RFR = RandomForestRegressor(max_depth=12, n_estimators=200, random_state=42)
model_RFR.fit(X_train, y_train)
first_predict_train = model_RFR.predict(X_train)
first_predict = model_RFR.predict(X_test)
r2(y_test, first_predict)
print('r2_train = {r2}'.format(r2 = r2(y_train,first_predict_train)))
print('r2_test = {r2}'.format(r2 = r2(y_test,first_predict)))

r2_train = 0.8990576295478698
r2_test = 0.7169781652447873


In [90]:
X_test

Unnamed: 0_level_0,DistrictId,Rooms,Square,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,Ecology_2,Ecology_3,Social_1,Social_2,Social_3,Helthcare_2,Shops_1,Shops_2
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
10376,23,1.0,39.392675,1.0,9,17.0,1977,0.075779,1,1,6,1437,3,0,2,1
1627,45,3.0,74.970211,1.0,9,9.0,2014,0.195781,1,1,23,5212,6,3,2,1
8296,146,1.0,86.386754,0.0,37,38.0,2012,0.236108,1,1,16,3893,27,3,10,1
2666,103,3.0,56.072701,5.0,6,5.0,1960,0.151346,1,0,32,5889,10,4,1,1
10824,200,1.0,42.167687,8.0,11,17.0,1997,0.000000,1,1,33,7425,1,2,5,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6928,11,2.0,49.176900,6.0,9,9.0,1973,0.038693,1,1,28,6533,1,2,5,1
7059,52,1.0,41.404988,1.0,15,17.0,1977,0.371149,1,1,34,7065,1,2,5,1
4638,47,3.0,89.822947,10.0,13,24.0,2010,0.101872,1,1,23,4583,3,3,3,1
13821,122,3.0,101.162492,11.0,14,15.0,1999,0.033494,1,1,66,10573,1,3,8,1


In [91]:
test_df = pd.read_csv(TEST_DATASET_PATH)

test_df.head()

Unnamed: 0,Id,DistrictId,Rooms,Square,LifeSquare,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,Ecology_2,Ecology_3,Social_1,Social_2,Social_3,Healthcare_1,Helthcare_2,Shops_1,Shops_2
0,725,58,2.0,49.882643,33.432782,6.0,6,14.0,1972,0.310199,B,B,11,2748,1,,0,0,B
1,15856,74,2.0,69.263183,,1.0,6,1.0,1977,0.075779,B,B,6,1437,3,,0,2,B
2,5480,190,1.0,13.597819,15.948246,12.0,2,5.0,1909,0.0,B,B,30,7538,87,4702.0,5,5,B
3,15664,47,2.0,73.046609,51.940842,9.0,22,22.0,2007,0.101872,B,B,23,4583,3,,3,3,B
4,14275,27,1.0,47.527111,43.387569,1.0,17,17.0,2017,0.072158,B,B,2,629,1,,0,0,A


In [19]:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 19 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             5000 non-null   int64  
 1   DistrictId     5000 non-null   int64  
 2   Rooms          5000 non-null   float64
 3   Square         5000 non-null   float64
 4   LifeSquare     3959 non-null   float64
 5   KitchenSquare  5000 non-null   float64
 6   Floor          5000 non-null   int64  
 7   HouseFloor     5000 non-null   float64
 8   HouseYear      5000 non-null   int64  
 9   Ecology_1      5000 non-null   float64
 10  Ecology_2      5000 non-null   object 
 11  Ecology_3      5000 non-null   object 
 12  Social_1       5000 non-null   int64  
 13  Social_2       5000 non-null   int64  
 14  Social_3       5000 non-null   int64  
 15  Healthcare_1   2623 non-null   float64
 16  Helthcare_2    5000 non-null   int64  
 17  Shops_1        5000 non-null   int64  
 18  Shops_2 

In [None]:
#Приведение типов

In [92]:
for colname in ['Ecology_2', 'Ecology_3', 'Shops_2', 'LifeSquare', 'Healthcare_1']:
    test_df[colname] = test_df[colname].astype(str)

In [93]:
# Первое предсказание базовой модели на тестовых файлах
test_df.replace({'Ecology_2': {'A':0, 'B':1} , 'Ecology_3': {'A':0, 'B':1},'Shops_2': {'A':0, 'B':1}}, inplace=True)
test_first_predict = model_RFR.predict(test_df.set_index('Id').drop(['LifeSquare', 'Healthcare_1'], axis= 'columns'))

In [95]:
test_df['Price'] = test_first_predict
test_df.head()

Unnamed: 0,Id,DistrictId,Rooms,Square,LifeSquare,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,Ecology_2,Ecology_3,Social_1,Social_2,Social_3,Healthcare_1,Helthcare_2,Shops_1,Shops_2,Price
0,725,58,2.0,49.882643,33.43278170333575,6.0,6,14.0,1972,0.310199,1,1,11,2748,1,,0,0,1,164367.95303
1,15856,74,2.0,69.263183,,1.0,6,1.0,1977,0.075779,1,1,6,1437,3,,0,2,1,212247.250998
2,5480,190,1.0,13.597819,15.94824639560224,12.0,2,5.0,1909,0.0,1,1,30,7538,87,4702.0,5,5,1,210550.090412
3,15664,47,2.0,73.046609,51.9408419817037,9.0,22,22.0,2007,0.101872,1,1,23,4583,3,,3,3,1,362256.298717
4,14275,27,1.0,47.527111,43.38756921064507,1.0,17,17.0,2017,0.072158,1,1,2,629,1,,0,0,0,141472.818367


In [96]:
test_df[['Id', 'Price']].to_csv('predict_2021-04-06_01.csv', index=False)

In [97]:
test_df['Price'] = test_first_predict
test_df.head()

Unnamed: 0,Id,DistrictId,Rooms,Square,LifeSquare,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,Ecology_2,Ecology_3,Social_1,Social_2,Social_3,Healthcare_1,Helthcare_2,Shops_1,Shops_2,Price
0,725,58,2.0,49.882643,33.43278170333575,6.0,6,14.0,1972,0.310199,1,1,11,2748,1,,0,0,1,164367.95303
1,15856,74,2.0,69.263183,,1.0,6,1.0,1977,0.075779,1,1,6,1437,3,,0,2,1,212247.250998
2,5480,190,1.0,13.597819,15.94824639560224,12.0,2,5.0,1909,0.0,1,1,30,7538,87,4702.0,5,5,1,210550.090412
3,15664,47,2.0,73.046609,51.9408419817037,9.0,22,22.0,2007,0.101872,1,1,23,4583,3,,3,3,1,362256.298717
4,14275,27,1.0,47.527111,43.38756921064507,1.0,17,17.0,2017,0.072158,1,1,2,629,1,,0,0,0,141472.818367


In [98]:
test_df[['Id','Price']].to_csv('first_predict_2021-04-15_01.csv', index=False)

In [99]:
test_df.set_index('Id').drop(['LifeSquare', 'Healthcare_1', 'Price'], axis= 'columns').columns.tolist()

['DistrictId',
 'Rooms',
 'Square',
 'KitchenSquare',
 'Floor',
 'HouseFloor',
 'HouseYear',
 'Ecology_1',
 'Ecology_2',
 'Ecology_3',
 'Social_1',
 'Social_2',
 'Social_3',
 'Helthcare_2',
 'Shops_1',
 'Shops_2']

In [100]:
test_df[['Id','Price']].to_csv('first_predict_2408.csv', index=False)

In [101]:
f_importance = pd.DataFrame()
f_importance['name'] = test_df.set_index('Id').drop(['LifeSquare', 'Healthcare_1', 'Price'],axis= 'columns').columns.tolist()
f_importance['values'] = model_RFR.feature_importances_
f_importance.sort_values('values', ascending = False).reset_index(drop=True)

Unnamed: 0,name,values
0,Square,0.420606
1,Social_1,0.106939
2,Social_2,0.100987
3,Rooms,0.089787
4,Social_3,0.059625
5,DistrictId,0.048649
6,Ecology_1,0.044225
7,HouseYear,0.033037
8,KitchenSquare,0.025158
9,Floor,0.023643


In [102]:
#Заменим DistrictId на медианную цену дома в конкретном районе
median_price_by_id = train_df.groupby('DistrictId')[['Price']].median().reset_index()
median_price_by_id.rename({'Price': 'Price_median'}, axis='columns')

Unnamed: 0,DistrictId,Price_median
0,0,165963.054142
1,1,183663.443595
2,2,208539.501373
3,3,169094.013281
4,4,278639.482329
...,...,...
200,202,394150.861857
201,205,220501.566180
202,207,426186.409334
203,208,431137.654083


In [114]:
train_df = pd.merge(train_df, median_price_by_id, how='left', on='DistrictId')
train_df

Unnamed: 0,Id,DistrictId,Rooms,Square,LifeSquare,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,...,Ecology_3,Social_1,Social_2,Social_3,Healthcare_1,Helthcare_2,Shops_1,Shops_2,Price_x,Price
0,14038,35,2.0,47.981561,29.442751,6.0,7,9.0,1969,0.089040,...,1,33,7976,5,,0,11,1,184966.930730,203602.408898
1,15053,41,3.0,65.683640,40.049543,8.0,7,9.0,1978,0.000070,...,1,46,10309,1,240.0,1,16,1,300009.450063,210694.850106
2,4765,53,2.0,44.947953,29.197612,0.0,8,12.0,1968,0.049637,...,1,34,7759,0,229.0,1,3,1,220925.908524,245978.794474
3,5809,58,2.0,53.352981,52.731512,9.0,8,17.0,1977,0.437885,...,1,23,5735,3,1084.0,0,5,1,175616.227217,151557.904767
4,10783,99,1.0,39.649192,23.776169,7.0,11,12.0,1976,0.012339,...,1,35,5776,1,2078.0,2,4,1,150226.531644,178829.166450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,77,32,2.0,50.401785,30.476203,5.0,6,5.0,1968,0.135650,...,1,46,7960,6,350.0,3,11,1,196684.316040,234647.811956
9996,6159,18,1.0,41.521546,20.539216,9.0,13,13.0,2000,0.000000,...,1,30,5562,0,,0,5,0,189050.289571,188489.490556
9997,5123,27,1.0,47.939008,,1.0,12,16.0,2015,0.072158,...,1,2,629,1,,0,0,0,159143.805370,146171.433190
9998,5400,75,2.0,43.602562,33.840147,8.0,1,5.0,1961,0.307467,...,0,30,5048,9,325.0,2,5,1,181595.339808,194932.010500


In [129]:
train_df['unit'] =train_df['Price']/train_df['Square']
median_price_by_id = train_df.groupby('DistrictId')[['unit']].median().reset_index()
train_df =train_df.drop('unit', axis = 1)

#median_price_by_id['unit_price'] = median_price_by_id['Price']/median_price_by_id['Square']
#median_price_by_id = median_price_by_id[['DistrictId','unit_price']]
median_price_by_id

Unnamed: 0,DistrictId,unit
0,0,3387.244265
1,1,3053.984693
2,2,4403.034871
3,3,3582.558222
4,4,5239.574588
...,...,...
200,202,6746.595286
201,205,5101.016598
202,207,5550.678339
203,208,8006.168163


In [130]:
train_df = pd.merge(train_df, median_price_by_id, how='left', on= 'DistrictId')
train_df

Unnamed: 0,Id,DistrictId,Rooms,Square,LifeSquare,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,...,Social_2,Social_3,Healthcare_1,Helthcare_2,Shops_1,Shops_2,Price_x,Price,unit_price,unit
0,14038,35,2.0,47.981561,29.442751,6.0,7,9.0,1969,0.089040,...,7976,5,,0,11,1,184966.930730,203602.408898,4273.980146,4274.077096
1,15053,41,3.0,65.683640,40.049543,8.0,7,9.0,1978,0.000070,...,10309,1,240.0,1,16,1,300009.450063,210694.850106,4395.277115,4395.277115
2,4765,53,2.0,44.947953,29.197612,0.0,8,12.0,1968,0.049637,...,7759,0,229.0,1,3,1,220925.908524,245978.794474,4527.229293,4527.236555
3,5809,58,2.0,53.352981,52.731512,9.0,8,17.0,1977,0.437885,...,5735,3,1084.0,0,5,1,175616.227217,151557.904767,2955.306014,2955.306014
4,10783,99,1.0,39.649192,23.776169,7.0,11,12.0,1976,0.012339,...,5776,1,2078.0,2,4,1,150226.531644,178829.166450,3942.103724,3942.103724
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,77,32,2.0,50.401785,30.476203,5.0,6,5.0,1968,0.135650,...,7960,6,350.0,3,11,1,196684.316040,234647.811956,4962.269126,4962.270718
9996,6159,18,1.0,41.521546,20.539216,9.0,13,13.0,2000,0.000000,...,5562,0,,0,5,0,189050.289571,188489.490556,3639.038439,3639.038439
9997,5123,27,1.0,47.939008,,1.0,12,16.0,2015,0.072158,...,629,1,,0,0,0,159143.805370,146171.433190,2669.535159,2669.535159
9998,5400,75,2.0,43.602562,33.840147,8.0,1,5.0,1961,0.307467,...,5048,9,325.0,2,5,1,181595.339808,194932.010500,4042.419159,4042.579700


In [133]:
X_train, X_test, y_train, y_test = train_test_split(train_df.set_index('Id').drop(['LifeSquare', 'Healthcare_1', 'Price_x', 'DistrictId'], axis= 'columns'),
                                                   train_df['Price_x'], test_size =0.2, random_state=31)


In [134]:
model_RFR = RandomForestRegressor(max_depth=10, n_estimators=200, random_state=31)
model_RFR.fit(X_train, y_train)
first_predict_train = model_RFR.predict(X_train)
first_predict = model_RFR.predict(X_test)
r2(y_test, first_predict)
print('r2_train = {r2}'.format(r2 = r2(y_train,first_predict_train)))
print('r2_test = {r2}'.format(r2 = r2(y_test,first_predict)))

r2_train = 0.887622139844408
r2_test = 0.741584775960821


In [123]:
#Модель основанная на признаках, где нет пропущеных значений
model_RFR = RandomForestRegressor(max_depth=10, n_estimators=200, random_state=31)
model_RFR.fit(X_train, y_train)
first_predict_train = model_RFR.predict(X_train)
first_predict = model_RFR.predict(X_test)
r2(y_test, first_predict)
print('r2_train = {r2}'.format(r2 = r2(y_train,first_predict_train)))
print('r2_test = {r2}'.format(r2 = r2(y_test,first_predict)))

r2_train = 0.8471941711624013
r2_test = 0.7063978880714998
