In [1]:
from randan.descriptive_statistics import ScaleStatistics # интервальная статистика
import pandas as pd # для обработки и анализа структурированных данных
import numpy as np# для корректной работы рандана 
from randan.bivariate_association import Correlation 

# Надежность-устойчивость: Гендерный индекс в области целей устойчивого развития организации "Равные меры — 2030" за 2015 и 2020 годы (Equal Measures — 2030)

Массив данных находится в папке: https://disk.yandex.ru/d/PWOTilngObaAJg 

Рейтинг за 2022 год: https://equalmeasures2030.org/2022-sdg-gender-index-report/#:~:text=Progress%20on%20gender%20equality%20has,the%20achievement%20of%20the%20SDGs.

In [2]:
# загружаем таблицу
df = pd.read_excel('esdg_15_20.xlsx')

In [3]:
# удаляем пробелы
df = df.dropna()
df

Unnamed: 0,country,2015,2020
0,Afghanistan,40.046421,38.166742
1,Albania,70.432066,74.188821
2,Algeria,65.617685,64.339099
4,Argentina,75.119741,74.514991
5,Armenia,67.602252,74.340911
...,...,...,...
138,Uzbekistan,68.839980,69.442619
139,Venezuela,62.469646,55.781751
140,Viet Nam,67.166860,69.391586
142,Zambia,48.774654,50.440768


In [4]:
# в таблице 135 стран без пробелов в данных
# округляем значения
df = df.round(decimals=2)
df

Unnamed: 0,country,2015,2020
0,Afghanistan,40.05,38.17
1,Albania,70.43,74.19
2,Algeria,65.62,64.34
4,Argentina,75.12,74.51
5,Armenia,67.60,74.34
...,...,...,...
138,Uzbekistan,68.84,69.44
139,Venezuela,62.47,55.78
140,Viet Nam,67.17,69.39
142,Zambia,48.77,50.44


In [5]:
# дескриптивная статистика
df.describe()

Unnamed: 0,2015,2020
count,135.0,135.0
mean,65.958741,67.791778
std,13.330627,12.998867
min,34.95,35.63
25%,56.035,58.96
50%,66.97,68.75
75%,76.07,77.64
max,90.19,90.42


In [7]:
# проверяем нормальность распределения за 2020 год
# тест Колмогорова-Смирнова
ss = ScaleStatistics(df, [2020], show_results=False, normality_test=True, normality_test_type='ks') 
ss.summary() 


NORMALITY TESTS
------------------



Unnamed: 0,statistic,p-value
2020,0.065,0.225


Unnamed: 0,N,mode,median,mean,25%,75%,interquart. range,interquart. range (norm.),min,max,range,std,var,entropy coef.,quality var.
2020,135.0,35.63,68.75,67.791778,58.96,77.64,18.68,0.340938,35.63,90.42,54.79,12.998867,168.970542,1.0,1.0


Распределение данных за 2020 год не является нормальным. Применим метод Спирмена (как и для остальных рейтингов) для корреляционного анализа. 

In [8]:
# корреляционный анализ значений рейтинга по годам, метод Пирсона
corr = Correlation(df, method = 'spearman', two_tailed = False, n_decimals=3)


CORRELATION SUMMARY (SPEARMAN METHOD, 1-TAILED)
------------------
The following variables were removed from the analysis since they do not belong to numerical dtypes: country



Unnamed: 0,Unnamed: 1,2015,2020
2015,Coefficient,1.0,0.988
2015,p-value,,0.0
2015,N,135.0,135.0
2020,Coefficient,0.988,1.0
2020,p-value,0.0,
2020,N,135.0,135.0


Note: Each empty index duplicates the previous one.
Maximum correlation is 0.988 (p-value 0.0) for variables 2015 and 2020,
minimum correlation is 0.988 (p-value 0.0) for variables 2015 and 2020.


Значения коэффициента корреляции Спирмена составляет  0,988  при p-value менее 0,05. Рейтинг Гендерный индекс в области целей устойчивого развития организации "Равные меры — 2030" обладает высокой надежностью-устойчивостью. 