# Veri Analizleri

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

In [2]:
from plotly import express
from plotly import graph_objects
from plotly import io

io.templates.default = "plotly_dark"

In [3]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.tsa.stattools import adfuller, acf, breakvar_heteroskedasticity_test

In [4]:
from statsmodels.graphics import tsaplots
import matplotlib.pyplot as plt

In [5]:
import plotly.graph_objects as go
import statsmodels.api as sm 

In [6]:
country_name = ["France", "Greece",	"Italy", "Portugal", "Spain", "Türkiye"]

In [7]:
df_2 = pd.read_excel("OECD VERİLERİ ELİF BAĞCI TEZ V0_python.xlsx", sheet_name=6, header=1 )
df_2.head()

Unnamed: 0.1,Unnamed: 0,France,Greece,Italy,Portugal,Spain,Türkiye,t,interruption,interrupted t
0,2000,21.12,38.374,27.362,30.222,28.642,38.329,1,0,0
1,2001,21.088,36.794,25.377,29.787,28.971,32.749,2,0,0
2,2002,20.825,39.542,25.041,27.964,28.96,30.026,3,0,0
3,2003,21.222,40.136,24.666,29.352,28.896,28.793,4,0,0
4,2004,21.214,41.376,23.756,29.394,28.65,28.297,5,0,0


In [8]:
def create_corr_plot(series, plot_pacf=False):
    corr_array = pacf(series.dropna(), alpha=0.05) if plot_pacf else acf(series.dropna(), alpha=0.05)
    lower_y = corr_array[1][:,0] - corr_array[0]
    upper_y = corr_array[1][:,1] - corr_array[0]

    fig = go.Figure()
    [fig.add_scatter(x=(x,x), y=(0,corr_array[0][x]), mode='lines',line_color='#3f3f3f') 
     for x in range(len(corr_array[0]))]
    fig.add_scatter(x=np.arange(len(corr_array[0])), y=corr_array[0], mode='markers', marker_color='#1f77b4',
                   marker_size=12)
    fig.add_scatter(x=np.arange(len(corr_array[0])), y=upper_y, mode='lines', line_color='rgba(255,255,255,0)')
    fig.add_scatter(x=np.arange(len(corr_array[0])), y=lower_y, mode='lines',fillcolor='rgba(32, 146, 230,0.3)',
            fill='tonexty', line_color='rgba(255,255,255,0)')
    fig.update_traces(showlegend=False)
    fig.update_xaxes(range=[-1,13])
    fig.update_yaxes(zerolinecolor='#000000')
    
    title='Partial Autocorrelation (PACF)' if plot_pacf else 'Autocorrelation (ACF)'
    fig.update_layout(title=title)
    fig.show()

In [9]:
for country in country_name:
    print("###########################")
    print(f"{country}'nin Zaman Serisi Analizi")
    print("###########################")

    trendlin = express.scatter(
        df_2,
        x="t",
        y=f"{country}",
        title=f"{country}'s Voluntary schemes/household out-of-pocket payments/% of current expenditure on health",
        trendline = "ols"
    )

    trendlin.show()
    linear_model = ols(f"{country} ~ t", data=df_2).fit()
    print(linear_model.summary())
    print(" ", end="\n")
    print("###########################")
    print("Verinin Durağanlık Kontrolü", end="\n\n")
    print("H0: Seri durağan değildir.")
    print("H1: Seri durağandır.", end="\n\n")
    adfullerx = adfuller(df_2[[f"{country}"]])
    print(f'Test Stat = {round(adfullerx[0], 4)}, p-value = {round(adfullerx[1], 4)}')

    if adfullerx[1]<0.05:
        print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Yani seri durağandır.")
    elif adfullerx[1]>0.05:
        print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani seri durağan değildir.", end="\n\n")
    print("###########################")
    print("Hataların Normal Dağılması", end="\n\n")
    residual_values = linear_model.resid

    print("H0: Normal dağılım varsayımı sağlanmaktadır.")
    print("H1: Normal dağılım varsayımı sağlanmamaktadır.", end="\n\n")

    test_stat, pvalue = stats.shapiro(residual_values)
    print(f'Test Stat = {round(test_stat, 4)}, p-value = {round(pvalue, 4)}')
    if pvalue<0.05:
        print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar normal dağılmamıştır.")
    elif pvalue>0.05:
        print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar normal dağılmıştır.", end="\n\n")
    hist = express.histogram(residual_values, title="Hataların Dağılımı")
    hist.show()

    print("###########################")
    print("Hataların Rassallığı", end="\n\n")

    print("     Hataların Durağanlığı", end="\n\n")

    adfullery = adfuller(residual_values)
    print(f'Test Stat = {round(adfullery[0], 4)}, p-value = {round(adfullery[1], 4)}')

    if adfullery[1]<0.05:
        print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.")
    elif adfullery[1]>0.05:
        print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.", end="\n\n")

    resid_scatter = express.scatter(
        df_2,
        x="t",
        y=residual_values,
        title="Hataların Rassallığı"
    )

    resid_scatter.show()


    print("     Hataların Otokorelasyonu", end="\n\n")

    print("Ljung-Box q istatistiğinin Hipotezleri")
    print("H0: Veriler bağımsız (random) olarak dağılmıştır.")
    print("H1: Veriler bağımsız (random) olarak dağılmamıştır.", end="\n\n")

    acf_df = pd.DataFrame(pd.DataFrame(acf(residual_values, qstat=True)).T)
    acf_df.columns = ["ACF", "Ljung-Box q statistic", "p-value"]
    display(acf_df[1:6])

    create_corr_plot(residual_values)


###########################
France'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                 France   R-squared:                       0.440
Model:                            OLS   Adj. R-squared:                  0.411
Method:                 Least Squares   F-statistic:                     14.95
Date:                Tue, 31 Jan 2023   Prob (F-statistic):            0.00104
Time:                        19:08:22   Log-Likelihood:                -45.662
No. Observations:                  21   AIC:                             95.32
Df Residuals:                      19   BIC:                             97.41
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     23.7648      1.013     23.469      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -1.5087, p-value = 0.5292
p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.



     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.7563,20.690175,3.2e-05
2,0.520104,22.751351,4.6e-05
3,0.277153,22.81385,0.000138
4,0.046902,23.778167,0.000239
5,-0.17873,28.208452,8.6e-05


###########################
Greece'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                 Greece   R-squared:                       0.001
Model:                            OLS   Adj. R-squared:                 -0.052
Method:                 Least Squares   F-statistic:                   0.02043
Date:                Tue, 31 Jan 2023   Prob (F-statistic):              0.888
Time:                        19:08:22   Log-Likelihood:                -52.033
No. Observations:                  21   AIC:                             108.1
Df Residuals:                      19   BIC:                             110.2
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     37.3784      1.371     27.254      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -6.1829, p-value = 0.0
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.760055,19.124678,7e-05
2,0.451129,19.716827,0.000194
3,0.148552,20.551918,0.000388
4,-0.171442,27.482267,4.6e-05
5,-0.479142,37.90327,1e-06


###########################
Italy'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                  Italy   R-squared:                       0.035
Model:                            OLS   Adj. R-squared:                 -0.016
Method:                 Least Squares   F-statistic:                    0.6942
Date:                Tue, 31 Jan 2023   Prob (F-statistic):              0.415
Time:                        19:08:22   Log-Likelihood:                -39.830
No. Observations:                  21   AIC:                             83.66
Df Residuals:                      19   BIC:                             85.75
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     23.6646      0.767     30.851      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -3.2722, p-value = 0.0162
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.707827,18.581705,9.2e-05
2,0.504965,20.806326,0.000115
3,0.287933,20.946275,0.000325
4,0.070183,22.001508,0.000523
5,-0.186965,25.854797,0.000237


###########################
Portugal'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:               Portugal   R-squared:                       0.657
Model:                            OLS   Adj. R-squared:                  0.639
Method:                 Least Squares   F-statistic:                     36.46
Date:                Tue, 31 Jan 2023   Prob (F-statistic):           8.28e-06
Time:                        19:08:22   Log-Likelihood:                -46.947
No. Observations:                  21   AIC:                             97.89
Df Residuals:                      19   BIC:                             99.98
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     29.3202      1.077     27.236      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -2.1575, p-value = 0.222
p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.



     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.42962,4.562314,0.102166
2,0.06423,5.071544,0.166633
3,-0.137759,7.204238,0.125481
4,-0.273978,7.461772,0.1885
5,-0.092364,7.466345,0.279862


###########################
Spain'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                  Spain   R-squared:                       0.004
Model:                            OLS   Adj. R-squared:                 -0.048
Method:                 Least Squares   F-statistic:                   0.07620
Date:                Tue, 31 Jan 2023   Prob (F-statistic):              0.785
Time:                        19:08:22   Log-Likelihood:                -35.476
No. Observations:                  21   AIC:                             74.95
Df Residuals:                      19   BIC:                             77.04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     27.9931      0.623     44.902      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -4.2128, p-value = 0.0006
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.694562,14.514387,0.000705
2,0.335655,14.578444,0.002215
3,0.048859,14.949015,0.004808
4,-0.114205,17.127969,0.004263
5,-0.268665,22.777271,0.000875


###########################
Türkiye'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                Türkiye   R-squared:                       0.670
Model:                            OLS   Adj. R-squared:                  0.652
Method:                 Least Squares   F-statistic:                     38.54
Date:                Tue, 31 Jan 2023   Prob (F-statistic):           5.78e-06
Time:                        19:08:22   Log-Likelihood:                -52.665
No. Observations:                  21   AIC:                             109.3
Df Residuals:                      19   BIC:                             111.4
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     33.3618      1.413     23.604      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -2.6774, p-value = 0.078
p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.



     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.545345,7.939807,0.018875
2,0.172629,8.266051,0.040822
3,-0.110264,10.42258,0.03388
4,-0.275504,10.67881,0.058134
5,-0.09213,10.837158,0.093542


# Interrupted Time Series for Türkiye

    Yukarıda referans ülkelerin ve Türkiye'nin zaman serisi regresyon analizi sonuçlarına bakılırken, bu kısımdan itibaren Türkiye için interrupted time series analysis yapılmıştır.

In [10]:
X = df_2[["t", "interruption", "interrupted t"]]
y = df_2["Türkiye"]

X = sm.add_constant(X) 

analys= sm.OLS(y, X).fit()

trendlin = express.scatter(
        df_2,
        x="t",
        y= "Türkiye",
        title="Türkiye's Voluntary schemes/household out-of-pocket payments/% of current expenditure on health",
    )

trendlin.add_trace(
go.Scatter(
    x = [1,5],
    y = [analys.predict()[0], analys.predict()[4]],
)
 )   

trendlin.add_trace(
go.Scatter(
    x = [5,6],
    y = [analys.predict()[4], analys.predict()[5]]
)

 )

trendlin.add_trace(
go.Scatter(
    x = [6,21],
    y = [analys.predict()[5], analys.predict()[20]]
)

 )  

trendlin.show() 



print(analys.summary())

print("###########################")
print("Hataların Normal Dağılması", end="\n\n")
residual_values = analys.resid
print("H0: Normal dağılım varsayımı sağlanmaktadır.")
print("H1: Normal dağılım varsayımı sağlanmamaktadır.", end="\n\n")
test_stat, pvalue = stats.shapiro(residual_values)
print(f'Test Stat = {round(test_stat, 4)}, p-value = {round(pvalue, 4)}')
if pvalue<0.05:
    print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar normal dağılmamıştır.")
elif pvalue>0.05:
     print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar normal dağılmıştır.", end="\n\n")
hist = express.histogram(residual_values, title="Hataların Dağılımı")
hist.show()
print("###########################")
print("Hataların Rassallığı", end="\n\n")
print("     Hataların Durağanlığı", end="\n\n")
adfullery = adfuller(residual_values)
print(f'Test Stat = {round(adfullery[0], 4)}, p-value = {round(adfullery[1], 4)}')
if adfullery[1]<0.05:
    print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.")
elif adfullery[1]>0.05:
    print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.", end="\n\n")
resid_scatter = express.scatter(
    df_2,
    x="t",
    y=residual_values,
    title="Hataların Rassallığı"
)
resid_scatter.show()
print("     Hataların Otokorelasyonu", end="\n\n")
print("Ljung-Box q istatistiğinin Hipotezleri")
print("H0: Veriler bağımsız (random) olarak dağılmıştır.")
print("H1: Veriler bağımsız (random) olarak dağılmamıştır.", end="\n\n")
acf_df = pd.DataFrame(pd.DataFrame(acf(residual_values, qstat=True)).T)
acf_df.columns = ["ACF", "Ljung-Box q statistic", "p-value"]
display(acf_df[1:6])
create_corr_plot(residual_values)

                            OLS Regression Results                            
Dep. Variable:                Türkiye   R-squared:                       0.730
Model:                            OLS   Adj. R-squared:                  0.683
Method:                 Least Squares   F-statistic:                     15.33
Date:                Tue, 31 Jan 2023   Prob (F-statistic):           4.37e-05
Time:                        19:08:22   Log-Likelihood:                -50.546
No. Observations:                  21   AIC:                             109.1
Df Residuals:                      17   BIC:                             113.3
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
const            38.8448      3.131     12.407

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -3.6019, p-value = 0.0057
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.639759,11.593548,0.003037
2,0.259295,11.699125,0.008488
3,-0.062726,15.175824,0.00435
4,-0.349812,19.771933,0.001379
5,-0.390195,23.269251,0.000711
