# Veri Analizleri

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

In [2]:
from plotly import express
from plotly import graph_objects
from plotly import io

io.templates.default = "plotly_dark"

In [3]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.tsa.stattools import adfuller, acf, breakvar_heteroskedasticity_test

In [4]:
from statsmodels.graphics import tsaplots
import matplotlib.pyplot as plt

In [5]:
import plotly.graph_objects as go
import statsmodels.api as sm 

In [6]:
country_name = ["France", "Greece",	"Italy", "Portugal", "Spain", "Türkiye"]

In [7]:
df_2 = pd.read_excel("OECD VERİLERİ ELİF BAĞCI TEZ V0_python.xlsx", sheet_name=8, header=1 )
df_2.head()

Unnamed: 0.1,Unnamed: 0,France,Greece,Italy,Portugal,Spain,Türkiye,t,interruption,interrupted t
0,2000,7.273,36.272114,26.464,25.715,24.324,28.906,1,0,0
1,2001,7.336,34.778317,24.477,25.109,24.852,23.432,2,0,0
2,2002,7.138,37.380192,24.125,23.18,24.6,20.321,3,0,0
3,2003,7.377,37.9,23.719,23.691,22.457,18.931,4,0,0
4,2004,7.246,38.961,22.833,23.505,22.159,20.182,5,0,0


In [8]:
def create_corr_plot(series, plot_pacf=False):
    corr_array = pacf(series.dropna(), alpha=0.05) if plot_pacf else acf(series.dropna(), alpha=0.05)
    lower_y = corr_array[1][:,0] - corr_array[0]
    upper_y = corr_array[1][:,1] - corr_array[0]

    fig = go.Figure()
    [fig.add_scatter(x=(x,x), y=(0,corr_array[0][x]), mode='lines',line_color='#3f3f3f') 
     for x in range(len(corr_array[0]))]
    fig.add_scatter(x=np.arange(len(corr_array[0])), y=corr_array[0], mode='markers', marker_color='#1f77b4',
                   marker_size=12)
    fig.add_scatter(x=np.arange(len(corr_array[0])), y=upper_y, mode='lines', line_color='rgba(255,255,255,0)')
    fig.add_scatter(x=np.arange(len(corr_array[0])), y=lower_y, mode='lines',fillcolor='rgba(32, 146, 230,0.3)',
            fill='tonexty', line_color='rgba(255,255,255,0)')
    fig.update_traces(showlegend=False)
    fig.update_xaxes(range=[-1,13])
    fig.update_yaxes(zerolinecolor='#000000')
    
    title='Partial Autocorrelation (PACF)' if plot_pacf else 'Autocorrelation (ACF)'
    fig.update_layout(title=title)
    fig.show()

In [9]:
for country in country_name:
    print("###########################")
    print(f"{country}'nin Zaman Serisi Analizi")
    print("###########################")

    trendlin = express.scatter(
        df_2,
        x="t",
        y=f"{country}",
        title=f"{country}'s Out-of-pocket expenditure, % of current expenditure on health",
        trendline = "ols"
    )

    trendlin.show()
    linear_model = ols(f"{country} ~ t", data=df_2).fit()
    print(linear_model.summary())
    print(" ", end="\n")
    print("###########################")
    print("Verinin Durağanlık Kontrolü", end="\n\n")
    print("H0: Seri durağan değildir.")
    print("H1: Seri durağandır.", end="\n\n")
    adfullerx = adfuller(df_2[[f"{country}"]])
    print(f'Test Stat = {round(adfullerx[0], 4)}, p-value = {round(adfullerx[1], 4)}')

    if adfullerx[1]<0.05:
        print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Yani seri durağandır.")
    elif adfullerx[1]>0.05:
        print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani seri durağan değildir.", end="\n\n")
    print("###########################")
    print("Hataların Normal Dağılması", end="\n\n")
    residual_values = linear_model.resid

    print("H0: Normal dağılım varsayımı sağlanmaktadır.")
    print("H1: Normal dağılım varsayımı sağlanmamaktadır.", end="\n\n")

    test_stat, pvalue = stats.shapiro(residual_values)
    print(f'Test Stat = {round(test_stat, 4)}, p-value = {round(pvalue, 4)}')
    if pvalue<0.05:
        print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar normal dağılmamıştır.")
    elif pvalue>0.05:
        print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar normal dağılmıştır.", end="\n\n")
    hist = express.histogram(residual_values, title="Hataların Dağılımı")
    hist.show()

    print("###########################")
    print("Hataların Rassallığı", end="\n\n")

    print("     Hataların Durağanlığı", end="\n\n")

    adfullery = adfuller(residual_values)
    print(f'Test Stat = {round(adfullery[0], 4)}, p-value = {round(adfullery[1], 4)}')

    if adfullery[1]<0.05:
        print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.")
    elif adfullery[1]>0.05:
        print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.", end="\n\n")

    resid_scatter = express.scatter(
        df_2,
        x="t",
        y=residual_values,
        title="Hataların Rassallığı"
    )

    resid_scatter.show()


    print("     Hataların Otokorelasyonu", end="\n\n")

    print("Ljung-Box q istatistiğinin Hipotezleri")
    print("H0: Veriler bağımsız (random) olarak dağılmıştır.")
    print("H1: Veriler bağımsız (random) olarak dağılmamıştır.", end="\n\n")

    acf_df = pd.DataFrame(pd.DataFrame(acf(residual_values, qstat=True)).T)
    acf_df.columns = ["ACF", "Ljung-Box q statistic", "p-value"]
    display(acf_df[1:6])

    create_corr_plot(residual_values)


###########################
France'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                 France   R-squared:                       0.475
Model:                            OLS   Adj. R-squared:                  0.447
Method:                 Least Squares   F-statistic:                     17.18
Date:                Tue, 31 Jan 2023   Prob (F-statistic):           0.000551
Time:                        19:18:22   Log-Likelihood:                -26.471
No. Observations:                  21   AIC:                             56.94
Df Residuals:                      19   BIC:                             59.03
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      7.6099      0.406     18.742      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -0.7157, p-value = 0.8426
p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.



     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.76636,22.130502,1.6e-05
2,0.55912,24.634338,1.8e-05
3,0.305468,24.718373,5.7e-05
4,0.054385,25.519815,0.000111
5,-0.162938,29.624775,4.6e-05


###########################
Greece'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                 Greece   R-squared:                       0.080
Model:                            OLS   Adj. R-squared:                  0.032
Method:                 Least Squares   F-statistic:                     1.653
Date:                Tue, 31 Jan 2023   Prob (F-statistic):              0.214
Time:                        19:18:22   Log-Likelihood:                -50.416
No. Observations:                  21   AIC:                             104.8
Df Residuals:                      19   BIC:                             106.9
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     35.8801      1.270     28.256      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -4.1377, p-value = 0.0008
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.748314,18.302293,0.000106
2,0.433579,18.659061,0.000322
3,0.115307,19.924712,0.000517
4,-0.211061,27.436561,4.7e-05
5,-0.498838,38.15278,1e-06


###########################
Italy'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                  Italy   R-squared:                       0.057
Model:                            OLS   Adj. R-squared:                  0.007
Method:                 Least Squares   F-statistic:                     1.140
Date:                Tue, 31 Jan 2023   Prob (F-statistic):              0.299
Time:                        19:18:22   Log-Likelihood:                -36.501
No. Observations:                  21   AIC:                             77.00
Df Residuals:                      19   BIC:                             79.09
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     23.2968      0.655     35.588      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -3.1309, p-value = 0.0244
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.673036,16.853937,0.000219
2,0.482351,18.897461,0.000287
3,0.275964,19.030361,0.000775
4,0.068393,20.350261,0.001074
5,-0.209101,24.140515,0.000492


###########################
Portugal'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:               Portugal   R-squared:                       0.728
Model:                            OLS   Adj. R-squared:                  0.713
Method:                 Least Squares   F-statistic:                     50.76
Date:                Tue, 31 Jan 2023   Prob (F-statistic):           8.96e-07
Time:                        19:18:22   Log-Likelihood:                -34.728
No. Observations:                  21   AIC:                             73.46
Df Residuals:                      19   BIC:                             75.55
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     23.0953      0.602     38.388      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -2.6045, p-value = 0.0921
p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.



     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.344514,2.940954,0.229816
2,-0.05417,3.737725,0.291213
3,-0.172318,4.609113,0.329805
4,-0.175128,4.789475,0.44211
5,-0.077296,4.809406,0.568481


###########################
Spain'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                  Spain   R-squared:                       0.157
Model:                            OLS   Adj. R-squared:                  0.112
Method:                 Least Squares   F-statistic:                     3.534
Date:                Tue, 31 Jan 2023   Prob (F-statistic):             0.0755
Time:                        19:18:22   Log-Likelihood:                -36.479
No. Observations:                  21   AIC:                             76.96
Df Residuals:                      19   BIC:                             79.05
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     22.9867      0.654     35.152      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -3.8473, p-value = 0.0025
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.724071,17.575195,0.000153
2,0.439658,18.170512,0.000406
3,0.148949,18.248621,0.001103
4,-0.052433,20.110111,0.001192
5,-0.248323,25.507039,0.000275


###########################
Türkiye'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                Türkiye   R-squared:                       0.507
Model:                            OLS   Adj. R-squared:                  0.482
Method:                 Least Squares   F-statistic:                     19.58
Date:                Tue, 31 Jan 2023   Prob (F-statistic):           0.000291
Time:                        19:18:22   Log-Likelihood:                -49.113
No. Observations:                  21   AIC:                             102.2
Df Residuals:                      19   BIC:                             104.3
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     23.7825      1.193     19.928      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -1.4502, p-value = 0.558
p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.



     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.471042,5.405158,0.067032
2,-0.042881,8.583106,0.035379
3,-0.344141,12.335971,0.01502
4,-0.36344,12.414368,0.029531
5,-0.050961,12.693377,0.048172


# Interrupted Time Series for Türkiye

    Yukarıda referans ülkelerin ve Türkiye'nin zaman serisi regresyon analizi sonuçlarına bakılırken, bu kısımdan itibaren Türkiye için interrupted time series analysis yapılmıştır.

In [10]:
X = df_2[["t", "interruption", "interrupted t"]]
y = df_2["Türkiye"]

X = sm.add_constant(X) 

analys= sm.OLS(y, X).fit()

trendlin = express.scatter(
        df_2,
        x="t",
        y= "Türkiye",
        title="Türkiye's Out-of-pocket expenditure, % of current expenditure on health",
    )

trendlin.add_trace(
go.Scatter(
    x = [1,5],
    y = [analys.predict()[0], analys.predict()[4]],
)
 )   

trendlin.add_trace(
go.Scatter(
    x = [5,6],
    y = [analys.predict()[4], analys.predict()[5]]
)

 )

trendlin.add_trace(
go.Scatter(
    x = [6,21],
    y = [analys.predict()[5], analys.predict()[20]]
)

 )  

trendlin.show() 



print(analys.summary())

print("###########################")
print("Hataların Normal Dağılması", end="\n\n")
residual_values = analys.resid
print("H0: Normal dağılım varsayımı sağlanmaktadır.")
print("H1: Normal dağılım varsayımı sağlanmamaktadır.", end="\n\n")
test_stat, pvalue = stats.shapiro(residual_values)
print(f'Test Stat = {round(test_stat, 4)}, p-value = {round(pvalue, 4)}')
if pvalue<0.05:
    print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar normal dağılmamıştır.")
elif pvalue>0.05:
     print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar normal dağılmıştır.", end="\n\n")
hist = express.histogram(residual_values, title="Hataların Dağılımı")
hist.show()
print("###########################")
print("Hataların Rassallığı", end="\n\n")
print("     Hataların Durağanlığı", end="\n\n")
adfullery = adfuller(residual_values)
print(f'Test Stat = {round(adfullery[0], 4)}, p-value = {round(adfullery[1], 4)}')
if adfullery[1]<0.05:
    print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.")
elif adfullery[1]>0.05:
    print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.", end="\n\n")
resid_scatter = express.scatter(
    df_2,
    x="t",
    y=residual_values,
    title="Hataların Rassallığı"
)
resid_scatter.show()
print("     Hataların Otokorelasyonu", end="\n\n")
print("Ljung-Box q istatistiğinin Hipotezleri")
print("H0: Veriler bağımsız (random) olarak dağılmıştır.")
print("H1: Veriler bağımsız (random) olarak dağılmamıştır.", end="\n\n")
acf_df = pd.DataFrame(pd.DataFrame(acf(residual_values, qstat=True)).T)
acf_df.columns = ["ACF", "Ljung-Box q statistic", "p-value"]
display(acf_df[1:6])
create_corr_plot(residual_values)

                            OLS Regression Results                            
Dep. Variable:                Türkiye   R-squared:                       0.626
Model:                            OLS   Adj. R-squared:                  0.560
Method:                 Least Squares   F-statistic:                     9.499
Date:                Tue, 31 Jan 2023   Prob (F-statistic):           0.000650
Time:                        19:18:22   Log-Likelihood:                -46.212
No. Observations:                  21   AIC:                             100.4
Df Residuals:                      17   BIC:                             104.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
const            28.9391      2.547     11.362

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -2.9431, p-value = 0.0406
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.591161,8.86149,0.011906
2,0.128806,9.422986,0.024165
3,-0.144656,13.148003,0.010575
4,-0.362089,18.123008,0.002796
5,-0.40596,19.479414,0.003426
