# Veri Analizleri

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

In [2]:
from plotly import express
from plotly import graph_objects
from plotly import io

io.templates.default = "plotly_dark"

In [3]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.tsa.stattools import adfuller, acf, breakvar_heteroskedasticity_test

In [4]:
from statsmodels.graphics import tsaplots
import matplotlib.pyplot as plt

In [5]:
import plotly.graph_objects as go
import statsmodels.api as sm 

In [6]:
country_name = ["France", "Greece",	"Italy", "Portugal", "Spain", "Türkiye"]

In [7]:
df_2 = pd.read_excel("OECD VERİLERİ ELİF BAĞCI TEZ V0_python.xlsx", sheet_name=2, header=1 )
df_2.head()

Unnamed: 0.1,Unnamed: 0,France,Greece,Italy,Portugal,Spain,Türkiye,t,interruption,interrupted t
0,2000,9.584,7.243,7.567,8.601,6.799,4.6,1,0,0
1,2001,9.706,7.988,7.738,8.628,6.769,4.888,2,0,0
2,2002,10.022,8.234,7.867,8.786,6.801,5.062,3,0,0
3,2003,10.083,8.449,7.833,9.124,7.563,5.014,4,0,0
4,2004,10.164,8.094,8.165,9.533,7.658,4.91,5,0,0


In [8]:
def create_corr_plot(series, plot_pacf=False):
    corr_array = pacf(series.dropna(), alpha=0.05) if plot_pacf else acf(series.dropna(), alpha=0.05)
    lower_y = corr_array[1][:,0] - corr_array[0]
    upper_y = corr_array[1][:,1] - corr_array[0]

    fig = go.Figure()
    [fig.add_scatter(x=(x,x), y=(0,corr_array[0][x]), mode='lines',line_color='#3f3f3f') 
     for x in range(len(corr_array[0]))]
    fig.add_scatter(x=np.arange(len(corr_array[0])), y=corr_array[0], mode='markers', marker_color='#1f77b4',
                   marker_size=12)
    fig.add_scatter(x=np.arange(len(corr_array[0])), y=upper_y, mode='lines', line_color='rgba(255,255,255,0)')
    fig.add_scatter(x=np.arange(len(corr_array[0])), y=lower_y, mode='lines',fillcolor='rgba(32, 146, 230,0.3)',
            fill='tonexty', line_color='rgba(255,255,255,0)')
    fig.update_traces(showlegend=False)
    fig.update_xaxes(range=[-1,13])
    fig.update_yaxes(zerolinecolor='#000000')
    
    title='Partial Autocorrelation (PACF)' if plot_pacf else 'Autocorrelation (ACF)'
    fig.update_layout(title=title)
    fig.show()

In [9]:
for country in country_name:
    print("###########################")
    print(f"{country}'nin Zaman Serisi Analizi")
    print("###########################")

    trendlin = express.scatter(
        df_2,
        x="t",
        y=f"{country}",
        title=f"{country}'s Current expenditure on health, % of gross domestic product",
        trendline = "ols"
    )

    trendlin.show()
    linear_model = ols(f"{country} ~ t", data=df_2).fit()
    print(linear_model.summary())
    print(" ", end="\n")
    print("###########################")
    print("Verinin Durağanlık Kontrolü", end="\n\n")
    print("H0: Seri durağan değildir.")
    print("H1: Seri durağandır.", end="\n\n")
    adfullerx = adfuller(df_2[[f"{country}"]])
    print(f'Test Stat = {round(adfullerx[0], 4)}, p-value = {round(adfullerx[1], 4)}')

    if adfullerx[1]<0.05:
        print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Yani seri durağandır.")
    elif adfullerx[1]>0.05:
        print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani seri durağan değildir.", end="\n\n")
    print("###########################")
    print("Hataların Normal Dağılması", end="\n\n")
    residual_values = linear_model.resid

    print("H0: Normal dağılım varsayımı sağlanmaktadır.")
    print("H1: Normal dağılım varsayımı sağlanmamaktadır.", end="\n\n")

    test_stat, pvalue = stats.shapiro(residual_values)
    print(f'Test Stat = {round(test_stat, 4)}, p-value = {round(pvalue, 4)}')
    if pvalue<0.05:
        print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar normal dağılmamıştır.")
    elif pvalue>0.05:
        print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar normal dağılmıştır.", end="\n\n")
    hist = express.histogram(residual_values, title="Hataların Dağılımı")
    hist.show()

    print("###########################")
    print("Hataların Rassallığı", end="\n\n")

    print("     Hataların Durağanlığı", end="\n\n")

    adfullery = adfuller(residual_values)
    print(f'Test Stat = {round(adfullery[0], 4)}, p-value = {round(adfullery[1], 4)}')

    if adfullery[1]<0.05:
        print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.")
    elif adfullery[1]>0.05:
        print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.", end="\n\n")

    resid_scatter = express.scatter(
        df_2,
        x="t",
        y=residual_values,
        title="Hataların Rassallığı"
    )

    resid_scatter.show()


    print("     Hataların Otokorelasyonu", end="\n\n")

    print("Ljung-Box q istatistiğinin Hipotezleri")
    print("H0: Veriler bağımsız (random) olarak dağılmıştır.")
    print("H1: Veriler bağımsız (random) olarak dağılmamıştır.", end="\n\n")

    acf_df = pd.DataFrame(pd.DataFrame(acf(residual_values, qstat=True)).T)
    acf_df.columns = ["ACF", "Ljung-Box q statistic", "p-value"]
    display(acf_df[1:6])

    create_corr_plot(residual_values)


###########################
France'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                 France   R-squared:                       0.832
Model:                            OLS   Adj. R-squared:                  0.823
Method:                 Least Squares   F-statistic:                     93.96
Date:                Sat, 04 Feb 2023   Prob (F-statistic):           8.67e-09
Time:                        14:19:34   Log-Likelihood:                -3.4373
No. Observations:                  21   AIC:                             10.87
Df Residuals:                      19   BIC:                             12.96
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      9.6921      0.136     71.484      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -3.2538, p-value = 0.0171
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.424596,4.762776,0.092422
2,0.126839,4.784537,0.188272
3,0.028477,4.845543,0.303516
4,-0.046338,5.683216,0.338273
5,-0.16658,6.781309,0.341546


###########################
Greece'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                 Greece   R-squared:                       0.081
Model:                            OLS   Adj. R-squared:                  0.032
Method:                 Least Squares   F-statistic:                     1.665
Date:                Sat, 04 Feb 2023   Prob (F-statistic):              0.212
Time:                        14:19:34   Log-Likelihood:                -17.042
No. Observations:                  21   AIC:                             38.08
Df Residuals:                      19   BIC:                             40.17
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      8.1901      0.259     31.602      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -3.1304, p-value = 0.0244
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.531752,8.359215,0.015305
2,0.245374,8.360652,0.039118
3,0.007317,8.483471,0.07539
4,-0.065748,10.325355,0.066524
5,-0.247012,13.105495,0.041391


###########################
Italy'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                  Italy   R-squared:                       0.703
Model:                            OLS   Adj. R-squared:                  0.687
Method:                 Least Squares   F-statistic:                     44.87
Date:                Sat, 04 Feb 2023   Prob (F-statistic):           2.10e-06
Time:                        14:19:34   Log-Likelihood:                -1.7034
No. Observations:                  21   AIC:                             7.407
Df Residuals:                      19   BIC:                             9.496
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      7.7872      0.125     62.378      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -2.4574, p-value = 0.1262
p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.



     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.403689,4.457754,0.107649
2,0.143317,4.528345,0.209776
3,0.051291,4.532145,0.338753
4,0.011564,4.618096,0.46424
5,-0.05336,5.541068,0.476507


###########################
Portugal'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:               Portugal   R-squared:                       0.301
Model:                            OLS   Adj. R-squared:                  0.264
Method:                 Least Squares   F-statistic:                     8.180
Date:                Sat, 04 Feb 2023   Prob (F-statistic):             0.0100
Time:                        14:19:34   Log-Likelihood:                -9.2624
No. Observations:                  21   AIC:                             22.52
Df Residuals:                      19   BIC:                             24.61
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      8.9947      0.179     50.271      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -4.5992, p-value = 0.0001
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.551897,8.262774,0.016061
2,0.188881,8.359322,0.039141
3,-0.059984,8.576259,0.072609
4,-0.087381,8.986011,0.109623
5,-0.116506,10.043198,0.122845


###########################
Spain'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                  Spain   R-squared:                       0.807
Model:                            OLS   Adj. R-squared:                  0.797
Method:                 Least Squares   F-statistic:                     79.61
Date:                Sat, 04 Feb 2023   Prob (F-statistic):           3.19e-08
Time:                        14:19:34   Log-Likelihood:                -12.202
No. Observations:                  21   AIC:                             28.40
Df Residuals:                      19   BIC:                             30.49
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      6.8693      0.206     33.376      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -1.6881, p-value = 0.4372
p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.



     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.51298,7.868467,0.019561
2,0.243997,7.892361,0.048289
3,0.02984,8.25259,0.082752
4,-0.1126,8.840398,0.115602
5,-0.139542,10.576406,0.102384


###########################
Türkiye'nin Zaman Serisi Analizi
###########################


                            OLS Regression Results                            
Dep. Variable:                Türkiye   R-squared:                       0.437
Model:                            OLS   Adj. R-squared:                  0.408
Method:                 Least Squares   F-statistic:                     14.77
Date:                Sat, 04 Feb 2023   Prob (F-statistic):            0.00110
Time:                        14:19:34   Log-Likelihood:                -4.6310
No. Observations:                  21   AIC:                             13.26
Df Residuals:                      19   BIC:                             15.35
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      5.1957      0.144     36.203      0.0

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -7.4789, p-value = 0.0
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.64503,12.70212,0.001745
2,0.323124,13.123012,0.004378
3,0.125241,13.362679,0.009633
4,-0.091845,16.142803,0.006448
5,-0.303472,22.287058,0.001074


# Interrupted Time Series for Türkiye

    Yukarıda referans ülkelerin ve Türkiye'nin zaman serisi regresyon analizi sonuçlarına bakılırken, bu kısımdan itibaren Türkiye için interrupted time series analysis yapılmıştır.

In [10]:
X = df_2[["t", "interruption", "interrupted t"]]
y = df_2["Türkiye"]

X = sm.add_constant(X) 

analys= sm.OLS(y, X).fit()

trendlin = express.scatter(
        df_2,
        x="t",
        y= "Türkiye",
        title="Türkiye's Current expenditure on health, % of gross domestic product",
    )

trendlin.add_trace(
go.Scatter(
    x = [1,5],
    y = [analys.predict()[0], analys.predict()[4]],
)
 )   

trendlin.add_trace(
go.Scatter(
    x = [5,6],
    y = [analys.predict()[4], analys.predict()[5]]
)

 )

trendlin.add_trace(
go.Scatter(
    x = [6,21],
    y = [analys.predict()[5], analys.predict()[20]]
)

 )  

trendlin.show() 



print(analys.summary())

print("###########################")
print("Hataların Normal Dağılması", end="\n\n")
residual_values = analys.resid
print("H0: Normal dağılım varsayımı sağlanmaktadır.")
print("H1: Normal dağılım varsayımı sağlanmamaktadır.", end="\n\n")
test_stat, pvalue = stats.shapiro(residual_values)
print(f'Test Stat = {round(test_stat, 4)}, p-value = {round(pvalue, 4)}')
if pvalue<0.05:
    print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar normal dağılmamıştır.")
elif pvalue>0.05:
     print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar normal dağılmıştır.", end="\n\n")
hist = express.histogram(residual_values, title="Hataların Dağılımı")
hist.show()
print("###########################")
print("Hataların Rassallığı", end="\n\n")
print("     Hataların Durağanlığı", end="\n\n")
adfullery = adfuller(residual_values)
print(f'Test Stat = {round(adfullery[0], 4)}, p-value = {round(adfullery[1], 4)}')
if adfullery[1]<0.05:
    print("p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.")
elif adfullery[1]>0.05:
    print("p-value 0.05'ten büyüktür. H0 hipotezi reddedilememiştir. Yani hatalar durağan değildir.", end="\n\n")
resid_scatter = express.scatter(
    df_2,
    x="t",
    y=residual_values,
    title="Hataların Rassallığı"
)
resid_scatter.show()
print("     Hataların Otokorelasyonu", end="\n\n")
print("Ljung-Box q istatistiğinin Hipotezleri")
print("H0: Veriler bağımsız (random) olarak dağılmıştır.")
print("H1: Veriler bağımsız (random) olarak dağılmamıştır.", end="\n\n")
acf_df = pd.DataFrame(pd.DataFrame(acf(residual_values, qstat=True)).T)
acf_df.columns = ["ACF", "Ljung-Box q statistic", "p-value"]
display(acf_df[1:6])
create_corr_plot(residual_values)

                            OLS Regression Results                            
Dep. Variable:                Türkiye   R-squared:                       0.622
Model:                            OLS   Adj. R-squared:                  0.555
Method:                 Least Squares   F-statistic:                     9.310
Date:                Sat, 04 Feb 2023   Prob (F-statistic):           0.000721
Time:                        14:19:34   Log-Likelihood:               -0.46516
No. Observations:                  21   AIC:                             8.930
Df Residuals:                      17   BIC:                             13.11
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
const             4.6710      0.288     16.197

###########################
Hataların Rassallığı

     Hataların Durağanlığı

Test Stat = -3.0095, p-value = 0.034
p-value 0.05'ten küçüktür. H0 hipotezi reddedilmiştir. Hatalar durağandır.


     Hataların Otokorelasyonu

Ljung-Box q istatistiğinin Hipotezleri
H0: Veriler bağımsız (random) olarak dağılmıştır.
H1: Veriler bağımsız (random) olarak dağılmamıştır.



Unnamed: 0,ACF,Ljung-Box q statistic,p-value
1,0.522704,6.728984,0.03458
2,0.071711,7.490489,0.057803
3,-0.168461,11.047677,0.026033
4,-0.353838,15.363202,0.008918
5,-0.378097,17.746058,0.006899
