In [40]:
import scipy.stats as sp
import numpy as np 
import pandas as pd

misto = ["Praha", "Brno", "Znojmo", "Tišnov", "Rokytnice nad Jizerou", "Jablunkov", "Dolní Věstonice", "Moje okolí"]
odpoved = ["Zimní čas", "Letní čas", "Střídání časů", "Nemá názor"]

zimni_cas = np.array([510, 324, 302, 257, 147, 66, 87, 3])
letni_cas = np.array([352, 284, 185, 178, 87, 58, 65, 24])
stridani = np.array([257, 178, 124, 78, 44, 33, 31, 18])
nema_nazor = np.array([208, 129, 70, 74, 6, 19, 32, 15])


data =  np.array([zimni_cas, letni_cas, stridani, nema_nazor])

df = pd.DataFrame(data, columns=misto, index=odpoved)

moje_okoli = df['Moje okolí']
vetsi_mesta = df['Praha'] + df['Brno']
mensi_mesta = df['Znojmo'] + df['Tišnov']
obce = df['Rokytnice nad Jizerou'] + df['Jablunkov'] + df['Dolní Věstonice']

display(df)

# Celkovy pocet respondentu
n = df.sum().sum()
print('Počet respondentů: ', end='')
print(n)


# Sumy řádků
row_sums = df.sum(axis=1)
print('\nSumy řádků: ')
print(row_sums)

# Sumy sloupců
column_sum = df.sum(axis=0)
print('\nSumy sloupců: ')
print(column_sum)

display(data)


Unnamed: 0,Praha,Brno,Znojmo,Tišnov,Rokytnice nad Jizerou,Jablunkov,Dolní Věstonice,Moje okolí
Zimní čas,510,324,302,257,147,66,87,3
Letní čas,352,284,185,178,87,58,65,24
Střídání časů,257,178,124,78,44,33,31,18
Nemá názor,208,129,70,74,6,19,32,15


Počet respondentů: 4245

Sumy řádků: 
Zimní čas        1696
Letní čas        1233
Střídání časů     763
Nemá názor        553
dtype: int64

Sumy sloupců: 
Praha                    1327
Brno                      915
Znojmo                    681
Tišnov                    587
Rokytnice nad Jizerou     284
Jablunkov                 176
Dolní Věstonice           215
Moje okolí                 60
dtype: int64


array([[510, 324, 302, 257, 147,  66,  87,   3],
       [352, 284, 185, 178,  87,  58,  65,  24],
       [257, 178, 124,  78,  44,  33,  31,  18],
       [208, 129,  70,  74,   6,  19,  32,  15]])

In [41]:
# Úkol 1
# Část a)

# Teoreticka cetnost
zimni_cas_teor = (row_sums['Zimní čas']/n) * column_sum

print('Teoreticka cetnost:')
display(zimni_cas_teor)

# Testovaci kriterium
test = np.sum((zimni_cas - zimni_cas_teor) **2/zimni_cas_teor)
print('Testovací kritérium:', test)

k = len(zimni_cas)
chi = sp.chi2.ppf(0.95, k - 1 - 1)

print('Doplněk kritického oboru = (0, ' , chi , ')')
print('\nTestovací kritérium ∉ doplňku kritického oboru => Hypotézu zamítáme')


Teoreticka cetnost:


Praha                    530.174794
Brno                     365.568905
Znojmo                   272.079152
Tišnov                   234.523439
Rokytnice nad Jizerou    113.466196
Jablunkov                 70.317079
Dolní Věstonice           85.898704
Moje okolí                23.971731
dtype: float64

Testovací kritérium: 39.47600765833067
Doplněk kritického oboru = (0,  12.591587243743977 )

Testovací kritérium ∉ doplňku kritického oboru => Hypotézu zamítáme


In [42]:
# Úkol 1
# Část b)

# Teoreticka cetnost
letni_cas_teor = (row_sums['Letní čas']/n) * column_sum

print('Teoreticka cetnost:')
display(letni_cas_teor)

# Testovaci kriterium
test = np.sum((letni_cas - letni_cas_teor) **2/letni_cas_teor)
print('Testovací kritérium:', test)

k = len(letni_cas)
chi = sp.chi2.ppf(0.95, k - 1 - 1)


print('Doplněk kritického oboru = (0, ' , chi , ')')
print('\nTestovací kritérium ∈ doplňku kritického oboru => Hypotézu nezamítáme')

Teoreticka cetnost:


Praha                    385.439576
Brno                     265.770318
Znojmo                   197.802827
Tišnov                   170.499647
Rokytnice nad Jizerou     82.490459
Jablunkov                 51.120848
Dolní Věstonice           62.448763
Moje okolí                17.427562
dtype: float64

Testovací kritérium: 9.065245256885252
Doplněk kritického oboru = (0,  12.591587243743977 )

Testovací kritérium ∈ doplňku kritického oboru => Hypotézu nezamítáme


In [43]:
# Úkol 1
# Část c)

# Teoreticka cetnost
stridani_teor = (row_sums['Střídání časů']/n) * column_sum

print('Teoreticka cetnost:')
display(stridani_teor)

# Testovaci kriterium
test = np.sum((stridani - stridani_teor) **2/stridani_teor)
print('Testovací kritérium:', test)

k = len(stridani)
chi = sp.chi2.ppf(0.95, k - 1 - 1)


print('Doplněk kritického oboru = (0, ' , chi , ')')
print('\nTestovací kritérium ∉ doplňku kritického oboru => Hypotézu zamítáme')

Teoreticka cetnost:


Praha                    238.516137
Brno                     164.462898
Znojmo                   122.403534
Tišnov                   105.507892
Rokytnice nad Jizerou     51.046408
Jablunkov                 31.634393
Dolní Věstonice           38.644287
Moje okolí                10.784452
dtype: float64

Testovací kritérium: 17.110773320956582
Doplněk kritického oboru = (0,  12.591587243743977 )

Testovací kritérium ∉ doplňku kritického oboru => Hypotézu zamítáme


In [44]:
# Úkol 1
# Část d)

misto = ["Praha", "Brno", "Znojmo", "Tišnov", "Rokytnice nad Jizerou", "Jablunkov", "Dolní Věstonice", "Moje okolí"]
odpoved = ["Zimní čas", "Letní čas", "Střídání časů", "Nemá názor"]

data_merged =  np.array([vetsi_mesta, mensi_mesta, obce]).T

df_merged = pd.DataFrame(data_merged, columns=['Větší města', 'Menší města', 'Obce'], index=odpoved)

display(df_merged)

# Celkovy pocet respondentu
n_merged = df_merged.sum().sum()
print('Počet respondentů: ', end='')
print(n_merged)


# Sumy řádků
row_sums_merged = df_merged.sum(axis=1)
print('\nSumy řádků: ')
print(row_sums_merged)

# Sumy sloupců
column_sum_merged = df_merged.sum(axis=0)
print('\nSumy sloupců: ')
print(column_sum_merged)


Unnamed: 0,Větší města,Menší města,Obce
Zimní čas,834,559,300
Letní čas,636,363,210
Střídání časů,435,202,108
Nemá názor,337,144,57


Počet respondentů: 4185

Sumy řádků: 
Zimní čas        1693
Letní čas        1209
Střídání časů     745
Nemá názor        538
dtype: int64

Sumy sloupců: 
Větší města    2242
Menší města    1268
Obce            675
dtype: int64


In [45]:
# Teoreticka cetnost
zimni_cas_teor = (row_sums_merged['Zimní čas']/n_merged) * column_sum_merged

print('Teoreticka cetnost:')
display(zimni_cas_teor)


# Testovaci kriterium
test = np.sum((df_merged.loc['Zimní čas'] - zimni_cas_teor) **2/zimni_cas_teor)
print('\nTestovací kritérium:', test)

k = len(df_merged.loc['Zimní čas'])
chi = sp.chi2.ppf(0.95, k - 1 - 1)

print('Doplněk kritického oboru = (0, ' , chi , ')')
print('\nTestovací kritérium ∉ doplňku kritického oboru => Hypotézu zamítáme')

Teoreticka cetnost:


Větší města    906.978734
Menší města    512.956750
Obce           273.064516
dtype: float64


Testovací kritérium: 12.661948651569508
Doplněk kritického oboru = (0,  3.841458820694124 )

Testovací kritérium ∉ doplňku kritického oboru => Hypotézu zamítáme


In [46]:
# Úkol 1
# Část e)

# Teoreticka cetnost
nerozhodni_teor = (row_sums_merged['Nemá názor']/n_merged) * column_sum_merged

print('Teoreticka cetnost:')
display(nerozhodni_teor)


# Testovaci kriterium
test = np.sum((df_merged.loc['Nemá názor'] - nerozhodni_teor) **2/nerozhodni_teor)
print('\nTestovací kritérium:', test)

k = len(df_merged.loc['Nemá názor'])
chi = sp.chi2.ppf(0.95, k - 1 - 1)

print('Doplněk kritického oboru = (0, ' , chi , ')')
print('\nTestovací kritérium ∉ doplňku kritického oboru => Hypotézu zamítáme')


Teoreticka cetnost:


Větší města    288.218877
Menší města    163.006930
Obce            86.774194
dtype: float64


Testovací kritérium: 20.688664757394136
Doplněk kritického oboru = (0,  3.841458820694124 )

Testovací kritérium ∉ doplňku kritického oboru => Hypotézu zamítáme


In [47]:
# Kategoriální analýza – Test dobré shody
def calculateCategoricalAnalysis(df, cols):
    n = df.sum().sum()
    
    column_sums = df.sum(axis=0)
    row_sums = df.sum(axis=1)

    cetnost = list()
    for row_index, row in enumerate(data):
        cetnost.insert(row_index, [])
        for column_index, number in enumerate(row):
            cetnost[row_index].insert(column_index, (column_sums[column_index] * row_sums[row_index]) / n)

    df = pd.DataFrame(cetnost, columns=cols, index=odpoved)

    print('(row_sum * column_sum) / n : ')
    display(df)

    mezivysledek = data - cetnost

    vysledek = mezivysledek**2 / cetnost

    df = pd.DataFrame(vysledek, columns=cols, index=odpoved)

    test = df.sum().sum()

    print('Testovaci kriterium: ', test)

In [48]:
# Korelace s většími městy
data =  np.transpose(np.array([vetsi_mesta, moje_okoli]))
cols = ['Větší města', 'Moje okolí']

df_vetsi = pd.DataFrame(data, columns=cols, index=odpoved)

calculateCategoricalAnalysis(df_vetsi, cols)

(row_sum * column_sum) / n : 


Unnamed: 0,Větší města,Moje okolí
Zimní čas,815.184188,21.815812
Letní čas,642.797567,17.202433
Střídání časů,441.192876,11.807124
Nemá názor,342.825369,9.174631


Testovaci kriterium:  26.553486315241503


In [49]:
# Korelace s menšími městy
data =  np.transpose(np.array([mensi_mesta, moje_okoli]))
cols = ['Menší města', 'Moje okolí']

df_vetsi = pd.DataFrame(data, columns=cols, index=odpoved)

calculateCategoricalAnalysis(df_vetsi, cols)

(row_sum * column_sum) / n : 


Unnamed: 0,Menší města,Moje okolí
Zimní čas,536.608434,25.391566
Letní čas,369.51506,17.48494
Střídání časů,210.060241,9.939759
Nemá názor,151.816265,7.183735


Testovaci kriterium:  38.97512681513424


In [50]:
# Korelace s obcemi
data =  np.transpose(np.array([obce, moje_okoli]))
cols = ['Obce', 'Moje okolí']

df_vetsi = pd.DataFrame(data, columns=cols, index=odpoved)

calculateCategoricalAnalysis(df_vetsi, cols)

(row_sum * column_sum) / n : 


Unnamed: 0,Obce,Moje okolí
Zimní čas,278.265306,24.734694
Letní čas,214.897959,19.102041
Střídání časů,115.714286,10.285714
Nemá názor,66.122449,5.877551


Testovaci kriterium:  43.88108709909453


Nejvyšší testovací kritérium vyšlo u obcí, což znamená, že data z mého okolí nejvíce odpovídají datům z obcí, což odpovídá i realitě, jelikož jsem průzkum prováděl v menší obci.