**Problem 5c (Chi-square independence test).** 
You are given the results of IPSOS exit polls for 2015 parliamentary elections in Poland in table **data**. Decide if we can assume that gender has no effect on voting preferences. To this end:
 * Compute row totals $r_i$, column totals $c_j$, and overall total $N$.
 * If the variables are independent, we expect to see $f_{ij} = r_i c_j / N$ in $i$-th row $j$-th column.
 * Compute the test statistic as before, i.e. $$ S = \sum_{ij} \frac{\left(f_{ij}-X_{ij}\right)^2}{f_{ij}}.$$
 * Again test vs $\chi^2$ CDF. However, if the variables are independent, we only have $(r-1)(c-1)$ degrees of freedom here (we only need to know the row and column totals).
 * One obvious offender is the KORWiN party, try removing the last column and repeating the experiment.
 
**Note:** This kind of data is (to the best of our knowledge) not available online. It has been recreated based on
online infographics and other tidbits of information available online. It is definitely not completely accurate, hopefully it is not very far off. Moreover, exit polls do not necessary reflect the actual distribution of the population.

In [22]:
import numpy as np
from scipy import stats
# Rows: women, men
# Columns: PiS, PO, Kukiz, Nowoczesna, Lewica, PSL, Razem, KORWiN
#data = np.array([ [39.7,26.4,7.5,7.1,6.6,5.0,4.2,2.8], 
#                  [38.5,20.3,10.6,7.1,6.6,5.4,3.5,7.1]])
data = np.array([[ 17508, 11642,  3308,  3131,  2911,  2205,  1852, 1235],
 [ 17672,  9318,  4865,  3259,  3029,  2479,  1606, 3259]])
data_without_KORWiN = data[:, :-1]


def calc(data):
    rows = len(data)
    columns = len(data[0])
    total_sum = np.sum(data)
    row_sum = np.sum(data, axis=1)
    col_sum = np.sum(data, axis=0)
    k = 0
    
    for i in range(rows):
        for j in range(columns):
            expected = row_sum[i] * col_sum[j] / total_sum
            actual = data[i][j]
            k += ((actual - expected) ** 2) / expected
            
    return 1 - stats.chi2.cdf(k, (rows - 1) * (columns - 1))


alpha = 0.05

print("Czy wyniki wyborów są niezależne od płci?")
if calc(data) > alpha:
    print("Brak podstaw do odrzucenia tezy.")
else:
    print("Wyniki wyborów nie są niezależne od płci.")

print()

print("Czy wyniki wyborów bez partii KORWiN są niezależne od płci?")
if calc(data_without_KORWiN) > alpha:
    print("Brak podstaw do odrzucenia tezy.")
else:
    print("Wyniki wyborów nie są niezależne od płci.")

Czy wyniki wyborów są niezależne od płci?
Wyniki wyborów nie są niezależne od płci.

Czy wyniki wyborów bez partii KORWiN są niezależne od płci?
Wyniki wyborów nie są niezależne od płci.
