One-sample t-test 
###### *checks if a sample mean differs from the population mean

In [48]:
import numpy as np
import pandas as pd   
import scipy.stats as stats   
import matplotlib.pyplot as plt
import math      

In [49]:
np.random.seed(6)

population_ages1 = stats.poisson.rvs(loc=18, mu=35, size=150000)
population_ages2 = stats.poisson.rvs(loc=18, mu=10, size=100000)
population_ages = np.concatenate((population_ages1, population_ages2))
print(population_ages1, population_ages2)

minnesota_ages1 = stats.poisson.rvs(loc=18, mu=30, size=30)
minnesota_ages2 = stats.poisson.rvs(loc=18, mu=10, size=20)
minnesota_ages = np.concatenate((minnesota_ages1, minnesota_ages2))
print(minnesota_ages1, minnesota_ages2)

print(population_ages.mean())
print(minnesota_ages.mean())


[62 59 44 ... 60 58 56] [27 28 28 ... 31 37 35]
[41 46 37 55 51 49 47 53 45 46 42 44 38 51 47 46 56 45 43 37 50 51 38 47
 54 46 41 47 42 60] [32 25 22 24 32 29 25 28 28 31 28 29 22 32 36 29 34 28 26 28]
43.000112
39.26


In [50]:
stats.ttest_1samp(a=minnesota_ages,
                  popmean = population_ages.mean())

#at 95% confidence, we DO NOT expect p value to be less then 5%, and then sample data follows population data 

Ttest_1sampResult(statistic=-2.5742714883655027, pvalue=0.013118685425061678)

In [51]:
# calculating means
mean1, mean2 = minnesota_ages.mean(), population_ages.mean()

# calculating sample standard deviations
std1, std2 = minnesota_ages.std(ddof=1), population_ages.std(ddof=1)

# calculating standard error
n1, n2 = len(minnesota_ages), len(population_ages)
se1, se2 = std1/math.sqrt(n1), std2/math.sqrt(n2)

# standard error difference         
sed = math.sqrt(se1**2+se2**2)

#t_stat 
t_stat = (mean1-mean2)/sed

# degrees of freedom 
df = n1+n2-2

# critical value          
alpha = 0.05   
crit = stats.t.ppf(1.0-alpha, df)

# calculating p_value    
p_val = (1 - stats.t.cdf(abs(t_stat), df))*2


t_stat, crit, p_val


(-2.573844307389713, 1.644859720880747, 0.010058122379905665)

In [52]:
# If abs(t-statistic) <= critical value: Accept null hypothesis that the means are equal.
# If abs(t-statistic) > critical value: Reject the null hypothesis that the means are equal.

# If p > alpha: Accept null hypothesis that the means are equal.
# If p <= alpha: Reject null hypothesis that the means are equal.

In [53]:
real = pd.read_csv('datasets/kag_risk_factors_cervical_cancer.csv')
real.head()

Unnamed: 0,Age,Number of sexual partners,First sexual intercourse,Num of pregnancies,Smokes,Smokes (years),Smokes (packs/year),Hormonal Contraceptives,Hormonal Contraceptives (years),IUD,...,STDs: Time since first diagnosis,STDs: Time since last diagnosis,Dx:Cancer,Dx:CIN,Dx:HPV,Dx,Hinselmann,Schiller,Citology,Biopsy
0,18,4.0,15.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
1,15,1.0,14.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
2,34,1.0,?,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
3,52,5.0,16.0,4.0,1.0,37.0,37.0,1.0,3.0,0.0,...,?,?,1,0,1,0,0,0,0,0
4,46,3.0,21.0,4.0,0.0,0.0,0.0,1.0,15.0,0.0,...,?,?,0,0,0,0,0,0,0,0


In [54]:
syn = pd.read_csv('datasets/synData.csv')
syn.head()

Unnamed: 0,Age,Number of sexual partners,First sexual intercourse,Num of pregnancies,Smokes,Smokes (years),Smokes (packs/year),Hormonal Contraceptives,Hormonal Contraceptives (years),IUD,...,STDs: Time since first diagnosis,STDs: Time since last diagnosis,Dx:Cancer,Dx:CIN,Dx:HPV,Dx,Hinselmann,Schiller,Citology,Biopsy
0,22.0,4.0,20.0,6.0,-0.0,7.0,-0.0,1.0,2.0,-0.0,...,-0.0,-0.0,1.0,-0.0,1.0,-0.0,1.0,-0.0,-0.0,-0.0
1,38.0,12.0,1.0,-0.0,-0.0,-0.0,6.0,-0.0,-1.0,-0.0,...,-1.0,-1.0,-0.0,-0.0,1.0,4.0,-0.0,-0.0,-0.0,-0.0
2,43.0,12.0,-0.0,5.0,-0.0,-0.0,1.0,-0.0,-1.0,-1.0,...,-1.0,-1.0,-0.0,-0.0,-0.0,2.0,-0.0,-0.0,-0.0,-0.0
3,23.0,4.0,28.0,2.0,-0.0,6.0,-0.0,-0.0,-0.0,-0.0,...,-0.0,-0.0,-0.0,-0.0,1.0,1.0,-0.0,-0.0,-0.0,-0.0
4,40.0,4.0,27.0,10.0,-0.0,17.0,-0.0,-0.0,-0.0,-0.0,...,-0.0,-0.0,1.0,-0.0,1.0,1.0,1.0,-0.0,-0.0,-0.0


In [55]:
real_age = real['Age']
syn_age = syn['Age']

In [56]:
# calculating means
mean1, mean2 = syn_age.mean(), real_age.mean()

# calculating sample standard deviations
std1, std2 = syn_age.std(ddof=1), real_age.std(ddof=1)

# calculating standard error
n1, n2 = len(syn_age), len(real_age)
print(n1, n2)
se1, se2 = std1/math.sqrt(n1), std2/math.sqrt(n2)

# standard error difference         
sed = math.sqrt(se1**2+se2**2)

#t_stat 
t_stat = (mean1-mean2)/sed

# degrees of freedom
df = n1+n2-2

# critical value          
alpha = 0.05   
crit = stats.t.ppf(1.0-alpha, df)

# calculating p_value    
p_val = (1 - stats.t.cdf(abs(t_stat), df))*2


t_stat, crit, p_val

5000 858


(13.101751664260338, 1.6451138748505916, 0.0)

In [57]:
def t_test(real, syn, alpha=0.05):
    mean1, mean2 = syn.mean(), real.mean()
    std1, std2 = syn.std(), real.std()
    n1, n2 = len(syn), len(real)
    se1, se2 = std1/math.sqrt(n1), std2/math.sqrt(n2)
    sed = math.sqrt(se1**2+se2**2)
    t_stat = (mean1-mean2)/sed   
    df = n1+n2-2
    crit = stats.t.ppf(1.0-alpha, df)
    p_val = (1- stats.t.cdf(abs(t_stat), df))*2

    return [t_stat, crit, p_val]

In [58]:
age_t_tests = []

for i in range(0, len(syn_age), 100):
    age_t_tests.append(t_test(real_age, syn_age[i:i+100]))

age_t_tests_df = pd.DataFrame(age_t_tests)

In [59]:
age_t_tests_df.shape

(50, 3)

In [60]:
mean_t_stat, mean_crit, mean_p_val = age_t_tests_df[0].mean(), age_t_tests_df[1].mean(), age_t_tests_df[2].mean()
print(mean_t_stat, mean_crit, mean_p_val)

4.423193754103988 1.6464490828004403 0.0007104116254542303


In [61]:
real_smokes = real['Smokes (years)']
syn_smokes = syn['Smokes (years)']

In [62]:
smokes_t_tests = []

for i in range(0, len(syn_smokes), 100):
    smokes_t_tests.append(t_test(real_smokes, syn_smokes[i:i+100]))

smokes_t_tests_df = pd.DataFrame(smokes_t_tests)

TypeError: Could not convert 0.00.00.037.00.00.034.00.00.01.2669729090.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.03.00.00.00.01.2669729090.00.00.00.00.00.00.00.00.01.2669729090.012.00.0?0.00.00.00.00.00.018.00.00.00.07.00.00.00.019.00.00.00.00.00.021.00.00.00.00.00.00.015.00.00.00.013.00.00.016.00.00.00.00.00.00.00.00.00.00.00.00.00.00.015.00.00.00.00.00.00.00.00.08.00.04.00.00.00.019.00.00.00.00.00.0?0.00.00.00.00.00.00.010.00.00.00.00.00.022.00.014.00.00.00.00.00.00.00.00.016.00.00.00.50.00.00.00.00.00.00.00.00.011.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.01.2669729090.00.012.00.00.00.00.00.00.00.00.00.00.00.0?12.00.00.00.00.00.09.00.00.00.00.00.00.00.02.07.00.00.00.00.00.00.00.00.00.05.014.00.00.010.00.00.04.00.00.00.00.00.00.00.07.00.00.00.00.00.00.00.00.00.00.00.08.00.00.00.00.00.00.00.00.00.00.00.00.06.00.00.00.00.00.00.010.00.00.00.01.2669729095.00.00.00.00.00.00.00.00.00.00.00.00.00.00.0?0.00.00.00.00.00.00.00.01.2669729093.015.00.00.00.00.00.00.0?0.00.00.00.01.00.00.00.50.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.032.04.00.00.00.00.02.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.09.01.2669729090.02.00.00.03.00.00.02.00.00.00.00.00.07.00.04.00.00.00.00.00.013.00.03.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.01.00.00.00.00.00.00.00.00.50.00.00.05.00.01.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.06.00.00.00.00.0?0.00.00.00.00.01.2669729090.00.00.00.00.00.00.00.00.05.00.00.00.00.00.00.00.00.00.00.09.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.08.00.00.00.00.00.00.00.00.016.00.09.00.00.00.09.00.00.00.00.00.01.2669729090.00.00.01.00.00.00.00.00.00.00.00.00.00.00.00.00.00.02.00.02.00.00.00.00.00.00.00.00.00.00.01.00.0?0.00.00.00.00.00.00.00.00.00.016.0?0.00.00.00.00.00.00.05.013.00.00.00.00.00.016.00.00.00.00.00.00.07.015.00.00.00.00.06.00.00.00.00.00.00.05.00.00.00.00.00.00.00.00.00.011.00.00.01.2669729090.00.00.08.00.00.08.05.00.00.00.00.00.00.00.00.00.00.03.00.00.00.00.00.00.00.00.00.00.00.01.00.00.00.00.0?9.010.00.00.00.00.00.00.00.00.00.00.00.022.00.00.00.00.00.024.0?0.00.00.00.00.00.03.00.00.00.00.00.00.00.00.00.00.014.00.00.00.09.00.00.00.00.01.00.00.01.2669729090.00.00.00.05.00.00.00.00.00.00.00.01.2669729090.00.00.00.00.00.00.00.00.08.07.00.00.00.00.00.00.00.00.00.00.00.01.00.00.00.01.2669729090.00.00.01.2669729094.00.00.00.00.00.00.00.00.00.00.011.00.00.00.00.00.01.2669729090.00.00.00.00.00.00.00.0?0.00.0?28.00.00.00.00.00.03.0?10.00.00.00.00.00.00.00.00.00.05.00.00.09.00.00.00.00.00.020.00.00.014.00.162.019.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.016.00.00.011.00.00.00.00.06.00.09.00.00.00.00.011.00.00.00.00.00.00.00.00.0 to numeric

In [None]:
mean_t_stat, mean_crit, mean_p_val = smokes_t_tests_df[0].mean(), smokes_t_tests_df[1].mean(), smokes_t_tests_df[2].mean()
print(mean_t_stat, mean_crit, mean_p_val)

NameError: name 'smokes_t_tests_df' is not defined

In [None]:
real_sex_partners = real['Number of sexual partners']
syn_sex_partners = syn['Number of sexual partners']

In [None]:
syn_sex_partners

0        4.0
1       12.0
2       12.0
3        4.0
4        4.0
        ... 
4995     2.0
4996     2.0
4997     5.0
4998     5.0
4999     3.0
Name: Number of sexual partners, Length: 5000, dtype: float64

In [None]:
nsp_t_tests = []

for i in range(0, len(syn_sex_partners), 100):
    nsp_t_tests.append(t_test(real_sex_partners, syn_sex_partners[i:i+100]))

nsp_t_tests_df = pd.DataFrame(nsp_t_tests)

TypeError: Could not convert 4.01.01.05.03.03.03.01.01.03.03.01.04.02.02.03.04.03.02.02.02.03.01.01.03.03.05.02.03.06.03.02.03.03.02.03.02.0?1.02.0?2.03.03.03.01.02.02.02.03.03.02.05.03.01.04.05.03.02.03.03.03.01.01.02.03.03.04.03.05.04.0?2.02.02.02.05.03.03.02.01.03.02.03.02.01.02.05.03.01.01.03.04.01.03.04.05.01.01.03.03.05.03.03.02.04.04.05.02.02.03.07.03.05.03.03.03.03.02.03.01.05.03.05.03.03.02.02.01.02.02.0?2.04.03.03.02.04.01.02.01.03.03.01.02.03.04.04.03.03.02.01.03.02.02.04.01.0?2.02.02.02.01.05.0?3.01.02.04.03.03.02.02.03.03.01.01.03.04.01.02.02.03.02.01.02.015.03.05.02.08.03.02.010.04.02.03.05.01.02.07.04.02.02.01.03.02.03.04.03.05.01.03.03.01.01.03.01.03.04.0??1.01.02.06.01.04.02.03.02.03.03.02.0?2.02.02.04.03.01.02.01.06.03.01.02.01.02.03.02.01.02.01.03.02.04.03.05.08.02.02.02.02.02.0?2.02.02.01.01.03.0?3.02.03.04.01.02.02.02.04.01.03.01.02.04.03.02.02.01.01.02.01.01.01.03.01.01.03.02.0?4.03.0?5.03.01.02.04.02.04.02.05.01.03.02.01.02.01.03.02.02.02.0?1.01.02.04.01.01.01.01.03.02.02.01.02.05.02.03.01.02.01.01.04.04.02.01.03.01.04.04.02.02.03.01.02.01.02.01.04.01.01.03.02.03.01.0?1.04.04.05.02.05.01.03.02.02.02.03.03.05.02.01.03.02.02.03.01.02.0?1.03.02.01.03.02.0?1.02.01.03.03.02.02.01.02.02.02.02.01.02.03.03.03.01.0?1.04.02.03.02.02.02.02.07.01.01.01.04.01.03.01.03.02.03.01.03.05.01.01.01.01.01.02.03.03.03.01.02.01.01.01.01.01.01.03.02.02.0?3.05.01.01.01.01.028.02.02.05.02.02.03.03.04.02.02.04.01.04.0?1.03.01.01.02.01.01.04.02.01.01.02.01.0?1.03.02.02.04.01.05.03.02.02.01.01.02.02.03.02.03.02.05.04.02.01.03.01.02.02.02.04.01.01.03.02.01.04.04.01.03.02.02.03.01.04.03.01.03.04.03.03.02.03.01.03.02.02.03.03.03.03.04.03.02.02.01.01.01.01.01.01.02.01.02.02.01.02.02.02.02.02.02.02.03.04.01.06.02.02.04.03.02.03.04.03.05.03.02.05.04.02.03.01.01.02.02.02.03.03.03.04.03.02.05.02.02.02.02.02.02.02.01.06.02.0?2.03.03.01.01.01.01.02.03.01.02.01.02.03.02.02.06.02.03.02.01.02.04.02.06.04.01.04.01.0?2.02.02.03.02.01.02.03.01.02.02.03.02.05.03.02.04.01.04.02.03.03.02.02.01.04.03.01.04.01.01.02.03.02.01.02.01.02.05.03.05.01.01.02.01.02.02.04.02.02.04.05.01.02.04.01.03.03.01.02.01.02.01.02.03.01.02.02.03.02.05.02.02.01.05.01.01.01.03.02.03.05.03.01.02.02.02.01.03.02.06.02.01.02.07.05.04.01.02.01.04.05.03.01.0?1.04.02.04.03.04.03.01.0?2.03.01.05.01.02.02.02.03.02.07.01.04.02.01.04.02.01.05.03.03.01.07.01.06.02.02.01.02.02.03.02.02.03.07.03.04.03.02.03.02.03.08.03.03.02.0?2.01.01.05.01.01.01.02.01.04.01.02.03.03.03.02.03.04.03.02.03.04.03.02.01.03.01.03.09.03.03.02.02.03.03.08.02.02.03.03.03.01.02.03.03.02.02.02.02.0 to numeric

In [None]:
mean_t_stat, mean_crit, mean_p_val = nsp_t_tests_df[0].mean(), nsp_t_tests_df[1].mean(), nsp_t_tests_df[2].mean()
print(mean_t_stat, mean_crit, mean_p_val)

KeyError: 0