In [5]:
import numpy as np
import scipy.stats

In [7]:
# Intervalles de Confiance / Confidence Intervals

In [8]:
# Une série de données : par exemple une colonne dans un dataframe
# Cette série de données, elle est issue d'un échantillonage aléatoire tiré d'une population plus grande

In [9]:
# Par exemple : on fait un sondage téléphonique en France pour savoir si les gens sont content de telle mesure politique.

In [10]:
# Pour cela, on appelle "au hasard" 1000 personnes en France, et on leur demande si oui ou non ils sont contents.

In [11]:
# On calcule la proportion empirique de personnes contentes, qu'on appelle p.

In [12]:
# Question : Dans quelle mesure p représente bien la proportion de gens contents à l'échelle nationale ?
# A quelle marge d'erreur plus exactement ?

In [13]:
# Réponse : Intervalle de Confiance

In [17]:
# Hypothèse de base : la population générale a une proportion moyenne de gens contents égale à mu, et d'écart type sigma

In [16]:
# La moyenne empirique / proportion empirique p est tirée d'une loi aléatoire connue.

In [18]:
# TCL : p est tiré d'une loi normale / gaussienne de moyenne mu, et d'écart type sigma / sqrt(1000)

In [19]:
# P(-V <= p <= V) = ? (CDF : Cumulative Distribution Function)

In [20]:
# P(-V <= p <= V) = 0.95 (par exemple) : Intervalle de Confiance à 95%

In [21]:
# p ~ N(mu, sigma/sqrt(1000))

In [22]:
# (p - mu) / (sigma / sqrt(1000)) ~ N(0, 1)

In [23]:
# P(-V <= (p - mu) / (sigma / sqrt(1000)) <= V) = 0.95
# scipy => V ?

In [25]:
# P(-V * (sigma / sqrt(1000)) + p <= mu <= V*(sigma /sqrt(1000) + p)) = 0.95
# mu a 95% de chances d'être dans l'intervalle [-V * (sigma / sqrt(1000)) + p, V*(sigma /sqrt(1000) + p]
# marge d'erreur à 95 % = V * (sigma / sqrt(1000))

In [26]:
# On connaît l'écart type de la population générale : sigma
# Dans le cas où on ne connaît pas sigma, on a une deuxième version du TCL qui nous dit :
# moyenne empirique converge vers une distribution de student d'écart type l'écart type empirique du tirage aléatoire

In [27]:
# V calculé dans ce cas à partir d'une loi de Student plutôt qu'une Gaussienne

In [29]:
sample = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
sigma = 2

In [62]:
# tx de confiance = 95% = 1 - alpha
# alpha = 0.05
# tx de confiance = 1 - alpha /2
# alpha = 0.05 => tx de confiance = 0.975

In [31]:
z_critical = scipy.stats.norm.ppf(0.975)

In [32]:
z_critical

1.6448536269514722

In [33]:
margin_of_error = z_critical * (sigma / np.sqrt(9))

In [34]:
margin_of_error

1.0965690846343148

In [35]:
sample.mean() - margin_of_error

3.903430915365685

In [36]:
sample.mean() + margin_of_error

6.096569084634314

In [37]:
sample = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
sample.std()

2.581988897471611

In [57]:
t_critical = scipy.stats.t.ppf(0.9, df=8)

In [58]:
t_critical

1.396815309743419

In [59]:
margin_of_error = t_critical * (sample.std() / np.sqrt(9))

In [60]:
sample.mean() - margin_of_error

3.797812792808041

In [61]:
sample.mean() + margin_of_error

6.202187207191959

In [66]:

# We know that the height of people has a normal distribution N(μ,σ) with known σ.
# Then, we know that the distribution of sample means is also normally distributed with the following parameters:

# Variables
sample = [167, 167, 168, 168, 168, 169, 171, 172, 173, 175, 175, 175, 177, 182, 195];
pop_std = 4;
score = scipy.stats.norm.interval(0.90)[1]

# Parameters
mean = np.mean(sample);
std = pop_std / np.sqrt(len(sample));

In [68]:
scipy.stats.norm.interval(0.90, loc=mean, scale=std)

(171.76786914556482, 175.16546418776852)

In [69]:
scipy.stats.chi2.interval(0.95, 9)

(2.7003894999803584, 19.02276779864163)

In [81]:
# Hypothesis Testing / Statistical testing

In [80]:
# Exemple de tests statistiques :

# A/B Testing
# Y'a t'il une différence significative entre le taux de clics sur la version A et le taux de clics sur la version B ?

# Nous sommes un laboratoire pharmaceutique qui avons développé un médicament contre le diabète par ex.
# Notre hypothèse est que le médicament réduit le taux de sucre dans le sang à un niveau inférieur à 5.7mol/mg.
# On prend une population test A qui va suivre notre traitement.
# On prend une population test B qui ne va pas suivre de traitement, va suivre un placebo. Groupe contrôle.
# Dans l'idéal on fait une étude en "double aveugle" :
# Une étude en aveugle simple : la population A et la population B ne savent pas quel traitement ils suivent.
# Une étude en double aveugle : les personnes en charge de l'étude ne savent pas non plus quelle personne suit quel traitement.
# Pourquoi groupe contrôle : on veut tester l'influence du médicament toutes choses égales par ailleurs.
# Pourquoi aveugle simple : on veut quantifier l'effet placebo.
# Pourquoi double aveugle : éviter des biais de traitement / d'observation de la part de l'équipe en charge.
# On obtient une moyenne empirique muA chez A, et muB chez B.
# Question ? muA = muB ? est-ce que la différence entre muA et muB est "statistiquement significative" ?

# N populations avec N > 3 : 
# On fait un sondage de popularité d'une mesure politique dans N villes de France.
# On obtient N scores de popularité.
# Questions : Est-ce qu'il y a une différence statistiquement significative entre les villes en terme de popularité
# de la mesure ?

In [82]:
# Hypothèse nulle H0 : pas de différence entre A et B : muA = muB.
# Hypothèse alternative H1 : différence (stat. sign.) entre A et B. muA != muB
# Le résultat d'un test statistique nous permet de décider, à partir d'un niveau de confiance établi à l'avance
# si oui ou non, on peut rejeter l'hypothèse nulle H0.

In [84]:
# p-value
# Prenons une distribution de probabilité, au hasard X ~ une loi Gaussienne centrée réduite (mu=0, sigma= 1)
# p-value(0.5) = P(X >= 0.5)

In [85]:
# niveau d'acceptation de l'hypothèse : 5% ou parfois à 1% quand on veut être plus sûr.

In [86]:
# On se met dans le cadre de l'hypothèse nulle, et on dit que muA = muB et plus exactement
# Plus exactement on va dire par exemple que muA est issu d'une gaussienne de centre muB et d'écart type sigma
# p-value(muA) avec la gaussienne de centre muB et d'écart type sigma comme référence

In [None]:
# imaginons que j'ai muA = 3.5, muB = 2.8, sigma = 1.5

In [87]:
# H0 : muA = muB
# H1 : muA != muB
# two way hypothesis testing

In [88]:
# H0 : muA >= muB
# H1 : muA < muB
# one way hypothesis testing

In [89]:
# p-value (oneway) = p-value (twoway) / 2

In [90]:
# Cas où on connait l'écart type : z-test : distribution de référence est une gaussienne
# Cas où on ne connaît pas l'écart type : t-test : distribution de réf est une loi de Student

In [91]:
# N populations avec N>=3
# Test ANOVA : Analysis Of Variance

In [92]:
# F-statistic
# p-value < 0.05 => différence significative sur au moins une des villes, > 0.05 => on ne peut rien dire.

In [70]:
import numpy as np
from scipy.stats import ttest_1samp
patients = np.random.normal(5.1, 1.6, 100)
ttest_1samp(patients, 5.7)

Ttest_1sampResult(statistic=-3.3561190221516166, pvalue=0.0011221445454886552)

In [93]:
patients

array([5.56530863, 5.30864586, 6.25992432, 3.28847102, 5.89070089,
       5.40449195, 3.34334421, 5.7457008 , 7.80438498, 6.92500322,
       6.10526901, 6.90903759, 4.7392743 , 2.67425613, 7.29646394,
       5.22918166, 6.01478654, 5.01111399, 6.67822885, 6.059488  ,
       3.51891317, 7.86285027, 6.08606556, 8.36615865, 4.23675107,
       3.79109908, 6.36926631, 4.62600044, 4.87492576, 5.40205834,
       8.7557114 , 6.69059627, 6.40140471, 6.37991826, 7.20237705,
       4.17281612, 4.6041006 , 4.99468584, 2.20043475, 3.99103193,
       5.53828631, 5.05117107, 5.08775354, 4.94042349, 5.72600812,
       5.5210189 , 3.98164295, 1.68552226, 3.76106792, 5.97108931,
       5.66362763, 6.22562383, 4.47654467, 6.2693637 , 3.07081951,
       7.29785069, 7.80074847, 4.6570002 , 3.44809836, 6.37628549,
       1.76865602, 7.41314169, 6.13303101, 4.40070742, 5.25031442,
       3.36881395, 5.18400325, 2.7080101 , 5.6296319 , 5.35815806,
       5.46998542, 4.68602407, 4.90786291, 6.2213355 , 5.84004

In [71]:
import pandas as pd
from scipy.stats import f_oneway

#let's load the dataset
rate = pd.read_csv('rate_by_city.csv')
rate.head(15)

Unnamed: 0,Rate,City
0,13.75,1
1,13.75,1
2,13.5,1
3,13.5,1
4,13.0,1
5,13.0,1
6,13.0,1
7,12.75,1
8,12.5,1
9,14.25,2


In [72]:
rate['city_count'] = rate.groupby('City').cumcount()
rate_pivot = rate.pivot(index='city_count', columns='City', values='Rate')
rate_pivot.columns = ['City_'+str(x) for x in rate_pivot.columns.values]
rate_pivot.head()

Unnamed: 0_level_0,City_1,City_2,City_3,City_4,City_5,City_6
city_count,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,13.75,14.25,14.0,15.0,14.5,13.5
1,13.75,13.0,14.0,14.0,14.0,12.25
2,13.5,12.75,13.51,13.75,14.0,12.25
3,13.5,12.5,13.5,13.59,13.9,12.0
4,13.0,12.5,13.5,13.25,13.75,12.0


In [74]:
f_oneway(rate_pivot.City_1,rate_pivot.City_2,rate_pivot.City_3,rate_pivot.City_4,rate_pivot.City_5,rate_pivot.City_6)

F_onewayResult(statistic=4.8293848737024, pvalue=0.001174551414504048)

In [75]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

model = ols('Rate ~ C(City)', data=rate).fit()
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table

Unnamed: 0,sum_sq,df,F,PR(>F)
C(City),10.945667,5.0,4.829385,0.001175
Residual,21.758133,48.0,,


In [77]:
from scipy.stats import linregress

auto = pd.read_csv('auto-mpg.csv')
auto.head()

slope, intercept, r_value, p_value, std_err = linregress(auto.acceleration, auto.mpg)
slope, intercept, r_value, p_value, std_err


(1.1912045293502274,
 4.9697930042539085,
 0.4202889121016507,
 1.8230915350787203e-18,
 0.12923643283101396)

In [78]:
import statsmodels.api as sm

X = sm.add_constant(auto.acceleration) # We must add the intercept using the add_constant function
Y = auto.mpg

model = sm.OLS(Y, X).fit()
predictions = model.predict(X) 

print_model = model.summary()
print(print_model)

                            OLS Regression Results                            
Dep. Variable:                    mpg   R-squared:                       0.177
Model:                            OLS   Adj. R-squared:                  0.175
Method:                 Least Squares   F-statistic:                     84.96
Date:                Sat, 26 Sep 2020   Prob (F-statistic):           1.82e-18
Time:                        13:35:58   Log-Likelihood:                -1343.9
No. Observations:                 398   AIC:                             2692.
Df Residuals:                     396   BIC:                             2700.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const            4.9698      2.043      2.432   

In [1]:
import numpy as np

a = np.arange(20)

In [2]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [3]:
a.std()

5.766281297335398

In [4]:
from scipy.stats import sem

In [5]:
sem(a)

1.3228756555322954

In [7]:
a.std()/np.sqrt(19)

1.3228756555322951