#### Importer les modules
En g√©n√©ral, je pr√©f√®re importer les modules au haut de mes notebooks.

In [None]:
!pip install lets-plot==4.1 polars==0.19
import polars as pl
from lets_plot import *
LetsPlot.setup_html() 
import numpy as np
from scipy.stats import binom, poisson, uniform, norm

# Statistiques

Aux chapitres pr√©c√©dents, nous avons vu comment visualiser, organiser et manipuler des tableaux de donn√©es. La statistique est une collection de disciplines li√©es √† la collecte, l‚Äôorganisation, l'analyse, l'interpr√©tation et la pr√©sentation de donn√©es.

Dans [*Principles and procedures of statistics: A biometrical approach*](https://www.amazon.com/Principles-Procedures-Statistics-Biometrical-Approach/dp/0070610282), Steel, Torie et Dickey (1997) d√©finissent les statistiques ainsi¬†:

> Les statistiques forment la science, pure et appliqu√©e, de la cr√©ation, du d√©veloppement, et de l'application de techniques par lesquelles l'incertitude de l'induction inf√©rentielle peut √™tre √©valu√©e. (ma traduction)

Alors que l'**inf√©rence** consiste √† g√©n√©raliser des √©chantillons √† l'ensemble d'une population, l'**induction** est un type de raisonnement qui permet de g√©n√©raliser des observations sous forme de th√©ories. En d'autres mots, les statistiques permettent d'√©valuer l'incertitude sur des processus, de passer par inf√©rence de l'√©chantillon √† la population, puis par induction de passer de cette repr√©sentation d'une population en lois g√©n√©rales la concernant.

La d√©finition de Whitlock et Schuluter (2015), dans [The Analysis of Biological Data](http://whitlockschluter.zoology.ubc.ca/), est plus simple et n'insiste que sur l'inf√©rence:

> La statistique est l‚Äô√©tude des m√©thodes pour mesurer des aspects de populations √† partir d‚Äô√©chantillons et pour quantifier l'incertitude des mesures. (ma traduction)

Les statistiques consistent √† *faire du sens* (anglicisme assum√©) avec des observations dans l'objectif de r√©pondre √† une question que vous aurez formul√©e clairement, pr√©alablement √† votre exp√©rience.

<blockquote class="twitter-tweet" data-lang="fr"><p lang="en" dir="ltr">The more time I spend as The Statistician in the room, the more I think the best skill you can cultivate is the ability to remain calm and repeatedly ask &quot;What question are you trying to answer?&quot;</p>&mdash; Bryan Howie (@bryan_howie) <a href="https://twitter.com/bryan_howie/status/1073054519808876544?ref_src=twsrc%5Etfw">13 d√©cembre 2018</a></blockquote>
<script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>

Le flux de travail conventionnel en statistiques consiste √† collecter des √©chantillons, transformer (pr√©traiter) les donn√©es, effectuer des tests, analyser les r√©sultats, les interpr√©ter et les visualiser. Mais avant tout: **se demander √† quelle question veut-on r√©pondre**.

Cette section √† elle seule est trop courte pour permettre d'int√©grer toutes les connaissances n√©cessaires √† une utilisation raisonn√©e des statistiques, mais fournit les bases pour aller plus loin. Notez que les erreurs d'interpr√©tation statistiques sont courantes et la consultation de sp√©cialistes n'est souvent pas un luxe. Mais bien que les statistiques soient complexes, *la plupart des op√©rations statistiques peuvent √™tre effectu√©es sans l'assistance de statisticien.nes*... √† condition de comprendre suffisamment les concepts utilis√©s.

Dans cette section, nous verrons comment r√©pondre correctement √† une question valide et ad√©quate avec l'aide d'outils de calcul scientifique. Nous couvrirons les notions de bases des distributions et des variables al√©atoires qui nous permettront d'effectuer des tests statistiques communs avec Python. Nous couvrirons aussi les erreurs commun√©ment commises en recherche acad√©mique et les moyens simples de les √©viter. Nous utiliserons √©videmment les modules *Polars* et *Lets-Plot*. J'introduirai les modules *Scipy* et *Statsmodels*.

Je vais d'abord rapidement pr√©senter quelques notions importantes en statistiques : populations et √©chantillons, variables, probabilit√©s et distributions. Puis nous allons effectuer des tests d'hypoth√®se univari√©s et d√©tailler la notion de plus en plus controvers√©e de *p-value*. Je vais m'attarder plus longuement aux mod√®les lin√©aires g√©n√©ralis√©s, qui fournissent une trousse d'analyse polyvalente en analyse multivari√©e.


## Populations et √©chantillons

Le principe d'inf√©rence consiste √† g√©n√©raliser des conclusions √† l'√©chelle d'une population √† partir d'√©chantillons issus de cette population. Alors qu'une **population** contient tous les √©l√©ments √©tudi√©s, un **√©chantillon** d'une population est une observation unique. Une exp√©rience bien con√ßue fera en sorte que les √©chantillons soient repr√©sentatifs de la population qui, la plupart du temps, ne peut √™tre observ√©e enti√®rement pour des raisons pratiques.

Je ne couvre pas les principes d'exp√©rimentation et les dispositifs exp√©rimentaux servant de base √† la conception d'une bonne m√©thodologie. √Ä ce titre, je recommande le livre *Principes d'exp√©rimentation: planification des exp√©riences et analyse de leurs r√©sultats* de Pierre Dagnelie (2012), [disponible en ligne en format PDF](http://www.dagnelie.be/docpdf/ex2012.pdf). Un bon aper√ßu des dispositifs exp√©rimentaux est aussi pr√©sent√© dans [*Introductory Statistics with R*](https://www.springer.com/us/book/9780387790534), de Peter Dalgaard (2008).

Une population est √©chantillonn√©e pour induire des **param√®tres**: un rendement typique dans des conditions m√©t√©orologiques, √©daphiques et manag√©riales donn√©es, la masse typique des faucons p√®lerins, m√¢les et femelles, le microbiome typique d'un sol g√©otechnique, agricole ou forestier, etc. Une **statistique** est une estimation d'un param√®tre calcul√©e √† partir des donn√©es, par exemple une moyenne et un √©cart-type, ou un intercept et une pente.

Par exemple, la moyenne et l'√©cart-type d'une population sont estim√©s par les moyennes et √©carts-types calcul√©s sur les donn√©es issues de l'√©chantillonnage.

Chaque param√®tre est li√© √† une perspective que l'on d√©sire conna√Ætre chez une population. Ces angles d'observations sont les **variables**.

## Les variables

Nous avons abord√© √† la section 2 la notion de *variable* par l'interm√©diaire d'une donn√©e. Une variable est l'observation d'une caract√©ristique d√©crivant un √©chantillon. Si la caract√©ristique varie d'un √©chantillon √† un autre sans que vous en expliquiez la raison (i.e. si identifier la source de la variabilit√© ne fait pas partie de votre exp√©rience), on parlera de variable al√©atoire. M√™me le hasard est r√©gi par certaines lois: ce qui est al√©atoire dans une variable peut √™tre d√©crit par des **lois de probabilit√©**, que nous verrons plus bas.

Il existe plusieurs types de variables, qui se regroupe en deux grandes cat√©gories: les **variables quantitatives** et les **variables qualitatives**.

### Variables quantitatives

Ces variables peuvent √™tre continues dans un espace √©chantillonnal r√©el, ou bien discr√®tes dans un espace √©chantillonnal ne consid√©rant que des valeurs fixes. Bien que les valeurs fixes des distributions discr√®tes ne soient pas toujours des valeurs enti√®res, c'est bien souvent le cas en biostatistiques comme en d√©mographie, o√π les d√©comptes d'individus sont souvent pr√©sents (et o√π la notion de fraction d'individus n'est pas accept√©e).

### Variables qualitatives

On exprime parfois qu'une variable qualitative est une variable impossible √† mesurer num√©riquement¬†: une couleur, l'appartenance √† esp√®ce ou √† une s√©rie de sol. Pourtant, dans bien des cas, les variables qualitatives peuvent √™tre encod√©es en variables quantitatives. Par exemple, on peut accoler des pourcentages de sable, limon et argile √† un loam sableux, qui autrement est d√©crit par la classe texturale d'un sol. Pour une couleur, on peut lui associer une longueur d'onde ou des pourcentages de rouge, vert et bleu, ainsi qu'un ton. En ce qui a trait aux variables ordonn√©es, il est possible de supposer un √©talement. Par exemple, une variable d'intensit√© faible-moyenne-forte peut √™tre transform√©e lin√©airement en valeurs quantitatives -1, 0 et 1. Attention toutefois, l'√©talement peut parfois √™tre quadratique ou logarithmique. Quant aux cat√©gories difficilement transformables en quantit√©s, on pourra passer par l'**encodage cat√©goriel**, souvent appel√© *dummyfication*, que nous verrons plus loin. L'analyse qualitative consiste en l'analyse de verbatims, essentiellement utile en sciences sociales¬†: nous n'en n'aurons pas besoin ici. Nous consid√©rerons les variables qualitatives comme des variables quantitatives qui n'ont pas subi de pr√©traitement.


## Les probabilit√©s

Une probabilit√© est la vraisemblance qu'un √©v√®nement se r√©alise chez un √©chantillon. Les probabilit√©s forment le cadre des syst√®mes stochastiques, c'est-√†-dire des syst√®mes trop complexes pour en conna√Ætre exactement les aboutissants, auxquels on attribue une part de hasard. Ces syst√®mes sont pr√©dominants dans les processus vivants.

On peut d√©gager deux perspectives sur les probabilit√©s: l'une passe par une interpr√©tation fr√©quentielle, l'autre bay√©sienne.

- L'approche fr√©quentielle teste si les donn√©es concordent avec un mod√®le du r√©el. Il s'agit de l'interpr√©tation commun√©ment utilis√©e.
- L'approche bay√©sienne √©value la probabilit√© que le mod√®le soit r√©el.

Techniquement, les statistiques fr√©quentielles sont davantage analytiques, alors que les statistiques bay√©siennes sont davantage num√©riques. Je ne vais couvrir que les statistiques fr√©quentielles, qui sont plus communes est plus faciles √† appr√©hender. En pratique, je pr√©f√®re tiliser les statistiques bay√©siennes, qui demandent n√©anmoins une bonne puissance de calcul.

## Les distributions

Une variable al√©atoire peut prendre des valeurs selon des mod√®les de distribution des probabilit√©s. Une distribution est une fonction math√©matique d√©crivant la probabilit√© d'observer des √©v√®nements. Ces √©v√®nements peuvent √™tre des valeurs continues, des nombres entiers, des cat√©gories, des valeurs bool√©ennes (Vrai/Faux), etc. D√©pendamment du type de valeur et des observations obtenues, on peut associer des variables √† diff√©rentes lois de probabilit√©. L'aire sous la courbe d'une distribution de probabilit√© est toujours √©gale √† 1.

En statistiques inf√©rentielles, les distributions sont les mod√®les, comprenant certains param√®tres comme la moyenne et la variance pour les distributions normales, √† partir desquelles les donn√©es sont g√©n√©r√©es.

Il existe deux grandes familles de distribution: **discr√®tes** et **continues**. Les distributions discr√®tes sont contraintes √† des valeurs pr√©d√©finies (finies ou infinies), alors que les distributions continues prennent n√©cessairement un nombre infini de valeur, dont la probabilit√© ne peut pas √™tre √©valu√©e ponctuellement, mais sur un intervalle.

L'**esp√©rance** math√©matique est une fonction de tendance centrale, souvent d√©crite par un param√®tre. Il s'agit de la moyenne d'une population pour une distribution normale. La **variance**, quant √† elle, d√©crit la variabilit√© d'une population, i.e. son √©talement autour de l'esp√©rance. Pour une distribution normale, la variance d'une population est aussi appel√©e variance, repr√©sent√©e aussi par l'√©cart-type (√©gal √† la racine carr√©e de la variance).

Pour √©viter de trop m'√©taler, je ne pr√©sente que la distribution de Poisson et la distribution normale, mais il en existe [vraiment beaucoup](https://www.pymc.io/projects/docs/en/stable/api/distributions.html).

### Distribution de Poisson

Les distributions de Poisson d√©crivent ce qui tient du d√©compte (avec un P majuscule, √† moins que vous comptiez des poissons). Il peut s'agir du nombre de grenouilles traversant une rue quotidiennement, du nombre de plants d'ascl√©piades se trouvant sur une terre cultiv√©e, ou du nombre d‚Äô√©v√®nements de pr√©cipitation au mois de juin, etc. La distribution de Poisson n'a qu'un seul param√®tre, Œª, qui d√©crit tant la moyenne des d√©comptes.

Par exemple, en un mois de 30 jours, et une moyenne de 8 √©v√®nements de pr√©cipitation pour ce mois, on obtient la distribution suivante.


In [2]:
x = np.arange(0, 31)
prob = poisson(mu=8).pmf(x)
df_poisson = pl.DataFrame({'x':x, 'prob': prob})
ggplot(data=df_poisson, mapping=aes(x='x', y='prob')) + geom_lollipop()

Notez bien que, par r√©flexe, je cr√©e mes graphiques avec *Lets-Plot*, non pas avec l'outil de *Noteable*.

### Distribution normale

La plus r√©pandue de ces lois est probablement la loi normale, parfois nomm√©e loi gaussienne et plus rarement loi laplacienne. Il s'agit de la distribution classique en forme de cloche.

La loi normale est d√©crite par une moyenne, qui d√©signe la tendance centrale, et une variance, qui d√©signe l'√©talement des probabilit√©s autour de la moyenne. La racine carr√©e de la variance est l'√©cart-type.

Les distributions de mesures exclusivement positives (comme le poids ou la taille) sont parfois avantageusement approxim√©es par une loi **log-normale**, qui est une loi normale sur le logarithme des valeurs: la moyenne d'une loi log-normale est la moyenne g√©om√©trique.

In [3]:
n_points = 100
x = np.linspace(-10, 10, n_points)
prob1 = norm(-4, 2).pdf(x)
prob2 = norm(0, 4).pdf(x)
prob3 = norm(4, 6).pdf(x)
df_norm = pl.DataFrame({
    'x':np.hstack([x, x, x]),
    'prob': np.hstack([prob1, prob2, prob3]),
    'cat√©gorie': np.hstack(
        [np.repeat('A', n_points), np.repeat('B', n_points), np.repeat('C', n_points)]
    )
})
ggplot(df_norm, aes(x='x', y='prob')) + geom_line(aes(color='cat√©gorie'))

Quelle est la probabilit√© de retrouver une valeur dans l‚Äôintervalle entre -1 et 2 sur la courbe de cat√©gorie B?

In [4]:
norm(0, 4).cdf(2) - norm(0, 4).cdf(-1) 

0.2901687869569368

On pourrait aussi s'int√©resser √† l'intervalle de confiance sur la moyenne. En effet, la moyenne suit aussi une distribution normale, dont la tendance centrale est la moyenne de la distribution, et dont l'√©cart-type est not√© *erreur standard*. On calcule cette erreur en divisant la variance par le nombre d'observation, ou en divisant l'√©cart-type par la racine carr√©e du nombre d'observations. Ainsi, pour 10 √©chantillons:

In [5]:
alpha = 0.05
moyenne = 0
ecart_type = 1
n_echantillon = 10
norm.interval(
    1-alpha/2,
    loc = moyenne,
    scale = ecart_type / np.sqrt(n_echantillon)
)

(-0.708793777294559, 0.7087937772945595)

## Les mod√®les lin√©aires g√©n√©ralis√©s

Il existe une panoplie de tests statistiques, et l'on peut facilement se perdre dans les d√©tails et suppositions qu'ils sous-entendent. √Ä mon exp√©rience, la plupart des besoins en sciences peuvent √™tre r√©pondus par des mod√®les lin√©aires g√©n√©ralis√©s.

- **Mod√®le**. Une maquette math√©matique qui repr√©sente ce qui s'est pass√© dans le contexte dans lequel les donn√©es ont √©t√© recueillies.
- **Lin√©aire**. Une combinaison lin√©aire de variable. Un mod√®le quadratique est lin√©aire dans le sens qu'il est une combinaison lin√©aire d'une variable et de sa repr√©sentation transform√©e au carr√©. Un ph√©nom√®ne qui semble non-lin√©aire √† cause d'une courbure dans sa repr√©sentation graphique peut ainsi √™tre exprim√© de mani√®re lin√©aire, mais sur des variables transform√©es, ou sur des variables non transform√©es mais e incluant des variables compl√©mentaires, ou √† l'extr√™me √™tre une combinaison lin√©aire de fonctions non-lin√©aires. √Ä ce titre, les mod√®les additifs g√©n√©ralis√©s (*generalized additive model, GAM*, voir [le cours de Noam Ross en langage R ](noamross.github.io/gams-in-r-course/), certaines impl√©mentations en Python existent) sont tr√®s int√©ressants, mais s'√©cartent du sujet.
- **G√©n√©ralis√©**. La (ou les) sortie(s) du mod√®le peuvent √™tre d√©crits par diff√©rentes lois de probabilit√©. Un d√©compte du nombre de passages d'automobile sur une route pas s'approxime mieux par une loi de Poisson qu'une loi normale. Un mod√®le lin√©aire est g√©n√©ralis√© si on tient compte du type de distribution ayant potentiellement g√©n√©r√© les donn√©erimentales.

Le module [*statsmodels*](statsmodels.org) facilite la composition d'un GLM en offrant la possibilit√© d'utiliser une interface par formule similaire √† ce que l'on retrouve en langage R. Cette interface se pr√©sente, par exemple, comme suit.

`y ~ v1 + v2 + v3 * v4`

Le `y` est la sortie du mod√®le, aussi appel√©e variable d√©pendante ou endog√®ne. Le `~` se lit non pas comme "√©gal √†", mais comme "en fonction de". Les variables additionn√©es montrent un effet additif. Chacune des variables sera associ√© √† un coefficient dans le mod√®le. L'ast√©risque entre `v3` et `v4` signifie que l'on d√©sire entrer les effets additifs de v3 et v4, mais en ajoutant une interaction, c'est-√†-dire une nouvelle variable constitu√©e de la multiplication des variables `v3` et `v4`. Si l'on d√©sirait ne garder que l'interaction entre `v3` et `v4`, nous pourrions utiliser un `:` au lieu de l'`*`, de sorte que l'√©quation pr√©c√©dente est l'√©quivalent de `y ~ v1 + v2 + v3 + v4 + v3:v4`. L'intercept du mod√®le est ajout√© implicitement. Si on d√©sire un mod√®le sans intercept, il faudra ajouter un `0 +` √† droite du `~`. Davantage d'info sur l'interface formule peut √™tre trouv√©e dans la documentation du module [*patsy*](https://patsy.readthedocs.io/en/latest/formulas.html), sur lequel repose *statsmodels*.



Les donn√©es `mtcars` sont souvent utilis√©es pour donner des exemples en stats.

In [6]:
mtcars = pl.read_csv('https://gist.githubusercontent.com/seankross/a412dfbd88b3db70b74b/raw/5f23f993cd87c283ce766e7ac6b329ee7cc2e1d1/mtcars.csv')
mtcars

model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
str,f64,i64,f64,i64,f64,f64,f64,i64,i64,i64,i64
"""Mazda RX4""",21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
"""Mazda RX4 Wag""",21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
"""Datsun 710""",22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
"""Hornet 4 Drive‚Ä¶",21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
"""Hornet Sportab‚Ä¶",18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
"""Valiant""",18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
"""Duster 360""",14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
"""Merc 240D""",24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
"""Merc 230""",22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
"""Merc 280""",19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


Nous nous int√©resserons aux colonnes suivantes.

- `mpg`. Miles per gallon, la distance parcourue avec un gallon d'essence.
- `cyl`. Le nombre de pistons dans le moteur.
- `disp`. Le volume total des cylindres du moteur.
- `hp`. La puissance du moteur.
- `wt`. Le poids du v√©hicule.
- `gear`. Le nombre de ratio d'engrenages.
- `vs`. Si la forme des cylindres est en v (`vs = 1`) ou droite (`vs = 0`).

Question pos√©e. Lesquelles parmi ces variables influencent le plus la consommation d'essence ?

On peut y r√©pondre avec un mod√®le lin√©aire avec sortie normale.

In [7]:
import statsmodels.api as sm
import statsmodels.formula.api as smf

mtcars_model = smf.glm(
    formula = "mpg ~ cyl + disp + hp + wt + gear + vs",
    data=mtcars,
    family=sm.families.Gaussian()
).fit()

mtcars_model.summary()

  from pandas import Int64Index as NumericIndex


0,1,2,3
Dep. Variable:,mpg,No. Observations:,32.0
Model:,GLM,Df Residuals:,25.0
Model Family:,Gaussian,Df Model:,6.0
Link Function:,identity,Scale:,6.6662
Method:,IRLS,Log-Likelihood:,-71.809
Date:,"Fri, 17 Nov 2023",Deviance:,166.66
Time:,09:29:57,Pearson chi2:,167.0
No. Iterations:,3,Pseudo R-squ. (CS):,0.9892
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,35.5081,7.715,4.602,0.000,20.387,50.630
cyl,-0.9306,0.872,-1.067,0.286,-2.640,0.779
disp,0.0146,0.013,1.149,0.250,-0.010,0.039
hp,-0.0287,0.017,-1.687,0.092,-0.062,0.005
wt,-3.7746,1.077,-3.505,0.000,-5.885,-1.664
gear,0.8235,1.115,0.738,0.460,-1.363,3.010
vs,0.6751,1.733,0.390,0.697,-2.721,4.071


L'intercept est la valeur, dans les unit√©s de la variable r√©ponse (miles par gallon), √† laquelle on s'attendrait si toutes les autres variables √©taient nulles. Cette valeur n'indique pas grand-chose, √©tant donn√© qu'elle correspond entre autres √† une voiture dont le poids est nul... aurait du sens si les variables avaient √©t√© centr√©es, de sorte qu'il aurait exprim√© le MPG alors que toutes les variables sont √† leur moyenne. Le mod√®le nous informe que la distance de base par gallon est de 35.5 avec un intervalle de confiance √† 95% entre 20.4 et 50.6. La p-value est bien s√ªr tr√®s faible: rappelez-vous bien que la p-value est la probabilit√© que le tableau de r√©sultats ait √©t√© g√©n√©r√© par le mod√®le que nous avons d√©crit et dont l'intercept serait nul.

Les coefficients des autres variables nous indiquent comment l'augmentation d'une unit√© affecte le MPG. Si le poids du v√©hicule augmente d'une unit√©, ce qui √©quivaut √† 1000 lbs, le MPG a diminu√© de -3.8. La valeur du coefficient n'indique toutefois pas l'importance dans le mod√®le, puisqu'elle d√©pend des unit√©s utilis√©es pour exprimer les Si le

Mais comme on a en discut√©, n'est pas n√©cessairement tir√©e d'une distribution normale. Reprenons nos donn√©es sur les manchots, et posons la question suivante.

> Quelles variables les dimensions du du bec permettent d'expliquer l'esp√®ce de manchot?

 Mais d'abord, il faut s'assurer que la colonne `species` soit exprim√©e en chiffres.

In [8]:
penguins = pl.read_csv('data/penguins.csv', null_values='NA').drop_nulls()
unique_species = penguins.select('species').unique()
species_no = np.arange(unique_species.shape[0])
unique_species = unique_species.with_columns(pl.lit(species_no).alias("species_no"))
penguins = penguins.join(unique_species, on='species', how='left')

In [9]:
penguin_model = smf.mnlogit(
    formula = "species_no ~ bill_length_mm + bill_depth_mm",
    data=penguins
).fit()
penguin_model.summary()

Optimization terminated successfully.
         Current function value: 0.071740
         Iterations 12


0,1,2,3
Dep. Variable:,species_no,No. Observations:,333.0
Model:,MNLogit,Df Residuals:,327.0
Method:,MLE,Df Model:,4.0
Date:,"Fri, 17 Nov 2023",Pseudo R-squ.:,0.9319
Time:,09:30:07,Log-Likelihood:,-23.889
converged:,True,LL-Null:,-350.86
Covariance Type:,nonrobust,LLR p-value:,3.259e-140

species_no=1,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,24.3847,13.527,1.803,0.071,-2.127,50.897
bill_length_mm,-2.2063,0.686,-3.218,0.001,-3.550,-0.863
bill_depth_mm,3.9759,1.486,2.676,0.007,1.063,6.888
species_no=2,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,49.4000,14.922,3.310,0.001,20.153,78.647
bill_length_mm,0.4865,0.157,3.102,0.002,0.179,0.794
bill_depth_mm,-4.3454,1.037,-4.192,0.000,-6.377,-2.314


Les r√©sultats demanderaient qu'on s'y attarde longuement. Les coefficients montrent l'ampleur de l'√©cart entre l'esp√®ce N et l'esp√®ce de r√©f√©rence (Adelie, √©tiquet√©e par un `0`). Sans consid√©rer le bec, les diff√©rences entre l'esp√®ce `1` (Gentoo) sont l'Adelie h√©t√©rog√®ne (p-value, `P>|z| = 0.214`), mais les dimensions du bec y contribuent significativement (`P>|z| > 0.000`). Idem pour l'esp√®ce `2` (Chinstrap).

Ce mod√®le est √©videmment tr√®s simplifi√©. On aurait pu ajouter d'autres dimensions, la masse consid√©rant le sexe, l'√Æle, etc (√† vrai dire, j'ai essay√©, mais sans succ√®s). Je voulais surtout montrer que la sortie d'un mod√®le lin√©aire g√©n√©ralis√©e pouvait √™tre autre qu'une  continue, pour laquelle on suppose une distribution normale.

Les tests d‚Äôhypoth√®se √©valuent des effets statistiques (qui ne sont pas n√©cessairement des effets de causalit√©). L‚Äôeffet √† √©valuer peut √™tre celui d‚Äôun traitement, d‚Äôindicateurs m√©t√©orologiques, de caract√©ristiques d'un sol, etc. Par convention, l‚Äôhypoth√®se nulle (√©crite H<sub>0</sub>) est l‚Äôhypoth√®se qu‚Äôil n‚Äôy ait pas d‚Äôeffet (c‚Äôest l‚Äôhypoth√®se de l‚Äôavocat du diable üòà) √† l‚Äô√©chelle de la population (et non pas √† l‚Äô√©chelle de l‚Äô√©chantillon). √Ä l‚Äôinverse, l‚Äôhypoth√®se alternative (√©crite H<sub>1</sub>) est l‚Äôhypoth√®se qu‚Äôil y ait un effet √† l‚Äô√©chelle de la population.