# Statistiques

Bienvenue dans ce cours de statistiques pour les sciences des données. On abordera les définitions et concepts importants en statistiques, en particulier pour un "data analyst" et/ou "data scientist" et/ou "machine learning engineer". 

Et ce, avec le moins de formules de math possibles.



# Introduction

## La statistique
La statistique est l'étude des données, qui sont souvent des mesures de phénomènes dans le monde réel.  

L'objectif de la statistique est d'analyser ces données afin de découvrir des tendances, des corrélations et des modèles qui peuvent aider à comprendre le monde dans lequel nous vivons.  

En bref, le but est de **synthétiser** les données de phénomènes **pour comprendre et prédire** ces phénomènes.


## Population et échantillons

La **population est l'ensemble complet** de toutes les observations possibles pour une variable statistique donnée. Par exemple, si nous nous intéressons à la taille des personnes en Belgique, la population serait l'ensemble de toutes les personnes en Belgique.

Cependant, il peut être difficile, voire impossible, d'obtenir des mesures pour toutes les observations dans la population. C'est là qu'intervient l'échantillonnage. 

Un échantillon est un **sous-ensemble de la population** qui est sélectionné pour être étudié. L'échantillonnage est un processus important en statistique, car il nous permet d'obtenir des informations sur la population sans avoir à mesurer toutes les observations dans la population.

Il existe différents types d'échantillonnage, tels que l'échantillonnage aléatoire simple, l'échantillonnage stratifié et l'échantillonnage par grappes. Chaque type d'échantillonnage a ses avantages et ses inconvénients, et il est important de choisir le type d'échantillonnage approprié en fonction de l'objectif de l'étude et des caractéristiques de la population. 


## Variables statistiques

Une variable statistique est une caractéristique commune à l'ensemble des individus d'une population ou un échantillon. 

Par exemple, la taille, le poids, l'âge et le revenu sont tous des exemples de variables statistiques. Les variables statistiques peuvent être de différents types.

---
![echantillon](repos/intro_01.png "Exemple")

DataFrame:
- données tabulaires, dataset: les données utilisé par les statistiques et le machine learning (classique)

Feature
- une colonne d'une table
- = attribute, input, predictor, variable

Outcome
- une colonne à prédire, le sujet pricipal d'analyse
- = dependent variable, response, target, output

Records
- une ligne d'une table
- = case, example, instance, observation, pattern, sample

# Variables statistiques
### Variables quantitatives

Les variables quantitatives sont des variables numériques qui représentent des quantités mesurables. Elles peuvent être continues ou discrètes. 

#### **quantitatives continues**

- Les variables quantitatives continues peuvent prendre n'importe quelle valeur dans une plage de valeurs, par exemple la taille, le poids ou la température. 

#### **quantitatives discrètes**
- Les variables quantitatives discrètes, quant à elles, ont des valeurs qui sont des nombres entiers, par exemple le nombre de voitures vendues par un concessionnaire en une journée.

### Variables qualitatives

Les variables qualitatives (categorie) sont des variables non numériques qui représentent des attributs ou des caractéristiques. Elles peuvent être nominales ou ordinales. 

#### **qualitatives nominales**
- Les variables qualitatives nominales sont des variables qui ont des valeurs qui ne peuvent pas être classées par ordre, par exemple la couleur ou le genre. 


#### **qualitatives ordinales**
- Les variables qualitatives ordinales, quant à elles, ont des valeurs qui peuvent être classées par ordre, par exemple le niveau d'éducation ou le rang dans une compétition.


## Exemples

- Le nombre de visites sur un site web chaque jour est une variable statistique discrète.
- La température moyenne chaque jour pendant un mois est une variable statistique continue.
- Le sexe d'une personne est une variable statistique nominale.
- Le niveau d'éducation d'une personne est une variable statistique ordinale.



In [1]:
import numpy as np
import pandas as pd


In [4]:
df = pd.read_csv('demo/d0.csv'
                 ,usecols=['Colonne']
                )
df

Unnamed: 0,Colonne
0,Âge
1,Revenu annuel
2,Nombre d'enfants
3,Ville de résidence
4,Température
5,Note d'examen
6,Statut marital
7,Groupe sanguin
8,Poids
9,Couleur des yeux


## Descriptif vs Inférentiel

1. **Statistique descriptive** a pour objet de résumer et de représenter l’information contenue dans les données sur un groupe d’individus

    1. ***Statistique descriptive univariée*** fournit les outils statistiques pour organiser, présenter et synthétiser l’information issu de l’analyse d’une variable indépendamment des autres

    2. ***Statistique descriptive bivariée*** a pour objet d’étudier conjointement deux variables X et Y sur une même population
    
    3. ***Statistique descriptive multivariée*** vise à étudier plusieurs variables simultanément

2. **Statistique inférentielle** consiste à décrire la population à partir d’observations faites sur l’échantillon.Les caractéristiques inconnues d’une population sont déduites à partir d’un échantillon issu de cette population.
    1. ***testes d'hypotheses*** permet de quantifier à quel point une situation(=hypothese) est probable.
    2. ***fitting*** (regression et classification) c'est faire correspondre un modèle (= template d'une fonction) avec les données : cela permet de résumer les relations entre les données avec ce modèle/fonction et de faire des prediction avec ceci. 

![vs](repos/descriptive_inferential.png)


[stat](#statistiques)