# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur adjoint au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>


# TD1 - Introduction à Julia

Ce TD constitue une introduction au langage Julia et au calepin Jupyter. L'Exercice 1 a pour but d'introduire les commandes de base de Julia et de la librairie *Distributions* tandis que l'Exercice 2 a pour but d'introduire les DataFrames et la puissante librairie *Gadfly*, similaire à *ggplot2* en *R*, pour la production de graphiques.

# Exercice 1

Dans cet exercice, nous nous intéressons au problèmes du nombre d'achats requis pour compléter une collection de $n$ items distincts où à chaque achat, la probabilité d'obtenir un item particulier est de $1/n$. En classe, nous avons considéré ce problème pour les 8 figurines de la Reine des neiges contenues dans les oeufs Kinder.

Voici les différentes étapes qui nous permettrons d'étudier le problème :

1. Simulation du nombre d'essais requis pour obtenir la $i^e$ nouvel item de la collection.
2. Simulation du nombre d'essais requis pour obtenir la collection complète.
3. Affichage du nombre d'essais requis pour 10 000 essais afin d'obtenir la collection complète.
4. Estimation de la moyenne du nombre d'essais requis pour obtenir la collection complète.
5. Estimation de la probabilité que 100 essais soit suffisants pour obtenir la collection complète.

Avant tout, chargeons les librairies requises.

In [1]:
using Gadfly, Statistics, Distributions

## 1. Simulation du nombre d'essais requis pour obtenir le $i^e$ nouvel item

Une fois le code permettant de simuler le nombre d'essais requis pour obtenir la $i^e$ nouvelle carte, transformez-le en fonction nommée *ntrial* qui prend en argument $i$ et la taille de collection $n$.

In [2]:
n = 8 # Nombre d'items distincs de la collections
i = 7

7

In [3]:
function ntrial(i::Int,n::Int)
   @assert 0<i<=n # Vérification de la validité de i (facultatif)
    
    
end

ntrial (generic function with 1 method)

## 2. Simulation du nombre d'achats requis pour obtenir la collection complète.

Vous devez ici simuler un suite d'essais nécessaires pour obtenir la collection complète. Une fois votre code complété, transformez-le en fonction nommé *ntotal* qui prend en argument la taille de la collection.

In [4]:
function ntotal(n::Int)
   @assert n>0

end

ntotal (generic function with 1 method)

## 3. Affichage du nombre d'essais requis pour 10 000 cas.

Il faut avant tout simuler le nombre d'essais requis pour compléter la collection 10 000 fois. Par la suite, afficher le nombre d'essais requis avec un histogramme à 100 classes avec l'argument *Geom.histogram(bincount=100)* de la fonction *plot* de la librairie *Gadfly*.

In [5]:
# Génération des 10 000 cas


## 4. Estimation de la moyenne du nombre d'essais requis pour obtenir la collection complète.

À l'aide des 10 000 réalisations, calculez la moyenne empirique de nombre d'essais requis pour obtenir la collection complète de $n=31$ items. Comment elle se compare à la moyenne calculée en classe de 124 essais requis ?

## 5. Estimation de la probabilité que 100 essais soit suffisants pour obtenir la collection complète.

Pour ce faire, calculez la proportion empirique des réalisations parmi les 10 000 simulées où 100 essais ou moins ont été suffisants pour compléter la collection.

# Exercice 2

Dans cet exercice, vous devrez charger les données météorologiques enregistrées à l'Aéroport Pierre-Elliot-Trudeau à Montréal et afficher les températures annuelles maximales. Les étapes sont les suivantes :

1. Chargement du fichier de données.
2. Récupération des années complètes uniquement.
3. Extraction des températures annuelles maximales.
4. Affichage des températures annuelles maximales en fonction des années.

Avant tout, chargeons les librairies requises.


In [6]:
using DataFrames, CSV, Gadfly

┌ Info: Loading DataFrames support into Gadfly.jl
└ @ Gadfly /Users/jalbert/.julia/packages/Gadfly/09PWZ/src/mapping.jl:228


## 1. Chargement du fichier de données

Le chargement du fichier de données se fait avec la fonction *CSV.read* de la librairie *CSV*. La variable de sortie sera un DataFrame.

In [7]:
data = CSV.read("meteoMontreal.csv")
first(data,5) #Permet d'afficher uniquement les 5 premières lignes du DataFrame

Unnamed: 0_level_0,x,y,STATION_NAME,STN_ID,CLIMATE_IDENTIFIER
Unnamed: 0_level_1,Float64,Float64,String,Int64,Int64
1,-73.75,45.4667,MONTREAL/PIERRE ELLIOTT TRUDEAU INTL A,5415,7025250
2,-73.75,45.4667,MONTREAL/PIERRE ELLIOTT TRUDEAU INTL A,5415,7025250
3,-73.75,45.4667,MONTREAL/PIERRE ELLIOTT TRUDEAU INTL A,5415,7025250
4,-73.75,45.4667,MONTREAL/PIERRE ELLIOTT TRUDEAU INTL A,5415,7025250
5,-73.75,45.4667,MONTREAL/PIERRE ELLIOTT TRUDEAU INTL A,5415,7025250


## 2. Récupération des années complètes

Pour que les maxima annuels aient du sens, il faut qu'ils soient pris sur l'année complète. Par exemple, on ne veut pas récupérer le maximum annuel d'une année où l'été n'a pas été enregistré. Pour la station en question, il faut retirer les années avant 1942 et après 2012.

## 3.  Extraction des températures maximales annuelles

Il y a plusieurs façons de procéder. Je vous propose d'utiliser la fonction *by()* de la librairie *DataFrame* pour manipuler aisément les données dans un DataFrame.

Vous devrez également vous soucier des valeurs manquantes. Ici, je propose d'utiliser la fonction *skipmissing()* pour ignorer naïvement les valeurs manquantes.

## 4. Affichage des températures annuelles maximales en fonction des années.

Lorsque les données à afficher sont dans un DataFrame, le traçage des graphiques est simple avec Gadfly. Il suffit de mentionner quelle colonne est le $x$ et quelle colonne est le $y$.