# Question 1


Considérons un scénario où une entreprise recrute des personnes. <br>
$\text{On  note }  X \in \{0, 1\} \text{ si le candidat a de l'expérience.} \\
\text{On note }  Y \in \{0, 1\} \text{ si le candidat est sélectionné.} $ <br>
On suppose que X est uniformément distribué, c'est à dire qu'il y a autant de chance qu'un candidat ait de l'expérience ou qu'il n'en ait pas.
Si X = 1, Y suit une loi de Bernouilly de paramètre 0.8 indiquant une probabilité de 80\% d'être sélectionné. <br>
Si X = 0, Y suit une loi de Bernouilly de paramètre 0.3 indiquant une probabilité de 30\% d'être sélectionné. <br>
On prendra la 0-1 loss. <br>
Le predicteur de Bayes pour la 0-1 loss est le prédicteur qui prédit la sortie la plus probable dans notre cas c'est égale à la valeur de X.
Calculons le risk de Bayes.

$ \begin{equation}
\begin{split}
R(f^*) & =E_{(X,Y)~p}[l(Y, f(X))] \\
& = l(Y, f(X))P(Y=f(X)) + l(Y, f(X))*(Y \neq f(X)) \\
& = P(Y \neq f(X)) \\
& = P(Y = 1 \cap f(X) = 0) \cup P(Y = 0 \cap f(X) = 1) \\
& = P((Y \neq f(X)) \cap X = 1) + P((Y \neq f(X)) \cap X = 0) \\
& = P((Y \neq f(X)) | X = 1)P(X = 1) + P((Y \neq f(X)) | X = 0)P(X = 0) \\
& = \frac{1}{2}P(Y = 0 | X = 1) + \frac{1}{2}P(Y = 1 | X = 0) \\
& = 0.5 * 0.2 + 0.5 * 0.3 \\
& = 0.25
\end{split}
\end{equation} $

# Question 2 : Bayes estimator and Bayes risk

* Rappel des paramètres de l'expérience:
    * X est uniformément distribué entre 0 et 1
    * Si X = 1, Y suit une loi de Bernouilly de paramètre 0.8
    * Si X = 0, Y suit une loi de Bernouilly de paramètre 0.3
    * On utilise la 0-1 loss
    
    
* Le risk de Bayes théorique calculé est 0.25

In [4]:
import numpy as np

rng = np.random.default_rng()

In [5]:
# define the loss function
def loss(x, y):
    if x != y:
        return 1
    return 0

In [6]:
# generate the data
from typing import Tuple


def generate_data(n_samples: int) -> Tuple[np.array, np.array]:
    """
    n_samples: number of samples to generate
    return: X, Y
    """
    X = rng.integers(0, 2, size=n_samples) # generate the input, 0 is no experience, 1 is experience
    bernouilly_probability = X.copy().astype(float)
    bernouilly_probability[bernouilly_probability == 0] = 0.3 # if the candidate does not have experience, the probability of being selected is 0.3
    bernouilly_probability[bernouilly_probability == 1] = 0.8 # if the candidate has experience, the probability of being selected is 0.8
    
    Y = rng.binomial(1, bernouilly_probability) # generate the output, n = 1 is the same as a bernouilly distribution
    return X, Y

In [7]:
# define the bayes predictor
def bayes_predictor(X: np.array) -> np.array:
    """
    It generates the prediction for the bayes predictor which the most probable value
    """
    return X

In [8]:
# define a bad estimator to compare results
def bad_estimator(X: np.array) -> np.array:
    """
    X: np.array of inputs
    Given a set of inputs, return a bad estimator
    """

    return rng.integers(0, 2, size=X.shape[0]) # random estimator with p = 0.5

In [9]:
# define the empirical risk function
def empirical_risk(estimator, loss, X: np.array, Y: np.array) -> float:
    """
    estimator: function that takes X and returns Y
    loss: function that takes two values and returns a loss
    X: np.array of inputs
    Y: np.array of outputs
    Given a set of inputs and outputs, return the empirical risk
    """

    Y_pred = estimator(X)
    return len(np.where(Y - Y_pred)[0]) / len(Y_pred)

### Run the simulation

In [10]:
X, Y = generate_data(int(1e6))

print("Empirical risk for the bayes predictor: ", empirical_risk(bayes_predictor, loss, X, Y))
print("Empirical risk for the bad estimator: ", empirical_risk(bad_estimator, loss, X, Y))

Empirical risk for the bayes predictor:  0.249915
Empirical risk for the bad estimator:  0.499767


On retrouve bien un risque empirique plus faible pour le prédicteur de bayes qu'un prédicteur random et on retrouve bien la valeur théorique de 0.25 attendue