# Modèles à variable dépendante limitée

Cette application reprend la proposition de Stock et Watson (le manuel) qui utilisent les données de l'article de Alicia H Munnell, Geoffrey MB Tootell, Lynn E Browne, and James McEneaney : "Mortgage lending in
boston: Interpreting hmda data." *The American Economic Review*, pages 25-53, 1996.

Dans cet article, les chercheurs de la Federal Reserve Bank de Boston souhaitent savoir les noirs américains sont discriminés dans l'accès au crédit immobilier. Ils collectent des données sur les demandes de prêts immobiliers en 1990 dans Boston et sa banlieue. Ils obtiennent 2380 observations de demandeurs blanc et noir-américain. 

Les données sont décrites dans le codebook simplifié : **TD6_codebook.png** : 

![title](TD6_codebook.png)

## Intuition
On ouvre la base de données : **TD6_hdma_v12.dta**. 

In [None]:
library(foreign)
hdma<-read.dta("TD6_hdma_v12.dta")

#on a la variable 'black' numérique qui nous donne l'ethnie
#à partir de cette variable on crée une variable facteur 'hdma$blackcategory' pour définir dans R que cette variable n'est une variable continue mais une variable catégorielle
hdma$blackcategory<-factor(hdma$black, levels=c(0,1), labels=c("White","Black")) #on transforme Black en facteur pour plus de l
#la plupart du temps on utilisera la variable catégorielle 'hdma$blackcategory'
#mais pour calculer les effets marginaux à la moyenne à la main on aura besoin de la porportion de Noirs américains'
#et on utilisera exceptionnellement la numérique: 'hdma$black'

Les noirs-américains (*black*) ont-ils effectivement une probabilité plus importante de voir leur demande de prêt rejetée (*deny*) ? 

*Indice : proposez un test d'égalité de moyennes ou une régression linéaire simple.*

In [None]:
#test d'égalité de moyennes
#

In [None]:
#régression linéaire simple
#lpm1 <- 
summary(lpm1)

Grâce à des tests d'égalité de moyennes, déterminez si les blancs-américains sont de bons contrefactuels pour les noirs-américains. Peut-on donc interpréter la différence de traitement de la question précédente comme de la discrimination ?

In [None]:
t.test(hdma$selfemp ~ hdma$blackcategory)
t.test(hdma$single ~ hdma$blackcategory)
t.test(hdma$hischl ~ hdma$blackcategory)
t.test(hdma$probunmp ~ hdma$blackcategory)

## 1. Modèle de probabilité linéaire 
On s'intéresse à contrôler en plus pour l'effet du ratio mensualité de l'emprunt / revenu total *pi_rat* sur la probabilité de rejet. Pourquoi ? Que s'attend-on à trouver?

Rappeler ce qu'est un modèle de probabilité linéaire.

Estimer et interpréter.

In [None]:
summary(hdma$pi_rat)
lpm2 <- lm(deny~blackcategory+pi_rat,data=hdma)
summary(lpm2)
#coeftest(lpm2, vcov = vcovHC(lpm2, type="HC1")) 

## 2. Modèle de régression probit

On estime le modèle de régression probit de *deny* sur *black* et *pi_rat* par maximum de vraisemblance : **glm( y~x, binomial("probit"), data=... )**. Quel est le principe de l'estimation par maximum de vraisemblance ? Interpréter les résultats.

In [None]:
probit1 <- glm(deny ~ blackcategory + pi_rat, binomial("probit"), data = hdma)
summary(probit1)

Pourquoi l'interprétation des résultats est-elle compliquée ? 

#### 1. Effet marginal à la moyenne 
Rappeler ce qu'est l'effet marginal à la moyenne.

En vous aidant du code ci-dessous, calculez l'effet marginal du fait d'être noir-américain sur la probabilité de rejet. Pour cela, calculez d'abord la probabilité de rejet de l'individu moyen noir, puis de l'individu moyen blanc. Calculez ensuite la différence.

*Indice: La fonction de répartition de la loi normale s'écrit :* **pnorm()** 

In [None]:
#voir les coefficients:
coef(probit1)

In [None]:
#Prob for blacks at means
z1  <- coef(probit1)[1] + coef(probit1)[2] + coef(probit1)[3]*mean(hdma$pi_rat)
Gz1 <- pnorm(z1)
#Prob for whites at means
z0  <- 
Gz0 <- 
#Difference in probs
Gz1-Gz0

Calculer l'effet marginal du fait d'avoir un ratio d'endettement de 10 points de pourcentage plus élevé pour l'individu moyen. Pour ce faire calculez la proba de rejet de l'individu moyen, puis de l'individu moyen avec 0.1 de ratio d'endettement supplémentaire. Calculez ensuite la différence.

In [None]:
###Calculer l'effet marginal du fait d'avoir un ratio d'endettement de 10 points de pourcentage plus ?lev? pour l'individu moyen.
#J'ai besoin de la proportion des noirs-américains: j'utilise la variable numérique 'black' plutôt que la variable catégorielle 'blackcategory'
#Prob at means
z1  <- 
Gz1 <- 
z0  <- coef(probit1)[1] + coef(probit1)[2]*mean(hdma$black) + coef(probit1)[3]*mean(hdma$pi_rat)
Gz0 <- pnorm(z0)
Gz1-Gz0

#### 2. Effet marginal moyen

Rappeler ce qu'est l'effet marginal moyen.






Que mesure ce code ?

*Indice: La fonction de densité de la loi normale s'écrit :* **dnorm()**

In [None]:
#J'ai besoin de la valeur numérique 0/1 signalant les noirs-américains: j'utilise la variable numérique 'black' plutôt que la variable catégorielle 'blackcategory'
hdma$gg<-dnorm(coef(probit1)[1] + coef(probit1)[2]*hdma$black + coef(probit1)[3]*hdma$pi_rat)
scalefactor<-mean(hdma$gg)
scalefactor

Calculer l'effet marginal moyen du ratio d'endettement. 

In [None]:
effet_marginal_moyen <-scalefactor*coef(probit1)[3]
effet_marginal_moyen

<font color=red> NOTE : On n'a jamais besoin de faire ces calculs à la main ! R calcule pour vous les effets marginaux moyens grâce au package 'margins'. 

Vous pouvez essayer et retrouver les résultats de pi_rat en tapant: 

*install.packages("margins")*

*library(margins)*
*AME<-margins(probit1)*
*summary(AME)*

Attention, dans votre régression, si la variable est un facteur (une variable catégorielle), il doit bien être défini comme tel ! Sinon l'effet marginal à la moyenne sera mal calculé car R appliquera la méthode des variables continues (et non des variables discrètes, alors que la variable catégorielle est discrète). 
</font>

In [None]:
#install.packages("margins")
#library(margins)
#AME<-margins(probit1)
#summary(AME)

## 3. Comparaison des deux modèles de régression

Calculer la probabilité de rejet quand le demandeur est blanc avec un taux d'endettement de 0.1 selon le modèle de probabilité linéaire et le modèle probit. Commentez. 

In [None]:
#Par MPL
ypred <- coef(lpm2)[1] + coef(lpm2)[3]*0.1
#Par Probit
z <- coef(probit1)[1] + coef(probit1)[3]*0.1
p=pnorm(z)
ypred
p

Que réprésentent les commandes et le graphique ci-dessous ?

In [None]:
library(ggplot2)
hdma$p_rejet <- predict(probit1, hdma, type = "response")
hdma$y_hat <- predict(lpm2, hdma, type = "response")
ggplot(hdma, aes(x = pi_rat, y = p_rejet, colour = blackcategory))+ geom_point()+geom_line(aes(y = y_hat, colour = blackcategory))

## 4. Modèle de régression probit complet

Quelles sont les autres variables que vous souhaiteriez ajouter à la régression ? 

Sous quelle condition estimez-vous l'effet causal du traitement ?

Estimer le modèle probit de *black* sur *deny* en ajoutant 1 puis 2 puis 3 catégories de variables : 
- emprunt : pi_rat + hse_inc + loan_val 
- emprunteur : ccred + mcred + pubrec + denpmi
- individuelles : selfemp + single + hischl + probunmp

In [None]:
probit2<-glm(deny ~ blackcategory + pi_rat + hse_inc + loan_val  , binomial("probit"), data = hdma)
probit3<-glm(deny ~ blackcategory + pi_rat + hse_inc + loan_val + ccred + mcred + pubrec + denpmi  , binomial("probit"), data = hdma)
probit4<-glm(deny ~ blackcategory + pi_rat + hse_inc + loan_val + ccred + mcred + pubrec + denpmi + selfemp + single + hischl + probunmp , binomial("probit"), data = hdma)

#summary(margins(probit1))
#summary(margins(probit2))
#summary(margins(probit3))
#summary(margins(probit4))

On vous donne les résultats obtenus avec le package 'margins': pour le modèle simple probit1, puis pour les spécifications enrichies successivement: probit2, probit3, probit4. Commentez.

![title](TD6_margins1.png)
![title](TD6_margins2.png)

Qu'ajouteriez-vous à la régression pour savoir si le ratio d'endettement a un effet différent sur la probabilité de voir son dossier rejeté par la banque selon si on est noir ou blanc ?

Voici le pseudoR2 de McFadden pour le modèle simple et multiple. Commentez la qualité générale des régressions.

In [None]:
pR2_1 <- 1 - probit1$deviance / probit1$null.deviance 
pR2_2 <- 1 - probit2$deviance / probit2$null.deviance 
pR2_3 <- 1 - probit3$deviance / probit3$null.deviance 
pR2_4 <- 1 - probit4$deviance / probit4$null.deviance 
pR2_1
pR2_2
pR2_3
pR2_4

<font color=green> 
*****************************************************************
RAPPEL au cas où : Le **pseudo R2** est un équivalent du R2 pour les modèles de régression probit. Il y en a plusieurs. 
    
On peut partir de celui de **McFadden : 1 – Lu/L0** avec:
- Lu log vraisemblance du modèle 
- et L0 log vraisemblance du modèle estimé avec seulement une constante. 

=> Si le modèle avec variables n’a aucun pouvoir explicatif alors Lu sera égal à L0 et donc Le R2 sera égal à 0. 

=> Plus Lu se rapprocge de 0 (rappelons que l’on maximise Lu et que Lu est négative donc sa maximisation implique qu’elle se rapproche de 0), plus le ratio Lu/L0 se rapproche de 0 donc R2 se rapproche de 1. 

Calcul :
- Use deviance since $deviance = -2 \times ln(Lfull)$ and $null.deviance = -2 \times ln(Lnull)$ donc pseudoR2 = 1 - (Lu/L0) = 1 - (deviance/null.deviance)
- ICI: on a l’info sur la deviance (en bas du tableau de l'estimation probit) : pR2 = 1-(1264.9/1726.9)=0.2675. 
*****************************************************************
</font>