# Tarea 2: ¿Es posible explicar la cantidad de billonarios en base al desarrollo país?  <a class="tocSkip"></a>







## Introducción

En 2006 *Daniel Treisman* publicó un artículo titulado [*Russia Billionaries*](https://pubs.aeaweb.org/doi/pdfplus/10.1257/aer.p20161068) en el cual conectó la cantidad de billonarios de un país con ciertos atributos económicos de los mismos. 

Su conclusión principal fue que Rusia tiene una cantidad de billonarios mayor que la que predicen los indicadores económicos

En esta tarea ustedes analizarán datos para comprobar o refutar los hallazgos de *D. Treisman*

## Datos

Para esta tarea se les provee de un conjunto de datos indexado por país con los siguientes atributos
- `nbillonarios`: La cantidad de billonarios del pais
- `logpibpc`: El logaritmo del Producto Interno Bruto (PIB) per capita del pais
- `logpob`: El logaritmo de la población del pais
- `gatt`: La cantidad de años que el pais está adherido al *General Agreement on Tariffs and Trade* (GATT)

In [1]:
%matplotlib notebook
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.optimize
df = pd.read_csv('billonarios.csv', index_col='pais')

df.sort_values('pais', inplace=True)
df.tail(60)

Unnamed: 0_level_0,nbillonarios,logpibpc,logpob,gatt
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Papua New Guinea,0,7.107612,15.695109,11
Paraguay,0,7.995369,15.64585,14
Peru,0,8.357474,17.169813,14
Philippines,2,7.562884,18.319437,57
Poland,6,9.539742,17.4564,29
Portugal,4,10.119199,16.172411,41
Puerto Rico,0,10.122557,15.14016,60
Qatar,0,11.345855,14.122344,46
Romania,2,9.203605,16.837782,14
Russian Federation,87,9.366808,18.77103,37


## Modelo

El objetivo principal de esta tarea es entrenar un modelo de regresión que prediga la cantidad de billonarios en función de los demás atributos

> Note que el número de billonarios es una variable entera y no-negativa. Un modelo de regresión con verosimilitud Gaussiano no es apropiado

Se pide entonces que use una [regresión de Poisson](https://en.wikipedia.org/wiki/Poisson_distribution), definimos entonces la probabilidad condicional para un pais $i$ como  

$$
p(y_i | x_i ) = \frac{\lambda_i^{y_i}}{y_i!} \exp \left ({-\lambda_i} \right)
$$

con

$$
\lambda_i = \exp \left (\theta_0 + \sum_{j=1}^M \theta_j x_{ij} \right)
$$

donde 
- $\theta$ es el vector de parámetros que deseamos ajustar 
- $y_i$ y $x_i$ son la cantidad de billonarios y el vector de atributos del país $i$, respectivamente

Considerando esto, se pide que

> Ajuste $\theta$ mediante la maximización de la verosimilitud

En primer lugar se pide que
1. Estudie y describa la distribución de Poisson en detalle. Muestre como varía la distribución en función de su parámetro $\lambda$, ¿Qué ocurre cuando $\lambda$ es grande?
1. Aplique el supuesto iid. Obtenga y muestre una expresión analítica para el logaritmo de la verosimilitud del problema
1. Obtenga y muestre una expresión analítica para la primera deriviada del logaritmo de la verosimilitud


$$
f_\theta(x_i) = \theta_0 + \sum_{j=1}^D \theta_j x_{ij}
$$


$$
\log \mathcal{L}(\theta) = \sum_{i=1}^M \log p(y_i |\lambda_i)
$$

Dado que $y_i$ sigue una distribución de poisson, entonces:

$$
\log p(y_i | \exp (f_\theta(x_i)) ) = \log (\frac{\exp (f_\theta(x_i))^{y_i}}{y_i!} \exp \left ({-\exp (f_\theta(x_i))} \right))
$$
$$
= \log (\frac{\exp (f_\theta(x_i))^{y_i}}{y_i!}) + \log( \exp \left ({-\exp (f_\theta(x_i))} \right)) 
$$

$$
= \log \exp (f_\theta(x_i))^{y_i} - \log({y_i!}) + \log( \exp \left ({-\exp (f_\theta(x_i))} \right)) 
$$
$$
=  {y_i} f_\theta(x_i) - \log({y_i!}) + -\exp f_\theta(x_i)
$$
$$
\log \mathcal{L}(\theta) = \sum_{i=1}^M {y_i} f_\theta(x_i) + \log({y_i!}) -\exp f_\theta(x_i)
$$

Si aplicamos la derivada...
$$
\frac{d}{d\theta_j} \log \mathcal{L}(\theta) =  \sum_{i=1}^M {y_i} \frac{d f_\theta(x_i)}{d\theta_j} - \exp f_\theta(x_i) \frac{d f_\theta(x_i)}{d\theta_j}
$$

$$
= \sum_{i=1}^M [{y_i} - \exp f_\theta(x_i)] \frac{d f_\theta(x_i)}{d\theta_j}
$$

In [2]:
#graficar billonarios
billons = df.iloc[:, 0]

In [3]:
def modelo(theta, X):
    f = theta[0] + np.sum(theta[1:]*X, axis=1)
    return (np.exp(f)), f

#def log_verosimilitud_modelo(theta, *args):
#    X, y = args
#    lamb, f = modelo(theta, X)
#    return -np.sum(y*np.log(lamb + 1e-10) - lamb)

def log_verosimilitud(theta, *args):
    X, y = args
    lamb, f = modelo(theta, X)
    return -np.sum(y*np.log(lamb + 1e-10)- lamb)+(suma_factorial(y))

def der_log_verosimilitud(theta, *args): #segun profe
    X, y = args
    N = len(y)
    lamb, f = modelo(theta, X)
    X1 = np.concatenate((np.ones(shape=(N, 1)), X), axis=1) # df / dtheta
    aux = y - lamb
    return -np.sum(aux[:, np.newaxis]*X1, axis=0) # dL / dtheta   

def suma_factorial(y):
    suma=np.array([np.sum(np.log(np.arange(1, i+1, 1))) for i in y])
    return np.sum(suma)

In [4]:
print(np.math.factorial(5))
np.sum(np.log(np.arange(1, 6, 1)))

print(np.log(np.math.factorial(5)))

120
4.787491742782046


In [5]:
y = df['nbillonarios'].values
print(y.shape)
X = df.iloc[:, 1:].values
X = (X - np.mean(X, axis=0))/np.std(X, axis=0)


(197,)


In [56]:
theta = np.random.randn(1+X.shape[1])

res = scipy.optimize.minimize(fun=log_verosimilitud, x0=theta, method='BFGS',
                                  jac=der_log_verosimilitud, args=(X, y), tol=1e-1)


#r^2
print(res.x)
#r^2
r_2 = 1-(log_verosimilitud(res.x, X, y)/(-np.sum(y*theta[0] - np.exp(theta[0])) + suma_factorial(y)))
r_2

[-1.62704539  1.73933635  2.5976012   0.1317977 ]


0.9167323817288267

## Implementación

1. Implemente el logaritmo de la verosimilitud y su derivada usando `numpy`
1. Encuentre el vector de parámetros óptimo usando `scipy.optimize.minimize`, justifique su decisión para el método y argumentos a usar
1. Implemente una rutina que calcule el pseudo coeficiente de correlación
$$
R^2 = \frac{\log \mathcal{L} (\hat \theta_0) - \log \mathcal{L} (\hat \theta) }{\log \mathcal{L} (\hat \theta_0)} \in [0, 1]
$$
donde $\log \mathcal{L} (\hat \theta)$ es el logaritmo de la verosimilitud de su mejor modelo y $\log \mathcal{L} (\hat \theta_0)$ es el logaritmo de la verosimilitud de un modelo que tiene sólo el parámetro $\theta_0$
1. Implemente una rutina de bootstrap resampling para encontrar la distribución y los intervalos de confianza empíricos para $\theta$ y para el pseudo coeficiente de correlación


In [98]:
#Bootstrap
def muestreo_reemplazo(X, y):#Funcion Profe
    M = len(X)
    idx = np.random.choice(M, size=M, replace=True)
    return X[idx], y[idx]

def bootstrap_poisson(X, y, T):
    erres = np.zeros(shape=(T, ))
    thetas = np.zeros(shape=(T, 4))
    for i in range(T):
        
        X_, y_ = muestreo_reemplazo(X, y)
        theta_ = np.random.randn(1+X.shape[1])
        res_ = scipy.optimize.minimize(fun=log_verosimilitud, x0=theta_, method='BFGS',
                                  jac=der_log_verosimilitud, args=(X_, y_), tol=1e-1)
        thetas[i, :] = res_.x
        erres[i] = 1-(log_verosimilitud(res_.x, X_, y_)/(-np.sum(y_*theta_[0] - np.exp(theta_[0]))
                                                         + suma_factorial(y_)))
    return thetas, erres


In [100]:
#MUESTREO BOOTSTRAP
thetas, erres_2 = bootstrap_poisson(X, y, 500)


array([[-2.20694889,  2.39246188,  2.74249178, -0.11326331],
       [-2.40156234,  1.80690843,  2.83569361,  0.33869034],
       [-1.06003293,  1.26693348,  1.87991783,  0.35919339],
       ...,
       [-1.0452446 ,  1.41329928,  2.31800602,  0.14353481],
       [-2.11680728,  2.29844648,  2.63976229, -0.04320305],
       [-1.87098154,  1.78495733,  2.82140448, -0.06756343]])

(4, 500)

In [150]:
#INTERVALO DE CONAFIANZA PARA PARÁMETROS
thetas_ = np.array([thetas[:, i] for i in range(thetas.shape[1])])
fig_th, ax_th = plt.subplots(1, 4, figsize=(10, 3), tight_layout=True)

for i_th, theta_i in enumerate(thetas_):
    ax_th[i_th].hist(theta_i, bins=30)
    ax_th[i_th].set_xlabel('theta'+str(i_th))

<IPython.core.display.Javascript object>

In [113]:
#INTERVALO DE CONFIANZA DE R^2'S
fig_r2, ax_r2 = plt.subplots(figsize=(6, 3), tight_layout=True)
ax_r2.set_title('Intervalo de Confianza para r^2')
ax_r2.set_xlabel('R^2')
ax_r2.set_ylabel('Frecuencia')
hist_val, hist_lim, _ = ax_r2.hist(erres_2, bins=50)

IC = np.percentile(erres_2, [2.5, 97.5])
ax_r2.plot([r_2]*2, [0, np.max(hist_val)], 'r-', lw=2)

ax_r2.plot([IC[0]]*2, [0, np.max(hist_val)], 'k--', lw=2)
ax_r2.plot([IC[1]]*2, [0, np.max(hist_val)], 'k--', lw=2)


<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x11ef7b370>]

## Resultados

1. Prediga la cantidad de billonarios de cada país usando su modelo. Muestre la cantidad de billonarios predicha y real para cada continente. ¿Qué puede comentar al respecto?
1. Muestre las distribuciones empíricas de los parámetros y del pseudo coeficiente de correlación. ¿Cuáles parámetros tienen $\theta$ significativamente distinto de cero? ¿Cuál es el intervalo de confianza al 95% del $R^2$? En base a esto ¿Qué puede decir sobre su modelo?
1. Gráfique el error entre la cantidad de billonarios predicha y la cantidad de billonarios real. El gráfico debe mostrar los paises ordenados de mayor a menor **error absoluto**.  Analice ¿Cuáles son los 5 países con mayor error en la predicción? ¿Cuáles paises tienen un exceso de billonarios? ¿Cúales paises tienen menos billonarios de lo esperado? ¿Qué puede decir sobre Rusia?



In [None]:
predict_y, _ = modelo(res.x, X)
billons = df.iloc[:, 0]

fix, ax = plt.subplots(figsize=(10, 4), tight_layout=True)
ax.plot(billons, label="datos reales")
ax.plot(predict_y, label="datos predichos")
plt.xticks(fontsize=8, rotation=90)
ax.legend()
print()


In [None]:
df_predict = pd.DataFrame(data=predict_y)
df_predict.index = df.index
#display(df_predict.tail(25))
#display(df.tail(25))

## Conclusiones

Resuma sus principales hallazgos y comenté sobre las desafios encontrados al desarrollar esta tarea 