# Tarea 2: ¿Es posible explicar la cantidad de billonarios en base al desarrollo país?  <a class="tocSkip"></a>







## Introducción

En 2006 *Daniel Treisman* publicó un artículo titulado [*Russia Billionaries*](https://pubs.aeaweb.org/doi/pdfplus/10.1257/aer.p20161068) en el cual conectó la cantidad de billonarios de un país con ciertos atributos económicos de los mismos. 

Su conclusión principal fue que Rusia tiene una cantidad de billonarios mayor que la que predicen los indicadores económicos

En esta tarea ustedes analizarán datos para comprobar o refutar los hallazgos de *D. Treisman*

## Datos

Para esta tarea se les provee de un conjunto de datos indexado por país con los siguientes atributos
- `nbillonarios`: La cantidad de billonarios del pais
- `logpibpc`: El logaritmo del Producto Interno Bruto (PIB) per capita del pais
- `logpob`: El logaritmo de la población del pais
- `gatt`: La cantidad de años que el pais está adherido al *General Agreement on Tariffs and Trade* (GATT)

In [1]:
%matplotlib notebook
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.optimize
import ipywidgets as widgets

df = pd.read_csv('billonarios.csv', index_col='pais')

df.sort_values('nbillonarios', inplace=True, ascending=False)
df.head()

Unnamed: 0_level_0,nbillonarios,logpibpc,logpob,gatt
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
United States,469,10.786021,19.532846,60
Russian Federation,87,9.366808,18.77103,37
Germany,59,10.729205,18.223572,57
India,53,6.945625,20.884247,60
China,42,8.143926,21.004417,7


## Modelo

El objetivo principal de esta tarea es entrenar un modelo de regresión que prediga la cantidad de billonarios en función de los demás atributos

> Note que el número de billonarios es una variable entera y no-negativa. Un modelo de regresión con verosimilitud Gaussiano no es apropiado

Se pide entonces que use una [regresión de Poisson](https://en.wikipedia.org/wiki/Poisson_distribution), definimos entonces la probabilidad condicional para un pais $i$ como  

$$
p(y_i | x_i ) = \frac{\lambda_i^{y_i}}{y_i!} \exp \left ({-\lambda_i} \right)
$$

con

$$
\lambda_i = \exp \left (\theta_0 + \sum_{j=1}^M \theta_j x_{ij} \right)
$$

donde 
- $\theta$ es el vector de parámetros que deseamos ajustar 
- $y_i$ y $x_i$ son la cantidad de billonarios y el vector de atributos del país $i$, respectivamente

Considerando esto, se pide que

> Ajuste $\theta$ mediante la maximización de la verosimilitud




>1. Estudie y describa la distribución de Poisson en detalle. Muestre como varía la distribución en función de su parámetro $\lambda$, ¿Qué ocurre cuando $\lambda$ es grande?

Para ver como varía la distribución en función de $\lambda$, generaremos números aleatorios siguiendo una distribución de poisson para distintos $\lambda$

La distribución de Poisson es una distribución de probabilidad que acepta números contables (Discreta), enteros no negativos. Expresa, a partir de una frecuencia, la probabilidad de que ocurra un determinado número de eventos durante cierto período. Su principal propiedad es que su media y su varianza son la misma. Esta es $\lambda$ que es un parámetro positivo que representa el número de veces que se espera que ocurra el fenómeno durante un intervalo dado

In [2]:
lambdaa = 3.5
p = np.random.poisson(lambdaa, 100000)
fig_poisson, ax_poisson = plt.subplots(figsize=(6,3), tight_layout=True)
ax_poisson.hist(p, bins=75);

<IPython.core.display.Javascript object>

Cuando el parámetro lambda toma valore pequeños ( < 10 ) podemos ver en el histograma que este se encuentra más cargado hacia la izquierda, siguiendo el gráfico común de una distribucion Poisson, sin embargo cuando $\lambda$ empieza a crecer podemos ver que los valores empiezan a seguir otra distribución. Los datos empiezan a seguir una distribución Gaussiana unimodal, esto sucede por el teorema central del límite, que hacen que la distribución se aproxime a una normal con media $\lambda$


>2. Aplique el supuesto iid. Obtenga y muestre una expresión analítica para el logaritmo de la verosimilitud del problema

Sea: 
$$
f_\theta(x_i) = \theta_0 + \sum_{j=1}^D \theta_j x_{ij}
$$

Tenemos que el logaritmo de la verosimilitud $\log \mathcal{L}(\theta)$ esta dado por:
$$
\log \mathcal{L}(\theta) = \sum_{i=1}^M \log p(y_i |\lambda_i) = \sum_{i=1}^M \log p(y_i |\exp(f_\theta(x_i)))
$$

Dado que $y_i$ sigue una distribución de poisson, entonces:

$$
\log p(y_i | \exp (f_\theta(x_i)) ) = \log (\frac{\exp (f_\theta(x_i))^{y_i}}{y_i!} \exp \left ({-\exp (f_\theta(x_i))} \right))
$$
$$
= \log (\frac{\exp (f_\theta(x_i))^{y_i}}{y_i!}) + \log( \exp \left ({-\exp (f_\theta(x_i))} \right)) 
$$

$$
= \log \exp (f_\theta(x_i))^{y_i} - \log({y_i!}) + \log( \exp \left ({-\exp (f_\theta(x_i))} \right)) 
$$
$$
=  {y_i} f_\theta(x_i) - \log({y_i!}) + -\exp f_\theta(x_i)
$$
$$
\log \mathcal{L}(\theta) = \sum_{i=1}^M {y_i} f_\theta(x_i) + \log({y_i!}) -\exp f_\theta(x_i)
$$


> 3. Obtenga y muestre una expresión analítica para la primera deriviada del logaritmo de la verosimilitud


Si aplicamos la derivada...
$$
\frac{d}{d\theta_j} \log \mathcal{L}(\theta) =  \sum_{i=1}^M {y_i} \frac{d f_\theta(x_i)}{d\theta_j} - \exp f_\theta(x_i) \frac{d f_\theta(x_i)}{d\theta_j}
$$

$$
\frac{d}{d\theta_j} \log \mathcal{L}(\theta) = \sum_{i=1}^M [{y_i} - \exp f_\theta(x_i)] \frac{d f_\theta(x_i)}{d\theta_j}
$$

## Implementación

>1. Implemente el logaritmo de la verosimilitud y su derivada usando `numpy`



In [3]:
def modelo(theta, X):
    f = theta[0] + np.sum(theta[1:]*X, axis=1)
    return (np.exp(f)), f

def log_verosimilitud(theta, *args):
    X, y = args
    lamb, f = modelo(theta, X)
    return -np.sum(y*np.log(lamb + 1e-10)- lamb)+(suma_factorial(y))

def der_log_verosimilitud(theta, *args): #segun profe
    X, y = args
    N = len(y)
    lamb, f = modelo(theta, X)
    X1 = np.concatenate((np.ones(shape=(N, 1)), X), axis=1) # df / dtheta
    aux = y - lamb
    return -np.sum(aux[:, np.newaxis]*X1, axis=0) # dL / dtheta   

#Funcion usada para calcular el log de un factorial a traves de una sumatoria de log's
def suma_factorial(y):
    suma=np.array([np.sum(np.log(np.arange(1, i+1, 1))) for i in y])
    return np.sum(suma)

In [4]:
#Extracción de datos
billons = df.iloc[:, 0]

y = df['nbillonarios'].values
X = df.iloc[:, 1:].values
#Estandarizando para que no tengamos valores sobredimensionados
X = (X - np.mean(X, axis=0))/np.std(X, axis=0)


>2. Encuentre el vector de parámetros óptimo usando `scipy.optimize.minimize`, justifique su decisión para el método y argumentos a usar
>3. Implemente una rutina que calcule el pseudo coeficiente de correlación
$$
R^2 = \frac{\log \mathcal{L} (\hat \theta_0) - \log \mathcal{L} (\hat \theta) }{\log \mathcal{L} (\hat \theta_0)} \in [0, 1]
$$
donde $\log \mathcal{L} (\hat \theta)$ es el logaritmo de la verosimilitud de su mejor modelo y $\log \mathcal{L} (\hat \theta_0)$ es el logaritmo de la verosimilitud de un modelo que tiene sólo el parámetro $\theta_0$


In [5]:
#r^2 => 1 - logver(thetaHat)/logver(thetaHat_0)

def pseudo_r2(theta, X, y, th_0):
    return 1-(log_verosimilitud(theta, X, y)/(-np.sum(y*th_0 - np.exp(th_0)) + suma_factorial(y)))

In [6]:
theta = np.random.randn(1+X.shape[1])

res = scipy.optimize.minimize(fun=log_verosimilitud, x0=theta, method='BFGS',
                                  jac=der_log_verosimilitud, args=(X, y), tol=1e-1)




r_2 = pseudo_r2(res.x, X, y, theta[0])

print('r^2 = ', r_2)

r^2 =  0.8851250295606801


>4. Implemente una rutina de bootstrap resampling para encontrar la distribución y los intervalos de confianza empíricos para $\theta$ y para el pseudo coeficiente de correlación

In [7]:
#Bootstrap
def muestreo_reemplazo(X, y):#Funcion Profe
    M = len(X)
    idx = np.random.choice(M, size=M, replace=True)
    return X[idx], y[idx]

def bootstrap_poisson(X, y, T):
    erres = np.zeros(shape=(T, ))
    thetas = np.zeros(shape=(T, 4))
    for i in range(T):
        
        X_, y_ = muestreo_reemplazo(X, y)
        theta_ = np.random.randn(1+X.shape[1])
        res_ = scipy.optimize.minimize(fun=log_verosimilitud, x0=theta_, method='BFGS',
                                  jac=der_log_verosimilitud, args=(X_, y_), tol=1e-1)
        thetas[i, :] = res_.x
        erres[i] = pseudo_r2(res_.x, X_, y_, theta_[0])
    return thetas, erres


In [8]:
#MUESTREO BOOTSTRAP
thetas, erres_2 = bootstrap_poisson(X, y, 500)


## Resultados




>1. Prediga la cantidad de billonarios de cada país usando su modelo. Muestre la cantidad de billonarios predicha y real para cada continente. ¿Qué puede comentar al respecto?

In [9]:
df_continente = pd.read_csv('country.csv', sep=',')
df_continente.set_index('pais', inplace=True)


In [10]:
predict_y, _ = modelo(res.x, X)

df_predichos = pd.DataFrame({'nbillonarios predicha':predict_y
                              }, index=df.index)


predict_continente = pd.concat([df_continente, df, df_predichos], axis=1, join='inner')
predict_continente.sort_values(['nbillonarios'], ascending=False, inplace=True)
predict_continente.head()

Unnamed: 0_level_0,Continente,nbillonarios,logpibpc,logpob,gatt,nbillonarios predicha
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
United States,North America,469,10.786021,19.532846,60,357.473976
Russian Federation,Asia,87,9.366808,18.77103,37,27.418534
Germany,Europe,59,10.729205,18.223572,57,71.23211
India,Asia,53,6.945625,20.884247,60,27.102183
China,Asia,42,8.143926,21.004417,7,83.334708


In [11]:
df_bill_cont = predict_continente.groupby(['Continente']).sum()
fig_cont, ax_cont = plt.subplots(figsize=(6,3), tight_layout=True)
ax_cont.plot(df_bill_cont['nbillonarios'], label='real')
ax_cont.plot(df_bill_cont['nbillonarios predicha'], label='predicha')
ax_cont.set_ylabel('Frecuencia')

plt.legend()
print('\nTabla Suma de Variables por continente')
display(df_bill_cont)

<IPython.core.display.Javascript object>


Tabla Suma de Variables por continente


Unnamed: 0_level_0,nbillonarios,logpibpc,logpob,gatt,nbillonarios predicha
Continente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,5,327.299519,725.740442,1077,14.178359
Asia,310,287.755642,569.033916,902,287.795204
Europe,210,431.661381,653.499778,1209,324.241275
North America,505,167.02476,285.74231,608,395.293024
Oceania,18,100.298315,152.023512,176,17.954622
South America,25,94.094919,177.978258,402,46.01081


> Del gráfico podemos observar que la cantidad de billoanrios en el contienente Africano, Oceánico y Sudamericano es considerablemente menor al Asiático, Europeo y NorteAmericano, esto probablemte pase por el hecho de que continentes como los últimos tres tienen una mayor concentración de ingresos v/s la cantidad de población,  esto produce que el dinero este concentrado en menos personas, lo que se presta para que muy pocas personas concentren una gran cantidad de dinero, conviertiendolos en billonarios. Viendo la tabla podemos decir que continentes como Sudamerica o Africa se pueden considerar como contienentes pobres en comparación con Europa, en el sentido que tienen un PIB mucho menor con respecto a la cantidad de habitantes, es decir, el PIB per capita es significativamente más pequeño.

In [12]:
#OBTENIENDO ERROR ABSOLUTO

errores = np.array(abs(df.iloc[:, 0] - predict_y))
df_predict = pd.DataFrame({'nbillonarios predicha':predict_y}, index=df.index)
df_comparativo = pd.DataFrame({'nbillonarios predicha':predict_y, 
                               'nbillonarios real': df['nbillonarios'],
                               'error absoluto':errores, 
                               'exceso':np.array(predict_y-df.iloc[:, 0])
                              }, index=df.index)
display(df_comparativo.head())


Unnamed: 0_level_0,nbillonarios predicha,nbillonarios real,error absoluto,exceso
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
United States,357.473976,469,111.526024,-111.526024
Russian Federation,27.418534,87,59.581466,-59.581466
Germany,71.23211,59,12.23211,12.23211
India,27.102183,53,25.897817,-25.897817
China,83.334708,42,41.334708,41.334708


In [30]:
#grafico DATOS PREDICHOS DATOS Y DATOS REALES
def graficar_paises(n_paises):

    fix, ax = plt.subplots(figsize=(10, 4), tight_layout=True)

    ax.plot(df_comparativo.iloc[:n_paises, 1], label="datos reales")
    ax.plot(df_comparativo.iloc[:n_paises, 0], label="datos predichos")
    ax.set_ylabel('Frecuencia')

    plt.xticks(fontsize=8, rotation=90)
    ax.legend()
n_paises = widgets.IntSlider(min=10, max=197, step=1, description='Cantidad de países a mostrar')
widgets.interact(graficar_paises, n_paises=n_paises)

interactive(children=(IntSlider(value=10, description='Cantidad de países a mostrar', max=197, min=10), Output…

<function __main__.graficar_paises(n_paises)>


>2. Muestre las distribuciones empíricas de los parámetros y del pseudo coeficiente de correlación. ¿Cuáles parámetros tienen $\theta$ significativamente distinto de cero? ¿Cuál es el intervalo de confianza al 95% del $R^2$? En base a esto ¿Qué puede decir sobre su modelo?

In [14]:
#INTERVALO DE CONAFIANZA PARA PARÁMETROS
thetas_ = np.array([thetas[:, i] for i in range(thetas.shape[1])])
fig_th, ax_th = plt.subplots(1, 4, figsize=(10, 3), tight_layout=True)

for i_th, theta_i in enumerate(thetas_):
    hist_th, hist_lim, _ = ax_th[i_th].hist(theta_i, bins=100)
    
    IC_th = np.percentile(theta_i, [2.5, 97.5])
    
    ax_th[i_th].plot([IC_th[0]]*2, [0, np.max(hist_th)], 'k--', lw=1)
    ax_th[i_th].plot([IC_th[1]]*2, [0, np.max(hist_th)], 'k--', lw=1)
    
    ax_th[i_th].plot([res.x[i_th]]*2, [0, np.max(hist_th)], 'g-', lw=2)
    
    ax_th[i_th].hist(theta_i, bins=100)
    ax_th[i_th].set_xlabel('theta'+str(i_th))
    print('Intervalo de confianza para theta {} es: {}'.format(i_th, IC_th))

<IPython.core.display.Javascript object>

Intervalo de confianza para theta 0 es: [-2.46425465 -0.58414986]
Intervalo de confianza para theta 1 es: [1.17477972 2.37217101]
Intervalo de confianza para theta 2 es: [1.84805991 3.19990358]
Intervalo de confianza para theta 3 es: [-0.3800128   0.35613555]


Claramente podemos ver que nustro theta3 (que representa 'lo que aporta el GATT' a la regresión) es el único que tiene incluido al 0 en su intervalo de confianza, esto nos dice que este parámetro no esta aportando a la estimacion de  valores en nustro modelo de regresión, dado que no causa una mayor incidencia en las predicciones.

In [15]:
#INTERVALO DE CONFIANZA DE R^2'S
fig_r2, ax_r2 = plt.subplots(figsize=(6, 3), tight_layout=True)
ax_r2.set_title('Intervalo de Confianza para r^2')
ax_r2.set_xlabel('R^2')
ax_r2.set_ylabel('Frecuencia')
hist_val, hist_lim, _ = ax_r2.hist(erres_2, bins=100)

IC = np.percentile(erres_2, [2.5, 97.5])
ax_r2.plot([r_2]*2, [0, np.max(hist_val)], 'r-', lw=2)

ax_r2.plot([IC[0]]*2, [0, np.max(hist_val)], 'k--', lw=2)
ax_r2.plot([IC[1]]*2, [0, np.max(hist_val)], 'k--', lw=2)

print('Intervalo de  confianza de r^2 es {}'.format(IC))

<IPython.core.display.Javascript object>

Intervalo de  confianza de r^2 es [0.69304029 0.96346552]


 >3. Gráfique el error entre la cantidad de billonarios predicha y la cantidad de billonarios real. El gráfico debe mostrar los paises ordenados de mayor a menor **error absoluto**.  Analice ¿Cuáles son los 5 países con mayor error en la predicción? ¿Cuáles paises tienen un exceso de billonarios? ¿Cúales paises tienen menos billonarios de lo esperado? ¿Qué puede decir sobre Rusia?

In [42]:
df_comparativo.sort_values(by=['error absoluto'], ascending=False, inplace=True);

fig, ax = plt.subplots(figsize=(10, 4), tight_layout=True);

ax.plot(df_comparativo.iloc[:100, 2]); #Solo se mustran 100 países para que entren de bunea forma en el gráfico
ax.set_title('Error absoluto entre billonarios predichos y reales')
ax.set_ylabel('Frecuencia');
plt.xticks(fontsize=8, rotation=90);



<IPython.core.display.Javascript object>

In [41]:
df_comparativo.head()

Unnamed: 0_level_0,nbillonarios predicha,nbillonarios real,error absoluto,exceso
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
United States,357.473976,469,111.526024,-111.526024
Japan,95.536959,24,71.536959,71.536959
Russian Federation,27.418534,87,59.581466,-59.581466
China,83.334708,42,41.334708,41.334708
France,54.130445,14,40.130445,40.130445


Los 5 países con un mayor error absoluto son : Estados Unidos, Japon, Rusia, China y Francia
Como se esperaba con los datos anteriores, los paises como Estados Unidos que no cumplen su relación de PIB con el número de habitantes fueron los que más fallaron en relación a la cantidad Real de billonarios vs la cantidad predicha. Por otro lado, países como Japon o Francia que tienen un alto PIB y un tamaño de población no muy exagerada mostraron tener una baja cantidad de billonarios en comparación con sus atributos. Esto 'habla muy bien de estos países' porque quiere decir que las riquezas estan '''mejor distribuidas''' en comparacion con Estados Unidos, donde muy pocas personas concentran grandes cantidades de dinero.

Sobre Rusia podemos decir que es un caso especial, al igual que Estados Unidos,  la cantidad de Billonarios que tienen es muy alta en comparación con los atributos que son más considerables como lo es el PIB y la cantidad de habitantes.
Esto puede darse por el hecho que en Rusia, al igual que en EE:UU, existe una mala distribución de los recursos económicos, dado que muy pocas personas hacen que el PIB de Rusia sea mucho más alto haciendo de que el modelo prediga que la cantidad de billonarios sea menor a lo que realmente es.

## Conclusiones

Resuma sus principales hallazgos y comenté sobre las desafios encontrados al desarrollar esta tarea 

Las conclusiones principales son que nos pudimos dar cuenta que la cantidad de riquezas esta mal distribuidas en países potencias del mundo o primermundistas, mientras que en países más pobres, el dinero no alcanza a acumularse lo suficiente en una persona para considerarse billonario.

Tambien nos pudimos dar cuenta que al entrenar este modelo regresor, los parámetros como el GATT aportan muy poco a la predicción de los datos, ya que no es una variable que sea significativa al momento de estimar la cantidad de billonarios de nu país.

Nuestro principal desafio fue con la estimación del r^2, ya que creímos que al momento de calcular el logaritmo de la verisimilitud al vector de parametros theta, no iba afectar de forma significativa si considerabamos el factorial de y (cantidad de billoanrios).