In [None]:
import numpy as np
from scipy import stats
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="white")

In [None]:
iris = sns.load_dataset("iris")
g = sns.PairGrid(iris)
g.map_diag(sns.histplot)
g.map_offdiag(sns.scatterplot)

En el gráfico anterior hay cuatro histogramas. El primero es para la variable "sepal_length". El segundo para "sepal_width". El tercero para "petal_length" y el último para "petal_width". Por arriba de los histogramas se observa el [diagrama de dispersión](https://es.wikipedia.org/wiki/Diagrama_de_dispersi%C3%B3n) (o scattergram como se le conoce en inglés). Observe que estos diagramas de dispersión tienen una "imagen espejo" por debajo de los histogramas también. Para evitar esta redundancia, vamos a modificar un poco el gráfico anterior y vamos a meterle los diagramas de kernel y el valor de la correlación entre las variables.

In [None]:
from scipy.stats import pearsonr
import matplotlib.pyplot as plt 

def corrfunc(x, y, ax=None, **kws):
    """Plot the correlation coefficient in the top left hand corner of a plot."""
    r, _ = pearsonr(x, y)
    ax = ax or plt.gca()
    ax.annotate(f'r = {r:.2f}', xy=(.1, .9), xycoords=ax.transAxes)

In [None]:
g = sns.PairGrid(iris, palette=["red"])
g.map_upper(plt.scatter, s=10)
g.map_diag(sns.distplot, kde=False)
g.map_lower(corrfunc)
g.map_lower(sns.kdeplot, cmap="Blues_d")

Ahora, vamos a ver con el caso 2 de nuestro curso (corruption data) cómo se corre una regresión múltiple.

In [None]:
df = pd.read_excel('corruption_dataset.xlsx')
df = df.rename(columns={'Important to be loyal to friends and devote to people close':'L2F'})
df.head()

In [None]:
df2 = df[['country', 'L2F', 'CPI', 'GDP per capita (current US$)']]
df2.tail()

In [None]:
X = df2[['L2F', 'GDP per capita (current US$)']]
Y = df2['CPI']

In [None]:
import statsmodels.api as sm

In [None]:
model = sm.OLS(Y, X).fit()

In [None]:
model.summary()

## Interpretación de los resultados:
El modelo de regresión que acabamos de correr nos indica que una gran proporción de la varianza del índice de percepción de corrupción (CPI) resulta explicado por la lealtad que se le tiene a los amigos y familiares dentro de la sociedad (L2F). Más concretamente, el modelo mostró un índice de explicación bien elevado ($R^2_{adj}$ = 0.969; F = 366.3; p = 4.72e-17). No obstante, entre las dos variables predictoras, puede observarse que tanto la lealtad a los amigos y familiares (L2F) como el producto interno bruto per capita (GDP per capita (current US$\$$)) resultaron ser variables que estadísticamente contribuyen a la explicación de la variabilidad observada de CPI. La estimación estadística del coeficiente que estima la relación entre L2F y CPI resultó ser significativa (coef = 1.7439, std err = 0.238, t = 7.338, p = 0.000) al igual que la estimación estadística del coeficiente para la relación entre GDP per capita (current US$) y CPI (coef = 0.0001, std err = 1.33e-05, t = 8.377, p = 0.000).

In [None]:
import statsmodels.api as sm
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
results = smf.ols('CPI ~ L2F*GDP per capita (current US$)', data=df2)
fitted_model=results.fit()
fitted_model.summary()
fig = plt.figure(figsize=(8, 6))
results = smf.ols('CPI ~ L2F*GDP per capita (current US$)', data=df2).fit()
sm.graphics.plot_regress_exog(results, 'L2F', fig=fig)


In [None]:
df2 = df2.rename(columns={'GDP per capita (current US$)':'GDPpc'})
df2.tail()

In [None]:
results = smf.ols('CPI ~ L2F * GDPpc', data=df2)
fitted_model=results.fit()
fitted_model.summary()


In [None]:
fig = plt.figure(figsize=(8, 6))
results = smf.ols('CPI ~ L2F * GDPpc', data=df2).fit()
sm.graphics.plot_regress_exog(results, 'L2F', fig=fig)

Taller por evaluar:
Ahora que ya ha tenido una exposición práctica a la implementación del análisis de regresión con el ejemplo anterior, usted debe:

1. Realizar un modelo en el que incluya tres variables independientes dejando CPI como variable dependiente.
2. Corra cualquiera de las dos sintaxis de ejemplo e interprete los resultados.
3. Para que usted tenga una evaluación de este ejercicio, usted debe enviar por correo este jupyter notebook con su nombre antes de las 11:00 am del 29 de Septiembre de 2021 