## Problema 1

Considere el conjunto de datos `diag2010.txt`. En este problema se analizará las variables `Mate`: Puntaje en la parte matemática de la PSU de los alumnos de primer año de la USM, y la variable `Calculo`: puntaje en la prueba de diagnóstico aplicada a los estudiantes de primer año en la USM el año 2010.


#### Preliminares

In [1]:
#importar librerias
import pandas as pd
import numpy as np
import altair as alt

In [2]:
# obtener y 'masajear' los datos
df = pd.read_csv('data/diag2010.txt', sep="\t")
ptje = df.reset_index()[['Mate','Calculo']].drop(399).dropna()
ptje['Mate'] = pd.to_numeric(ptje.Mate)
ptje.head()

Unnamed: 0,Mate,Calculo
0,678.0,731
1,756.0,762
2,718.0,712
3,682.0,683
4,682.0,769


#### a] Haga un análisis descriptivo de ambas variables por separado.

Comensaremos con un simple `describe` para revisar los estadisticos más comunes

In [3]:
ptje.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Mate,2119.0,702.760264,54.140935,521.0,664.0,694.0,737.0,850.0
Calculo,2119.0,685.181218,67.413094,489.0,638.0,686.0,733.0,850.0


Podemos ver que en los puntajes de la prueba de diagnostico tinen una mediana similar a su promoedio, pero los puntajes de la psu no lo tienen, estos están mucho más cargados hacia la derecha. Para ver esto de forma más clara 

In [4]:
PSU_char = alt.Chart(ptje).mark_bar().encode(
               x = 'Mate',
               y = 'count()',
           )

Calculo_char = alt.Chart(ptje).mark_bar().encode(
                   x = 'Calculo',
                   y = 'count()',
               )
PSU_char | Calculo_char

Es dificil de dicernir el comportamiento de los datos en la PSU dado como funciona la curva de puntajes en esa prueba, dado esto, creo que será mejor hacer un histograma de las notas

In [5]:
PSU_char = alt.Chart(ptje).mark_bar().encode(
               alt.X("Mate:Q", bin = alt.BinParams(maxbins = 20)),
               y = 'count()',
           )

Calculo_char = alt.Chart(ptje).mark_bar().encode(
                   alt.X("Calculo:Q", bin = alt.BinParams(maxbins = 20)),
                   y = 'count()',
               )
PSU_char | Calculo_char

#### b) ¿Es razonable asumir normalidad para cada variable? Justifique.

A pesar de que la PSU tiene una cierta *Skewness* positiva, creo que no es suficiente para quitarnos el supusto de normalidad en los datos, de la misma forma en los datos de la pruba de diagnostico. Por lo que, en una primera inspección visual, el supuesto de normalidad me parece razonable 

#### c) Determine si el supuesto de normalidad multivariada tiene asidero estadístico. Justifique.

Para esto usaremos el test Chi-cuadrado con la distancia de Mahananobis para determinar la normalidad bibariada

In [6]:
def Mahananobis(x, mu, sigma):
    '''Distancia de Mahananobis asumiento distribución normal multivariada N(mu, sigma)'''
    z = x-mu
    return float(z.dot(np.linalg.inv(sigma)).dot(z.T))

from scipy.stats import chi2

def chisplot(data):
    ''' Similar al chisplot de R'''
    X_bar = data.mean()
    
    S = np.zeros((data.shape[1],data.shape[1]))
    for i in data.index:
            S = S + np.array([data.loc[i]-X_bar]).T.dot(np.array([data.loc[i]-X_bar]))
    S = 1/(data.shape[0]-1)*S
    
    d_2 = [Mahananobis(data.loc[i], X_bar, S) for i in data.index]
    d_2.sort()
    j_star = [1/data.shape[0]*(i+1-1/2) for i in range(data.shape[0])]
    chi_sqrd = [chi2.ppf(i, data.shape[1]) for i in j_star]
    
    source = pd.DataFrame({'d_2':d_2,'chi_sqrd':chi_sqrd})
    return  alt.Chart(source).mark_circle(size=60).encode(
            x='d_2',
            y='chi_sqrd',
            )

In [7]:
chisplot(ptje)

Dado el gráfico resultante, es razonable asumir que estas distrubuyen de forma normal bivariada

#### e) Haga inferencia para el coeficiente de correlación entre las variables. Comente. ¿Existe correlación significativa entre la prueba de diagnóstico aplicada en la USM y la parte matemática de la PSU? Proponga un modelo para explicar una variable como función de la otra.

Para esto usaremos las formulas de inferencia deducidas en clase

In [8]:
mu_gorro = np.array([ptje.sum()])/ptje.shape[0]
mu_gorro

array([[702.76026428, 685.18121756]])

In [9]:
sigma_gorro = np.zeros((2,2))
for i in ptje.index:
    sigma_gorro = sigma_gorro + (np.array([ptje.loc[i]])-mu_gorro).T.dot(np.array([ptje.loc[i]])-mu_gorro)
sigma_gorro = sigma_gorro/ptje.shape[0]
sigma_gorro

array([[2929.85758105, 2560.2638313 ],
       [2560.2638313 , 4542.38056275]])

Ahora calculemos $\rho$

In [10]:
rho = sigma_gorro[0,1]/(sigma_gorro[0,0]*sigma_gorro[1,1])**0.5
rho

0.7018102512234997

Tenemos una correlación del 0.7, lo cual es bastante alto y sugiere una fuerte conexión lineal entre las variables, motivo por el cual propongo una regredión lineal

In [11]:
from sklearn.linear_model import LinearRegression
X = ptje.Mate.to_numpy().reshape(-1, 1)
y = ptje.Calculo.to_numpy().reshape(-1, 1)
reg = LinearRegression().fit(X, y)
reg.score(X, y)

0.4925376287223884

In [12]:
reg.coef_, reg.intercept_ #valores de la refreción

(array([[0.87385266]]), array([71.07229351]))

Tenemos un coeficiente $R^2 = 0.4925$, que no es espectacular, pero tampoco es una mal resultado. Veamos como se ve en un gráfico:

In [13]:
scatter = alt.Chart(ptje).mark_circle(size=30).encode(
              alt.X('Mate:Q',
                  scale=alt.Scale(zero=False)
              ),
              alt.Y('Calculo:Q',
                  scale=alt.Scale(zero=False)
              )
              )

source = pd.DataFrame({'mate':np.arange(500, 850,10),'reg':(np.arange(500, 850,10)*reg.coef_+reg.intercept_)[0]})
regre = alt.Chart(source).mark_line(color = 'Red').encode(
            x='mate',
            y='reg'
        )
scatter + regre

Es claro porque el coeficiente $R^2 = 0.4925$, pero dada la dispersión que tienen los datos no parece ser un mal modelo.


#### f) ¿Existen Outiers multivariados en la muestra? Justifique.

Vamos a utilizar una significancía del 0.05 porciento, buscanto valores tales que su distancía de mahalanobis sea mayor que que una Chi-cuadrado con dos grados de libertad. 

In [14]:
atil_95 = chi2.ppf(0.95, 2)
is_outlier = ptje.apply( lambda x: Mahananobis(np.array([x]), mu_gorro, sigma_gorro)> atil_95, axis=1) 
outliers = ptje[is_outlier]
outliers.T

Unnamed: 0,77,136,137,267,289,293,296,320,388,403,...,2032,2057,2085,2102,2137,2157,2158,2159,2162,2167
Mate,831.0,831.0,812.0,812.0,831.0,831.0,850.0,831.0,812.0,701.0,...,812.0,850.0,831.0,793.0,561.0,561.0,694.0,831.0,630.0,850.0
Calculo,686.0,762.0,695.0,636.0,759.0,645.0,802.0,766.0,690.0,814.0,...,660.0,733.0,705.0,667.0,517.0,529.0,795.0,719.0,508.0,766.0


Con este criterio, podemos ver que hay 99 outliers.

####  g) El instrumento consiste en 40 preguntas clasificadas en 4 categorías. Estas categorías tienen relación con los 4 cursos remediales que se ofrece a aquellos estudiantes que obtienen un puntaje menor a 620 puntos. El porcentaje de respuestas acertadas en cada categoría se encuentra en la base de datos con los nombres R1, R2, R3 y R4. ¿Es razonable asumir una distribución normal multivariada para modelar las variables R1, R2, R3 y R4?

Nuevamente vamos a aplicar el test con la Chi-cuadrado

In [15]:
preguntas = df[[' R1 ', 'R2 ', 'R3 ', 'R4 ']].dropna() #obteniendo datos
preguntas.head()

Unnamed: 0,R1,R2,R3,R4
0,69.2,92.3,62.5,50.0
1,84.6,53.8,87.5,100.0
2,84.6,46.2,75.0,66.7
3,61.5,61.5,50.0,83.3
4,84.6,84.6,75.0,83.3


In [16]:
chisplot(preguntas)

Dado el resultado del test es razonable asumir normalidad multivariada entre las categroías.

#### Use el test $T^2$ de Hotelling para docimar la hipótesis de igualdad de las medias de las variables PSU y la prueba de diagnístico aplicada en la USM el año 2010 versus una hipótesis alternativa bilateral. Use α = 0.05

Obtenemos los datos y hacemos el test

In [17]:
psu_v_cal = df[['PSU', 'Calculo']]
diff = psu_v_cal.PSU-psu_v_cal.Calculo
diff

0       -61.20
1       -94.60
2       -18.20
3       -13.35
4      -102.45
         ...  
2176    -42.45
2177     23.35
2178      3.30
2179     31.05
2180    -61.40
Length: 2181, dtype: float64

In [18]:
mu_bar = diff.mean()
mu_bar

-9.837093076570403

In [19]:
sigma_bar = float(np.cov(diff))
sigma_bar

3110.6693184266537

In [20]:
mu = 0

In [21]:
T_2 = diff.shape[0]*(mu_bar-mu)*sigma_bar**-1*(mu_bar-mu)
T_2

67.84773925652871

In [22]:
test = ((diff.shape[0]-2)/2)*(T_2/(diff.shape[0]-1))
test

33.908308220178

In [23]:
from scipy.stats import f
f.isf(0.05, 2, diff.shape[0]-2)

2.9998546429795723

Dado que obtivimos un vamos muy alto para el estadistico $T^2$ en comparación a la distribución F, se rechaza la hipótesis nula.