
<img style="float: right; margin: 0px 0px 15px 15px;" src="https://interactivo.eluniversal.com.mx/2019/diabetes/img/diabetes.jpg" width="350px" height="180px" />

# <font color= #ff7700> Analisis Estadistico Multivariado </font>

- <Strong> `Claudia Celeste Castillejos Jáuregui` </Strong>
- <Strong> `14 enero 2022`</Strong>
- <Strong> `Practica #2`</Strong>
- <Strong> `claudia.castillejos@iteso.mx` </Strong> 
- <Strong> `Rocio Carrasco Navarro` </Strong> 

### <font color= #ff7700> Apéndice </font>

- Portada.
- Introducción.
- Descripción de la base de datos.
- Objetivo.
- Desarrollo.
- Resultados
- Conclusiones.

### <font color= #ff7700> Introducción</font>

Alguna vez te has preguntado ¿Cuántos diabéticos hay en mundo?, según la OPS (Organización Panamericana de la Salud), Aproximadamente existen 62 millones de personas con esta enfermedad y estas cifras siguen aumentando al paso de los años. La razón por la cual elegí esta base de datos fue porque me pareció muy interesante y me gustaría estudiar si un modelo de regresión lineal es óptimo para solucionar este problema.


### <font color= #ff7700> Descripción de la base de datos</font>

Esta base de datos tiene 10 variables: edad, sexo, índice de masa corporal, sangre promedio y presión, s1, s2, s3, s4, s5 y s6 .Se obtuvieron seis mediciones de suero sanguíneo para cada uno de los 442 pacientes diabéticos.Se busca encontrar una medida cuantitativa de la progresión de esta enfermedad en lo que va de un año.

Nombre de las variables:

      - edad(años)
      - sexo
      - índice de masa corporal bmi
      - pb presión arterial promedio
      - s1 tc, T-Cells (un tipo de glóbulos blancos)
      - s2 ldl, lipoproteínas de baja densidad
      - s3 hdl, lipoproteínas de alta densidad
      - s4 tch, hormona estimulante de la tiroides
      - s5 ltg, lamotrigina
      - s6 glu, nivel de azúcar en la sangre
      
Importante: Cada una de estas 10 variables de características se han centrado en la media y se han escalado por la desviación estándar multiplicada por `n_muestras` (es decir, la suma de los cuadrados de cada columna suma 1).

### <font color= #ff7700>  Objetivo </font>


Determinar la relación existente entre una variable dependiente y una o más variables independientes.



### <font color= #ff7700> Desarrollo </font>

In [1]:
#Librerias
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
import seaborn as sns
import statsmodels.stats.api as sms
from scipy import stats
from statsmodels.compat import lzip
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split

In [2]:
#1.- Elegir una base de datos apropiada para el análisis de regresión.
df = datasets.load_diabetes()
print(df.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, T-Cells (a type of white blood cells)
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, thyroid stimulating hormone
      - s5      ltg, lamotrigine
      - s6      glu, blood sugar level

Note: Each of these 10 feature va

In [3]:
df.target

array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
        69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
        68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
        87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
       259.,  53., 190., 142.,  75., 142., 155., 225.,  59., 104., 182.,
       128.,  52.,  37., 170., 170.,  61., 144.,  52., 128.,  71., 163.,
       150.,  97., 160., 178.,  48., 270., 202., 111.,  85.,  42., 170.,
       200., 252., 113., 143.,  51.,  52., 210.,  65., 141.,  55., 134.,
        42., 111.,  98., 164.,  48.,  96.,  90., 162., 150., 279.,  92.,
        83., 128., 102., 302., 198.,  95.,  53., 134., 144., 232.,  81.,
       104.,  59., 246., 297., 258., 229., 275., 281., 179., 200., 200.,
       173., 180.,  84., 121., 161.,  99., 109., 115., 268., 274., 158.,
       107.,  83., 103., 272.,  85., 280., 336., 281., 118., 317., 235.,
        60., 174., 259., 178., 128.,  96., 126., 28

In [4]:
df.data

array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
         0.01990842, -0.01764613],
       [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
        -0.06832974, -0.09220405],
       [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
         0.00286377, -0.02593034],
       ...,
       [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
        -0.04687948,  0.01549073],
       [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
         0.04452837, -0.02593034],
       [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
        -0.00421986,  0.00306441]])

In [5]:
#Nombre de las variables 
df.feature_names

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

## Regresión Lineal Simple

In [7]:
# Selección de Variables
#Variable Independiente (tipo de globulos )
X=df.data[:,np.newaxis,5]
#Variable Dependiente
Y=df.target
X


array([[-3.48207628e-02],
       [-1.91633397e-02],
       [-3.41944659e-02],
       [ 2.49905934e-02],
       [ 1.55961395e-02],
       [-7.92878444e-02],
       [-2.48000121e-02],
       [ 1.08914381e-01],
       [ 6.20168566e-03],
       [-3.45076144e-02],
       [-9.05611890e-02],
       [ 4.59715403e-02],
       [-9.76888589e-03],
       [-1.57187067e-02],
       [-6.12835791e-05],
       [ 1.07661787e-01],
       [-2.38605667e-02],
       [ 4.94161734e-02],
       [-1.94764882e-02],
       [-1.13346282e-02],
       [-4.32757713e-02],
       [-2.63657544e-02],
       [ 7.76742797e-03],
       [-4.73467013e-02],
       [-1.88501913e-02],
       [ 4.63594335e-03],
       [-9.61978613e-02],
       [-4.35889198e-02],
       [-3.76390990e-02],
       [-9.58847129e-02],
       [-7.57684666e-03],
       [-5.36096705e-02],
       [-1.29003705e-02],
       [-8.99348921e-02],
       [-4.89124436e-02],
       [-4.13221358e-03],
       [-2.85577936e-02],
       [-4.29626228e-02],
       [ 7.5

In [None]:
#%% Modelo de regresión Lineal
X_train,X_test,Y_train,Y_test=train_test_split(X,Y, test_size=0.2)
rls=linear_model.LinearRegression()

modelo=rls.fit(np.reshape(X_train,(-1,1)),Y_train)
Y_pred=rls.predict(np.reshape(X_test,(-1,1)))
Y_pred

In [None]:
#Datos de la regresión lineal
# El coeficiente B0
print(rls.coef_)

In [None]:
# El intercepto B1
print(rls.intercept_)

In [None]:
# Parámetros para prueba de hipótesis B1
error=Y_test-Y_pred
ds_error=error.std()
ds_X=X_test.std()
error_st=ds_error/np.sqrt(102)
t1=rls.coef_/(error_st/ds_X)
print(t1)

In [None]:
#%% Parámetros para prueba de hipótesis B0
media_X=X_test.mean()
media_XC=pow(media_X,2)
var_X=X_test.var()
to=rls.intercept_/(error_st*np.sqrt(1+(media_XC/var_X)))
print(to)

In [None]:
#2.- Diseñar un modelo de regresión lineal simple.
plt.scatter(X_test,Y_test)
plt.plot(X_test,Y_pred, color= 'r',linewidth=3)
plt.title('Linear Regression')
plt.xlabel('Number of Rooms')
plt.ylabel('Median Value')
plt.show()

En este gráfico mostramos la variable 5, que es tipo de glóbulos blancos y como se ajusta la regresión lineal a esta.

In [None]:
plt.figure()
sns.regplot(Y_test,Y_pred, data=df, marker='*')
plt.xlabel('Actual Values')
plt.ylabel('Predicted Values')
plt.title('Actual Values VS Predicted Value')
plt.show()

En este gráfico vemos los valores actuales vs los predecidos y nos muestra el parámetro de azul claro de los datos que entran en este. 

In [None]:
#Modelo de regresión lineal (statsmodel)
X_2=sm.add_constant(X_train,prepend=True)
rls_2= sm.OLS(Y_train,X_2)
modelo_2= rls_2.fit()
print(modelo_2.summary())
Y_pred_2=modelo_2.predict()
error_2=modelo_2.resid

### <font color= #ff7700> Resultados:</font>

En la parte de arriba encontramos una tabla de resultados de la regresión lineal simple que trabajamos previamente. El $R^2$ para este modelo es muy bajo por lo que podemos determinar que no es un buen modelo. Con respecto a las variables ${\beta_0}$ y ${\beta_1}$  no se ven sesgados por que los valores no son drásticamente diferentes. Con respecto a  prob(Ómnibus) se rechaza la hipótesis nula por lo tanto no se hace normal y prob(JB) se acepta la hipótesis nula y si se hay normalidad. La simetría y el kurtosis tienen una buena relación con respecto a la base de datos. La técnica que utilizo esta regresión lineal fue Least Squares que su objetivo es encontrar las diferencias entre los valores del dataset y los valores estimados por la recta. El intervalo de confianza con respecto a ${\beta_0} $ y ${\beta_1}$ no estan bueno porque si se encuentra algo desviado de la media. El coeficiente dividido por su error estándar (T) se define como lo que se espera en el comportamiento de la media con respecto a cierto número de observaciones, y e este caso es buena con respecto sus ${\beta}$.

In [None]:
#Visualizar homocedasticidad
plt.figure()
sns.regplot(Y_pred_2,error_2, data=df,marker='*')
plt.xlabel('Fitted Values',size=10)
plt.ylabel('Residuals',size=10)
plt.title('Fitted Values VS Residuals', size=20)
plt.show()

En este gráfico se muestra los residuales del modelo con los valores ajustados y en realidad no abarcan muchos datos de las variables mostradas. Es por eso que podemos inferir que el modelo no le sirve para esta prueba de regresión lineal simple.

In [None]:
# Forma Estadística de Homocedasticidad
#H0= Homocedasticidad (p>0.05)
#H1= No Homocedasticidad (p<0.05)
names=['Lagrange multiplier statistic', 'p-value','f-value',
       'f p-value']
test= sms.het_breuschpagan(modelo_2.resid, X_2)
lzip(names, test)

En la forma estadística homocedasticidad, La prueba de p-value es mayor a 0.05  la hipótesis nula se acepta, por lo tanto es homocedastica lo que significa que la varianza es constante en este modelo. En el caso de f p-value como también es mayor a 0.05 la hipótesis nula se acepta y se considera homocedastica.

In [None]:
# Forma gráfica de la normalidad de los residuos
plt.figure()
ax=sm.qqplot(modelo_2.resid)
plt.show()

La normalidad de los residuos es buena por que se parece mucho a la regresión lineal simple 

In [None]:
#Forma estadistica de la normalidad 
#Ho Normalidad (p>0.05)
#H1 No normalidad(p<0.05)
names= ['Statistic', 'p-value']
test= stats.shapiro(modelo_2.resid)
lzip(names,test)

El p-value de la prueba de shapiro determina si esta normalizada la regresión lineal simple esta medida para encontrar la normalidad es la más usada por lo que se considera veraz. En este caso, como p-value es menor a 0.05 la hipótesis nula  no se acepta y no se considera normalizada.

## Regresión Lineal Multivariable 

In [None]:
#%% Selección de Variables
#Variable Independiente
# solo tome algunas variables
X_multiple=np.matrix(df.data[:,1:8])
#Variable Dependiente
Y_multiple=df.target

In [None]:
#%% Modelo de regresión Lineal
X_train,X_test,Y_train,Y_test=train_test_split(X_multiple,Y_multiple, test_size=0.2)
X= sm.add_constant(X_train, prepend=True)
rlm = sm.OLS(endog= Y_train ,exog=X)
rln =rlm.fit()
print(rln.summary())
Y_pred=rln.predict()
error_=rln.resid

### <font color= #ff7700> Resultados:</font>


En la parte de arriba encontramos una tabla de resultados de la regresión lineal múltiple en la que se contemplaron 6 variables más el intercepto que en este caso es la const. El $R^2$ para este modelo es mucho mejor que en el pasado por lo que podemos determinar que es mejor hacer una regresión lineal con más variables. Con respecto a las variables propuestas para esta regresión, la kurtosis no es tan chata por lo tanto se parece a la distribución normal lo cual es bueno. Con respecto a  $prob(Ómnibus)$ se rechaza la hipótesis nula y  no se hace normal. Para la $prob(JB)$ también se rechaza la hipótesis nula y  no se hace normal. La simetría de esta regresión es pequeña por lo que la distribución no es grande. La técnica que utilizo esta regresión lineal fue la misma que la anterior el Least Squares. El intervalo de confianza con respecto a las variables del modelo no es tan bueno porque si se encuentra desviadas de la media. El coeficiente dividido por su error estándar (T) en este modelo muestra valores negativos que se interpretan como que el error es grande. Para finalizar, el AIC de la regresión lineal múltiple es mejor que la lineal simple por que el número de coeficiente es menor. 

In [None]:
#Visualizar homocedasticidad
plt.figure()
sns.regplot(Y_pred,error_, data=df,marker='*')
plt.xlabel('Fitted Values',size=10)
plt.ylabel('Residuals',size=10)
plt.title('Fitted Values VS Residuals', size=20)
plt.show()

En este gráfico se muestra los residuales del modelo con los valores ajustados, y el parámetro azul no abarca suficientes datos de las variables. Es por eso que podemos inferir que el modelo a pesar que es mejor que el de regresión lineal simple no es tan bueno aún.

In [None]:
# Forma Estadística de Homocedasticidad
#H0= Homocedasticidad (p>0.05)
#H1= No Homocedasticidad (p<0.05)
names=['Lagrange multiplier statistic', 'p-value','f-value',
       'f p-value']
test= sms.het_breuschpagan(rln.resid, X)
lzip(names, test)

La evaluación de homocedasticidad para el modelo de regresión lineal multiple prueba que el  p-value es menor a 0.05  y la hipótesis nula se rechaza, por lo tanto no es homocedastica. Para el otro caso de f p-value como también es menor a 0.05 la hipótesis nula se rechaza y se no se considera homocedastica.

In [None]:
# Forma gráfica de la normalidad de los residuos
plt.figure()
ax=sm.qqplot(rln.resid)
plt.show()

La normalidad de los residuos es buena por que se parece mucho a la regresión lineal normal.

In [None]:
#Forma estadistica de la normalidad 
#Ho Normalidad (p>0.05)
#H1 No normalidad(p<0.05)
names= ['Statistic', 'p-value']
test= stats.shapiro(rln.resid)
lzip(names,test)

El p-value de la prueba de shapiro determina si esta normalizada la regresión lineal múltiple, se utiliza esta medida para encontrar si tiene normalidad el modelo. En este caso, como p-value es mayor a 0.05 la hipótesis nula se acepta y se considera normalizada.

### <font color= #ff7700> Conclusiones </font>

Durante la elaboración de esta práctica, me pude percatar todos los criterios que evalúa la regresión lineal tanto simple como múltiple para que el modelo sea bueno. Lo más difícil para mi fueron las conclusiones, pero después de la asesoría que tuve los conceptos se volvieron más claro y pude explicar los resultados que me dieron. Considero que el modelo de regresión lineal es muy interesante y me sorprende su implentación.


### <font color= #ff7700> Referencias </font>

Diabetes Data. (s/f). Ncsu.edu. Recuperado el 14 de marzo de 2022, de https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

Keays, R. (2007). Diabetes. Current Anaesthesia and Critical Care, 18(2), 69–75. https://doi.org/10.1016/j.cacc.2007.03.007