<img style="float: left;;" src='Figures/iteso.jpg' width="100" height="200"/></a>

# <center> <font color= #000047> Relaciones Lineales </font> </center>

In [None]:
from sklearn.datasets import load_wine
import numpy as np
import seaborn as sns
from scipy.optimize import minimize
import matplotlib.pyplot as plt
import pandas as pd

Hasta este punto, hemos analizado cada variable individualmente utilizando sus distribuciones, así como medidas de forma y dispersión. Además, es posible explorar las relaciones entre dos o más variables tanto de manera gráfica como mediante estadísticos. Ahora nos enfocaremos en el estudio de la relación entre dos variables cuantitativas utilizando la covarianza, correlación y relaciones lineales que puedan existir.

## Covarianza

La **covarianza** mide el grado en que dos variables varían juntas. Si ambas variables tienden a aumentar o disminuir al mismo tiempo, la covarianza será positiva. Si una aumenta mientras la otra disminuye, la covarianza será negativa. Consideremos dos conjuntos de datos $X$ y $Y$ con el mismo número de muestras: $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$ podemos calcular la covarianza Covarianza como:

$$ \mathrm{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) $$

Donde:
- $x_i, y_i$ son los valores de las variables $X$ y $Y$.
- $\bar{x}, \bar{y}$ son las medias de $X$ y $Y$.
- $n$ es el número de observaciones.

La covarianza depende de las unidades de las variables y su magnitud no es fácil de interpretar directamente.

> Si $\mathrm{Cov}(X, Y)=0$ entonces no existe relación lineal entre $X$ e $Y$.

> Si $\mathrm{Cov}(X, Y)>0$ entonces existe una relación lineal directa o positiva entre $X$ e $Y$. Esto es, a mayores valores de $X$, en promedio tenemos mayores valores de Y y viceversa.

> Si $\mathrm{Cov}(X, Y)<0$ entonces existe una relación lineal inversa o negativa entre $X$ e $Y$. Esto es, a mayores valores de $X$, en promedio tenemos menores valores de $Y$ y viceversa.

 

In [None]:
iris = sns.load_dataset('iris')
iris.head()

In [None]:
iris = iris.iloc[:,:-1]

In [None]:
# Gráfica de dispersión de  petal_width vs petal_length
plt.figure(figsize=(6,4))
plt.scatter(iris['petal_length'],iris['petal_width'])
plt.xlabel('petal_length')
plt.ylabel('petal_width')
plt.title('petal_width vs petal_length')
plt.grid()

In [None]:
cov_mat = iris.cov()
cov_mat

In [None]:
#La covarianza entre petal_length y sepal_width es negativa; la relación lineal entre las variables es inversa.
cov_mat.loc["petal_length", "sepal_width"] 

#### Propiedades de la covarianza
Dada una muestra $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$, se cumplen las siguientes propiedades relacionadas con la covarianza $\mathrm{Cov}(X, Y)$:

1. Si transformamos linealmente las variables originales $\hat{X}=a+bX$, $\hat{Y}=c+dY$, la covarianza $\mathrm{Cov}(\hat{X}, \hat{Y})$ es la covarianza original multiplicada por $bd$. Las constantes que se suman no alteran el resultado $\mathrm{Cov}(\hat{X}, \hat{Y}) = bd\mathrm{Cov}(X, Y)$.


In [None]:
iris["petal_length_transform"] = 5 + 2*iris["petal_length"]
iris["petal_width_transform"] = 3 - 4*iris["petal_width"]

cov_mat = iris.cov()
cov_mat


In [None]:
cov_mat.loc["petal_length", "petal_width"]

In [None]:
cov_mat.loc["petal_length_transform", "petal_width_transform"], 2*(-4)*cov_mat.loc["petal_length", "petal_width"]

2. La covarianza de una variable consigo misma es la varianza de la variable: $\mathrm{Cov}(X, X) = \mathrm{Cov}^2(X) $ 

In [None]:
iris["petal_length"].var()

In [None]:
cov_mat.loc["petal_length", "petal_length"]

3. La covarianza entre $X$ e $Y$ es igual a la covarianza entre $Y$ y $X$:  $\mathrm{Cov}(X, Y) = \mathrm{Cov}(Y, X) $ 

In [None]:
cov_mat.loc["petal_length", "petal_width"] == cov_mat.loc["petal_width", "petal_length"]

4. La covarianza puede calcularse también de la siguiente manera: $\mathrm{Cov}(X, Y)= \frac{\sum_{i=1}^n x_iy_i}{n-1} - \frac{n}{n-1}\bar{X}\bar{Y}$

In [None]:
def cov_alterna(x, y): #En ocasiones, esta formulación es más sencilla de calcular que la de la definición, incluso para las computadoras.
  n = len(x)
  
  return ((x * y).sum() / (n - 1)) - ((n / (n - 1)) * x.mean() * y.mean())

cov_mat.loc["petal_length", "petal_width"]

In [None]:
cov_alterna(iris["petal_length"], iris["petal_width"])

## Correlación

Aunque la covarianza nos da el signo de la relación entre dos variables, al depender de las unidades de $X$ y de $Y$, no sabemos si un valor es alto o bajo; sólo sabemos el signo. Para solucionar esto, estandarizamos los valores.

Dada una muestra $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$, calculamos la correlación entre $X$ e $Y$, y la denotamos por $r(X,Y)$ al cociente de la covarianza dividida entre el producto de las desviaciones estándar.


$$ r(X,Y) = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y} $$

Donde:
- $\mathrm{Cov}(X, Y)$ es la covarianza entre $X$ y $Y$.
- $\sigma_X, \sigma_Y$ son las desviaciones estándar de $X$ y $Y$.

Este estadístico, también conocido como Coeficiente de correlación de Pearson se encuentra entre -1 y 1.

> $r(X,Y) = 1$: correlación positiva perfecta.

> $r(X,Y) = -1$: correlación negativa perfecta.

> $r(X,Y) = 0$: no hay relación lineal.

La correlación es adimensional y permite comparar relaciones entre variables de diferentes unidades.

Cuando una variable es una transformación lineal de otra, la correlación es perfecta. Por ejemplo, si tenemos dos variables, una que mide distancia recorrida en cierto tiempo y otra que mide velocidad (asumiendo que la velocidad es constante en ese mismo tiempo), el coeficiente de correlación será 1.

In [None]:
iris.head()

In [None]:
corr_mat = iris.corr()
corr_mat

#### Propiedades de la correlación
Dada una muestra $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$, se cumplen las siguientes propiedades relacionadas con la correlación $r(X, Y)$:

1. Si transformamos linealmente las variables originales $\hat{X}=a+bX$, $\hat{Y}=c+dY$, la correlación $r(\hat{X}, \hat{Y})$ es la correlación original multiplicada por el signo de $bd$ para cualquier $b\neq 0,, d\neq 0$.  $$r(\hat{X}, \hat{Y}) = \frac{bd}{|bd|} r(X, Y)$$


In [None]:
iris["petal_length_transform"] = 5 + 2*iris["petal_length"]
iris["petal_width_transform"] = 3 - 4*iris["petal_width"]

corr_mat = iris.corr()
corr_mat.loc["petal_length", "petal_width"]

In [None]:
 corr_mat.loc["petal_length", "petal_width"]*((2*-4)/(abs(2*-4)))

In [None]:
corr_mat.loc["petal_length_transform", "petal_width_transform"]

2. La correlación de una variable consigo misma es 1

In [None]:
corr_mat.loc["petal_length", "petal_length"]

3. La correlación entre $X$ e $Y$ es igual a la correlación entre $Y$ y $X$

In [None]:
corr_mat.loc["petal_length", "petal_width"]

In [None]:
corr_mat.loc["petal_width", "petal_length"]

¿Qué valor tendría la correlación entre X y −X?

In [None]:
corr = iris.corr(numeric_only=True)

# Graficar el mapa de calor de correlaciones
plt.figure(figsize=(6,4))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de correlación del dataset Iris')
plt.show()

# ¿Cómo se ven las correlaciones?

In [None]:
LW=load_wine()
data=LW.data
names=LW.feature_names
df=pd.DataFrame(data=data,columns=names)
df.head()

In [None]:
wine_corr = df.corr()
wine_corr

In [None]:
print(LW.DESCR)

## Relación entre `flavanoids` y `ash`

In [None]:
# Gráfica flavanoids vs ash
plt.figure(figsize=(8,6))
plt.scatter(df['flavanoids'],df['ash'])
plt.xlabel('flavanoids')
plt.ylabel('ash')
plt.title('flavanoids vs ash')
plt.grid()

## Relación entre `alcalinity_of_ash` y `ash`

In [None]:
# Gráfica alcalinity_of_ash vs ash
plt.scatter(df['alcalinity_of_ash'],df['ash'])
plt.xlabel('alcalinity_of_ash')
plt.ylabel('ash')
plt.title('alcalinity_of_ash vs ash')
plt.grid()

#### Relación lineal

Encontrar la mejor función lineal que relacione a las variables

In [None]:
minimize?

In [None]:
# Definimos 'fun', el criterio de minimizacion
#
# ash=a[0]+a[1]*flavanoids
# y = mx + b 
# y = AX  ---->  [a0,a1]*[1, x]
def fun(a,x,y):
    f=a[0]+a[1]*x
    return np.mean((f-y)**2)

In [None]:
a0=np.random.rand(2) # Dos elementos uniformemente distrubuidos entre 0 y 1
sol=minimize(fun,a0,args=(df.flavanoids,df.ash))
sol

---
La ecuación óptima que relaciona `flavanoids` y `ash` es 
$$
ash=2.3+0.0316\;flavanoids,
$$
con un $mse=0.07385$.

In [None]:
sol.x

In [None]:
fun(sol.x,df.flavanoids,df.ash)

In [None]:
# Flavanoids vs ash

x=df.flavanoids
a=sol.x
f_fl_ash=a[0]+a[1]*x #ecuación de la recta
plt.figure(figsize=(5,4))
plt.scatter(df.flavanoids,df.ash,s=5) # s=size
plt.plot(x,f_fl_ash,'r') # 'r'=red
plt.xlabel('flavanoids')
plt.ylabel('ash')
plt.title(f'alcalinity_of_ash vs ash correlación: {np.round(wine_corr.loc['flavanoids', 'ash'],3)}')
plt.grid() # Cuadrícula de fondo

In [None]:
# Función lineal que relaciona Ash vs su alcalinidad
#
# Usamos la misma función 'fun' (criterio de optimización) y las mismas condiciones iniciales 'a0'
sol2=minimize(fun,a0,args=(df.alcalinity_of_ash,df.ash))
sol2

---
La ecuación óptima que relaciona `alcalinity_of_ash` con `ash` es
$$
ash=1.656+0.0364\;alcalinity\_of\_ash,
$$
con un $mse=0.06013$.

In [None]:
a=sol2.x
x=df.alcalinity_of_ash
f=a[0]+a[1]*x
plt.scatter(x,df.ash,s=5)
plt.plot(x,f,'r')
plt.grid()

In [None]:
wine_corr.loc['alcalinity_of_ash', 'ash']

## Relación lineal usando Librerías

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lin = LinearRegression()

In [None]:
df['flavanoids'].values.shape

In [None]:
df['flavanoids'].shape

In [None]:
df[[ 'flavanoids']].shape

In [None]:
lin.fit(df[[ 'flavanoids']].values,df['ash'])

In [None]:
lin.coef_

In [None]:
lin.intercept_

In [None]:
# y = coef_+x +intercept
f_linprog= lin.predict(df[[ 'flavanoids']])

In [None]:
plt.scatter(df.flavanoids,df.ash,s=5) # s=size
x=df.flavanoids
#a=sol.x
#f_m=a[0]+a[1]*x #ecuación de la recta
plt.plot(x,f_fl_ash,'r') # 'r'=red
plt.plot(x,f_linprog,'k') # 'r'=black
plt.grid() # Cuadrícula de fondo

Es importante resaltar que la covarianza y el coeficiente de correlación no detectan relaciones no lineales entre las variables. Por ejemplo, si la relación entre $X$ e $Y$ es cuadrática (o polinímica de mayor órden), logarítmica, exponencial, etc., podríamos tener un coeficiente de correlación cercano a 0, pero esto no significaría que no hay relación entre $X$ e $Y$, sólo significa que no hay relación lineal entre estas variables.