# Statistical Distances with `Python` and `R`

## Index

* [Statistical Distances ](#1)
* * [Distance Definition](#2)
* * [Distance Matrix](#3)

* [ Distances with quantitative variables](#1)
* * [Euclidean Distance](#2)
* * * [Disadvantages](#3)
* * * [Euclidean Distance in `R`](#4)
* * * [Euclidean Distance in `Python`](#5)

  
* [F-test: test to compare models](#4)
* * [F-test in `Python`](#5)
* * [F-test in `R`](#6)
* * [ANOVA test as an F-test](#7)
* * [Significance test as an F-test](#8)

  <br>


## Statistical Distances <a class="anchor" id="1"></a>



El concepto de distancia entre elementos de un conjunto $\varepsilon$ permite interpretar geometricamente muchas técnicas clásicas del análisis multivariante .

Esta interpretación es posible tanto con variables cuantitativas como categoricas, o incluso cuando no se dispone de variables, siempre que tenga sentido obtener una medida de proximidad entre los elementos de $\varepsilon$



###  Distance Definition <a class="anchor" id="1"></a>



Dado un conjunto de elementos $\Omega$



#### Casi-metrica <a class="anchor" id="1"></a>


Se denomina **casi-metrica** o **disimilaridad** a toda aplicación $\delta : \Omega \hspace{0.05cm}x\hspace{0.05cm} \Omega \rightarrow \mathbb{R}$ que cumpla las siguientes propiedades:

1) $\hspace{0.15cm}\delta (i,j) \geq 0 \hspace{0.25cm}, \forall i,j \in \Omega$

2) $\hspace{0.15cm}\delta (i,i) = 0 \hspace{0.25cm}, \forall i \in  \Omega$

3) $\hspace{0.15cm}\delta (i,j) = \delta (j, i) \hspace{0.25cm}, \forall i,j \in \Omega $



#### Semi-metrica <a class="anchor" id="1"></a>


Se denomina **semi-metrica** a toda disimilaridad (casi-metrica) que cumpla la desigualdad triangular:

4) $\hspace{0.15cm} \delta (i,j) \hspace{0.1 cm}\leq \hspace{0.1 cm} \delta (i,k) + \delta (k,i) \hspace{0.25cm}, \forall i,j,k \in \Omega$



#### Metrica <a class="anchor" id="1"></a>

\tcbset{colback=white!1!white,colframe=brown!78!black}
\begin{tcolorbox}[toptitle=2mm,title= Métrica:   ]
Se denomina \textbf{metrica} a toda semi-metrica que cumple:

5)\hspace{0.2cm} $\delta (i,j)=0 \Leftrightarrow i=j$
\end{tcolorbox}

\tcbset{colback=white!1!white,colframe=brown!78!black}
\begin{tcolorbox}[toptitle=2mm,title= Distancia:   ]
Una \textbf{distancia} es una \textbf{métrica} o una \textbf{semi-métrica}
 \end{tcolorbox}
 
\newpage



\section{Matriz de distancias:}

Cuando $\varepsilon$ sea un conjunto finito , tendremos una matriz de distancias:
\tcbset{colback=white!1!white,colframe=brown!78!black}
\begin{tcolorbox}[toptitle=2mm,title= Matriz de distancias:   ]
\begin{gather*}
D= \begin{pmatrix}
0 & \delta_{12}&...&\delta_{1n}\\
\delta_{21} & 0&...&\delta_{2n}\\
...&...&...&...\\
\delta_{n1}& \delta_{n2}&...& 0\\
\end{pmatrix}
\end{gather*}

con $\delta_{ij}=\delta_{ji}$

\end{tcolorbox}

También usaremos la matriz de cuadrados de distancias:

\tcbset{colback=white!1!white,colframe=brown!78!black}
\begin{tcolorbox}[toptitle=2mm,title= Matriz de distancias al cuadrado:   ]
\begin{gather*}
D^{(2)}= \begin{pmatrix}
0 & \delta^2_{12}&...&\delta^2_{1n}\\
\delta^2_{21} & 0&...&\delta^2_{2n}\\
...&...&...&...\\
\delta^2_{n1}& \delta^2_{n2}&...& 0\\
\end{pmatrix}
\end{gather*}

\end{tcolorbox}


No debe confundirse con  $D^2=D\cdot D$





\chapter{Distancias con variables cuantitativas:}

Sean $X_1,...,X_p$ variables cuantitativas, 

Sean $x_i=(x_{i1},...,x_{ip})^t$ \hspace{0.2cm}y\hspace{0.2cm}
$x_j=(x_{i1},...,x_{ip})^t$ los valores (observaciones) de las variables $X_1,...,X_p$ para los elementos o individuos $i$ y $j$ de la muestra.




\section{Distancia Euclidea: