In [29]:
import numpy as np

# Estimaciones

Consiste en estimar el valor de los parámetros de un conjunto de datos (media , varianza, etc. estimadas).

### Media

- Imaginemos unos datos aleatorios que sabemos que provienen de una distribución normal:  {0.33, −1.76, 2.34, 0.56, 0.89}
- Su media es 0.472. Si hubiese algún valor atípico, su media se dispararía y, evidentemente no representaría los datos. 
- Si no hay valores atípicos, la función MSE (mean squared error) se minimiza.

<center>$${\color{Teal} \mathbf{MSE = \frac{1}{n} \sum (\overline{x} - \mu)^2}}$$</center>

- **n** es el número de veces que se estima la media. 


In [30]:
datos = [0.33, -1.76, 2.34, 0.56, 0.89]
media = np.mean(datos)
print(media)

0.472


#### Estimando la media y calculando el error medio al cuadrado MSE

- Cuantas más veces se estime (n) y cuantos más puntos tengamos, más pequeño será el error. Con esta rutina conseguimos en 200 tests (los puntos se obtiene de una distribución normal centrada en u de entre 1000 puntos al azar). 


In [31]:
n = 200 # número de tests
mu = 0 # media
std = 1 # desviación típica; en las librerías le llamana loc. 
puntos = 1000 
err = 0
for i in range(n):
    xp = np.random.normal(mu,std,puntos)
    err += (xp.mean()-mu) ** 2
print('MSE: {}'.format(err/n))


MSE: 0.0009869659001695002


<hr>

### Varianza
- Estimamos la varianza con las siguientes fórmulas (n-1 es mejor para muestras con pocos puntos). 

<center>$${\displaystyle \bar{\sigma}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\,\right)^{2}} \; \; , \; \; {\displaystyle \bar{\sigma}^{2}={\frac {1}{n}}\sum _{i=1}^{n-1}\left(x_{i}-{\overline {x}}\,\right)^{2}}$$</center>

### Núcleo estándar (standard core)
- Si queremos comparar dos conjuntos de datos, incluso si están en unidades distintas (aunque hay que evitarlo) se normaliza creando el **núcleo estándar**. A cada dato x le corresponde un z tal que:

<center>$$z_i=\frac{x_i-\mu}{\sigma}$$</center>

- Estos datos convertidos tienen la ventaja de tener media 0 y desviación típica o varianza 1. Lo que heredan es la forma de los datos: si la distribución de X es normal o es asimétrica, así lo será Z.
   
### Covarianza
- Mide de alguna manera la tendencia común de dos variables: 

<center>$$dx_i=x_i-\mu_x \;\; ,  \;\; dy_i=y_i-\mu_y \Rightarrow Cov(x,y)=\frac{1}{n} \sum_{i=1}^{n}\left ( dx_i \cdot dy_i  \right )$$</center>

- En la covarianza, si ambas crecen el valor es positivo. Si negativo, una decrece y otra aumenta.

## Correlación de Pearson

- Si calculamos la covarianza de los núcleos estándar de X e Y:

<center>$$\rho_{x_i}=\frac{x_i-\mu_x}{\sigma_x} \;\; ,  \;\; \rho_{y_i}=\frac{y_i-\mu_y}{\sigma_y} \Rightarrow \rho=\frac{1}{n}\sum_{i=1}^{n}\left ( \rho_{x_i} \cdot \rho_{y_i}  \right )= \frac{Cov(x,y)}{\sigma_x \cdot \sigma_y }$$</center>

- Obtenemos la correlación de Pearson, que está normalizada. Si existe una correlación de +1 ó -1 ambos datos están relacionados por una fórmula. Si ρ=0, **no quiere decir que no exista correlación**. Quiere decir que no existe una correlación de orden uno, pero puede haberla de otro orden de magnitud. La presencia de atípicos hace que la correlación no funcione bien.

## Correlación de los rangos de Spearman

- En esta correlación no se computan los datos, sino el rango de los datos ordenados. Por ejemplo, los valores X={10,20,40,30,5} tendrán un rango de ordenación {2,3,5,4,1} y los valores Y={-100,25,-2,30, 70} un rango de {1, 3 , 2 , 4, 5}.
- Obtenemos una correlación de Pearson de 0.05 pero de Spearman de -0.2



## Calculando correlación de Pearson y de Spearman

In [32]:
def corPearson(x,y):
    if len(x)!=len(y): return -1000
    sigma_x = np.std(x)
    sigma_y = np.std(y)
    media_x = np.mean(x)
    media_y = np.mean(y)
    resultado = 0
    for i in range(0,len(x)):
        resultado += (x[i]-media_x)*(y[i]-media_y)/ (sigma_x * sigma_y)
    return resultado / len(x)

def corSpearman(x,y):
    inicio = [x,y]
    s=[sorted(x),sorted(y)]
    index=[]
    for k in range(0,2):
        m=[]
        for i in s[k]:
            m.append(inicio[k].index(i)+1)
        index.append(m)
    return corPearson(index[0],index[1])
        
        
x=[10,20,40,30,5]
y=[-100,25,-2,30, 70]
print(corPearson(x,y)) # lo mismo que print(np.corrcoef(x,y)) 
print(corSpearman(x,y))
       
    

0.05111307737785618
-0.19999999999999993
