# 07 Estadística-101

Autores:
    * Andrés Leiva Araos  :: andres.leivaa@gmail.com
    * Roberto Moraga Díaz :: roberto.moraga@telefonica.com

Este curso está orientado a personas que quieren reforzar conocimientos de estadísticas básicas aplicadas al análisis de datos voluminosos, de cara a tener una mejor base para futuros procesos de inferencia y otras técnicas analíticas avanzadas.

### Índice

1. Introducción
    * Población
    * Muestras
    * Variables
    * Parámetros
    * Estadígrafos
2. Distribuciones
    * Normal
    * Gamma
3. Teorema del límite central
4. Análisis de umbrales sensibilidad
5. Intervalos de confianza
6. Tamaño muestral
7. Pareto
8. Correlación
9. Regresión lineal
10. Regresión polinomial
11. Clustering



## Librerías  de Python que utilizaremos

In [None]:
import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd # importando pandas
import math
import matplotlib.pyplot as plt

np.random.seed(1) # para poder replicar el random


### Población
Colección completa de todos los individuos de interés para el investigador.

A continuación mostraremos una población con **distribución Normal** con media $\mu = 0$ y sigma $\sigma = 1$<br>
Las distribuciones normales (o Gaussianas) se aplican a variables continuas, donde la gráfica de su función densidad de proabilidad tiene una forma acampanada y simétrica. Representan más del 50% de los fenomenos industriales estudiados. Sin embargo, hay otras distribuciones que estudiaremos más adelante.

In [None]:
# Generamos una semilla para que la población que creemos sea siempre la misma
np.random.seed(41)
# Generamos la población con la semilla creada
media = 0
sigma = 1.0
size = 100

poblacion = np.random.normal(media, sigma, size)
print(poblacion)

Otro tipo de distribución distinta a la Normal, es la **Distribución Uniforme Discreta**. Ahora crearemos una segunda población con datos aleatorios con distribución Uniforme discreta, esta vez representando edades de 1000 adultos. Debemos hacerlo de la siguiente forma:
```Python
    np.random.randint(valor_mínimo, valor_máximo, tamaño)
```

In [None]:
edad_min = 18 # rango inferior de edades
edad_max = 90 # rango superior de edades
size = 1000
edades = np.random.randint(low=edad_min, high=edad_max, size=size)
edades[:10] # Visualizamos los diez primeros

Si quisieramos crear una **Distribución Uniforme Continua** debemos hacerlo de esta forma:

```Python
    np.random.uniform(valor_mínimo, valor_máximo, tamaño)
```

In [None]:
edades2 = np.random.uniform(18,90, size=10)
print(edades2)

## Parámetros
Valor que caractariza un aspecto de la población. Ej.: media poblacional, mediana poblacional, desviación estándar poblacional, etc.

Analicemos los parámetros de la población **poblacion**

In [None]:
print('Media poblacional\t\t= {:4.2f}'.format(poblacion.mean()))
print('Desviación estándar poblacional\t= {:4.2f}'.format(poblacion.std()))
print('Mediana poblacional\t\t= {:4.2f}'.format(np.median(poblacion)))

Ahora analicemos los parámetros de la población **edades**

In [None]:
print('Tamaño población edades\t\t\t= {:d} individuos'.format(len(edades)))
print('Media de edades\t\t\t\t= {:4.2f}'.format(edades.mean()))
print('Desviación estándar de las edades\t= {:4.2f}'.format(edades.std()))
print('Mediana poblacional de las edades\t= {:4.2f}'.format(np.median(edades)))
print('Moda poblacional es {} y se repite {} veces'.format(str(stats.mode(edades)[0][0]),
                                              str(stats.mode(edades)[1][0])))

## Muestra
Subconjunto de la población, el cual es representativo de la misma.

In [None]:
# Tomemos como muestra los diez últimos elementos de la población
muestra1 = poblacion[90:]
print(muestra1)

In [None]:
# Ahora tomemos como muestra los cincuenta elementos de forma aleatoria desde la población, 
# en la cual todos tienen la misma probabilidad de ser escogidos
muestra2 = np.random.choice(poblacion, 50)
print(muestra2)

¿Cuál de las dos muestras (muestra1 ó muestra2) es la mejor?

Lo anterior es un estilo de muestreo aleatorio simple, el cual, junto con su tamaño, aseguran representatividad, es decir, que la muestra sea una imagen confiable de la población. <br>

**Conclusión**<br>
Un buen muestreo aleatorio evita el sesgo muestral, el cual es la tendencia a favorecer la selección de determinados individuos de la población.

### Reflexión
¿Por qué muestrear?<br>
¿Por qué no usar la población completa (el censo) si es que disponemos de él?

## Estadísticos
Medida descriptiva de la muestra que se utiliza para estimar al respectivo parámetro poblacional. El *estadístico* es básicamente lo mismo que el *parámetro poblacional*, pero se diferencia en que se calcula a partir de la muestra y no de la población.

In [None]:
# Estadísticos de la muestra poblacional aleatoria "muestra2"
estadistico_media = muestra2.mean()

# La desvisción estándar para muestras se denomina "desviación estándar insesgada" ya que se calcula dividiendo
# por (n - 1)
estadistico_std = muestra2.std(ddof=1)
print('Media muestral\t\t\t= {:4.2f}'.format(estadistico_media))
print('Desviación estándar muestral\t= {:4.2f}'.format(estadistico_std))
print('Mediana muestral\t\t= {:4.2f}'.format(np.median(muestra2)))

**Observación**<br>
La desviaión estándar muestral se denota con el símbolo: <font color='blue'>$S$</font>  o <font color='blue'>$\widehat{\sigma}$</font>

La media muestral se denota con el símbolo: <font color='blue'>$\overline{X}$</font>  o <font color='blue'>$\widehat{\mu}$</font>





## Error muestral
Es la diferencia entre el valor del **parámetro poblacional** y el producido por el **estadístico muestral**.

Se concluye fácilmente que una buena técnica de muestreo reduce el error muestral del estimador.

In [None]:
print('Media población\t= {:4.2f}'.format(np.mean(poblacion)))
print('Media muestra1\t= {:4.2f}'.format(np.mean(muestra1)))
print('Media muestra2\t= {:4.2f}'.format(np.mean(muestra2)))

Grafiquemos el error muestral

In [None]:
# Declara lista1 con 3 valores de medias
lista1 = [np.mean(poblacion),np.mean(muestra1),np.mean(muestra2)]  
# Declara lista2 con 3 nombres
lista2 = ['Media Poblacional','Media Muestra 1','Media Muestra 2'] 
plt.figure(figsize=(10, 5))
plt.bar(lista2, lista1, color='g')   # Dibuja el gráfico
plt.title("Error muestral")   # Establece el título del gráfico
plt.xlabel("Grupo")   # Establece el título del eje x 
plt.ylabel("Valor")   # Establece el título del eje y
plt.show()

<font color='blue'>Conclusión: </font>Se concluye que el error muestral se explica por la técnica de muestreo y el tamaño de la muestra.

## Distribuciones estadísticas

### Normal

Las distribuciones normales representan más del 50% de los fenomenos industriales estudiados. Esta distribución es de carácter continuo (no discreta).

Los parámetros de media, mediana y moda en una distribución normal son iguales.

La media corresponde al punto en la curva en el cual la perdiente (primera derivada) es cero, y la desviación estándar corresponde a la diferencia de los valores entre el punto de la media y el punto en la curva en los cuales la pendiente cambia de signo.

A considerar:
* Entre el primer **sigma** ($\sigma$) positivo y el primer **sigma** negativo se encuentra el 68% de los casos.
* Entre el segundo **sigma** positivo y el segundo **sigma** negativo se encuentra el 95,5% de los casos. 
* Entre el tercer **sigma** positivo y el tercer **sigma** negativo se encuentra el 99,73% de los casos.

In [None]:
np.random.seed(1)
# Generamos la población con la semilla creada
# donde: np.random.normal(media, sigma, size)
normal = np.random.normal(0, 1.0, 1000) 
print(normal[:100])

In [None]:
# Hagamos un Histograma (gráfica de frecuencias) donde: 
# Eje X: las clases de la variable estudiada
# Eje Y: la frecuencia absoluta de cada clase

plt.figure(figsize=(10, 5))
plt.hist(normal, 50, color='r')
plt.show()

In [None]:
# Calculemos los parámetros de la población
print('Media poblacional\t\t= {:4.2f}'.format(normal.mean()))
print('Desviación estándar poblacional\t= {:4.2f}'.format(normal.std()))
print('Mediana poblacional\t\t= {:4.2f}'.format(np.median(normal)))

### Test de Anderson-Darling
Para comprobar si los datos de nuestra población o muestra siguen una distribución **normal**, utilizaremos un test de normalidad denominado **Anderson-Darling**, el cual  evalúa la hipótesis (y su correspondiente hipótesis nula) de que los datos siguen una distribuión normal:

* H$_0$ :: los datos siguen una distribución normal 
* H$_1$ :: los datos NO siguen una distribución normal

Si el valor arrojado (Test estadístico de Anderson-Darling) es menor al valor crítico dado para un cierto nivel de significanci (e.g.: 5%), se acepta la hipótesis H$_0$, i.e., los datos tienen una distribución normal.

In [None]:
# Ejecutar Test de normalidad
stats.anderson(normal, dist='norm')

<font color='blue'>Conclusión:</font> el resultado del test arroja 0.37, el cual es menor a 0.784 (a nivel de significancia de un 5%), se concluye que los datos tiene una distribución normal.

Debido a que es Normal, podemos calcular la probabilidad usando la **Tabla Z** acumulada (normalización) 
¿Cuál es la probabilidad de que tomemos un elemento al azar y este sea menor a 2? Para responder esto usaremos la siguiente fórmula:


$Z = \frac{(x - \mu)}{\sigma}$

In [None]:
x = 2 # Valor al que queremos calcular su probabilidad acumulada
mu = np.mean(normal) 
sigma = np.std(normal)
Z = (x - mu) / sigma
stats.norm.cdf(Z) # Probabilidad acumulada de infinito negativo al valor buscado

¿Cuál es la probabilidad de que tomemos un elemento al azar y éste se encuentre entre -2 y 2?

$Z_1 = \frac{(x_1 - \mu)}{\sigma}$

$Z_2 = \frac{(x_2 - \mu)}{\sigma}$

In [None]:


x1 = -2 # Valor al que queremos calcular su probabilidad acumulada
x2 = 2 # Valor al que queremos calcular su probabilidad acumulada
mu = np.mean(normal) 
sigma = np.std(normal)
z1 = (x1 - mu)/ sigma
z2 = (x2 - mu)/ sigma

stats.norm.cdf(z2) - stats.norm.cdf(z1) # Probabilidad es la resta de 2 probabilidades

### Poisson

La distribución **Poisson** se utiliza para contar de forma "discreta". Por ejemplo: cantidad de hijos, personas en una fila, camiones entrando a puerto, DPU (defector por unidad), pérdida de maletas por vuelo, etc.

Crearemos una distribución del tipo Poisson aleatoria en la cual se utilizan dos parámetros:

* $\color{red}{\lambda}$ (lambda) :: representa a la media de la población o muestra (e.g.: cantidad de personas promedio que llegana una cola de un banco por unidad de tiempo (hora)
* $\color{red}n$ :: tamaño de la población o muetra según el caso

Nota:
* La media de una distribución Poisson es $\color{red}{\lambda}$
* La desviación estándar es $\color{red}{\sqrt{\lambda}}$

In [None]:
# Generamos los datos aleatorios con semilla (seed) igual 1
# lam = lambda
lam = 90
size = 100
poisson = np.random.RandomState(seed=1).poisson(lam=lam, size=size)
poisson

In [None]:
# Calculamos los parámetros:
print('Media poblacional\t\t= {:4.2f}'.format(poisson.mean()))
print('Desviación estándar poblacional\t= {:4.2f}'.format(poisson.std()))
print('Mediana poblacional\t\t= {:4.2f}'.format(np.median(poisson)))
print('Moda poblacional es {} y se repite {} veces'.format(str(stats.mode(poisson)[0][0]),
                                              str(stats.mode(poisson)[1][0])))


In [None]:
# Ejecutar Test de normalidad
stats.anderson(poisson, dist='norm')

En test anterior el valor arrojado es **0,346**, como este valor es menor a 0,885 (para alfa=5%), se puede concluir que los datos siguen una distribucón normal con 95% de seguridad.

Por tanto, la evidencia práctica demuestra que las **distribuciones Poisson** se comportan como **Normales** cuando su lambda es grande.

Veamos un gráfico de frecuencias para observar si visualmente sigue una forma gaussiana simñetrica:

In [None]:
# Realizando el histograma de Poisson con lambda = 90
plt.figure(figsize=(10, 5))
plt.hist(poisson, 12, color='r')
plt.show()

Lo anterior podría ser el caso de "cantidad de clientes que llegan a una cola de un banco por cada intervalo de media hora". <br> Si el banco dotara su sistema de atención basado en la media, tendría problemas para alcanzar su meta de Nivel de Servicio Acordado (e.g.: 85% de los clientes atendidos antes de 4 minutos).

Probemos con una Poisson con un Lambda muy pequeño; por ejemplo 1.2 (e.g.: cantidad de hijos por alumnos en esta clase)

In [None]:
lam = 1.2
size = 1000
poisson2 = np.random.RandomState(seed=1).poisson(lam=lam, size=size)
poisson2[:100]

In [None]:
print('Media poblacional\t\t= {:4.2f}'.format(poisson2.mean()))
print('Desviación estándar poblacional\t= {:4.2f}'.format(poisson2.std()))
print('Mediana poblacional\t\t= {:4.2f}'.format(np.median(poisson2)))
print('Moda poblacional es {} y se repite {} veces'.format(str(stats.mode(poisson2)[0][0]),
                                              str(stats.mode(poisson2)[1][0])))


In [None]:
# Ejecutar test de normalidad
stats.anderson(poisson2, dist='norm')

El valor del test es **47,03**, debido a que no es menor a 0,784, no podemos concluir que los datos siguen una distribución normal.

Veamos su histograma:

In [None]:
# Realizando el histograma de Poisson con lambda = 1,2
plt.figure(figsize=(10, 5))
plt.hist(poisson2, 12, color='r')
plt.show()

**TIPs:** La media es un indicador pobre si no se encuentra acompañada de la varianza, o de la probabilidad de ser alcanzada.

### Gamma

La distribución **Gamma** se utiliza con variables continuas (no discretas) que siguen una forma asimétrica (no normales). Ejemplos de fenómenos que se describen con esta distribución son: tiempo de duración procesos o ciclos productivos, vida útil de baterías y componentes eléctricos, vida de los seres vivos, caducidad de bienes perecibles, tiempo entre llegadas de pedidos de clientes, etc.

Crearemos una distribución del tipo Gamma aleatoria en la cual se utilizan dos parámetros:

* $\color{red} \alpha$ :: representa el parámetro de la forma
* $\color{red} \beta$ :: representa el parámetro de la escala
* $\color{red}n$ :: tamaño de la población o muetra según el caso

Nota:
* La media de una distribución Gamma se calcula $\color{red}{\alpha * \beta}$
* La desviación estándar es $\color{red}{\sqrt{\alpha} * \beta}$


In [None]:
def d_gamma(alfa, beta, n):
    return np.random.RandomState().gamma(alfa, beta, n)

In [None]:
alfa = 1
beta = 3
n = 1000
gamma = d_gamma(alfa, beta, n)

In [None]:
import scipy.special as sps
plt.figure(figsize=(10, 5))

count, bins, ignored = plt.hist(gamma, 20, normed=True, color='g')
y = (bins-1)**(alfa-1)*(np.exp(-bins/beta) / (sps.gamma(alfa)*beta**alfa))
plt.plot( y, linewidth=2, color='r')
plt.show()

In [None]:
x = np.linspace(0, 50, num=51)

In [None]:
alfa = 1
beta = 3
alfa2 = 1
beta2 = 8
alfa3 = 2
beta3 = 3
plt.figure(figsize=(10,5))
y = x**(alfa-1)*(np.exp(-x/beta) / (sps.gamma(alfa)*beta**alfa))
plt.plot(x, y, linewidth=1, color='r')

y2 = x**(alfa2-1)*(np.exp(-x/beta2) / (sps.gamma(alfa2)*beta2**alfa2))
plt.plot(x, y2, linewidth=1, color='g')

y3 = x**(alfa3-1)*(np.exp(-x/beta3) / (sps.gamma(alfa3)*beta3**alfa3))
plt.plot(x, y3, linewidth=1, color='b')

plt.show()

## Teorema del límite central


In [None]:
def tlc(población, n_muestras, t_muestra):
    # n_muestras :: Cantidad de muestras a obtener
    # t_muestra :: Tamaño de las muestras
    medias = []
    for i in range(0, n_muestras):
        muestra = np.random.choice(población, t_muestra)
        medias.append(muestra.mean())
    return medias

In [None]:
plt.figure(figsize=(10,5))

medias = tlc(poisson2, 30, 3)
plt.hist(medias, 12, color='r')
plt.xticks(range(0,8,1))
plt.show()

In [None]:
plt.figure(figsize=(10,5))
medias = tlc(poisson2, 30, 305)
plt.hist(medias, 12, color='r')
plt.xticks(range(0,8,1))
plt.show()

## Intervalos de confianza:
Como se mencionó anteriormente un estadístico es un estimador de un parámetro poblacional. Un estimador sencillo es el que hemos calculado anteriormente con las muestras, cuando sólo tenemos un valor, a este se le llama estimador puntual.

Un buen estimador debe ser **insesgado** (cuando la media de su distribución muestral asociada coincide con la media de la población) y de **varianza mínima** (bajo sigma de las medias muestrales).  El sigma de las medias muestrales fue comentado en TLC, donde: 

$\sigma_{medias muestrales} = \frac{\sigma_{poblacion}}{\sqrt{n}}$

Observar que cuanto mayor sea el tamaño de la muestra $n$, menor será la variabilidad del estimador de la media poblacional.

Sabemos por TLC que para valores grandes de $n$, independiente de la distribución estadística que tenga su población, la media muestral sigue una distribución normal con media $\overline{X}$, y sigma $\frac{\sigma_{poblacion}}{\sqrt{n}}$.

Por otra parte, el Teorema de Chebyshev nos dice que, en una distribución normal, aproximadamente un 95% de los datos estaban situados a una distancia inferior a dos desviaciones estándar de la media. 

**Intervalos de confianza:** es un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con $1 - \alpha$ y se denomina nivel de confianza. En estas circunstancias, $\alpha$ es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.
    
    
    

### 1) Intervalo de confianza para medias cuando *sigma* poblacional es conocido o la muestra es mayor a 120

### Caso 1.1: muestra > 120

In [None]:
# Se utiliza la Tabla Z (Normal)
# x_barra +- Z(1- α/2)* Sigma_poblacional / raiz (n)

# Ejemplo 1: queremos estimar la media poblacional con un 95% de seguridad, sabemos que la 
# muestra que manejamos tiene 130 casos,
# y su media muestral es 22.2 y el sigma muestral es 1.45

n = 130
x_barra = 22.2
S = 1.45
NC = 0.95 # nivel de confianza
alfa = 1 - NC # nivel de significación
z = stats.norm.ppf(1 - (alfa / 2)) # Z(1- α/2) "aplicando inversa de 2 colas"

li = x_barra - z * S / (math.sqrt(n)) # Límite inferior del IC
ls = x_barra + z * S / (math.sqrt(n)) # Límite superior del IC

print('LI \t\t\t= {:4.2f}'.format(li))
print('LS \t\t\t= {:4.2f}'.format(ls))
print('Nivel de confianza (NC) = {:4.2f}'.format(NC))

### Caso 1.2: $\sigma_{poblacional}$ conocido

In [None]:
# Se utiliza la Tabla Z (Normal)
# x_barra +- Z(1- α/2)* Sigma_poblacional / raiz (n)

# Ejemplo 2: queremos estimar la media poblacional con un 95% de seguridad,
# sabemos que la muestra que manejamos tiene 35 casos,
# y su media muestral es 22.2 y el sigma muestral es 1.45
# pero nos dicen que la desviación estandar poblacional es de 1.56

n = 35
x_barra = 22.2
S = 1.45 # No usar este
SIGMA = 1.56 # Usar este valor
NC = 0.95 # nivel de confianza
alfa = 1-NC # nivel de significación
z = stats.norm.ppf(1-(alfa/2)) # Z(1- α/2) "aplicando inversa de 2 colas"

li = x_barra - z * SIGMA / (math.sqrt(n)) # Límite inferior del IC
ls = x_barra + z * SIGMA / (math.sqrt(n)) # Límite superior del IC

print('LI \t\t\t= {:4.2f}'.format(li))
print('LS \t\t\t= {:4.2f}'.format(ls))
print('Nivel de confianza (NC) = {:4.2f}'.format(NC))

### 2) Cuando $\sigma_{poblacional}$ es desconocido y la muestra es menor a 120

In [None]:
# En este caso utilizamos la Tabla T (Student)
# x_barra +- T(1- α/2; n-gl) * S / raiz (n)
# Ejemplo 1: queremos estimar la media poblacional con un 95% de seguridad, sabemos que la muestra que manejamos tiene 40 casos,
# y su media muestral es 22.2 y el sigma muestral es 1.45

n = 40
x_barra = 22.2
S = 1.45
NC = 0.95 # nivel de confianza
alfa = 1 - NC # nivel de significación
gl = n-1 # grados de libertad
T = stats.t.ppf(1-(alfa/2),n) # T(1- α/2; n-gl) "aplicando inversa de 2 colas"

li = x_barra - T * S / (math.sqrt(n)) # Límite inferior del IC
ls = x_barra + T * S / (math.sqrt(n)) # Límite superior del IC

print('LI \t\t\t= {:4.2f}'.format(li))
print('LS \t\t\t= {:4.2f}'.format(ls))
print('Nivel de confianza (NC) = {:4.2f}'.format(NC))

### ¿Qué pasa si queremos estimar proporciones poblacionales ($\pi$)?
R: aplicar método 1.1 si 
 
$np >= 5$ 
 
donde:<br>

$\overline{X} = p$
     
$S = \sqrt{{p * (1 - p)}}$
     

 

 

### ¿Qué pasa si queremos estimar tasas poblacionales ($\lambda$)?
R: aplicar método 1.1 si $\lambda_{muestral}$ es grande:
 
donde:<br>

$\overline{X} = \lambda$
     
$S = \sqrt{\lambda}$
     

 

 

## Correlación

La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. La correlación es positiva cuando los valores de las variables aumenta juntos; y es negativa cuando un valor de una variable se reduce cuando el valor de la otra variable aumenta.

## Percentiles
El percentil es una medida de posición usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo de observaciones. <br>
Por ejemplo, el percentil 75º es el valor bajo el cual se encuentran el 75 por ciento de las observaciones.

In [None]:
datos = np.random.normal(0, 0.5, 10000)
plt.figure(figsize=(10,5))
plt.hist(datos, 100, color='r')
plt.show()

In [None]:
print('El percentil 50 de los datos es: {:4.2f}'.format(np.percentile(datos, 50)))
print('El percentil 75 de los datos es: {:4.2f}'.format(np.percentile(datos, 75)))
print('El percentil 90 de los datos es: {:4.2f}'.format(np.percentile(datos, 90)))

## Covarianza

Covarianza: La covarianza es el equivalente de la varianza aplicado a una variable bidimensional. Es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.La covarianza indica el sentido de la correlación entre las variables:

Si $\sigma_{xy} > 0$ la correlación es directa 

Si $\sigma_{xy} < 0$ la correlación es inversa

La covarianza mide cómo dos variables varían en tándem de sus medias.
Por ejemplo, supongamos que trabajamos para una empresa de comercio electrónico, y están interesados en encontrar una correlación entre la velocidad de *rendering* la página y cuánto gasta un cliente en dicha página.
Numpy ofrece métodos de covarianza, pero lo haremos de la "manera difícil" de mostrar lo que ocurre debajo del capó. Básicamente tratamos cada variable como un vector de desviaciones de la media, y calculamos el "producto punto" de ambos vectores. Geométricamente, se puede considerar que este es el ángulo entre los dos vectores en un espacio de alta dimensión, pero solo se puede considerar como una medida de similitud entre las dos variables.
Primero, hagamos que la velocidad de la página y la cantidad de compra sean totalmente aleatorias e independientes entre sí; se producirá una covarianza muy pequeña ya que no existe una correlación real:

In [None]:
import numpy as np
#from pylab import *

def desv_media(x):
    media_x = mean(x)
    return [xi - media_x for xi in x]

def covarianza(x, y):
    n = len(x)
    return dot(desv_media(x), desv_media(y)) / (n-1)

plt.figure(figsize=(10,5))

tiempoRender= np.random.normal(3.0, 1.0, 1000)
cantidadComprada = np.random.normal(50.0, 10.0, 1000)

plt.scatter(tiempoRender, cantidadComprada, alpha=0.5, s=5, color='g')

In [None]:
# Calculemos la covarianza
print('Covarianza entre el tiempo de rendering y cantidad gastada = {:4.2f}'.
      format(covarianza (tiempoRender, cantidadComprada)))

Ahora haremos un ejercicio dividiendo la cantidad gastada por la velocidad de la página (utilizamos una operación punto ente matrices). Esto nos dará una correlación mña real. 

In [None]:
cantidadComprada = np.random.normal(50.0, 10.0, 1000) / tiempoRender
plt.figure(figsize=(10,5))
plt.scatter(tiempoRender, cantidadComprada, alpha=0.5, s=5, color='g')
print('Covarianza entre el tiempo de rendering y cantidad gastada = {:4.2f}'.
      format(covarianza (tiempoRender, cantidadComprada)))

La relación negativa nos indica que conforme el tiempo de *rendering* aumenta, la cantidad gastada en la página disminuye.

In [None]:
def correlacion(x, y):
    # x e y son arreglos n x m
    devstd_x = x.std()
    devstd_y = y.std()
    try:
        return covarianza(x,y) / devstd_x / devstd_y  
    except ZeroDivisionError:
        print ('División por cero')
        
        
print('Correlación entre el tiempo de rendering y cantidad gastada = {:4.2f}'.
      format(correlacion (tiempoRender, cantidadComprada)))

Veamos el camino corto con Numpy

In [None]:
np.corrcoef(tiempoRender, cantidadComprada)

In [None]:
cantidadComprada2 = 100 - tiempoRender * 3
plt.figure(figsize=(10,5))
plt.scatter(tiempoRender, cantidadComprada2, alpha=0.5, s=5, color='r')
print('Correlación entre el tiempo de rendering y cantidad gastada = {:4.2f}'.
      format(correlacion (tiempoRender, cantidadComprada2)))

<font color='blue'>Observación: </font>Correlación no implica causalidad.