# Teste de Kolmogorov-Smirnov.



## Definição.
A estatística de Kolmogorov–Smirnov quantifica a distância entre a função distribuição empírica da amostra e a função distribuição acumulada da distribuição de referência ou entre as funções distribuição empírica de duas amostras. A distribuição nula desta estatística é calculada sob a hipótese nula de que a amostra é retirada da distribuição de referência (no caso uniamostral) ou de que as amostras são retiradas da mesma distribuição (no caso biamostral). Em cada caso, as distribuições consideradas sob a hipótese nula são distribuições contínuas, mas não restritas.
$\newline$ O teste K–S biamostral é um dos métodos não paramétricos mais úteis e difundidos para a comparação de duas amostras, já que é sensível a diferenças tanto no local, como na forma das funções distribuição acumulada empírica das duas amostras.

### Kolmogorov-Smirnov
Para uma distribuição impirica:
$$F_n(x) = \frac{1}{n} \sum^{n}_{i=1} I_{[-\infty,x ]} (X_i)$$
Função Indicadora:
$$I_{[-\infty,x ]} =   \begin{cases}
 & \text{ 1 se } x \in [-\infty,x ]\\ 
 & \text{ 0 se } x \not\in [-\infty,x ]
\end{cases}$$

Para uma função distribuição acumulada:
$$D_n = sup_n|F_n(x) - F(x)|$$

## Vantagens.
* Pode ser aplicado, sem restrição, para pequenas amostras.
* A distribuição da estátistica K-S não depende da distribuição acumulada que está sendo testada.
* Ele tem poder assintótico 1.
* Pode ser usado para obter  as bandas de confiaça para $F(x)$
## Limitações.
* Somente se aplica à distribuições contìnuas.
* Mais próximos ao centro da distribuição do que para as caudas.
* A distribuição deve ser completamente especificada. Ou seja, se os parâmetros de locação, escala e forma são estimados dos dados, a região crítica do teste K-S não é mais válida.

## Pratica.

In [3]:
import numpy as np
from scipy.stats import kstest

mu,sigma = 0.07, 0.89
kstest(np.random.normal(mu,sigma,10000),'norm')

KstestResult(statistic=0.053078481633464514, pvalue=6.307737525545813e-25)

In [5]:
In [22]: import numpy as np
In [23]: import scipy.stats as stats
In [24]: stats.kstest(np.random.normal(0,1,10000),'norm')
Out[24]: (0.007038739782416259, 0.70477679457831155)

In [12]:
data=np.random.normal(mu,sigma,10000)
normed_data=(data-mu)/sigma
print(stats.kstest(normed_data,'norm'))

KstestResult(statistic=0.012457512094157908, pvalue=0.08900378227659689)


In [13]:
data=np.random.normal(mu,sigma,10000)
normed_data=(data-mu)/sigma
print(stats.kstest(normed_data,'norm'))

KstestResult(statistic=0.007667408844326484, pvalue=0.5962981565597276)


## Conclusão.
De acordo com a documentação, o uso do kstest retorna dois números, a KS estatística do teste D e o valor p. Se o valor p for maior que o nível de significância (digamos 5%), então nós não podemos rejeitar a hipótese de que os dados provêm da distribuição fornecida.
$\newline$ O que mostra que stats.kstest não pode rejeitar o número esperado de hipóteses nulas se a amostra for normalizada usando a média e o desvio padrão da amostra.

In [15]:
normed_data = (data - data.mean()) / data.std()
normed_data

array([ 0.59350596,  1.86042323,  2.01506618, ...,  0.23074382,
        1.59235881, -2.30091472])

# Gráfico Discritivo KS.
* Linha vermelha representa a distribuição acumulada.
* Já a azul é a função distribuição empírica.
* Seta preta é a K-S.

![img](https://upload.wikimedia.org/wikipedia/commons/c/cf/KS_Example.png)