<a href="https://colab.research.google.com/github/michellesantana/Estudo/blob/master/Teste_KS_e_Acessando_Planilha_do_Google.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TESTE DE KOLMOGOROV-SMIRNOV**

O teste KS nos ajuda a entender se os dados que queremos trabalhar seguem distribuição normal.

Basicamente temos que calcular a estatística de teste KS e comparar com o valor crítico da estatística de teste, que varia de acordo com o tamanho (n) da amostra.

Para aplicar o teste KS precisamos importar a bibliotecs 'Numpy' e o pacote 'stats' da biblioteca 'Scipy'.

**Referências utilizadas:**

[Documentação scipy.stats](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html#scipy.stats.kstest)

[Portal Action](http://www.portalaction.com.br/inferencia/62-teste-de-kolmogorov-smirnov)

[Youtube - Anderson Canteli](https://www.youtube.com/watch?v=-rUm7Lx5VbE)


Na célula abaixo temos um conjunto de 10 observações, e testamos se esses dados são normais.

In [None]:
import numpy as np
from scipy import stats

x = np.array([1.90642, 2.10288, 1.52229, 2.61826, 1.42738, 2.22488, 1.69742, 3.15435, 1.98492, 1.99568])
ks_stat, ks_p_valor = stats.kstest(x,'norm',args = (np.mean(x),np.std(x, ddof=1)),N = len(x),alternative='two-sided')
ks_stat



0.17709753067016487

## **Obtendo o Valor Crítico**:

### Tabela de Komolgorov-Smirnov com valores críticos:

<img alt="Colaboratory logo" width="100%" src="https://raw.githubusercontent.com/michellesantana/Estudo/master/Img/tabela_ks.JPG">

In [None]:
 # Checking the critical value of the Kolmogorov-Smirnov test
def kolmogorov_smirnov_critico(n):
    if n <= 40:
        # valores entre 1 e 40
        kolmogorov_critico = [0.97500, 0.84189, 0.70760, 0.62394, 0.56328, 0.51926, 0.48342, 0.45427, 0.43001, 0.40925, 
                      0.39122, 0.37543, 0.36143, 0.34890, 0.33760, 0.32733, 0.31796, 0.30936, 0.30143, 0.29408, 
                      0.28724, 0.28087, 0.27490, 0.26931, 0.26404, 0.25907, 0.25438, 0.24993, 0.24571, 0.24170, 
                      0.23788, 0.23424, 0.23076, 0.22743, 0.22425, 0.22119, 0.21826, 0.21544, 0.21273, 0.21012]
        ks_critico = kolmogorov_critico[n - 1]
    elif n > 40:
        # valores acima de 40:
        kolmogorov_critico = 1.36/(np.sqrt(n))
        ks_critico = kolmogorov_critico
    else:
        pass            
            
    return ks_critico

ks_critico = kolmogorov_smirnov_critico(len(x))
print (ks_critico)

0.40925


### Como Interpretar os resultados:

In [None]:
# Conclusão
if ks_critico >= ks_stat:
  print("Os dados seguem distribuição normal, com 95% de nível de confiança")
else:
    print("Os dados não seguem distribuição normal, com 95% de nível de confiança")

Os dados seguem distribuição normal, com 95% de nível de confiança


# **Acessando Google Drive**:

In [None]:
from google.colab import auth
auth.authenticate_user()
import gspread
from oauth2client.client import GoogleCredentials
gc = gspread.authorize(GoogleCredentials.get_application_default())


In [None]:
import pandas as pd

# **Acessando os dados direto de uma Google Planilha**:

Coloquei os dados, anteriormente colados no próprio campo de código em uma planilha do google, a partir daqui temos que fazer o mesmo teste KS nos mesmos dados utilizando essa estrutura de dados.

In [None]:
# Especificando a Planilha Google
wb = gc.open_by_url('https://docs.google.com/spreadsheets/d/1GY0jHzLM5TnqpczJniGG2Vkvvbjpsx8eZ_1iwRYX_PA/edit#gid=0')


# Especificando Aba da Planilha
sheet = wb.worksheet ('Página1')
sheet


# Agora que especificamos a guia, é hora de obter os dados. Para fazer isso, 
#vamos apenas chamar a get_all_values()função fora do objeto de pasta que criamos acima:
dados = sheet.get_all_values()
dados

In [None]:
#tornar a visualização mais amigável colocando-o em um DataFrame do Pandas com as linhas abaixo:
df = pd.DataFrame(dados)
df.columns = df.iloc [0]
df = df.iloc [1:]
df.head()


A primeira linha acima é colocar os dados no Pandas DataFrame, e as próximas duas linhas são apenas uma limpeza simples que usa a primeira linha como nomes de coluna para o DataFrame.

Agora, se você apenas chamar a head()função do DataFrame (isso mostra apenas as primeiras 5 linhas), poderá ver o que criamos:

In [None]:
# Mudando "," por "."
df["dados"] = [x.replace(",", ".") for x in df["dados"]]

df["dados"] = df["dados"].astype(float)

In [None]:
df["dados"] # chamando coluna já alterada

In [None]:
df # chamando o df já com coluna 'dados' alterada

In [None]:
import numpy as np
from scipy import stats

x = np.array(df["dados"])
stats.kstest(x, 'norm',args = (np.mean(x),np.std(x,ddof=1)),N = len(x),alternative='two-sided')