In [1]:
# Usamos estatísticas de muitas maneiras diferentes em ciência de dados e, nesta aula, quero atualizar seu
# conhecimento de testes de hipóteses, que é uma atividade central de análise de dados por trás da experimentação. O objetivo de
# teste de hipótese é determinar se, por exemplo, as duas condições diferentes que temos em um experimento
# resultaram em diferentes impactos

import numpy as np
import pandas as pd


# Agora, scipy é uma coleção interessante de bibliotecas para ciência de dados e você usará a maioria ou talvez todos
# essas bibliotecas. Inclui numpy e pandas, mas também bibliotecas de plotagem como matplotlib e um
# número de funções da biblioteca científica também
from scipy import stats

In [2]:
# Quando fazemos testes de hipóteses, na verdade temos duas declarações de interesse: a primeira é nossa
# explicação, que chamamos de hipótese alternativa, e a segunda é que a explicação que temos não é
# suficiente, e chamamos isso de hipótese nula. Nosso método de teste real é determinar se o valor nulo
# hipótese é verdadeira ou não. Se descobrirmos que há uma diferença entre os grupos, podemos rejeitar o valor nulo
# hipótese e aceitamos nossa alternativa.

# Vamos ver um exemplo disso; vamos usar alguns dados de notas

df=pd.read_csv ('/content/grades.csv')
df.head()

Unnamed: 0,student_id,assignment1_grade,assignment1_submission,assignment2_grade,assignment2_submission,assignment3_grade,assignment3_submission,assignment4_grade,assignment4_submission,assignment5_grade,assignment5_submission,assignment6_grade,assignment6_submission
0,B73F2C11-70F0-E37D-8B10-1D20AFED50B1,92.733946,2015-11-02 06:55:34.282000000,83.030552,2015-11-09 02:22:58.938000000,67.164441,2015-11-12 08:58:33.998000000,53.011553,2015-11-16 01:21:24.663000000,47.710398,2015-11-20 13:24:59.692000000,38.168318,2015-11-22 18:31:15.934000000
1,98A0FAE0-A19A-13D2-4BB5-CFBFD94031D1,86.790821,2015-11-29 14:57:44.429000000,86.290821,2015-12-06 17:41:18.449000000,69.772657,2015-12-10 08:54:55.904000000,55.098125,2015-12-13 17:32:30.941000000,49.588313,2015-12-19 23:26:39.285000000,44.629482,2015-12-21 17:07:24.275000000
2,D0F62040-CEB0-904C-F563-2F8620916C4E,85.512541,2016-01-09 05:36:02.389000000,85.512541,2016-01-09 06:39:44.416000000,68.410033,2016-01-15 20:22:45.882000000,54.728026,2016-01-11 12:41:50.749000000,49.255224,2016-01-11 17:31:12.489000000,44.329701,2016-01-17 16:24:42.765000000
3,FFDF2B2C-F514-EF7F-6538-A6A53518E9DC,86.030665,2016-04-30 06:50:39.801000000,68.824532,2016-04-30 17:20:38.727000000,61.942079,2016-05-12 07:47:16.326000000,49.553663,2016-05-07 16:09:20.485000000,49.553663,2016-05-24 12:51:18.016000000,44.598297,2016-05-26 08:09:12.058000000
4,5ECBEEB6-F1CE-80AE-3164-E45E99473FB4,64.8138,2015-12-13 17:06:10.750000000,51.49104,2015-12-14 12:25:12.056000000,41.932832,2015-12-29 14:25:22.594000000,36.929549,2015-12-28 01:29:55.901000000,33.236594,2015-12-29 14:46:06.628000000,33.236594,2016-01-05 01:06:59.546000000


In [3]:

# Se dermos uma olhada dentro do DataFrame, veremos que temos seis atribuições diferentes. Vamos ver algumas
# estatísticas resumidas para este DataFrame
print("There are {} rows and {} columns".format(df.shape[0], df.shape[1]))

There are 2315 rows and 13 columns


In [4]:
# Para o propósito desta aula, vamos segmentar esta população em duas partes. Digamos que aqueles que terminam
# a primeira tarefa até o final de dezembro de 2015, vamos chamá-los de finalistas adiantados, e aqueles que terminarem
# algum tempo depois disso, vamos chamá-los de finalistas tardios.

early_finishers=df[pd.to_datetime(df['assignment1_submission']) < '2016']
early_finishers.head()

Unnamed: 0,student_id,assignment1_grade,assignment1_submission,assignment2_grade,assignment2_submission,assignment3_grade,assignment3_submission,assignment4_grade,assignment4_submission,assignment5_grade,assignment5_submission,assignment6_grade,assignment6_submission
0,B73F2C11-70F0-E37D-8B10-1D20AFED50B1,92.733946,2015-11-02 06:55:34.282000000,83.030552,2015-11-09 02:22:58.938000000,67.164441,2015-11-12 08:58:33.998000000,53.011553,2015-11-16 01:21:24.663000000,47.710398,2015-11-20 13:24:59.692000000,38.168318,2015-11-22 18:31:15.934000000
1,98A0FAE0-A19A-13D2-4BB5-CFBFD94031D1,86.790821,2015-11-29 14:57:44.429000000,86.290821,2015-12-06 17:41:18.449000000,69.772657,2015-12-10 08:54:55.904000000,55.098125,2015-12-13 17:32:30.941000000,49.588313,2015-12-19 23:26:39.285000000,44.629482,2015-12-21 17:07:24.275000000
4,5ECBEEB6-F1CE-80AE-3164-E45E99473FB4,64.8138,2015-12-13 17:06:10.750000000,51.49104,2015-12-14 12:25:12.056000000,41.932832,2015-12-29 14:25:22.594000000,36.929549,2015-12-28 01:29:55.901000000,33.236594,2015-12-29 14:46:06.628000000,33.236594,2016-01-05 01:06:59.546000000
5,D09000A0-827B-C0FF-3433-BF8FF286E15B,71.647278,2015-12-28 04:35:32.836000000,64.05255,2016-01-03 21:05:38.392000000,64.75255,2016-01-07 08:55:43.692000000,57.467295,2016-01-11 00:45:28.706000000,57.467295,2016-01-11 00:54:13.579000000,57.467295,2016-01-20 19:54:46.166000000
8,C9D51293-BD58-F113-4167-A7C0BAFCB6E5,66.595568,2015-12-25 02:29:28.415000000,52.916454,2015-12-31 01:42:30.046000000,48.344809,2016-01-05 23:34:02.180000000,47.444809,2016-01-02 07:48:42.517000000,37.955847,2016-01-03 21:27:04.266000000,37.955847,2016-01-19 15:24:31.060000000


In [5]:

# Aqui está minha solução. Primeiro, o dataframe df e os early_finishers compartilham valores de índice, então eu realmente
# quer tudo no df que não esteja em early_finishers
late_finishers=df[~df.index.isin(early_finishers.index)]
late_finishers.head()

Unnamed: 0,student_id,assignment1_grade,assignment1_submission,assignment2_grade,assignment2_submission,assignment3_grade,assignment3_submission,assignment4_grade,assignment4_submission,assignment5_grade,assignment5_submission,assignment6_grade,assignment6_submission
2,D0F62040-CEB0-904C-F563-2F8620916C4E,85.512541,2016-01-09 05:36:02.389000000,85.512541,2016-01-09 06:39:44.416000000,68.410033,2016-01-15 20:22:45.882000000,54.728026,2016-01-11 12:41:50.749000000,49.255224,2016-01-11 17:31:12.489000000,44.329701,2016-01-17 16:24:42.765000000
3,FFDF2B2C-F514-EF7F-6538-A6A53518E9DC,86.030665,2016-04-30 06:50:39.801000000,68.824532,2016-04-30 17:20:38.727000000,61.942079,2016-05-12 07:47:16.326000000,49.553663,2016-05-07 16:09:20.485000000,49.553663,2016-05-24 12:51:18.016000000,44.598297,2016-05-26 08:09:12.058000000
6,3217BE3F-E4B0-C3B6-9F64-462456819CE4,87.498744,2016-03-05 11:05:25.408000000,69.998995,2016-03-09 07:29:52.405000000,55.999196,2016-03-16 22:31:24.316000000,50.399276,2016-03-18 07:19:26.032000000,45.359349,2016-03-19 10:35:41.869000000,45.359349,2016-03-23 14:02:00.987000000
7,F1CB5AA1-B3DE-5460-FAFF-BE951FD38B5F,80.57609,2016-01-24 18:24:25.619000000,72.518481,2016-01-27 13:37:12.943000000,65.266633,2016-01-30 14:34:36.581000000,65.266633,2016-02-03 22:08:49.002000000,65.266633,2016-02-16 14:22:23.664000000,65.266633,2016-02-18 08:35:04.796000000
9,E2C617C2-4654-622C-AB50-1550C4BE42A0,59.270882,2016-03-06 12:06:26.185000000,59.270882,2016-03-13 02:07:25.289000000,53.343794,2016-03-17 07:30:09.241000000,53.343794,2016-03-20 21:45:56.229000000,42.675035,2016-03-27 15:55:04.414000000,38.407532,2016-03-30 20:33:13.554000000


In [6]:
# Existem muitas outras maneiras de fazer isso. Por exemplo, você pode simplesmente copiar e colar a primeira projeção
# e altere o sinal de menor que para maior ou igual a. Tudo bem, mas se você decidir que quer
# altere a data no futuro, você deve se lembrar de alterá-la em dois lugares. Você também pode fazer uma junção de
# o dataframe df com early_finishers - se você fizer uma junção à esquerda, você manterá apenas os itens no dataframe esquerdo,
# então isso teria sido uma boa resposta. Você também poderia ter escrito uma função que determina se alguém está
# early ou late e, em seguida, chamou .apply() no dataframe e adicionou uma nova coluna ao dataframe. Isto é um
# resposta bastante razoável também.

In [7]:
# Como você viu, o objeto de quadro de dados do pandas tem uma variedade de funções estatísticas associadas a ele. Se
# chamamos a função média diretamente no quadro de dados, vemos que cada um dos meios para as atribuições são
# calculado. Vamos comparar as médias para nossas duas populações
print(early_finishers['assignment1_grade'].mean())
print(late_finishers['assignment1_grade'].mean())

74.94728457024304
74.0450648477065


In [9]:
# Ok, eles são bem parecidos. Mas, eles são os mesmos? O que queremos dizer com semelhante? É aqui que o
# o teste dos alunos entra. Ele nos permite formar a hipótese alternativa ("Estes são diferentes") também
# como a hipótese nula ("Estes são os mesmos") e, em seguida, teste essa hipótese nula.

# Ao fazer o teste de hipóteses, temos que escolher um nível de significância como um limite para quanto de um
# chance que estamos dispostos a aceitar. Esse nível de significância é normalmente chamado de alfa. #Para este exemplo, vamos
# use um limite de 0,05 para nosso alfa ou 5%. Agora, este é um número comumente usado, mas é realmente bastante
# arbitrário.

# A biblioteca SciPy contém vários testes estatísticos diferentes e forma uma base para testes de hipóteses
# em Python e vamos usar a função ttest_ind() que faz um teste t independente (ou seja, o
# populações não estão relacionadas entre si). O resultado de ttest_index() é a t-statistic e um p-value.
# É este último valor, a probabilidade, que é mais importante para nós, pois indica a chance (entre
# 0 e 1) de nossa hipótese nula ser Verdadeira.

# Vamos trazer nossa função ttest_ind
from scipy.stats import ttest_ind


In [10]:

# Vamos executar esta função com nossas duas populações, olhando para a assignment 1 grades
ttest_ind(early_finishers['assignment1_grade'], late_finishers['assignment1_grade'])


Ttest_indResult(statistic=1.3223540853721596, pvalue=0.18618101101713855)

In [11]:

#Então aqui vemos que a probabilidade é 0,18, e isso está acima do nosso valor alfa de 0,05. Isso significa que 
# não podemos rejeitar a hipótese nula. A hipótese nula foi que as duas populações são as mesmas, e nós
# não temos certeza suficiente em nossa evidência (porque é maior que alfa) para chegar a uma conclusão.
#Isso não significa que provamos que as populações são as mesmas

In [12]:
#vamos checar as outras grades
print(ttest_ind(early_finishers['assignment2_grade'], late_finishers['assignment2_grade']))
print(ttest_ind(early_finishers['assignment3_grade'], late_finishers['assignment3_grade']))
print(ttest_ind(early_finishers['assignment4_grade'], late_finishers['assignment4_grade']))
print(ttest_ind(early_finishers['assignment5_grade'], late_finishers['assignment5_grade']))
print(ttest_ind(early_finishers['assignment6_grade'], late_finishers['assignment6_grade']))

Ttest_indResult(statistic=1.2514717608216366, pvalue=0.2108889627004424)
Ttest_indResult(statistic=1.6133726558705392, pvalue=0.10679998102227865)
Ttest_indResult(statistic=0.049671157386456125, pvalue=0.960388729789337)
Ttest_indResult(statistic=-0.05279315545404755, pvalue=0.9579012739746492)
Ttest_indResult(statistic=-0.11609743352612056, pvalue=0.9075854011989656)


In [13]:
# Ok, parece que nesses dados não temos evidências suficientes para sugerir que as populações diferem com
# respeito ao grau. Vamos dar uma olhada nesses p-valores por um momento, porque eles estão dizendo coisas
# que pode informar o projeto experimental no futuro. Por exemplo, uma das assignment, assignment 3 tem um
# valor p em torno de 0,1. Isso significa que se aceitássemos um nível de similaridade de 11%, isso teria sido
# considerado estatisticamente significativo. Como pesquisa, isso me sugeriria que há algo aqui
# vale a pena considerar o acompanhamento. Por exemplo, se tivéssemos um pequeno número de participantes (não temos) ou se
# havia algo único nessa tarefa no que se refere ao nosso experimento (qualquer que fosse) então
# pode haver experimentos de acompanhamento que podemos executar.


In [14]:
# Os valores-P foram criticados recentemente por serem insuficientes para nos dizer o suficiente sobre as interações
# que estão acontecendo, e duas outras técnicas, intervalores de confiança e análises bayesianas, estão sendo usadas
# mais regularmente. Um problema com os valores-p é que, à medida que você executa mais testes, é provável que obtenha um valor que
# é estatisticamente significativo apenas por acaso.

# Vamos ver uma simulação disso. Primeiro, vamos criar um data frame de 100 colunas, cada uma com 100 números
df1=pd.DataFrame([np.random.random(100) for x in range(100)])
df1.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
0,0.910232,0.407363,0.736308,0.467715,0.386968,0.438856,0.889173,0.854355,0.765882,0.488772,...,0.889899,0.831164,0.445069,0.715033,0.403909,0.383171,0.543898,0.916456,0.711106,0.890848
1,0.224218,0.713099,0.558717,0.624113,0.650884,0.975687,0.886799,0.293033,0.381119,0.928989,...,0.952609,0.80632,0.223637,0.445014,0.219797,0.316565,0.719288,0.098543,0.662585,0.140592
2,0.804447,0.480038,0.921773,0.259081,0.714928,0.68073,0.569001,0.764352,0.138534,0.259789,...,0.594991,0.436617,0.23515,0.455236,0.47304,0.057831,0.994593,0.806922,0.671903,0.84174
3,0.717754,0.646498,0.432314,0.907547,0.943131,0.767354,0.220966,0.401345,0.035339,0.423572,...,0.725086,0.806569,0.299174,0.698164,0.511075,0.201382,0.219105,0.408542,0.794522,0.946613
4,0.670411,0.108503,0.675012,0.320523,0.678283,0.788876,0.943261,0.572998,0.223526,0.821097,...,0.239997,0.264504,0.905051,0.368755,0.287912,0.355311,0.321015,0.226062,0.109281,0.531822


In [15]:
#ok agora vamos fazer o segundo DataFrame
df2=pd.DataFrame([np.random.random(100) for x in range(100)])

In [16]:
#Esses dois DataFrames são iguais? Talvez uma pergunta melhor seja, para uma determinada linha dentro de df1, é o mesmo
# como a linha dentro de df2?

# Vamos dar uma olhada. Digamos que nosso valor crítico seja 0,1 ou alfa de 10%. E vamos comparar cada
# coluna em df1 para a mesma coluna numerada em df2. E informaremos quando o valor-p não for inferior a 10%,
# o que significa que temos evidências suficientes para dizer que as colunas são diferentes.

# Vamos escrever isso em uma função chamada test_columns
def test_columns(alpha=0.1):
    # Eu quero manter o controle de quantos diferem
    num_diff=0
    # E agora podemos apenas iterar nas colunas
    for col in df1.columns:
        #podemos esgotar ttest_ind entre os dois dataframes
        teststat,pval=ttest_ind(df1[col],df2[col])
        # e verificamos o pvalue versus o alfa
        if pval<=alpha:
            # E agora vamos apenas imprimir se eles são diferentes e incrementar o num_diff
            print("Col {} is statistically significantly different at alpha={}, pval={}".format(col,alpha,pval))
            num_diff=num_diff+1
    # e vamos imprimir algumas estatísticas resumidas
    print("Total number different was {}, which is {}%".format(num_diff,float(num_diff)/len(df1.columns)*100))

test_columns()

Col 0 is statistically significantly different at alpha=0.1, pval=0.036016120673847477
Col 13 is statistically significantly different at alpha=0.1, pval=0.09803147321904195
Col 19 is statistically significantly different at alpha=0.1, pval=0.04282915950407146
Col 27 is statistically significantly different at alpha=0.1, pval=0.07808487950117493
Col 35 is statistically significantly different at alpha=0.1, pval=0.09937832564218772
Col 54 is statistically significantly different at alpha=0.1, pval=0.06334287889894184
Col 93 is statistically significantly different at alpha=0.1, pval=0.09840479948511374
Total number different was 7, which is 7.000000000000001%


In [19]:
# Interessante, então vemos que há um monte de colunas que são diferentes! Na verdade, esse número parece um
# muito parecido com o valor alfa que escolhemos. Então, o que está acontecendo - todas as colunas não deveriam ser iguais? Lembrar
# que tudo que o ttest faz é verificar se dois conjuntos são semelhantes dado algum nível de confiança, no nosso caso, 10%.
# Quanto mais comparações aleatórias você fizer, mais será o mesmo por acaso. Neste exemplo, nós
# verificamos 100 colunas, então esperaríamos que houvesse aproximadamente 10 delas se nosso alfa fosse 0,1.

# Podemos testar alguns outros valores alfa também
test_columns(0.05)

Col 0 is statistically significantly different at alpha=0.05, pval=0.036016120673847477
Col 19 is statistically significantly different at alpha=0.05, pval=0.04282915950407146
Total number different was 2, which is 2.0%


In [20]:
# Portanto, lembre-se disso quando estiver fazendo testes estatísticos como o teste t, que tem um valor p. Entender
# que esse valor-p não é mágico, que é um limite para você ao relatar resultados e tentar responder
# sua hipótese. O que é um limite razoável? Depende da sua pergunta, e você precisa envolver o domínio
# especialistas para entender melhor o que eles consideram significativo.

# Só por diversão, vamos recriar esse segundo dataframe usando uma distribuição não normal, vou escolher arbitrariamente

df2=pd.DataFrame([np.random.chisquare(df=1,size=100) for x in range(100)])
test_columns()

Col 0 is statistically significantly different at alpha=0.1, pval=0.011650622711656785
Col 1 is statistically significantly different at alpha=0.1, pval=0.0006149625023331334
Col 2 is statistically significantly different at alpha=0.1, pval=3.983544732753949e-05
Col 3 is statistically significantly different at alpha=0.1, pval=0.001073826139182124
Col 4 is statistically significantly different at alpha=0.1, pval=8.617632795896528e-06
Col 5 is statistically significantly different at alpha=0.1, pval=0.003760624853933589
Col 6 is statistically significantly different at alpha=0.1, pval=0.010233213254399048
Col 7 is statistically significantly different at alpha=0.1, pval=0.00013719316516871762
Col 8 is statistically significantly different at alpha=0.1, pval=0.00024450352736798394
Col 9 is statistically significantly different at alpha=0.1, pval=0.0015826627659851484
Col 10 is statistically significantly different at alpha=0.1, pval=0.00024096011658865537
Col 11 is statistically signific

In [None]:
# Agora vemos que todas ou a maioria das colunas são estatisticamente significativas no nível de 10%


Nesta aula, discutimos apenas alguns dos fundamentos do teste de hipóteses em Python. Apresentei a você a biblioteca SciPy, que você pode usar para o teste t dos alunos. Discutimos algumas das questões práticas que surgem da busca de significância estatística. Há muito mais a aprender sobre testes de hipóteses, por exemplo, existem diferentes testes usados, dependendo da forma de seus dados e diferentes maneiras de relatar resultados, em vez de apenas valores-p, como intervalos de confiança ou análises bayesianas. Mas isso deve dar a você uma ideia básica de por onde começar ao comparar duas populações quanto a diferenças, o que é uma tarefa comum para cientistas de dados.

