# Projeto 2 - Ciência dos Dados
## Maria Clara L. Luques, Victor H. L. da Silva e Warlen César R. Filho

### Versões "A" e "B" do website

### Link: https://projeto-2-cvw.firebaseapp.com/

#### Observa-se que a técnica de inferência utilizada consiste em encontrar a categoria eletronica, sendo que as categorias na versão "A" contém legendas e na versão "B", não. Comparando os resultados do tempo utilizado em média pelos usuários de cada versão, discutiremos qual delas é melhor, pois uma contém imagem e texto, enquanto outra contém apenas imagem, medindo o quão intuitivas são as imagens disponibilizadas para cada categoria.

<img src="versaoa.png"/, width=420, height=350 align='left'>
<img src="versaob.jpg"/, width=420, height=350 align='right'>



### Parte Teórica

#### Será feito o teste com valores aleatótios de tempo para as versões A e B.

In [1]:
%matplotlib inline

import os
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import json
import itertools
from scipy import stats
import random
os.getcwd()

'C:\\Users\\MLUQUES\\Documents\\Insper\\Semestre 2\\Ciência dos Dados\\CD\\Projeto2'

In [2]:
tempo_A = []
tempo_B = []

for i in range (30):
        tempo_A.append(random.randrange(1000,5000,1)/1000)
        tempo_B.append(random.randrange(1000,5000,1)/1000)
        
simula = pd.DataFrame()
simula["A"] = tempo_A
simula["B"] = tempo_B

mia = simula.A.mean()
mib = simula.B.mean()

sa = (simula.A.var())**(1/2)
sb = (simula.B.var())**(1/2)

print("O valor esperado de A (mi) é: {0}".format(mia))
print("O valor esperado de B (mi) é: {0}".format(mib))
print("O desvio padrão de A (sigma) é: {0}".format(sa))
print("O desvio padrão de B (sigma) é: {0}".format(sb))

O valor esperado de A (mi) é: 2.9460999999999995
O valor esperado de B (mi) é: 2.9478666666666666
O desvio padrão de A (sigma) é: 1.2078648117435478
O desvio padrão de B (sigma) é: 1.2243129173296463


#### { H0: E(A) = E(B) (Hipótese Nula)

#### { H1: E(A) != E(B) (Hipótese Alternativa)

#### Nível de significância (alfa): 1%

#### **considerando variâncias diferentes e não conhecidas

In [3]:
X = mia - mib
vara = sa**2
varb = sb**2

n = 30 #amostras aleatórias de tamanhos iguais

T = (X - 0)/((((vara)/n) + ((varb)/n))**(1/2))
print("O t obs é: {0}".format(T)) 

O t obs é: -0.0056263274175814846


In [4]:
M = ((((sa)**2)/n) + (((sb)**2)/n))**2
N = ((((sa)**2)/n)**2)/(n - 1)
O = ((((sb)**2)/n)**2)/(n - 1)
liber = M/(N + O)
print("O grau de liberdade é: {0}".format(liber))

O grau de liberdade é: 57.989392574670866


#### Sabendo que, para alfa = 1%, t = 2,896, temos um resultado de não rejeitar a hipótese nula, pois o valor observado de t está fora da região crítica.

### Parte Prática (Experimental)

#### Serão feitos os mesmo cálculos usando os dados recolhidos do firebase

In [5]:
jason = open("projeto-2-cvw-export.json")
linhas = jason.readlines()
texto = "".join(linhas)
dados = json.loads(texto)
dics = []
for i,j in dados["logs"].items():
    dics.append(j)
data = pd.DataFrame.from_records(dics)
group = data.groupby(by=["user_id", "versao"])
userid = set(data.user_id) 
userid = list(userid)

In [10]:
resultados = []

for u in userid:
    for versao in ["A", "B"]:
        if (u, versao) in group.groups.keys(): # Check if a specific pair user/type of test happened
            grupo1 =  group.get_group((u, versao))
            grupo1 = grupo1.sort_values(by="tempo") # Para evitar que inícios sem fim gerem tempos negativos

            if len(grupo1[grupo1.tipo=="final"])>= 1 and len(grupo1[grupo1.tipo=="inicio"]) >= 1:
                delta_t = grupo1[grupo1.tipo=="final"].iloc[-1].tempo - grupo1[grupo1.tipo=="inicio"].iloc[0].tempo
                resultados.append({"user_id":u, "delta_t":delta_t, "versao":versao})

In [11]:
grupo1.sort_values(by="tempo")
data_final = pd.DataFrame.from_records(resultados)
media= 0
for i in data_final[data_final.versao == 'B'].delta_t:
    if  i <= 500.000:
        media += i
media /= len(data_final) -1

print("Media do tempo para a Versão A é de {0}".format(data_final[data_final.versao == 'A'].delta_t.mean()))
print("Media do tempo para a Versão B é de {0}".format(media) )

Media do tempo para a Versão A é de 22114.0
Media do tempo para a Versão B é de 0.0


### Conclusão

#### A partir das médias calculadas experimentalmente do tempo de acesso na versão A e na versão B, é possivel analisar que as médias foram diferentes das calculadas teoricamente. Alguns dos possiveis fatores é a possivel localização da categoria a ser acessada pelo usúario, pois ela é a primeira categoria dentre uma série de outras. Além disso, o fato da versão B não ter informações a ser lidas, agiliza o acesso do usuário.
#### Concluimos, portanto, que a não utilização do recurso da escrita, possibilitou diminuir o tempo de acesso, em média, por mais da metade.