# Projeto Sprint 10

<b>Descrição dos dados</b>

    Cada entrada de diário é uma ação do usuário ou um evento.
        EventName — nome do evento
        DeviceIDHash — dentificador de usuário exclusivo
        EventTimestamp — hora do evento
        ExpId — número do experimento: 246 e 247 são os grupos de controle, 248 é o grupo de teste

<b> Passo 1. Abra o arquivo de dados e leia a informação geral

In [1]:
#importando as bibliotecas necessárias
import pandas as pd


In [2]:
#importando o conjunto de dados para o arquivo logs
logs = pd.read_csv('logs_exp_us.csv', sep='\t') #necessário colocar o separador dos dados como '\t'

In [3]:
print(logs.head())

                 EventName         DeviceIDHash  EventTimestamp  ExpId
0         MainScreenAppear  4575588528974610257      1564029816    246
1         MainScreenAppear  7416695313311560658      1564053102    246
2  PaymentScreenSuccessful  3518123091307005509      1564054127    248
3         CartScreenAppear  3518123091307005509      1564054127    248
4  PaymentScreenSuccessful  6217807653094995999      1564055322    248


<b>Passo 2. Prepare os dados para análise</b>

    Renomeie as colunas de uma maneira que seja conveniente para você
    Verifique se há valores ausentes e tipos de dados. Corrija os dados, se necessário
    Adicione uma coluna de data e hora e uma coluna separada para datas

<b> 2.1 Renomeando as colunas

Como são poucas colunas posso trocar uma por uma pois quero adicionar o '_' entre as palavras. Outra forma seria utilizando um ciclo 'for' para tratar todas as palavras como minusculas e remover possíveis espaços ao final ou inicio das colunas (caso houvesse).

In [4]:
logs = logs.rename(columns={'EventName': 'event_name',
                            'DeviceIDHash':'device_id_hash',
                            'EventTimestamp':'event_time_stamp',
                            'ExpId':'exp_id'})

print(logs.columns)

Index(['event_name', 'device_id_hash', 'event_time_stamp', 'exp_id'], dtype='object')


<b> 2.2 Verificando os dados se há valores ausentes

In [5]:
logs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244126 entries, 0 to 244125
Data columns (total 4 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   event_name        244126 non-null  object
 1   device_id_hash    244126 non-null  int64 
 2   event_time_stamp  244126 non-null  int64 
 3   exp_id            244126 non-null  int64 
dtypes: int64(3), object(1)
memory usage: 7.5+ MB


É possível observar que não há valores ausentes entre os dados.

<b> 2.3 Adicione uma coluna de data e hora e uma coluna separada para datas

In [6]:
#adicionando a coluna de data e hora
logs['date_time'] = pd.to_datetime(logs['event_time_stamp'], unit='s', errors='coerce')

In [7]:
#adicionando a coluna de data
logs['date'] = logs['date_time'].dt.date #para a data
logs['time'] = logs['date_time'].dt.time #para as horas

In [8]:
print(logs.sample(10))

                event_name       device_id_hash  event_time_stamp  exp_id  \
153985  OffersScreenAppear  1228484548691249079        1565003120     246   
111205    MainScreenAppear  8018311918221041262        1564899497     248   
72713   OffersScreenAppear  1239454820626819999        1564777877     246   
121559  OffersScreenAppear  2837195494932801312        1564918657     247   
229588    CartScreenAppear  6343888653134816913        1565184767     247   
32625     CartScreenAppear  3552058533941424611        1564681988     246   
37607   OffersScreenAppear  2088404636236716254        1564691939     248   
156069    MainScreenAppear  3234563925901255603        1565006649     246   
187796    MainScreenAppear  7664408132782564716        1565083782     247   
239011    CartScreenAppear  7917108161419089913        1565198911     248   

                 date_time        date      time  
153985 2019-08-05 11:05:20  2019-08-05  11:05:20  
111205 2019-08-04 06:18:17  2019-08-04  06:18:17  

In [9]:
print(logs.sample())

              event_name       device_id_hash  event_time_stamp  exp_id  \
210558  MainScreenAppear  1934958415782608283        1565120459     246   

                 date_time        date      time  
210558 2019-08-06 19:40:59  2019-08-06  19:40:59  


<b>Passo 3. Estude e verifique os dados</b>

    Quantos eventos ficam nos diários?
    Quantos usuários ficam nos diários?
    Qual é o número médio de eventos por usuário?
    Qual é o período de tempo que os dados cobrem? Encontre a data máxima e mínima. Desenhe um histograma por data e hora. Você pode ter certeza de que possui os dados igualmente completos para todo o período? Os eventos mais antigos podem acabar aparecendo nos diários de alguns usuários por motivos técnicos, e isso pode distorcer o quadro geral. Encontre o momento em que os dados começam a ser completos e ignore a seção anterior. Qual período os dados realmente representam?
    Você perdeu muitos eventos e usuários ao excluir os dados mais antigos?
    Certifique-se de ter usuários de todos os três grupos experimentais

<b>Passo 4. Estude o funil de eventos</b>

    Veja quais eventos estão nos diários e sua frequência de ocorrência. Classifique-os por frequência.
    Encontre o número de usuários que executaram cada uma dessas ações. Ordene os eventos pelo número de usuários. Calcule a proporção de usuários que executaram a ação pelo menos uma vez.
    Em que ordem você acha que as ações ocorreram. Todos eles fazem parte de uma única sequência? Você não precisa levá-los em consideração ao calcular o funil.
    Use o funil de eventos para encontrar a parcela de usuários que passam de uma etapa para a próxima. (Por exemplo, para a sequência de eventos A → B → C, calcule a proporção de usuários na etapa B para o número de usuários na etapa A e a proporção de usuários na etapa C para o número na etapa B.)
    Em qual fase você perde mais usuários?
    Qual é a parcela de usuários que faz o caminho inteiro, desde o primeiro evento até o pagamento?

<b>Passo 5. Estude os resultados do experimento</b>

    Quantos usuários há em cada grupo?
    Temos dois grupos de controle no teste A/A, no qual verificamos nossos mecanismos e cálculos. Veja se há uma diferença estatisticamente significativa entre as amostragens 246 e 247.
    Selecione o evento mais popular. Em cada um dos grupos de controle, encontre o número de usuários que realizaram essa ação. Encontre a proporção deles. Verifique se a diferença entre os grupos é estatisticamente significativa. Repita o procedimento para todos os outros eventos (economizará tempo se você criar uma função especial para este teste). Você pode confirmar se os grupos foram divididos corretamente?
    Faça a mesma coisa para o grupo com fontes alteradas. Compare os resultados com os de cada um dos grupos de controle para cada evento isoladamente. Compare os resultados com os resultados combinados para os grupos de controle. Quais conclusões você pode tirar do experimento?
    Qual nível de significância você definiu para testar as hipóteses estatísticas mencionadas acima? Calcule quantos testes de hipóteses estatísticas você realizou. Com um nível de significância estatística de 0,1, um de cada 10 resultados pode ser falso. Qual deveria ser o nível de significância?Se você quiser alterá-lo, execute as etapas anteriores novamente e verifique suas conclusões.