In [2]:
import numpy as np
import pandas as pd
import os
from datetime import date, datetime
from pathlib import Path

In [40]:
# Definindo o local do arquivo Parquet
path_parquet = Path('/Users/wesleyalmeida/GitHub/ribon-parquet')
file_parquet = 'flurry_user_event_date.parquet'

# Tipo String - com '/' no final - local onde serão gravados os arquivos csv's
path_csv = '/Users/wesleyalmeida/GitHub/ribon-parquet/'

In [4]:
# Carregando o arquivo parquet para um dataframe: df
%%time
df = pd.read_parquet(path_parquet/file_parquet)

CPU times: user 27.5 s, sys: 6.82 s, total: 34.3 s
Wall time: 38.8 s


In [6]:
# transformando a coluna sessionTimestamp em formato de data
df['sessionTimestamp'] = pd.to_datetime(df.sessionTimestamp, unit='ms')

# vendo características importantes do dataframe
print(df.shape, df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34964844 entries, 0 to 34964843
Data columns (total 7 columns):
sessionTimestamp    datetime64[ns]
deviceModel         object
countryISO          object
eventName           object
eventOffset         object
eventParameters     object
userId              object
dtypes: datetime64[ns](1), object(6)
memory usage: 1.8+ GB
(34964844, 7) None


In [7]:
# Analise das primeiras linhas do dataframe
df.head()

Unnamed: 0,sessionTimestamp,deviceModel,countryISO,eventName,eventOffset,eventParameters,userId
0,2017-08-30 21:22:02.235,Moto G4 Plus,BR,Opened,48.0,{},aff3df3b88b1e955
1,2017-08-30 21:14:19.712,Moto G4 Plus,BR,,,{},
2,2017-08-28 20:02:01.905,Moto G4 Plus,BR,ativacao,63.0,{},1111
3,2017-08-30 19:10:48.562,Moto G4 Plus,BR,Opened,50.0,{},aff3df3b88b1e955
4,2017-08-29 13:49:46.685,Moto G4 Plus,BR,,,{},


### Limpeza de Dados

In [8]:
# analisando q quantidade de registros com eventos nulos ou userId nulo
print('Numero de eventos Nulos: ', df.eventName.isnull().sum())
print('Numero de userId Nulos: ', df.userId.isnull().sum())
print('Numero de registros com eventos ou Ids nulos: ',\
      df[df.eventName.isnull() | df.userId.isnull()].shape[0])

Numero de eventos Nulos:  536170
Numero de userId Nulos:  354663
Numero de registros com eventos ou Ids nulos:  597316


In [10]:
# removendo os registros com informações nulas no evento e userId
df = df[df.eventName.notnull() & df.userId.notnull()]
df.shape

(34367528, 7)

In [11]:
# Analisando o número de usuários com userId igual a 0
print('Nro registros com userID = 0 : ', df.loc[df['userId'] == '0'].shape[0])

Nro registros com userID = 0 :  928492


In [12]:
# Removendo os registros cujo userId é igual a zero.
# A premissa é que isso deve ser um erro
df = df.loc[df['userId'] != '0']
df.shape

(33439036, 7)

In [13]:
# Verificando o número de registros cujo o userId não é exclusivamente numérico
df.userId.str.contains('\D+').sum()

62135

In [14]:
df = df[df.userId.str.contains('^\d+$')]
df.shape

(33376901, 7)

In [18]:
%%time
# Reindexando o dataframe após a limpeza de dados
df.reindex()

CPU times: user 2.49 s, sys: 10.2 s, total: 12.7 s
Wall time: 15.9 s


Unnamed: 0,sessionTimestamp,deviceModel,countryISO,eventName,eventOffset,eventParameters,userId
2,2017-08-28 20:02:01.905,Moto G4 Plus,BR,ativacao,63,{},1111
10,2017-08-28 21:00:18.964,Moto G4 Plus,BR,ativacao,107,{},1111
11,2017-08-28 21:00:18.964,Moto G4 Plus,BR,uncaught,66356,{},1111
12,2017-08-28 21:00:18.964,Moto G4 Plus,BR,ativacao,8106,{},1111
13,2017-08-28 21:00:18.964,Moto G4 Plus,BR,ativacao,14168,{},1111
...,...,...,...,...,...,...,...
34964838,2019-08-31 00:07:37.132,iPhone 7,BR,SawAdBeforeDonate,57547,"{""brand"":""Bancorbrás"",""userId"":""167390""}",167390
34964839,2019-08-31 00:07:37.132,iPhone 7,BR,SawAdBeforeDonate,57548,"{""brand"":""Bancorbrás"",""userId"":""167390""}",167390
34964840,2019-08-31 00:07:37.132,iPhone 7,BR,Doou,60401,"{""packageId"":""49"",""brandName"":""Bancorbrás"",""qu...",167390
34964841,2019-08-31 00:07:37.132,iPhone 7,BR,SawAdAfterDonate,60442,"{""brand"":""Bancorbrás"",""userId"":""167390""}",167390


In [20]:
# Tamanho final do arquivo com o total de eventos
df.shape

(33376901, 7)

In [21]:
# Número total de usuários distintos na plataforma durante todo o período
df.userId.nunique()

142849

In [22]:
# Analisando o dataframe após a limpeza
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 33376901 entries, 2 to 34964843
Data columns (total 7 columns):
sessionTimestamp    datetime64[ns]
deviceModel         object
countryISO          object
eventName           object
eventOffset         object
eventParameters     object
userId              object
dtypes: datetime64[ns](1), object(6)
memory usage: 2.0+ GB


### Criação do dataframe de eventos por usuário por data

In [23]:
%%time
# criando a feature eventDate usando apenas o dia e descartando a hora do sessionTimestamp
df['eventDate'] = df.sessionTimestamp.dt.strftime("%Y-%m-%d")

CPU times: user 4min 7s, sys: 5.92 s, total: 4min 13s
Wall time: 4min 16s


In [24]:
df.head()

Unnamed: 0,sessionTimestamp,deviceModel,countryISO,eventName,eventOffset,eventParameters,userId,eventDate
2,2017-08-28 20:02:01.905,Moto G4 Plus,BR,ativacao,63,{},1111,2017-08-28
10,2017-08-28 21:00:18.964,Moto G4 Plus,BR,ativacao,107,{},1111,2017-08-28
11,2017-08-28 21:00:18.964,Moto G4 Plus,BR,uncaught,66356,{},1111,2017-08-28
12,2017-08-28 21:00:18.964,Moto G4 Plus,BR,ativacao,8106,{},1111,2017-08-28
13,2017-08-28 21:00:18.964,Moto G4 Plus,BR,ativacao,14168,{},1111,2017-08-28


In [27]:
%%time
# Preparando a criação do dataframe events_per_user
# As observações (linhas) serão usuários por dia
# as features (colunas) irão contabilizar a quantidade de vezes que o usuário acionou os diferentes eventos

# Primeiro agrupamos os eventos pela data do evento

e = df[['eventDate','userId','eventName', 'eventOffset']]\
                  .groupby(['eventDate'], as_index=True)

CPU times: user 10.9 s, sys: 46.7 s, total: 57.7 s
Wall time: 1min 20s


In [28]:
%%time

events_per_user = pd.DataFrame()

# Agora para cada dia é agrupado por usuário e por evento,
# e depois totalizado a quantidade de vezes que o usuário fez cada evento
for date, group in e:
    df1 = group.groupby(['userId', 'eventName'], as_index=False).agg({'eventOffset': 'count'})
    df1.columns = ['userId', 'eventName', 'eventOccurrences']
    df1 = df1.pivot(index='userId', columns='eventName', values='eventOccurrences')
    df1.reset_index(inplace=True)
    df1['eventDate'] = date
    events_per_user = pd.concat([events_per_user, df1], sort=False, ignore_index=True)

CPU times: user 6min 58s, sys: 6min 56s, total: 13min 55s
Wall time: 15min 58s


In [29]:
# Analisando a estrutura do novo dataframe
events_per_user.shape

(2090069, 129)

In [30]:
# Analisando os eventos como colunas do novo dataframe
events_per_user.columns

Index(['userId', 'ativacao', 'uncaught', 'eventDate', 'Opened', 'donate',
       'onBoardingStage', 'openCurtain', 'changeTabPrincipal',
       'associateWithFacebook',
       ...
       'ReceiveBadgeButton', 'ReceiveBadgeClose', 'ClickedBadgesUnupdated',
       'OpenedAdOnFeedView', 'QuizOpened', 'SkipQuiz', 'ClickedShareFeed',
       'ClickedShareFeedView', 'ClickedLogin', 'OpenedProfileInfo'],
      dtype='object', length=129)

In [31]:
# Analisando as primeiras linhas do dataframe
events_per_user.head()

Unnamed: 0,userId,ativacao,uncaught,eventDate,Opened,donate,onBoardingStage,openCurtain,changeTabPrincipal,associateWithFacebook,...,ReceiveBadgeButton,ReceiveBadgeClose,ClickedBadgesUnupdated,OpenedAdOnFeedView,QuizOpened,SkipQuiz,ClickedShareFeed,ClickedShareFeedView,ClickedLogin,OpenedProfileInfo
0,1111,6.0,2.0,2017-08-28,,,,,,,...,,,,,,,,,,
1,123,,2.0,2017-10-02,10.0,2.0,3.0,1.0,,,...,,,,,,,,,,
2,6,,1.0,2017-10-02,3.0,,,1.0,,,...,,,,,,,,,,
3,7,,3.0,2017-10-02,4.0,,8.0,2.0,,,...,,,,,,,,,,
4,6,,,2017-10-03,4.0,,10.0,3.0,,,...,,,,,,,,,,


In [32]:
# Analisando as primeiras linhas, mas de um evento específico
events_per_user[['userId', 'eventDate', 'donate']].head(10)

Unnamed: 0,userId,eventDate,donate
0,1111,2017-08-28,
1,123,2017-10-02,2.0
2,6,2017-10-02,
3,7,2017-10-02,
4,6,2017-10-03,
5,7,2017-10-03,
6,4,2017-10-04,1.0
7,6,2017-10-04,
8,7,2017-10-04,
9,9,2017-10-04,


In [33]:
# verificando se o número de usuários se manteve identico, após a transformação
events_per_user.userId.nunique()

142849

In [37]:
# verificando a data do último evento
data_final = events_per_user.eventDate.sort_values().iloc[-1]
data_final

'2019-08-31'

In [41]:
# salvando o arquivo de eventos por usuário
events_per_user.to_csv(path_csv+'ribon_events_per_user_' + data_final + '.csv', index=False)

### Criando o dataframe de usuários com outras features

In [42]:
%%time
# Serão usados as colunas deviceModel e countryISO.
# Será capturada para cada usuário a moda de cada coluna, ou seja, o valor mais recorrente
users = df[['userId','deviceModel', 'countryISO']].groupby(['userId']).agg(pd.Series.mode)
print(users.shape)
users.head()

(142849, 2)
CPU times: user 1min 26s, sys: 6.94 s, total: 1min 33s
Wall time: 1min 37s


Unnamed: 0_level_0,deviceModel,countryISO
userId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Moto G4 Plus,BR
10,iOS Emulator,BR
100,Moto Z (2) Play,BR
1000,Nexus 5,BR
10000,Q6,BR


In [43]:
# Salavando em um arquivo de usuários
users.to_csv(path_csv+'ribon_users_' + data_final + '.csv')