In [9]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime as dt
from sklearn.preprocessing import StandardScaler
from time import time
%matplotlib inline

In [2]:
def compareFloats(num1, num2, eps = 0.00001, onlyEquality=True):
    '''
        # Método que compara 2 floats até certa precisão
        # Exemplo:
        # a = 1.55555; b = 1.55566; eps = 0.0001
        # Para o eps acima, a < b, enquanto, para eps = 0.001, a == b
    '''
    subtr = num1-num2
    if subtr < eps:
        return False
    elif onlyEquality:
        return True
    else:
        return 1 if subtr > 0 else -1

In [3]:
def fixTimestamp(ts:str):
    new_ts = ts[:10]+'.'+ts[10:]
    return float(new_ts)

In [4]:
def getData(date_str:str):
    date = dt.strptime(date_str, '%Y-%m-%d')
    return date

In [5]:
dataset = pd.read_csv('testdata.csv')

In [6]:
dataset.head()

Unnamed: 0,user,latitude,longitude,date,day_of_week,hour,categoria,timestamp
0,User_3401,-26.489503,-49.028018,2018-07-08,Saturday,18,bakery,1531604419436
1,User_539,-14.4574,-46.433148,2018-07-08,Sunday,7,restaurant,1531650749377
2,User_789,-8.903859,-36.487485,2018-07-08,Saturday,9,night_club,1531571345816
3,User_2814,-22.82396,-43.012243,2018-07-08,Saturday,22,store,1531619273330
4,User_3432,-24.949576,-53.488507,2018-07-08,Sunday,3,restaurant,1531634482205


<h1>Análise dos Dados</h1>
<p>Inicialmente podemos analisar o dataset buscando valores únicos que podem retornar algum insight.</p>

<h2>Limpando o Dataset</h2>
<p>Através de algumas análises de colunas, notei que alguns valores são irelevantes:</p>
<ul>
    <li>Posso substituir a coluna de data por uma só contendo os dias do mês. Todas as datas são do mês 7</li>
    <li>Timestamp é irelevante dado que a tabela já contém dia, mês, ano, dia da semana e hora. A única relevancia seria especificar ainda mais além do que já é dado. Além disso o timestamp não está bem formatado e, tentando corrigir, as datas não batem com o que é dado nas outras colunas</li>
</ul>

<p>Comparando o dataset completo com aquele filtrando apenas pelo mês 7:</p>

In [7]:
dataset[dataset['date'].str.contains(r'2018-07-*.')].shape== dataset.shape

True

In [11]:
curr_timestamp = time()
first_timestamp_ds = dataset['timestamp'][0]
print('Comparando Timestamps:')
print('%f\n%.d'%(curr_timestamp, first_timestamp_ds))

Comparando Timestamps:
1532008468.373425
1531604419436


<p>Comparando o tamanho dos dois notei que o timestamp do dataset não possui decimal, porém é 4 dígitos maior do que um timestamp correto. Deduzi que esses dígitos a mais seria decimal. Então consertei e comparei a data com o novo timestamp e a data presente no dataset:</p>

In [None]:
for _, row in dataset[['hour','date','timestamp']].iterrows():
    datetime_ts = dt.utcfromtimestamp(row['timestamp']/1000)
    print(datetime_ts.date(), datetime_ts.hour, end = '\t')
    print(row['date'], row['hour'])

<p>Houve uma inconsistência no dia ou na hora.</p>

<h2>Day of Week</h2>

In [None]:
dataset['day_of_week'].value_counts()

In [None]:
plt.figure(figsize=(10,5))
sns.countplot(data=dataset, 
              x='day_of_week', 
              order=dataset['day_of_week'].value_counts().index)
plt.show()

<p>Notamos claramente que o dia com maior movimentação de clientes é Quinta-Feira e o dia com menor movimentação é Segunda-Feira</p>

<h2>Hour</h2>

In [None]:
# Contagem das horas
hour_count = dataset['hour'].value_counts()
hour_count

<p>Como de se esperar, os horários da madrugada possuem menos movimentação.</p>

In [None]:
# Quais são as horas cuja sua contagem é superior a mediana das contagens
hour_count[hour_count > hour_count.median()].keys().sort_values()

<p>A partir do array acima temos uma faixa de horário ideal para rodar um anúncio de promoção.</p>

In [None]:
pd.DataFrame(dataset.groupby(by=['day_of_week'])['hour'].value_counts()).loc['Sunday']