# Comparando engajamento nos Comentários da Hacker News

Neste projeto, vamos comparar dois tipos de posts do site ["Hacker News"](https://news.ycombinator.com/), um site que compila várias noticias e artigos relacionados a tecnologia são compartilhados em formato de "posts". Esses posts podem receber votos e comentários. 

O objetivo e comparar o volume de comentários dos post que começam com "Ask HN:" e "Show HN". Os post com "Ask HN:" são perguntas direcionadas a comunidade do Hacker News e os com "Show HN" são de usuários que querem mostrar a comunidade, algum produto, projeto ou simplesmente algo interessante.

Vamos comparar esses dois tipos de post para responder as seguintes questões:

- Em média, quem recebe mais comentários?
- Existem horários que geram, nos posts, mais comentários que a média? 

*Esse projeto faz parte da Formação de Analista de Dados da "Dataquest", que disponibilizou um arquivo com soluções o qual foi consultado em algumas ocasiões.*

### Conclusão
Baseado nos dados de posts do "Ask HN" com comentários, o horário que maximiza o engajamento da comunidade, seria por volta das 15:00.

De acordo com a documentação do dataset, a zona de horário do dataset é "Eastern Time(ET)" nos Estados Unidos. Fazendo a conversão, isso seria as 16:00 ou 4:00 PM no horário de Brasília.

## Acessando a amostra de dados 

Para nossa analise, usaremos uma amostra de 20,000 posts. Essa mostra foi extraída de um dataset com 300,000, a qual foi retirada posts sem comentários e selecionando randomicamente do restante. Para acessar o dataset usado, [clique aqui](https://www.kaggle.com/hacker-news/hacker-news-posts). 

### Abrindo arquivo com dataset

In [1]:
#Abre o dataset
from csv import reader

hacker_news_opened = open("hacker_news.csv")
hacker_news_read = reader(hacker_news_opened)

hn = list(hacker_news_read) #lista de dados
hn_header = hn[0] #cabeçalho
hn = hn[1:] #lista de dados sem cabeçalho

#Explorando parte dos dados
print(hn_header)
print('\n')
print(hn[:4])

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']


[['12224879', 'Interactive Dynamic Video', 'http://www.interactivedynamicvideo.com/', '386', '52', 'ne0phyte', '8/4/2016 11:52'], ['10975351', 'How to Use Open Source and Shut the Fuck Up at the Same Time', 'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/', '39', '10', 'josep2', '1/26/2016 19:30'], ['11964716', "Florida DJs May Face Felony for April Fools' Water Joke", 'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/', '2', '1', 'vezycash', '6/23/2016 22:20'], ['11919867', 'Technology ventures: From Idea to Enterprise', 'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429', '3', '1', 'hswarna', '6/17/2016 0:01']]


### Filtrando os Dados

A análise sera feita apenas nos post que começam com "Ask HN" e "Show HN". Para separar esses posts vamos criar duas listas onde cada uma contêm dados de um tipo de post.

In [2]:
#Listas dos tipos de post
ask_posts = []
show_posts = []
other_posts = [] #Posts que não se encaixam na nossa análise

#Filtra e separa os dados
for i in hn:
    title = i[1]
    
    if title.lower().startswith("ask hn"):
        ask_posts.append(i)
    elif title.lower().startswith("show hn"):
        show_posts.append(i)
    else:
        other_posts.append(i)
        
print("Posts com 'Ask hn':",len(ask_posts))
print("Posts com 'Show hn':",len(show_posts))
print("Outros posts:",len(other_posts))

Posts com 'Ask hn': 1744
Posts com 'Show hn': 1162
Outros posts: 17194


## Média de Comentário por Post

In [9]:
#Quantidade total de comentários dos post com Ask HN
total_ask_comments = 0

for i in ask_posts:
    num_comments = int(i[4])
    total_ask_comments += num_comments
    
#Calcula a média de comentários dos post com Ask HN
avg_ask_comments = total_ask_comments / len(ask_posts)

print('Média de comentários dos posts "Ask HN" : {number:.2f}'.format(number=avg_ask_comments))

#Quantidade total de comentários dos post com Show HN
total_show_comments = 0

for i in show_posts:
    num_comments = int(i[4])
    total_show_comments += num_comments
    
#Calcula a média de comentários dos post com Show HN
avg_show_comments = total_show_comments / len(show_posts)

print('Média de comentários dos posts "Show HN" : {number:.2f}'.format(number=avg_show_comments))



Média de comentários dos posts "Ask HN" : 14.04
Média de comentários dos posts "Show HN" : 10.32


A média de comentários nos posts "Ask HN" é maior do que a de "Show HN". Uma hipótise que explica essa diferença seria que posts com dúvidas, recebem as respostas no comentários o que resulta em um engajamento maior da comunidade.

Como os posts com perguntas recebem mais atenção, vamos focar o resto dessa análise nesses posts.

## Quantidade de Post e Comentários por Hora

Agora vamos descobrir se um post criado em algum horário específico gera atraí mais comentários. Para isso vamos:

- Calcular para cada horário do dia, quantos post são criados e quantos comentários são recebidos.  
- Calcular a média de comentários dos posts por horário. 

In [30]:
#Calcula quantidades de post e comentários por hora
import datetime as dt

result_list = []

#Extrai data e quantidade de comentários
for i in ask_posts:
    created_at = i[6]
    number_comments = int(i[4])
    ask_list = [created_at, number_comments]
    result_list.append(ask_list)

#Posts por hora
counts_by_hour = {}
#Comentários por hora
comments_by_hour = {}
date_format = "%m/%d/%Y %H:%M"

#contabiliza cada post no seu horário correspondente e adiciona sua quantidade de comentários  
for i in result_list:
    date = i[0]
    comments = i[1]
    hour = dt.datetime.strptime(date,date_format).strftime("%H")
    
    if hour not in counts_by_hour:
        counts_by_hour[hour] = 1
        comments_by_hour[hour] = comments
        
    else:
        counts_by_hour[hour] += 1
        comments_by_hour[hour] += comments

comments_by_hour

{'00': 447,
 '01': 683,
 '02': 1381,
 '03': 421,
 '04': 337,
 '05': 464,
 '06': 397,
 '07': 267,
 '08': 492,
 '09': 251,
 '10': 793,
 '11': 641,
 '12': 687,
 '13': 1253,
 '14': 1416,
 '15': 4477,
 '16': 1814,
 '17': 1146,
 '18': 1439,
 '19': 1188,
 '20': 1722,
 '21': 1745,
 '22': 479,
 '23': 543}

In [32]:
#lista de horários com média de comentários
avg_by_hour = []

#Para cada horário, divide a quantidade de comentários pela quantidade de posts
for i in counts_by_hour:
    avg_by_hour.append([i, comments_by_hour[i] / counts_by_hour[i]])

print(avg_by_hour)


[['08', 10.25], ['21', 16.009174311926607], ['07', 7.852941176470588], ['15', 38.5948275862069], ['03', 7.796296296296297], ['14', 13.233644859813085], ['20', 21.525], ['23', 7.985294117647059], ['06', 9.022727272727273], ['12', 9.41095890410959], ['00', 8.127272727272727], ['01', 11.383333333333333], ['18', 13.20183486238532], ['16', 16.796296296296298], ['02', 23.810344827586206], ['04', 7.170212765957447], ['05', 10.08695652173913], ['11', 11.051724137931034], ['13', 14.741176470588234], ['22', 6.746478873239437], ['10', 13.440677966101696], ['19', 10.8], ['09', 5.5777777777777775], ['17', 11.46]]


In [36]:
swap_avg_by_hour = []

for i in avg_by_hour:
    swap_avg_by_hour.append([i[1],i[0]])

sorted_swap = sorted(swap_avg_by_hour, reverse = True)

print('Os 5 Horários com a maior média de comentários nos Posts "Ask HN"')

for avg, hour in sorted_swap[:5]:
    formatted_hour = dt.datetime.strptime(hour, "%H").strftime("%H:%M")
    print("{h}: {a:.2f} comentários em média por post".format(h = formatted_hour, a = avg)
    )

Os 5 Horários com a maior média de comentários nos Posts "Ask HN"
15:00: 38.59 comentários em média por post
02:00: 23.81 comentários em média por post
20:00: 21.52 comentários em média por post
16:00: 16.80 comentários em média por post
21:00: 16.01 comentários em média por post


O melhor horário para postar uma pergunta é por volta das 15:00, em média a quantidade de comentários, 38.59 é mais de 100% maior que a média de todos os posts 14.04. 

E quando comparada ao segundo colocado, 02:00, ainda tem uma vantagem de 60%.


## Conclusão
Baseado nos dados de posts do "Ask HN" com comentários, o horário que maximiza o engajamento da comunidade, seria por volta das 15:00. 

De acordo com a [documentação do dataset](https://www.kaggle.com/hacker-news/hacker-news-posts/home), a zona de horário do dataset é "Eastern Time(ET)" nos Estados Unidos. Fazendo a conversão, isso seria as 16:00 ou 4:00 PM no horário de Brasília.   