# Análisando os posts realizados no site do Hacker News


## Descrição do projeto

O Hacker News é um site que criado pela incubadora de startups Y Combinator, onde os usuários realizam postagens que podem ser comentadas e votadas, de forma semelhante ao reddit. Esse site é bastante popular na área de tecnologia e startups, em geral as postagens que estão no too das listagens do Hackers News rebem centenas de milhares de vizualizações.


## Objetivo

Neste projeto, compararemos dois tipos diferentes de postagens do Hacker News. Os dois tipos de postagens que exploraremos começam com *Ask HN* ou *Show HN*.

Os usuários enviam as postagens com *Ask HN* para fazer uma pergunta específica à comunidade Hacker News, como "Qual é o melhor curso online que você já fez?" Da mesma forma, os usuários enviam postagens com *Show HN* para mostrar à comunidade Hacker News um projeto, produto ou simplesmente algo interessante.

Compararemos especificamente esses dois tipos de postagens para determinar o seguinte:

* O *Ask HN* ou *Show HN* recebe mais comentários em média?
* As postagens criadas em um determinado momento recebem, em média, mais comentários?


## Dados

O conjunto de dados utilizado nesse projeto está disponível no  [Kaggle](https://www.kaggle.com/hacker-news/hacker-news-posts), mas observe que ele foi reduzido de quase 300.000 linhas para aproximadamente 20.000 linhas, removendo todos os envios que não receberam nenhum comentário e, em seguida, amostrando aleatóriamente os envios restantes. 


## Dicionário de Variáveis 

O arquivo "hacker_news.csv" importado possui 20101 linhas e 7 colunas correspondentes as variáveis listadas a seguir:

**Listagem e descrição das variáveis**:

* *id*: O identificador exclusivo do Hacker News para a postagem.
* *title*: O título do post
* *url*: O URL para o qual as postagens estão vinculadas, se a postagem tiver um URL
* *num_points*: Número de pontos que a postagem conseguiu, calculado como o total de votos positivos menos o total de votos negativos.
* *num_comments*: Número de comentários feitos no post.
* *author*: O nick do usuário que submeteu o post.
* *created_at*: A data e o horário que o post foi submetido.


## Preparação e limpeza dos dados

In [3]:
from csv import reader

### The Hackers News dataset ###
opened_file = open('hacker_news.csv', encoding="utf8")
read_file = reader(opened_file)
hn = list(read_file)

In [4]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]    
    for row in dataset_slice:
        print(row)
        print('\n') 
        
    if rows_and_columns:
        print('Number of rows:', len(dataset))
        print('Number of columns:', len(dataset[0]))

In [6]:
explore_data(hn,0,5,rows_and_columns=True)
  

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']


['12224879', 'Interactive Dynamic Video', 'http://www.interactivedynamicvideo.com/', '386', '52', 'ne0phyte', '8/4/2016 11:52']


['10975351', 'How to Use Open Source and Shut the Fuck Up at the Same Time', 'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/', '39', '10', 'josep2', '1/26/2016 19:30']


['11964716', "Florida DJs May Face Felony for April Fools' Water Joke", 'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/', '2', '1', 'vezycash', '6/23/2016 22:20']


['11919867', 'Technology ventures: From Idea to Enterprise', 'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429', '3', '1', 'hswarna', '6/17/2016 0:01']


Number of rows: 20101
Number of columns: 7


In [9]:
# Separando o header e os dados
headers = hn[0]
hn = hn[1:]
hn[:5]

[['10975351',
  'How to Use Open Source and Shut the Fuck Up at the Same Time',
  'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/',
  '39',
  '10',
  'josep2',
  '1/26/2016 19:30'],
 ['11964716',
  "Florida DJs May Face Felony for April Fools' Water Joke",
  'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/',
  '2',
  '1',
  'vezycash',
  '6/23/2016 22:20'],
 ['11919867',
  'Technology ventures: From Idea to Enterprise',
  'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429',
  '3',
  '1',
  'hswarna',
  '6/17/2016 0:01'],
 ['10301696',
  'Note by Note: The Making of Steinway L1037 (2007)',
  'http://www.nytimes.com/2007/11/07/movies/07stein.html?_r=0',
  '8',
  '2',
  'walterbell',
  '9/30/2015 4:12'],
 ['10482257',
  'Title II kills investment? Comcast and other ISPs are now spending more',
  'http://arstechnica.com/business/2015/10/comcast-and-other-isps-boost-network-

Como temos como objetivo analisar as postagens com *Ask HN* e *Show HN*, iremos separar os dados nesses dois grupos. Para isso será utilizado o método *startswith*. Esse método funciona da seguinte forma:

Dado um objeto string, digamos, **string1**, podemos verificar se começa com, digamos, **Ask HN** inspecionando a saída do objeto **string1.startswith ('Ask HN')**. Se **string1** começar com **Ask HN**, ela retornará **True**, caso contrário, retornará **False**.

No entanto, devemos nos atentar que esse método é sensivel a presença de letras maiúsculas e minúsculas. Por isso, iremos utilizar o método *lower* para garantir a identificação correta dos posts.



In [10]:
ask_posts = []
show_posts = []
other_posts = []

for row in hn:
    title =  row[1].lower()
    if title.startswith("ask hn"):
        ask_posts.append(row)
    elif title.startswith("show hn"): 
        show_posts.append(row)
    else:
        other_posts.append(row)


In [13]:
explore_data(ask_posts,0,1,rows_and_columns=True)

['12296411', 'Ask HN: How to improve my personal website?', '', '2', '6', 'ahmedbaracat', '8/16/2016 9:55']


Number of rows: 1744
Number of columns: 7


In [14]:
explore_data(show_posts,0,1,rows_and_columns=True)

['10627194', 'Show HN: Wio Link  ESP8266 Based Web of Things Hardware Development Platform', 'https://iot.seeed.cc', '26', '22', 'kfihihc', '11/25/2015 14:03']


Number of rows: 1162
Number of columns: 7


In [16]:
explore_data(other_posts,0,1,rows_and_columns=True)

['10975351', 'How to Use Open Source and Shut the Fuck Up at the Same Time', 'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/', '39', '10', 'josep2', '1/26/2016 19:30']


Number of rows: 17193
Number of columns: 7


Tendo sido separados os posts nos grupos *Ask HN* e *Show HN*, agora iremos verificar o número total de comentários e a média de comentários por post do tipo *Ask HN* e *Show HN*:

In [17]:
total_ask_comments = 0
for row in ask_posts:
    num_comments = int(row[4])
    total_ask_comments = total_ask_comments + num_comments
    
avg_ask_comments = total_ask_comments/len(ask_posts)    
print("Média de comentários do Ask HN: ", avg_ask_comments)

Média de comentários do Ask HN:  14.038417431192661


In [18]:
total_show_comments = 0
for row in show_posts:
    num_comments = int(row[4])
    total_show_comments = total_show_comments + num_comments
    
avg_show_comments = total_show_comments/len(show_posts)    
print("Média de comentários do Show HN: ", avg_show_comments)

Média de comentários do Show HN:  10.31669535283993


Em média, as postagens de perguntas (*Ask HN*) em nossa amostra recebem aproximadamente 14 comentários, enquanto as postagens do tipo *Show HN* recebem aproximadamente 10. 

Como as postagens de perguntas (*Ask HN*) apresentam uma maior probabilidade de receber comentários, concentraremos nossa análise restante apenas nessas postagens. 

Agora será avaliado se os posts criados em um determinado momento tem maior chance de atrair comentários. Para isso seguiremos os seguintes passos:

* Calcular a quantidade de posts do tipo *Ask HN* por hora do dia e a quantidade de de comentários recebidos.
* Calcular o número médio de comentários nos posts do tipo *Ask HN* por hora.

Para isso iremos utilizar o módulo **datetime** para trabalhar com os dados da coluna *created_at*:



In [20]:
#Calculando o número de comentários por hora
import datetime as dt

result_list = []
for row in ask_posts:
    created_at = row[6]
    num_comments = int(row[4])
    result_list.append([created_at, num_comments])
    
counts_by_hour = {}
comments_by_hour = {}

date_format = "%m/%d/%Y %H:%M"

for row in result_list:
    date = row[0]
    comment = row[1]
    time = dt.datetime.strptime(date, date_format).strftime("%H")
    if time in counts_by_hour:
        comments_by_hour[time] += comment
        counts_by_hour[time] += 1
    else:
        comments_by_hour[time] = comment
        counts_by_hour[time] = 1

comments_by_hour
    

{'09': 251,
 '13': 1253,
 '10': 793,
 '14': 1416,
 '16': 1814,
 '23': 543,
 '12': 687,
 '17': 1146,
 '15': 4477,
 '21': 1745,
 '20': 1722,
 '02': 1381,
 '18': 1439,
 '03': 421,
 '05': 464,
 '19': 1188,
 '01': 683,
 '22': 479,
 '08': 492,
 '04': 337,
 '00': 447,
 '06': 397,
 '07': 267,
 '11': 641}

In [23]:
#Calculando o número médio de comentários por hora

avg_by_hour = []

for time in comments_by_hour:
    avg_by_hour.append([time, comments_by_hour[time]/counts_by_hour[time]])
    
avg_by_hour    

[['09', 5.5777777777777775],
 ['13', 14.741176470588234],
 ['10', 13.440677966101696],
 ['14', 13.233644859813085],
 ['16', 16.796296296296298],
 ['23', 7.985294117647059],
 ['12', 9.41095890410959],
 ['17', 11.46],
 ['15', 38.5948275862069],
 ['21', 16.009174311926607],
 ['20', 21.525],
 ['02', 23.810344827586206],
 ['18', 13.20183486238532],
 ['03', 7.796296296296297],
 ['05', 10.08695652173913],
 ['19', 10.8],
 ['01', 11.383333333333333],
 ['22', 6.746478873239437],
 ['08', 10.25],
 ['04', 7.170212765957447],
 ['00', 8.127272727272727],
 ['06', 9.022727272727273],
 ['07', 7.852941176470588],
 ['11', 11.051724137931034]]

Vamos terminar classificando a lista de listas e imprimindo os cinco valores mais altos em um formato mais fácil de ler:

In [24]:
swap_avg_by_hour = []
for row in avg_by_hour:
    swap_avg_by_hour.append([row[1], row[0]])
    
print(swap_avg_by_hour)

sorted_swap = sorted(swap_avg_by_hour, reverse=True)

sorted_swap

[[5.5777777777777775, '09'], [14.741176470588234, '13'], [13.440677966101696, '10'], [13.233644859813085, '14'], [16.796296296296298, '16'], [7.985294117647059, '23'], [9.41095890410959, '12'], [11.46, '17'], [38.5948275862069, '15'], [16.009174311926607, '21'], [21.525, '20'], [23.810344827586206, '02'], [13.20183486238532, '18'], [7.796296296296297, '03'], [10.08695652173913, '05'], [10.8, '19'], [11.383333333333333, '01'], [6.746478873239437, '22'], [10.25, '08'], [7.170212765957447, '04'], [8.127272727272727, '00'], [9.022727272727273, '06'], [7.852941176470588, '07'], [11.051724137931034, '11']]


[[38.5948275862069, '15'],
 [23.810344827586206, '02'],
 [21.525, '20'],
 [16.796296296296298, '16'],
 [16.009174311926607, '21'],
 [14.741176470588234, '13'],
 [13.440677966101696, '10'],
 [13.233644859813085, '14'],
 [13.20183486238532, '18'],
 [11.46, '17'],
 [11.383333333333333, '01'],
 [11.051724137931034, '11'],
 [10.8, '19'],
 [10.25, '08'],
 [10.08695652173913, '05'],
 [9.41095890410959, '12'],
 [9.022727272727273, '06'],
 [8.127272727272727, '00'],
 [7.985294117647059, '23'],
 [7.852941176470588, '07'],
 [7.796296296296297, '03'],
 [7.170212765957447, '04'],
 [6.746478873239437, '22'],
 [5.5777777777777775, '09']]

In [25]:
print("Top 5 horários com maior número de comentários para os posts *Ask HN*")

for avg, hr in sorted_swap[:5]:
    print( "{}: {:.2f} average comments per post".format(
            dt.datetime.strptime(hr, "%H").strftime("%H:%M"),avg))

Top 5 horários com maior número de comentários para os posts *Ask HN*
15:00: 38.59 average comments per post
02:00: 23.81 average comments per post
20:00: 21.52 average comments per post
16:00: 16.80 average comments per post
21:00: 16.01 average comments per post


A hora que recebe mais comentários por postagem em média é 15h, com uma média de 38,59 comentários por postagem. Há um aumento de cerca de 60% no número de comentários entre as horas com o maior e o segundo maior número médio de comentários.

No entanto, de acordo com a documentação do conjunto de dados, o fuso horário usado é o horário do leste dos EUA.

Portanto, aqui no Brasil o melhor momento para publicação de um post no Hackers News seria as 17:00 com o fuso horário de Brasilia. 

 # Conclusão 
 
Neste projeto, analisamos postagens de perguntas (*Ask HN*) e postagens de exibição (*Show HN*) para determinar que tipo de postagem e horário recebem mais comentários em média.

Com base em nossa análise, para maximizar a quantidade de comentários que uma postagem recebe, recomendamos que a postagem seja categorizada como *ask post* e criada entre 17h00 e 18h00 (fuso horário de Brasilia).

No entanto, deve-se notar que o conjunto de dados que analisamos excluiu postagens sem quaisquer comentários. Sendo assim, é mais correto dizer que das postagens que receberam comentários, as postagens de perguntas receberam mais comentários em média e as postagens de perguntas criadas entre 17h e 18h (fuso horário de Brasilia) receberam o a maioria dos comentários, em média. 