# Explorando as postagens do Hacker News

Neste projeto, vamos comparar dois tipos diferentes de postagens do [Hacker News](https://news.ycombinator.com/), um site popular onde postagens relacionadas à tecnologia são votadas e comentadas (similar ao reddit). Os dois tipos de postagens que exploraremos começam com **Ask HN** ou **Show HN**.

Os usuários utilizam **Ask HN** nos posts para fazer uma pergunta específica à comunidade do Hacker News.

Também é utilizado **Show HN** nas postagens que tem por objetivo mostrar à comunidade do Hacker News um projeto, um produto ou apenas algo interessante.


Compararemos esses dois tipos de postagens para determinar o seguinte:

- O Ask HN ou Show HN recebe mais comentários em média?
- As postagens criadas em um determinado momento recebem, em média, mais comentários?

## Introdução

Começaremos importando a base de dados:

In [4]:
import csv

f = open('hacker_news.csv')
hm = list(csv.reader(f))
hm[:5]

[['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at'],
 ['12224879',
  'Interactive Dynamic Video',
  'http://www.interactivedynamicvideo.com/',
  '386',
  '52',
  'ne0phyte',
  '8/4/2016 11:52'],
 ['10975351',
  'How to Use Open Source and Shut the Fuck Up at the Same Time',
  'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/',
  '39',
  '10',
  'josep2',
  '1/26/2016 19:30'],
 ['11964716',
  "Florida DJs May Face Felony for April Fools' Water Joke",
  'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/',
  '2',
  '1',
  'vezycash',
  '6/23/2016 22:20'],
 ['11919867',
  'Technology ventures: From Idea to Enterprise',
  'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429',
  '3',
  '1',
  'hswarna',
  '6/17/2016 0:01']]

## Removendo cabeçalhos de uma lista de listas

Podemos observar que a primeira lista dentro da lista contém as colunas de cabeçalhos e as listas seguintes contém as linhas do dataset. A seguir, removeremos o cabeçalho do dataset.

In [5]:
headers = hm[0]
hm = hm[1:]
print(headers,'\n')
print(hm[:5])

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at'] 

[['12224879', 'Interactive Dynamic Video', 'http://www.interactivedynamicvideo.com/', '386', '52', 'ne0phyte', '8/4/2016 11:52'], ['10975351', 'How to Use Open Source and Shut the Fuck Up at the Same Time', 'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/', '39', '10', 'josep2', '1/26/2016 19:30'], ['11964716', "Florida DJs May Face Felony for April Fools' Water Joke", 'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/', '2', '1', 'vezycash', '6/23/2016 22:20'], ['11919867', 'Technology ventures: From Idea to Enterprise', 'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429', '3', '1', 'hswarna', '6/17/2016 0:01'], ['10301696', 'Note by Note: The Making of Steinway L1037 (2007)', 'http://www.nytimes.com/2007/11/07/movies/07stein.html?_r=0', '8', '2', 'walterbell', '9/30/2015 4:12']]


## Extraindo as postagens Ask HN e Show HN

Primeiro, vamos identificar as postagens que começam com Ask HN e Show HN.
Para encontrar as postagens que começam com Ask HN ou Show HN nós vamos utilizar o método de string *startswith()*.

In [6]:
ask_posts = []
show_posts = []
other_posts = []

for row in hm:
    title = row[1]
    if title.lower().startswith('ask hn'):
        ask_posts.append(row)
    elif title.lower().startswith('show hn'):
        show_posts.append(row)
    else:
        other_posts.append(row)
        
print(len(ask_posts))
print(len(show_posts))
print(len(other_posts))

1744
1162
17194


## Calculando a média de comentários para Ask HN e Show HN

Agora que separamos as postagens de perguntas e mostramos as postagens em listas diferentes, calcularemos o número médio de comentários que cada tipo de postagem recebe.

In [7]:
total_ask_comments = 0

for row in ask_posts:
    num_comments = row[4]
    total_ask_comments += int(num_comments)

print(f'Média de comentários Ask HN:{total_ask_comments/len(ask_posts)}')

Média de comentários Ask HN:14.038417431192661


In [10]:
total_show_comments = 0

for row in show_posts:
    num_comments = row[4]
    total_show_comments += int(num_comments)
    
print(f'Média de comentários Show HN:{total_show_comments/len(show_posts)}')

Média de comentários Show HN:10.31669535283993


Em média, as ask posts em nossa amostra recebem aproximadamente 14 comentários, enquanto as show posts recebem aproximadamente 10. Como as ask posts têm mais probabilidade de receber comentários, concentraremos nossa análise restante apenas nessas postagens.

## Encontrando a quantidade de postagens e comentários de perguntas por hora criada

Agora iremos determinar se uma ask post criada em uma determinada hora é mais provável de atrair mais comentários.

In [13]:
import datetime as dt

result_list = []

for row in ask_posts:
    result_list.append([row[6],int(row[4])])

counts_by_hour = {}
comments_by_hour = {}
date_format = "%m/%d/%Y %H:%M"

for row in result_list:
    date = row[0]
    comment = row[1]
    time = dt.datetime.strptime(date, date_format).strftime("%H") #selecionar apenas a hora
    if time not in counts_by_hour:
        counts_by_hour[time] = 1
        comments_by_hour[time] = comment
    else:
        counts_by_hour[time] += 1
        comments_by_hour[time] += comment
        
comments_by_hour

{'09': 251,
 '13': 1253,
 '10': 793,
 '14': 1416,
 '16': 1814,
 '23': 543,
 '12': 687,
 '17': 1146,
 '15': 4477,
 '21': 1745,
 '20': 1722,
 '02': 1381,
 '18': 1439,
 '03': 421,
 '05': 464,
 '19': 1188,
 '01': 683,
 '22': 479,
 '08': 492,
 '04': 337,
 '00': 447,
 '06': 397,
 '07': 267,
 '11': 641}

## Calculando a média de comentários das postagens Ask HN por hora

Na célula anterior criamos dois dicionarios, counts_by_hour que contém o número de postagens criada a cada hora do dia e comments_by_hour que contém o número correspondente de comentários para cada hora do dia.

Agora usaremos esses dois dicionários para calcular a média de comentários por post criado durante cada hora do dia.

In [14]:
avg_by_hour = []

for hr in comments_by_hour:
    avg_by_hour.append([hr,comments_by_hour[hr]/counts_by_hour[hr]])

avg_by_hour

[['09', 5.5777777777777775],
 ['13', 14.741176470588234],
 ['10', 13.440677966101696],
 ['14', 13.233644859813085],
 ['16', 16.796296296296298],
 ['23', 7.985294117647059],
 ['12', 9.41095890410959],
 ['17', 11.46],
 ['15', 38.5948275862069],
 ['21', 16.009174311926607],
 ['20', 21.525],
 ['02', 23.810344827586206],
 ['18', 13.20183486238532],
 ['03', 7.796296296296297],
 ['05', 10.08695652173913],
 ['19', 10.8],
 ['01', 11.383333333333333],
 ['22', 6.746478873239437],
 ['08', 10.25],
 ['04', 7.170212765957447],
 ['00', 8.127272727272727],
 ['06', 9.022727272727273],
 ['07', 7.852941176470588],
 ['11', 11.051724137931034]]

## Ordenando e imprimindo valores da lista de listas

Agora temos o resultado que precisamos, mas para que se torne mais legível, vamos ordenar a lista de listas e imprimir os cinco maiores valores num formato que fique mais fácil de ler.

In [16]:
swap_avg_by_hour = []

for row in avg_by_hour:
    swap_avg_by_hour.append([row[1],row[0]])

print(swap_avg_by_hour)

sorted_swap = sorted(swap_avg_by_hour, reverse= True)

sorted_swap

[[5.5777777777777775, '09'], [14.741176470588234, '13'], [13.440677966101696, '10'], [13.233644859813085, '14'], [16.796296296296298, '16'], [7.985294117647059, '23'], [9.41095890410959, '12'], [11.46, '17'], [38.5948275862069, '15'], [16.009174311926607, '21'], [21.525, '20'], [23.810344827586206, '02'], [13.20183486238532, '18'], [7.796296296296297, '03'], [10.08695652173913, '05'], [10.8, '19'], [11.383333333333333, '01'], [6.746478873239437, '22'], [10.25, '08'], [7.170212765957447, '04'], [8.127272727272727, '00'], [9.022727272727273, '06'], [7.852941176470588, '07'], [11.051724137931034, '11']]


[[38.5948275862069, '15'],
 [23.810344827586206, '02'],
 [21.525, '20'],
 [16.796296296296298, '16'],
 [16.009174311926607, '21'],
 [14.741176470588234, '13'],
 [13.440677966101696, '10'],
 [13.233644859813085, '14'],
 [13.20183486238532, '18'],
 [11.46, '17'],
 [11.383333333333333, '01'],
 [11.051724137931034, '11'],
 [10.8, '19'],
 [10.25, '08'],
 [10.08695652173913, '05'],
 [9.41095890410959, '12'],
 [9.022727272727273, '06'],
 [8.127272727272727, '00'],
 [7.985294117647059, '23'],
 [7.852941176470588, '07'],
 [7.796296296296297, '03'],
 [7.170212765957447, '04'],
 [6.746478873239437, '22'],
 [5.5777777777777775, '09']]

In [18]:
print("Top 5 Hours for Ask Posts Comments")

for avg,hr in sorted_swap[:5]:
    print(f'{dt.datetime.strptime(hr,"%H").strftime("%H:%M")}: média de comentários por postagem {format(avg,".2f")}')

Top 5 Hours for Ask Posts Comments
15:00: média de comentários por postagem 38.59
02:00: média de comentários por postagem 23.81
20:00: média de comentários por postagem 21.52
16:00: média de comentários por postagem 16.80
21:00: média de comentários por postagem 16.01


Com o resultado, podemos perceber que a hora que mais recebe comentários nos Ask HN posts é às 15:00, com uma média de 38.59 comentários por postagem. Esse valor representa mais de 60% em comparação com o segundo lugar de média de comentários.

## Conclusão

Neste projeto, analisamos os Ask posts e os Show posts para determinar que tipo de postagem e horário recebem mais comentários, em média. Com base em nossa análise, para maximizar a quantidade de comentários que uma postagem recebe, recomendamos que a postagem seja categorizada como ask post e criada entre 15h00 e 16h00.

No entanto, deve-se notar que o conjunto de dados analisado excluiu postagens sem quaisquer comentários. Sendo assim, é mais correto dizer que das postagens que receberam comentários, as postagens de perguntas receberam mais comentários em média e as postagens de perguntas criadas entre 15h e 16h (15h est - 16h est) receberam o a maioria dos comentários, em média.