# Explorando as postagens do Hackers News 
Neste projeto, compararemos dois tipos diferentes de postagens do Hacker News, um site popular onde histórias relacionadas à tecnologia (ou 'postagens') são votadas e comentadas. Os dois tipos de postagens que exploraremos começam com Ask HN ou Show HN.

Os usuários enviam as postagens do Ask HN para fazer uma pergunta específica à comunidade Hacker News, como "Qual é o melhor curso online que você já fez?" Da mesma forma, os usuários enviam postagens do Show HN para mostrar à comunidade Hacker News um projeto, produto ou simplesmente algo interessante. 

Compararemos especificamente esses dois tipos de postagens para determinar o seguinte: 
* O Ask HN ou o Show HN recebem mais comentários em média? 
* As postagens criadas em um determinado momento recebem, em média, mais comentários? 

Deve-se observar que o conjunto de dados com o qual estamos trabalhando foi reduzido de quase 300.000 linhas para aproximadamente 20.000 linhas, removendo todos os envios que não receberam nenhum comentário e, em seguida, amostrando aleatoriamente os envios restantes. 

# Introdução 
Primeiro, vamos ler os dados e remover os cabeçalhos.

In [1]:
from csv import reader
opened_file = open('hacker_news.csv', encoding="utf8")
readed_file = reader(opened_file)
hn = list(readed_file)
print(hn[:5])

[['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at'], ['12224879', 'Interactive Dynamic Video', 'http://www.interactivedynamicvideo.com/', '386', '52', 'ne0phyte', '8/4/2016 11:52'], ['10975351', 'How to Use Open Source and Shut the Fuck Up at the Same Time', 'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/', '39', '10', 'josep2', '1/26/2016 19:30'], ['11964716', "Florida DJs May Face Felony for April Fools' Water Joke", 'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/', '2', '1', 'vezycash', '6/23/2016 22:20'], ['11919867', 'Technology ventures: From Idea to Enterprise', 'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429', '3', '1', 'hswarna', '6/17/2016 0:01']]


# Removing Headers from a List of Lists

In [2]:
headers = hn[0]
hn = hn[1:]

print(headers)

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']


Podemos ver acima que o conjunto de dados contém o título das postagens, o número de comentários de cada postagem e a data em que a postagem foi criada. Vamos começar explorando o número de comentários para cada tipo de postagem.
# Extraindo postagens de Ask HN e Show HN 
Primeiro, identificaremos postagens que começam com Ask HN ou Show HN e separaremos os dados para esses dois tipos de postagens em listas diferentes. A separação dos dados facilita a análise nas etapas a seguir.

In [3]:
ask_posts = []
show_posts = []
other_posts = []

for row in hn:
    title = row[1]
    if title.lower().startswith('ask hn'):
        ask_posts.append(row)
    elif title.lower().startswith('show hn'):
        show_posts.append(row)
    else:
        other_posts.append(row)

print(len(ask_posts))
print(len(show_posts))
print(len(other_posts))

1744
1162
17194


# Calculando o número médio de comentários para Ask HN e Show HN Posts 
Agora que separamos as postagens de perguntas e mostramos as postagens em listas diferentes, calcularemos o número médio de comentários que cada tipo de postagem recebe.

In [4]:
total_ask_comments = 0
for row in ask_posts:
    total_ask_comments += int(row[4])

avg_ask_comments = total_ask_comments / len(ask_posts)
print(avg_ask_comments)

14.038417431192661


In [5]:
total_show_comments = 0
for row in show_posts:
    total_show_comments += int(row[4])

avg_show_comments = total_show_comments / len(show_posts)
print(avg_show_comments)

10.31669535283993


Em média, as postagens de perguntas em nossa amostra recebem aproximadamente 14 comentários, enquanto as postagens de programas recebem aproximadamente 10. Como as postagens de perguntas têm maior probabilidade de receber comentários, concentraremos nossa análise restante apenas nessas postagens.
# Encontrando a quantidade de Ask Posts e Comentários por Hora Criados 
A seguir, determinaremos se podemos maximizar a quantidade de comentários que um Ask Post recebe criando-o em um determinado momento. Primeiro, encontraremos a quantidade de posts de perguntas criados durante cada hora do dia, junto com o número de comentários que esses posts receberam. Em seguida, calcularemos a quantidade média de comentários que as postagens solicitadas criadas a cada hora do dia recebem.

In [6]:
import datetime as dt
result_list = []
for row in ask_posts:
    result_list.append([row[6], int(row[4])])

counts_by_hour = {}
comments_by_hour = {}
date_format = "%m/%d/%Y %H:%M"

for row in result_list:
    date = row[0]
    comment = row[1]
    hour = dt.datetime.strptime(date, date_format).strftime("%H")
    if hour not in counts_by_hour:
        counts_by_hour[hour] = 1
        comments_by_hour[hour] = comment
    else:
        counts_by_hour[hour] += 1
        comments_by_hour[hour] += comment

print(counts_by_hour, '\n')
print(comments_by_hour)

{'09': 45, '13': 85, '10': 59, '14': 107, '16': 108, '23': 68, '12': 73, '17': 100, '15': 116, '21': 109, '20': 80, '02': 58, '18': 109, '03': 54, '05': 46, '19': 110, '01': 60, '22': 71, '08': 48, '04': 47, '00': 55, '06': 44, '07': 34, '11': 58} 

{'09': 251, '13': 1253, '10': 793, '14': 1416, '16': 1814, '23': 543, '12': 687, '17': 1146, '15': 4477, '21': 1745, '20': 1722, '02': 1381, '18': 1439, '03': 421, '05': 464, '19': 1188, '01': 683, '22': 479, '08': 492, '04': 337, '00': 447, '06': 397, '07': 267, '11': 641}


# Calculando o número médio de comentários para postagens Ask HN por hora

In [7]:
avg_by_hour = []
for hour in counts_by_hour:
    count = counts_by_hour[hour]
    comment = comments_by_hour[hour]
    avg_by_hour.append([hour, comment / count])
    
avg_by_hour

[['09', 5.5777777777777775],
 ['13', 14.741176470588234],
 ['10', 13.440677966101696],
 ['14', 13.233644859813085],
 ['16', 16.796296296296298],
 ['23', 7.985294117647059],
 ['12', 9.41095890410959],
 ['17', 11.46],
 ['15', 38.5948275862069],
 ['21', 16.009174311926607],
 ['20', 21.525],
 ['02', 23.810344827586206],
 ['18', 13.20183486238532],
 ['03', 7.796296296296297],
 ['05', 10.08695652173913],
 ['19', 10.8],
 ['01', 11.383333333333333],
 ['22', 6.746478873239437],
 ['08', 10.25],
 ['04', 7.170212765957447],
 ['00', 8.127272727272727],
 ['06', 9.022727272727273],
 ['07', 7.852941176470588],
 ['11', 11.051724137931034]]

# Classificação e impressão de valores de uma lista de listas

In [8]:
#Invertendo chave e valor do dicionario para poder ordenar pela média de comentários por hora
swap_avg_by_hour = []
for row in avg_by_hour:
    swap_avg_by_hour.append([row[1], row[0]])
    
print(swap_avg_by_hour)

[[5.5777777777777775, '09'], [14.741176470588234, '13'], [13.440677966101696, '10'], [13.233644859813085, '14'], [16.796296296296298, '16'], [7.985294117647059, '23'], [9.41095890410959, '12'], [11.46, '17'], [38.5948275862069, '15'], [16.009174311926607, '21'], [21.525, '20'], [23.810344827586206, '02'], [13.20183486238532, '18'], [7.796296296296297, '03'], [10.08695652173913, '05'], [10.8, '19'], [11.383333333333333, '01'], [6.746478873239437, '22'], [10.25, '08'], [7.170212765957447, '04'], [8.127272727272727, '00'], [9.022727272727273, '06'], [7.852941176470588, '07'], [11.051724137931034, '11']]


In [9]:
sorted_swap = sorted(swap_avg_by_hour, reverse=True)
date_format = "%H"

print("Top 5 Horas para comentários em posts de perguntas")
for row in sorted_swap[:5]:
    hour = dt.datetime.strptime(row[1], date_format).strftime("%H:%M")
    print('{}: {:.2f}% média de comentários por post'.format(hour, row[0]))

Top 5 Horas para comentários em posts de perguntas
15:00: 38.59% média de comentários por post
02:00: 23.81% média de comentários por post
20:00: 21.52% média de comentários por post
16:00: 16.80% média de comentários por post
21:00: 16.01% média de comentários por post


A hora que recebe mais comentários por postagem em média é 15h, com uma média de 38,59 comentários por postagem. Há um aumento de cerca de 60% no número de comentários entre as horas com o maior e o segundo maior número médio de comentários. 

De acordo com a documentação do conjunto de dados, o fuso horário usado é o horário do leste dos EUA. Portanto, também poderíamos escrever 15:00 como 15:00 est. 
# Conclusão 
Neste projeto, analisamos as postagens de perguntar e mostrar as postagens para determinar que tipo de postagem e horário recebem mais comentários em média. Com base em nossa análise, para maximizar a quantidade de comentários que uma postagem recebe, recomendamos que a postagem seja categorizada como ask post e criada entre 15h00 e 16h00 (15h00 est - 16h00 est). 

No entanto, deve-se notar que o conjunto de dados que analisamos excluiu postagens sem quaisquer comentários. Sendo assim, é mais correto dizer que das postagens que receberam comentários, as postagens de perguntas receberam mais comentários em média e as postagens de perguntas criadas entre 15h e 16h (15h00 est - 16h00 est) receberam o a maioria dos comentários, em média.