# Projeto Hacker News Posts

Hacker News é um site criado pela incubadora de startups [Y Combinator](https://www.ycombinator.com/), no qual posts enviados pelos usuários recebem votos e comentários (similar ao reddit). 

O [dataset](https://www.kaggle.com/datasets/hacker-news/hacker-news-posts) usado contém apenas os posts que receberam algum tipo de interação, reduzindo seu tamanho de 300.000 linhas para aproximadamente 20.000.

Abaixo, as descrições das colunas:

- **id**: identificação única do Hacker News para o post
- **title**: título do post
- **url**: URL utilizada no post, caso exista
- **num_points**: número de pontos que o post conseguiu, calculado como o total de *upvotes* menos o total de *downvotes*
- **num_comments**: número de comentários no post
- **author**: usuário que fez a postagem
- **created_at**: data e horário que o post foi criado

Neste projeto, estamos interessados nos posts com títulos que começam com *Ask HN* ou *Show HN*.

Usuários que começam seus posts com *Ask HN* querem fazer alguma pergunta específica para a comunidade Hacker News.

Usuários que começam seus posts com *Show HN* querem mostrar algo para a comunidade, seja um projeto, site, produto ou algo interessante.

Vamos comparar estes dois tipos de post para determinar o seguinte:

- Posts *Ask HN* e *Show HN* recebem, em média, mais comentários?
- Posts criados em determinados horários recebem, em média, mais comentários?

## Importando as bibliotecas

In [4]:
from csv import reader

open_file = open(r'C:\Users\lcsbi\Desktop\Data Science\DataQuest\Projeto Posts Hacker News\HN_posts_year_to_Sep_26_2016.csv', encoding='utf8')
read_file = reader(open_file)
hn = list(read_file)

In [5]:
print(hn[:5])

[['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at'], ['12579008', 'You have two days to comment if you want stem cells to be classified as your own', 'http://www.regulations.gov/document?D=FDA-2015-D-3719-0018', '1', '0', 'altstar', '9/26/2016 3:26'], ['12579005', 'SQLAR  the SQLite Archiver', 'https://www.sqlite.org/sqlar/doc/trunk/README.md', '1', '0', 'blacksqr', '9/26/2016 3:24'], ['12578997', 'What if we just printed a flatscreen television on the side of our boxes?', 'https://medium.com/vanmoof/our-secrets-out-f21c1f03fdc8#.ietxmez43', '1', '0', 'pavel_lishin', '9/26/2016 3:19'], ['12578989', 'algorithmic music', 'http://cacm.acm.org/magazines/2011/7/109891-algorithmic-composition/fulltext', '1', '0', 'poindontcare', '9/26/2016 3:16']]


## Retirando o header

In [6]:
header = hn[1]
hn = hn[1:]

print(hn[:5])

[['12579008', 'You have two days to comment if you want stem cells to be classified as your own', 'http://www.regulations.gov/document?D=FDA-2015-D-3719-0018', '1', '0', 'altstar', '9/26/2016 3:26'], ['12579005', 'SQLAR  the SQLite Archiver', 'https://www.sqlite.org/sqlar/doc/trunk/README.md', '1', '0', 'blacksqr', '9/26/2016 3:24'], ['12578997', 'What if we just printed a flatscreen television on the side of our boxes?', 'https://medium.com/vanmoof/our-secrets-out-f21c1f03fdc8#.ietxmez43', '1', '0', 'pavel_lishin', '9/26/2016 3:19'], ['12578989', 'algorithmic music', 'http://cacm.acm.org/magazines/2011/7/109891-algorithmic-composition/fulltext', '1', '0', 'poindontcare', '9/26/2016 3:16'], ['12578979', 'How the Data Vault Enables the Next-Gen Data Warehouse and Data Lake', 'https://www.talend.com/blog/2016/05/12/talend-and-Â\x93the-data-vaultÂ\x94', '1', '0', 'markgainor1', '9/26/2016 3:14']]


## Extraindo os posts Ask HN e Show HN

In [7]:
ask_posts = []
show_posts = []
other_posts = []

for row in hn:
    title = row[1]
    if title.lower().startswith('ask hn'):
        ask_posts.append(row)
    elif title.lower().startswith('show hn'):
        show_posts.append(row)
    else:
        other_posts.append(row)

In [8]:
print(ask_posts[1])
print(show_posts[1])

['12578522', 'Ask HN: How do you pass on your work when you die?', '', '6', '3', 'PascLeRasc', '9/26/2016 1:17']
['12578182', 'Show HN: A simple library for complicated animations', 'https://christinecha.github.io/choreographer-js/', '1', '0', 'christinecha', '9/26/2016 0:01']


In [9]:
print("The number of 'Ask HN' posts is {}".format(len(ask_posts)))

print("The number of 'Show HN' posts is {}".format(len(show_posts)))

print("The number of 'Other' posts is {}".format(len(other_posts)))

The number of 'Ask HN' posts is 9139
The number of 'Show HN' posts is 10158
The number of 'Other' posts is 273822


## Calculando a média de comentários dos posts Ask HN e Show HN

In [10]:
# Encontrando o número total de comentários e a  média de Ask HN posts

total_ask_comments = 0

for post in ask_posts:
    n_comments = post[4]
    n_comments = int(n_comments)
    total_ask_comments += n_comments
    
avg_ask_comments = total_ask_comments / len(ask_posts)
print(avg_ask_comments)

10.393478498741656


In [11]:
# Encontrando o número total de comentários e a  média de Show HN posts

total_show_comments = 0

for post in show_posts:
    n_comments = post[4]
    n_comments = int(n_comments)
    total_show_comments += n_comments
    
avg_show_comments = total_show_comments / len(show_posts)
print(avg_show_comments)

4.886099625910612


In [12]:
# Encontrando o número total de comentários e a  média de Outros posts

total_other_comments = 0

for post in other_posts:
    n_comments = post[4]
    n_comments = int(n_comments)
    total_other_comments += n_comments
    
avg_other_comments = total_other_comments / len(other_posts)
print(avg_other_comments)

6.4572678601427205


Com base na análise feita acima, podemos verificar que posts que não se enquadram nas categorias *Ask HN* e *Show HN* recebem, em média, **seis comentários**.

Os posts de *Show HN* recebem, em média, menos comentários que os da categoria "Outros", com **cinco comentários**.

Já os posts de *Ask HN*, em média, costumam receber mais comentários do que todas as outras categorias, com cerca de **dez comentários**.

## Encontrando o número de Ask Posts e comentários por hora de criação

Como os os posts *Ask HN* são os que recebem, em média, mais comentários, vamos focar o restante da análise somente neles.

Nesta etapa, vamos determinar se um post criado em determinado horário costuma atrair mais engajamento. Os passos que seguiremos são:

1) Calcular o número de *Ask HN* posts criados em cada hora do dia, junto do número de comentários recebidos

2) Calcular a média de comentários que este tipo de post recebe por hora criada

In [13]:
import datetime as dt

In [19]:
# só checando a estrutura de cada entrada
print(ask_posts[1])

['12578522', 'Ask HN: How do you pass on your work when you die?', '', '6', '3', 'PascLeRasc', '9/26/2016 1:17']


Fazendo parsing de cada post e anexado à lista 'result_list' uma nova lista com os elementos 'created_at' e 'comments' de cada post

In [36]:
result_list = []

for post in ask_posts:
    created_at = post[6]
    n_comments = int(post[4])
    result_list.append([created_at, n_comments])

In [21]:
print(result_list[:2])
print(len(result_list))

[['9/26/2016 2:53', 7], ['9/26/2016 1:17', 3]]
9139


Separando a hora da data

In [37]:
counts_by_hour = {}
comments_by_hour = {}

for post in result_list:
    date_str = post[0]
    comment = post[1]
    time = dt.datetime.strptime(date_str, "%m/%d/%Y %H:%M").strftime("%H")
    if time not in counts_by_hour:
        counts_by_hour[time] = 1
        comments_by_hour[time] = comment
    else:
        counts_by_hour[time] += 1
        comments_by_hour[time] += comment
    

In [40]:
print(counts_by_hour)
print(comments_by_hour)

{'02': 269, '01': 282, '22': 383, '21': 518, '19': 552, '17': 587, '15': 646, '14': 513, '13': 444, '11': 312, '10': 282, '09': 222, '07': 226, '03': 271, '23': 343, '20': 510, '16': 579, '08': 257, '00': 301, '18': 614, '12': 342, '04': 243, '06': 234, '05': 209}
{'02': 2996, '01': 2089, '22': 3372, '21': 4500, '19': 3954, '17': 5547, '15': 18525, '14': 4972, '13': 7245, '11': 2797, '10': 3013, '09': 1477, '07': 1585, '03': 2154, '23': 2297, '20': 4462, '16': 4466, '08': 2362, '00': 2277, '18': 4877, '12': 4234, '04': 2360, '06': 1587, '05': 1838}


## Calculando a média de comentários de posts 'Ask HN' por hora

In [41]:
avg_by_hour = []

for hour in comments_by_hour:
    avg_by_hour.append([hour, comments_by_hour[hour]/counts_by_hour[hour]])

In [44]:
print(avg_by_hour)

[['02', 11.137546468401487], ['01', 7.407801418439717], ['22', 8.804177545691905], ['21', 8.687258687258687], ['19', 7.163043478260869], ['17', 9.449744463373083], ['15', 28.676470588235293], ['14', 9.692007797270955], ['13', 16.31756756756757], ['11', 8.96474358974359], ['10', 10.684397163120567], ['09', 6.653153153153153], ['07', 7.013274336283186], ['03', 7.948339483394834], ['23', 6.696793002915452], ['20', 8.749019607843136], ['16', 7.713298791018998], ['08', 9.190661478599221], ['00', 7.5647840531561465], ['18', 7.94299674267101], ['12', 12.380116959064328], ['04', 9.7119341563786], ['06', 6.782051282051282], ['05', 8.794258373205741]]


Ordenando a lista

In [47]:
swap_avg_by_hour = []

for hour in avg_by_hour:
    swap_avg_by_hour.append([hour[1], hour[0]])
    
print(swap_avg_by_hour)

[[11.137546468401487, '02'], [7.407801418439717, '01'], [8.804177545691905, '22'], [8.687258687258687, '21'], [7.163043478260869, '19'], [9.449744463373083, '17'], [28.676470588235293, '15'], [9.692007797270955, '14'], [16.31756756756757, '13'], [8.96474358974359, '11'], [10.684397163120567, '10'], [6.653153153153153, '09'], [7.013274336283186, '07'], [7.948339483394834, '03'], [6.696793002915452, '23'], [8.749019607843136, '20'], [7.713298791018998, '16'], [9.190661478599221, '08'], [7.5647840531561465, '00'], [7.94299674267101, '18'], [12.380116959064328, '12'], [9.7119341563786, '04'], [6.782051282051282, '06'], [8.794258373205741, '05']]


In [49]:
sorted_swap = sorted(swap_avg_by_hour, reverse=True)
print(sorted_swap)

[[28.676470588235293, '15'], [16.31756756756757, '13'], [12.380116959064328, '12'], [11.137546468401487, '02'], [10.684397163120567, '10'], [9.7119341563786, '04'], [9.692007797270955, '14'], [9.449744463373083, '17'], [9.190661478599221, '08'], [8.96474358974359, '11'], [8.804177545691905, '22'], [8.794258373205741, '05'], [8.749019607843136, '20'], [8.687258687258687, '21'], [7.948339483394834, '03'], [7.94299674267101, '18'], [7.713298791018998, '16'], [7.5647840531561465, '00'], [7.407801418439717, '01'], [7.163043478260869, '19'], [7.013274336283186, '07'], [6.782051282051282, '06'], [6.696793002915452, '23'], [6.653153153153153, '09']]


In [52]:
print("Os 5 melhores horários para publicações 'Ask HN'")
for hour in sorted_swap[:5]:
    time = dt.datetime.strptime(hour[1], "%H").strftime("%H:%M")
    print("{}: {:.2f} comentários médios por post".format(time, hour[0]))

Os 5 melhores horários para publicações 'Ask HN'
15:00: 28.68 comentários médios por post
13:00: 16.32 comentários médios por post
12:00: 12.38 comentários médios por post
02:00: 11.14 comentários médios por post
10:00: 10.68 comentários médios por post


Considerando que o fuso utilizado no data set é Easter Time dos Estados Unidos, precisamos considerar uma hora a mais para corresponder ao horário de Brasília.

Logo, o melhor horário para brasileiros publicarem posts de *Ask HN* é às **16h**, tendo em vista que as publicações feitas neste horário recebem, em média, **29 comentários**