# Analisando posts do Hacker News

O Hacker News é um site de notícias em forma de rede social com foco em ciência da computação e empreendedorismo. Em geral, o conteúdo que pode ser enviado é definido como "qualquer coisa que satisfaça a curiosidade intelectual de alguém. Os posts (ou histórias) são enviados por usuários, comentados e votados.

O dataset (conjunto de dados) original contém aproximadamente 300.000 registros e pode ser encontrado no [Kaggle](https://www.kaggle.com/hacker-news/hacker-news-posts). Para fins didáticos, utilizaremos uma versão reduzida do dataset, onde foram retirados os registros de posts que não receberam nenhum tipo de comentário e desses posts que sobraram, foram escolhidos aleatóriamente aproximadamente 20.000 registros.

Estamos interessados nos posts que contenham no título os tipos **Ask HN** e **Show HN**, onde:
- Ask HN: Post em forma de pergunta à comunidade do Hacker News;
- Show HN: Post para mostrar um projeto, produto ou algo interessante;

O objetivo da análise é aplicar os conceitos aprendidos no curso (orientação à objetos, objetos date, time, datetime, strings) para responder as perguntas:
- Qual tipo de post recebe mais comentários em média? Ask HN ou Show HN?
- Posts criados em um certo horário recebem mais comentários em média?

### Importando o arquivo

In [1]:
from csv import reader

In [2]:
hn_file = open('data/hacker_news.csv')
hn_csv = reader(hn_file)
hn = list(hn_csv)

In [3]:
print('Quantidade de registros a serem analisados: {}'.format(len(hn)))

Quantidade de registros a serem analisados: 20101


### Significado das colunas do conjunto de dados

In [4]:
# Cabeçalho do arquivo de dados
hn[0]

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']

|Coluna|Descrição|
|------|---------|
|id| Identificador úncio do post do Hacker News|
|title| O título do post|
|url|Link externo ao post|
|num_points| Os pontos do post são calculados da diferença entre os pontos positivos e pontos negativos|
|num_comments| Quantidade de comentários do post|
|author| Usuário que fez o post|
|created_at| Data de quando o post foi criado|

### Verificando as 5 primeiras linhas

In [5]:
hn[:5]

[['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at'],
 ['12224879',
  'Interactive Dynamic Video',
  'http://www.interactivedynamicvideo.com/',
  '386',
  '52',
  'ne0phyte',
  '8/4/2016 11:52'],
 ['10975351',
  'How to Use Open Source and Shut the Fuck Up at the Same Time',
  'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/',
  '39',
  '10',
  'josep2',
  '1/26/2016 19:30'],
 ['11964716',
  "Florida DJs May Face Felony for April Fools' Water Joke",
  'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/',
  '2',
  '1',
  'vezycash',
  '6/23/2016 22:20'],
 ['11919867',
  'Technology ventures: From Idea to Enterprise',
  'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429',
  '3',
  '1',
  'hswarna',
  '6/17/2016 0:01']]

A linha 0 possui informações do cabeçalho.

In [6]:
hn[0]

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']

Sendo assim, essa linha será excluída.

### Removendo o cabeçalho do conjunto de dados

In [7]:
headers = hn[0]
hn = hn[1:]

Salvei a linha do cabeçalho na variável `headers` caso precise utilizar essa informação depois.

In [8]:
print(headers)

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']


In [9]:
hn[:5]

[['12224879',
  'Interactive Dynamic Video',
  'http://www.interactivedynamicvideo.com/',
  '386',
  '52',
  'ne0phyte',
  '8/4/2016 11:52'],
 ['10975351',
  'How to Use Open Source and Shut the Fuck Up at the Same Time',
  'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/',
  '39',
  '10',
  'josep2',
  '1/26/2016 19:30'],
 ['11964716',
  "Florida DJs May Face Felony for April Fools' Water Joke",
  'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/',
  '2',
  '1',
  'vezycash',
  '6/23/2016 22:20'],
 ['11919867',
  'Technology ventures: From Idea to Enterprise',
  'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429',
  '3',
  '1',
  'hswarna',
  '6/17/2016 0:01'],
 ['10301696',
  'Note by Note: The Making of Steinway L1037 (2007)',
  'http://www.nytimes.com/2007/11/07/movies/07stein.html?_r=0',
  '8',
  '2',
  'walterbell',
  '9/30/2015 4:12']]

Cabeçalho removido com sucesso!

### Filtrando as listas

No próximo passo vamos contabilizar a quantidade de posts por categorias:
- ask hn
- show hn
- outros


In [10]:
ask_posts = []
show_posts = []
other_posts = []

for post in hn:
    title = post[1]
    
    if title.lower().startswith('ask hn'):
        ask_posts.append(post)
    elif title.lower().startswith('show hn'):
        show_posts.append(post)
    else:
        other_posts.append(post)
        
message = 'Quantidade de posts {}: {}'

len_ask_posts = len(ask_posts)
len_show_posts = len(show_posts)
len_other_posts = len(other_posts)
        
print(message.format('ask hn', len_ask_posts))
print(message.format('show hn', len_show_posts))
print(message.format('outros', len_other_posts))    

Quantidade de posts ask hn: 1744
Quantidade de posts show hn: 1162
Quantidade de posts outros: 17194


O passo anterior foi necessário porque com essas informações conseguimos responder a pergunta: Qual tipo de post recebe mais comentários em média? Ask HN ou Show HN?

In [11]:
total_ask_comments = 0

for post in ask_posts:
    num_comments = int(post[4])
    
    total_ask_comments += num_comments
    
avg_ask_comments = total_ask_comments / len_ask_posts
print('Posts da categoria Ask HN recebem em média {} comentários'.format(round(avg_ask_comments)))

Posts da categoria Ask HN recebem em média 14 comentários


In [12]:
total_show_comments = 0

for post in show_posts:
    num_comments = int(post[4])
    
    total_show_comments += num_comments
    
avg_show_comments = total_show_comments / len_show_posts
print('Posts da categoria Show HN recebem em média {} comentários'.format(round(avg_show_comments)))

Posts da categoria Show HN recebem em média 10 comentários


Com a análise realizada é possível notar que os posts do tipo Ask HN recebem em média mais comentários que os posts Show HN. O que faz sentido, pois por se tratar de uma rede social, quando alguém pergunta algo outra pessoa responde. Já no caso do tipo Show HN muitas vezes as pessoas podem visualizar o post e não comentar por se tratar de uma informação.

Como os posts do tipo Ask HN foram os que receberem em média mais comentários, continuaremos a análise apenas com esses posts para responder a pergunta: Em que horários eles recebem mais comentários em média. Para isso será utilizado a biblioteca padrão `datetime`.

No próximo passo, criarei uma lista de listas contendo a data/hora do post e a quantidade de comentários.

In [13]:
import datetime as dt

result_list = []

for post in ask_posts:
    result_list.append([post[6], int(post[4])])
    
result_list[:5]

[['8/16/2016 9:55', 6],
 ['11/22/2015 13:43', 29],
 ['5/2/2016 10:14', 1],
 ['8/2/2016 14:20', 3],
 ['10/15/2015 16:38', 17]]

Com a lista criada, contarei os posts por hora e comentários por hora e guardarei isso em um dicionário Python.

In [14]:
counts_by_hour = {}
comments_by_hour = {}

for result in result_list:
    date = dt.datetime.strptime(result[0], '%m/%d/%Y %H:%M')
    hour = date.strftime('%H')
    
    if hour not in counts_by_hour:
        counts_by_hour[hour] = 1
        comments_by_hour[hour] = result[1]
    else:
        counts_by_hour[hour] += 1
        comments_by_hour[hour] += result[1]
        
print('Posts por hora: ', counts_by_hour)
print('\n')
print('Comentários por hora: ', comments_by_hour)    
    
    

Posts por hora:  {'09': 45, '13': 85, '10': 59, '14': 107, '16': 108, '23': 68, '12': 73, '17': 100, '15': 116, '21': 109, '20': 80, '02': 58, '18': 109, '03': 54, '05': 46, '19': 110, '01': 60, '22': 71, '08': 48, '04': 47, '00': 55, '06': 44, '07': 34, '11': 58}


Comentários por hora:  {'09': 251, '13': 1253, '10': 793, '14': 1416, '16': 1814, '23': 543, '12': 687, '17': 1146, '15': 4477, '21': 1745, '20': 1722, '02': 1381, '18': 1439, '03': 421, '05': 464, '19': 1188, '01': 683, '22': 479, '08': 492, '04': 337, '00': 447, '06': 397, '07': 267, '11': 641}


### Média de comentários por post por hora

Com as quantidades de posts por hora e comentaŕios por hora, consigo identificar qual a média de comentários por post por hora.

In [15]:
avg_by_hour = []

for hour in counts_by_hour:
    posts = counts_by_hour[hour]
    comments = comments_by_hour[hour]
    
    avg_posts_comments = comments / posts
        
    avg_by_hour.append([hour, avg_posts_comments])

avg_by_hour

[['09', 5.5777777777777775],
 ['13', 14.741176470588234],
 ['10', 13.440677966101696],
 ['14', 13.233644859813085],
 ['16', 16.796296296296298],
 ['23', 7.985294117647059],
 ['12', 9.41095890410959],
 ['17', 11.46],
 ['15', 38.5948275862069],
 ['21', 16.009174311926607],
 ['20', 21.525],
 ['02', 23.810344827586206],
 ['18', 13.20183486238532],
 ['03', 7.796296296296297],
 ['05', 10.08695652173913],
 ['19', 10.8],
 ['01', 11.383333333333333],
 ['22', 6.746478873239437],
 ['08', 10.25],
 ['04', 7.170212765957447],
 ['00', 8.127272727272727],
 ['06', 9.022727272727273],
 ['07', 7.852941176470588],
 ['11', 11.051724137931034]]

A lista ficou fora de ordem, então vamos organizar a informação.

### Organizando as maiores médias por hora


Vamos organizar as informações os horários que possuem mais comentários por post.

Para fazer isso, vamos trocar as informações de posição, ou seja, primeiro a informação de post por hora e depois o horário.

In [16]:
swap_avg_by_hour = []

for row in avg_by_hour:
    swap_avg_by_hour.append([row[1], row[0]])

swap_avg_by_hour

[[5.5777777777777775, '09'],
 [14.741176470588234, '13'],
 [13.440677966101696, '10'],
 [13.233644859813085, '14'],
 [16.796296296296298, '16'],
 [7.985294117647059, '23'],
 [9.41095890410959, '12'],
 [11.46, '17'],
 [38.5948275862069, '15'],
 [16.009174311926607, '21'],
 [21.525, '20'],
 [23.810344827586206, '02'],
 [13.20183486238532, '18'],
 [7.796296296296297, '03'],
 [10.08695652173913, '05'],
 [10.8, '19'],
 [11.383333333333333, '01'],
 [6.746478873239437, '22'],
 [10.25, '08'],
 [7.170212765957447, '04'],
 [8.127272727272727, '00'],
 [9.022727272727273, '06'],
 [7.852941176470588, '07'],
 [11.051724137931034, '11']]

Com a informação trocada, eu posso utilizar a função built-in `sorted` do Python que organizará as informações do maior para o menor. Nesse caso, da maior quantidade de posts por hora para a menor quantidade.

In [17]:
sorted_swap = sorted(swap_avg_by_hour, reverse=True)

In [18]:
sorted_swap[:5]

[[38.5948275862069, '15'],
 [23.810344827586206, '02'],
 [21.525, '20'],
 [16.796296296296298, '16'],
 [16.009174311926607, '21']]

Com a informação em mãos, exibirei os 5 horários que mais possuem em média mais comentários por post.

In [19]:
for row in sorted_swap[:5]:
    hour = dt.datetime.strptime(row[1], '%H')
    hour = hour.strftime('%H:%M')
    avg_by_hour = row[0]
    
    message = 'Horário {hour}: Média de {avg:.2f} comentários por post'.format(hour=hour, avg=avg_by_hour)
    
    print(message)
    

Horário 15:00: Média de 38.59 comentários por post
Horário 02:00: Média de 23.81 comentários por post
Horário 20:00: Média de 21.52 comentários por post
Horário 16:00: Média de 16.80 comentários por post
Horário 21:00: Média de 16.01 comentários por post


### Conclusão

O projeto nos mostrou que é possível utilizar conceitos básicos da linguagem de programação Python (orientção à objetos, datetime, string) para extrair algumas informações valiosas.

No cenário proposto identificamos que posts do tipo Ask HN possuem mais comentários em média. Descobrimos também os cinco horários (15hrs, 02hrs, 20hrs, 16hrs, 21hrs) que mais possuem comentários por post em média. 

Com essas informações, uma pessoa poderia por exemplo realizar um post em um determinado horário para ter uma chance maior de ser respondida. Ou também identificar se a informação que ela postou está repercutindo mais ou menos na rede, comparando os comentários que ela recebeu com a média do horário.

### Referência

Link do curso: [Dataquest](https://www.dataquest.io/course/python-for-data-science-intermediate/)

Dados dos posts da Hacker News: [Kaggle](https://www.kaggle.com/hacker-news/hacker-news-posts)