# Análise de Rede Social + Datetime

Neste projeto, trabalharemos com um conjunto de dados de envios para o popular site de tecnologia Hacker News.
O Hacker News é um site criado pela incubadora de startups Y Combinator , onde histórias enviadas por usuários (conhecidas como "posts") recebem votos e comentários, semelhante ao Reddit. O Hacker News é extremamente popular nos círculos de tecnologia e startups, e os posts que chegam ao topo das listas do Hacker News podem receber centenas de milhares de visitantes como resultado.

Abaixo estão as descrições das colunas:

- id : o identificador exclusivo do Hacker News para a postagem
- título : o título da postagem
- url : a URL para a qual as postagens têm links, se a postagem tiver uma URL
- num_points : o número de pontos que a postagem adquiriu, calculado como o número total de votos positivos menos o número total de votos negativos
- num_comments : o número de comentários na postagem
- autor : o nome de usuário da pessoa que enviou a postagem
- created_at : a data e hora do envio da postagem


In [None]:
### Trazendo o pacote reader para ler nosso banco de dados ###
from csv import reader
with open("hacker_news.csv") as file:
    reading_file = reader(file)
    opened = list(reading_file)

hn_header = opened[0] # Cabeçalho
hn = opened[1:] # Dados sem cabeçalho

print(hn_header)
print(hn[:4])

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']
[['12224879', 'Interactive Dynamic Video', 'http://www.interactivedynamicvideo.com/', '386', '52', 'ne0phyte', '8/4/2016 11:52'], ['10975351', 'How to Use Open Source and Shut the Fuck Up at the Same Time', 'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/', '39', '10', 'josep2', '1/26/2016 19:30'], ['11964716', "Florida DJs May Face Felony for April Fools' Water Joke", 'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/', '2', '1', 'vezycash', '6/23/2016 22:20'], ['11919867', 'Technology ventures: From Idea to Enterprise', 'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429', '3', '1', 'hswarna', '6/17/2016 0:01']]


In [None]:
### Separando titulos dos posts em principalmente ask(perguntas) e show(respostas) posts ###
ask_posts = []
show_posts = []
other_posts = []
for row in hn:
    title = row[1].lower() # O construtor ".lower" trasforma strins maiusculas e minusculas em apenas minusculas
    if title.startswith('ask hn'): # O construtor ".startswit" procura strigs com o mesmo valor entre parenteses
        ask_posts.append(row) # O construtor ".append" adiciona valores em uma lista
    elif title.startswith('show hn'):
        show_posts.append(row)
    else:
        other_posts.append(row)

print(len(ask_posts))
print(len(show_posts))
print(len(other_posts))
print(ask_posts[:2])

1744
1162
17194
[['12296411', 'Ask HN: How to improve my personal website?', '', '2', '6', 'ahmedbaracat', '8/16/2016 9:55'], ['10610020', 'Ask HN: Am I the only one outraged by Twitter shutting down share counts?', '', '28', '29', 'tkfx', '11/22/2015 13:43']]


In [None]:
### Encontrando o total de comentários na lista ask_posts ###
total_ask_comments = 0
for row in ask_posts:
    num_comments = int(row[4])
    total_ask_comments += num_comments
avg_ask_comments = total_ask_comments / len(ask_posts)
avg_ask_comments = round(avg_ask_comments, 2)

print(total_ask_comments)
print(avg_ask_comments)
print('\n')

### Encontrando o total de comentários na lista show_posts ###
total_show_comments = 0
for row in show_posts:
    num_comments = int(row[4])
    total_show_comments += num_comments
avg_show_comments = total_show_comments / len(show_posts)
avg_show_comments = round(avg_show_comments, 2)

print(total_show_comments)
print(avg_show_comments)

24483
14.04


11988
10.32


#### As postages de perguntas parecem ter mais engajamento com a comunidade. tendo em média 14 comentários por postagem enquando as postagens de demonstração tem em média 10.

In [None]:
### Importando o pacote datetime ###
import datetime as dt

### Criando uma lista separada para o próximo passo ###
result_list = []
for row in ask_posts:
    date_str = row[6]
    comments = int(row[4])
    result_list.append([comments, date_str])

### Quantidade de posts por hora e a quantidade de comentários por hora ###
counts_by_hour = {}
comments_by_hour = {}
for row in result_list:
    created = row[1]
    comments = int(row[0])
    date_time = dt.datetime.strptime(created, '%m/%d/%Y %H:%M') # O construtor ".datetime.strptime" transforma strings de data(um objeto) em datas(outro objeto) trazendo funções extras que se encaixam melhor quando trabalhamos com datas
    hour = date_time.strftime('%H') # O construtor ".strftime" recupera pontos especificos da variavel oonde está armazenada as datas
    if hour not in counts_by_hour:
        counts_by_hour[hour] = 1
        comments_by_hour[hour] = comments
    else:
        counts_by_hour[hour] += 1
        comments_by_hour[hour] += comments

print(counts_by_hour)
print('\n')
print(comments_by_hour)

{'09': 45, '13': 85, '10': 59, '14': 107, '16': 108, '23': 68, '12': 73, '17': 100, '15': 116, '21': 109, '20': 80, '02': 58, '18': 109, '03': 54, '05': 46, '19': 110, '01': 60, '22': 71, '08': 48, '04': 47, '00': 55, '06': 44, '07': 34, '11': 58}


{'09': 251, '13': 1253, '10': 793, '14': 1416, '16': 1814, '23': 543, '12': 687, '17': 1146, '15': 4477, '21': 1745, '20': 1722, '02': 1381, '18': 1439, '03': 421, '05': 464, '19': 1188, '01': 683, '22': 479, '08': 492, '04': 337, '00': 447, '06': 397, '07': 267, '11': 641}


In [None]:
avg_by_hour = []
for hour in comments_by_hour:
    avg_by_hour.append([hour, round(comments_by_hour[hour] / counts_by_hour[hour], 2)])

print(avg_by_hour)

[['09', 5.58], ['13', 14.74], ['10', 13.44], ['14', 13.23], ['16', 16.8], ['23', 7.99], ['12', 9.41], ['17', 11.46], ['15', 38.59], ['21', 16.01], ['20', 21.52], ['02', 23.81], ['18', 13.2], ['03', 7.8], ['05', 10.09], ['19', 10.8], ['01', 11.38], ['22', 6.75], ['08', 10.25], ['04', 7.17], ['00', 8.13], ['06', 9.02], ['07', 7.85], ['11', 11.05]]


In [None]:
swap_avg_by_hour = []
for row in avg_by_hour:
    swap_avg_by_hour.append([row[1], row[0]])

# print(swap_avg_by_hour)

sorted_swap = sorted(swap_avg_by_hour, reverse = True)
print(sorted_swap[:5])

for row in sorted_swap[:5]:
    hours = dt.datetime.strptime(row[1], '%H')
    hours = hours.strftime('%H:%M')
    print(f"{hours} : {row[0]} comentários em média por postagem")

[[38.59, '15'], [23.81, '02'], [21.52, '20'], [16.8, '16'], [16.01, '21']]
15:00 : 38.59 comentários em média por postagem
02:00 : 23.81 comentários em média por postagem
20:00 : 21.52 comentários em média por postagem
16:00 : 16.8 comentários em média por postagem
21:00 : 16.01 comentários em média por postagem


#### Se quisermos maiores chances de engajamento devemos fazer postagens de pergunta e devemos postar em horários especificos onde em média mais pessoas comentam, esses horários são em ordem decrescente: 15:00, 02:00, 20:00, 16:00, 21:00.