# Explorer les publications du site Hackers News

Dans ce projet, nous comparerons 2 différents types de publications du site [Hacker News](https://news.ycombinator.com/), une site "tech'" très populaire similaire au site reddit dans son fonctionnement. Les utilisateurs publient des anecdotes, informations, conseils ou autres et la communauté peut voter pour faire remonter le post dans les premières pages et le commenter. 

Les 2 types de posts que nous étudierons sont les posts commencant par Ask HN or Show HN.

Les utilisateurs ajoutent Ask HN au début du titre de la publication quand ils veulent poser une question à la communauté de Hacker News, et Show HN pour partager un projet, un produit voir un sujet qu'ils jugent intéressant. 

Nous aimerions répondre aux questions suivantes : 

- Qui de Ask HN ou Show HN obtient le plus de commentaires en moyenne ? 

- Est ce qu'un post publié à une certaine heure obtient plus de commentaires que la moyenne ? 

La base de données sur laquelle nous allons travailler a été réduite de 300 000 linges à 20 000.


## Introduction

Tout d'abord, lisons la base de données et retirons la première colonne (souvent, et c'est le cas dans cette base de données, la première colonne contient l'en-tête du tableau. Il faut le prendre en compte ou la retirer pour ne pas fausser une analyse chiffrée avec les lettres de la première colonne)

In [1]:
import csv

f = open('hacker_news.csv')
hn = list(csv.reader(f))
hn[:5]

[['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at'],
 ['12224879',
  'Interactive Dynamic Video',
  'http://www.interactivedynamicvideo.com/',
  '386',
  '52',
  'ne0phyte',
  '8/4/2016 11:52'],
 ['10975351',
  'How to Use Open Source and Shut the Fuck Up at the Same Time',
  'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/',
  '39',
  '10',
  'josep2',
  '1/26/2016 19:30'],
 ['11964716',
  "Florida DJs May Face Felony for April Fools' Water Joke",
  'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/',
  '2',
  '1',
  'vezycash',
  '6/23/2016 22:20'],
 ['11919867',
  'Technology ventures: From Idea to Enterprise',
  'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429',
  '3',
  '1',
  'hswarna',
  '6/17/2016 0:01']]

## Retirer l'en-tête de la base de données  

In [2]:
header = hn[0]
hn = hn[1:]
print(hn[:5])

[['12224879', 'Interactive Dynamic Video', 'http://www.interactivedynamicvideo.com/', '386', '52', 'ne0phyte', '8/4/2016 11:52'], ['10975351', 'How to Use Open Source and Shut the Fuck Up at the Same Time', 'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/', '39', '10', 'josep2', '1/26/2016 19:30'], ['11964716', "Florida DJs May Face Felony for April Fools' Water Joke", 'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/', '2', '1', 'vezycash', '6/23/2016 22:20'], ['11919867', 'Technology ventures: From Idea to Enterprise', 'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429', '3', '1', 'hswarna', '6/17/2016 0:01'], ['10301696', 'Note by Note: The Making of Steinway L1037 (2007)', 'http://www.nytimes.com/2007/11/07/movies/07stein.html?_r=0', '8', '2', 'walterbell', '9/30/2015 4:12']]


In [3]:
print(header)

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']


Commençons par explorer le nombre de publications et classifier les publications commençant par Ask HN, Show HN et le reste.

In [5]:
ask_posts = []
show_posts = []
other_posts = []

for row in hn:
    title = row[1]
    if title.lower().startswith("ask hn"):
        ask_posts.append(row)
    elif title.lower().startswith("show hn"):
        show_posts.append(row)
    else:
        other_posts.append(row)
        
print(len(ask_posts))
print(len(show_posts))
print(len(other_posts))

1744
1162
17194


# Calculer le nombre moyen de commentaires pour les publications Ask HN et Show HN


In [6]:
total_ask_comments = 0

for row in ask_posts : 
    num_comments = int(row[4])
    total_ask_comments +=num_comments
    
avg_ask_comments = total_ask_comments/len(ask_posts)
print(round(avg_ask_comments))

total_show_comments = 0

for row in show_posts : 
    num_comments2 = int(row[4])
    total_show_comments +=num_comments2

avg_show_comments = total_show_comments / len(show_posts)
print(round(avg_show_comments))
    

14
10


En moyenne, un poste Ask HN recevra 14 commentaires, alors qu'un post Show HN en recevra 10. Nous nous concentrerons donc sur les publications Ask HN. 

In [11]:
import datetime as dt

result_list = []

for post in ask_posts:
    result_list.append(
        [post[6], int(post[4])]
    )

comments_by_hour = {}
counts_by_hour = {}
date_format = "%m/%d/%Y %H:%M"

for each_row in result_list:
    date = each_row[0]
    comment = each_row[1]
    time = dt.datetime.strptime(date, date_format).strftime("%H")
    if time in counts_by_hour:
        comments_by_hour[time] += comment
        counts_by_hour[time] += 1
    else:
        comments_by_hour[time] = comment
        counts_by_hour[time] = 1

comments_by_hour


{'00': 447,
 '01': 683,
 '02': 1381,
 '03': 421,
 '04': 337,
 '05': 464,
 '06': 397,
 '07': 267,
 '08': 492,
 '09': 251,
 '10': 793,
 '11': 641,
 '12': 687,
 '13': 1253,
 '14': 1416,
 '15': 4477,
 '16': 1814,
 '17': 1146,
 '18': 1439,
 '19': 1188,
 '20': 1722,
 '21': 1745,
 '22': 479,
 '23': 543}

# Calculer par heure le nombre moyen de commentaires pour une publication Ask HN

In [37]:
avg_by_hour =[]

for hour in comments_by_hour : 
    avg_by_hour.append([hour,(comments_by_hour[hour]/counts_by_hour[hour])])
   
    
print(avg_by_hour)
        

[['21', 16.009174311926607], ['13', 14.741176470588234], ['05', 10.08695652173913], ['02', 23.810344827586206], ['22', 6.746478873239437], ['06', 9.022727272727273], ['15', 38.5948275862069], ['10', 13.440677966101696], ['08', 10.25], ['03', 7.796296296296297], ['04', 7.170212765957447], ['20', 21.525], ['17', 11.46], ['19', 10.8], ['14', 13.233644859813085], ['00', 8.127272727272727], ['18', 13.20183486238532], ['23', 7.985294117647059], ['01', 11.383333333333333], ['12', 9.41095890410959], ['11', 11.051724137931034], ['09', 5.5777777777777775], ['16', 16.796296296296298], ['07', 7.852941176470588]]


# Sortir les résultats dans le format List of Lists

In [42]:
swap_avg_by_hour = []

for row in avg_by_hour : 
    date = row[0]
    avg_comment = row[1]
    swap_avg_by_hour.append([avg_comment,date])

print(swap_avg_by_hour)

sorted_swap = sorted(swap_avg_by_hour,reverse=True)

print("Top 5 Hours for Ask Posts Comments")
print(sorted_swap[:5])

for avg,date in sorted_swap[:5]:
    date = dt.datetime.strptime(date,"%H")
    date = date.strftime("%H:%M")
    s = "{} {:.2f} average comments per post".format(date,avg)
    print(s)

[[16.009174311926607, '21'], [14.741176470588234, '13'], [10.08695652173913, '05'], [23.810344827586206, '02'], [6.746478873239437, '22'], [9.022727272727273, '06'], [38.5948275862069, '15'], [13.440677966101696, '10'], [10.25, '08'], [7.796296296296297, '03'], [7.170212765957447, '04'], [21.525, '20'], [11.46, '17'], [10.8, '19'], [13.233644859813085, '14'], [8.127272727272727, '00'], [13.20183486238532, '18'], [7.985294117647059, '23'], [11.383333333333333, '01'], [9.41095890410959, '12'], [11.051724137931034, '11'], [5.5777777777777775, '09'], [16.796296296296298, '16'], [7.852941176470588, '07']]
Top 5 Hours for Ask Posts Comments
[[38.5948275862069, '15'], [23.810344827586206, '02'], [21.525, '20'], [16.796296296296298, '16'], [16.009174311926607, '21']]
15:00 38.59 average comments per post
02:00 23.81 average comments per post
20:00 21.52 average comments per post
16:00 16.80 average comments per post
21:00 16.01 average comments per post


Au regard des résultats, la tranche horaire avec la moyenne de commentaires par publication la plus élevée est 15h avec 38.59 commentaires en moyenne. 

16h étant la 4ème meilleure tranche horaire, nous recommandons donc de publier à 15h pour bénéficier de l'intérêt des utilisateurs sur ces 2 tranches horaires. On peut imaginer qu'avec un fort nombre de réponses en aussi peu de temps, la publication restera dans les publications "populaires" (soit dans la première page) à 20h et bénéficiera du soutien des utilisateurs de 20h(3ème meilleure tranche horaire) et 21h(5ème meilleure tranche horaire)