# Análisis de publicaciones en Hacker News

Hacker News es un sitio web, similar a Reddit, donde los usuarios suben publicaciones y se recibe votos y comentarios.

En este proyecto, compararé dos tipos diferentes de publicaciones en Hacker News.

Nos interesan las publicaciones que empiezan por **"Ask HN"**, publicaciones en las que el usuario pregunta a la comunidad de Hacker News sobre algún tema específico, y **"Show HN"** en la que los usuarios enseñan algún proyecto, producto o tema de relevancia.

Compararemos estos dos tipos de publicaciones para determinar lo siguiente:
* ¿Cuál de los dos tipos de publicaciones rebibe en promedio más comentarios?
* ¿De media, reciben más comentarios las publicaciones creadas en un momento determinado?

El conjunto de datos con el que trabajaremos se redujo de 300.000 filas iniciales a 20.000 eliminando todas aquellas filas que se correspondian a publicaciones que no recibieron comentarios.

# Introducción
Empezamos importando los datos y separando el encabezado para trabajar comodamente.

In [4]:
import csv

with open('hacker_news.csv') as opened_file:
    hn = list(csv.reader(opened_file))
hn[:5]

[['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at'],
 ['12224879',
  'Interactive Dynamic Video',
  'http://www.interactivedynamicvideo.com/',
  '386',
  '52',
  'ne0phyte',
  '8/4/2016 11:52'],
 ['10975351',
  'How to Use Open Source and Shut the Fuck Up at the Same Time',
  'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/',
  '39',
  '10',
  'josep2',
  '1/26/2016 19:30'],
 ['11964716',
  "Florida DJs May Face Felony for April Fools' Water Joke",
  'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/',
  '2',
  '1',
  'vezycash',
  '6/23/2016 22:20'],
 ['11919867',
  'Technology ventures: From Idea to Enterprise',
  'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429',
  '3',
  '1',
  'hswarna',
  '6/17/2016 0:01']]

In [5]:
headers = hn[:1]
print(headers)

[['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']]


Con el encabezado podemos sacar conclusiones sobre la información que obtenemos de cada columna del dataset.

| Columna del encabezado       | Descripción           |
|--------------|-----------------------|
| id| Identificador único|
| title | Título de la publicación|
| url| URL a la que se vincula la publicación |
| num_points| Relación entre la cantidad de votos positivos menos los votos negativos.  |
| num_comments| Número de comentarios en la publicación |
| author|Usuario que publicó la publicación|
| created_at|Fecha y hora de la publicación|



In [7]:
hn = hn[1:]
print(hn[:5])

[['12224879', 'Interactive Dynamic Video', 'http://www.interactivedynamicvideo.com/', '386', '52', 'ne0phyte', '8/4/2016 11:52'], ['10975351', 'How to Use Open Source and Shut the Fuck Up at the Same Time', 'http://hueniverse.com/2016/01/26/how-to-use-open-source-and-shut-the-fuck-up-at-the-same-time/', '39', '10', 'josep2', '1/26/2016 19:30'], ['11964716', "Florida DJs May Face Felony for April Fools' Water Joke", 'http://www.thewire.com/entertainment/2013/04/florida-djs-april-fools-water-joke/63798/', '2', '1', 'vezycash', '6/23/2016 22:20'], ['11919867', 'Technology ventures: From Idea to Enterprise', 'https://www.amazon.com/Technology-Ventures-Enterprise-Thomas-Byers/dp/0073523429', '3', '1', 'hswarna', '6/17/2016 0:01'], ['10301696', 'Note by Note: The Making of Steinway L1037 (2007)', 'http://www.nytimes.com/2007/11/07/movies/07stein.html?_r=0', '8', '2', 'walterbell', '9/30/2015 4:12']]


# Extracción de publicaciones de Ask HN y Show HN y media de comentarios

Empezamos identificando las publicaciones que empiecen por **Ask HN** y **Show HN**. Separaremos estos datos en dos listas diferentes para facilitar el análisis.

In [9]:
ask_posts = []
show_posts = []
other_posts = []

for row in hn:
    title = row[1]
    if title.lower().startswith('ask hn'):
        ask_posts.append(row)
    elif title.lower().startswith('show hn'):
        show_posts.append(row)
    else:
        other_posts.append(row)
print('Cantidad de publicaciones con Ask HN: ' + str(len(ask_posts)))
print('Cantidad de publicaciones con Show HN: ' + str(len(show_posts)))
print('Otras publicaciones: ' + str(len(other_posts)))

Cantidad de publicaciones con Ask HN: 1744
Cantidad de publicaciones con Show HN: 1162
Otras publicaciones: 17194


In [10]:
print(ask_posts[:5])

[['12296411', 'Ask HN: How to improve my personal website?', '', '2', '6', 'ahmedbaracat', '8/16/2016 9:55'], ['10610020', 'Ask HN: Am I the only one outraged by Twitter shutting down share counts?', '', '28', '29', 'tkfx', '11/22/2015 13:43'], ['11610310', 'Ask HN: Aby recent changes to CSS that broke mobile?', '', '1', '1', 'polskibus', '5/2/2016 10:14'], ['12210105', 'Ask HN: Looking for Employee #3 How do I do it?', '', '1', '3', 'sph130', '8/2/2016 14:20'], ['10394168', 'Ask HN: Someone offered to buy my browser extension from me. What now?', '', '28', '17', 'roykolak', '10/15/2015 16:38']]


Ahora calcularemos la media de comentarios que recibe cada tipo de publicación

In [12]:
total_ask_comments = 0

for row in ask_posts:
    comments = row[4]
    total_ask_comments += int(comments)
avg_ask_comments = total_ask_comments/len(ask_posts)
print(avg_ask_comments)

14.038417431192661


In [13]:
total_show_comments = 0

for row in show_posts:
    comments = row[4]
    total_show_comments += int(comments)
avg_show_comments = total_show_comments/len(show_posts)
print(avg_show_comments)

10.31669535283993


Vemos como las publicaciones de Ask HN reciben una media de 14 comentarios, mientras que las de Show HN reciben una media de 10 publicaciones.

Hasta aquí ya contestamos a nuestra primera pregunta: **¿Cuál de los dos tipos de publicaciones rebibe en promedio más comentarios?** Se trata de las publicaciones de Ask HN. 

Por lo tanto centraremos nuestro análisis en las publicaciones de Ask HN, ya que tienen más probabilidades de recibir comentarios, y trataremos de contestar a segunda pregunta: **¿De media, reciben más comentarios las publicaciones creadas en un momento determinado?**

# Encontrar la cantidad de publicaciones y de comentarios de Ask HN por hora de creación.

Para realizar este análisis, seguiremos los siguientes pasos:

1. Calcular la cantidad de publicaciones de preguntas creadas en cada hora del día, junto con la cantidad de comentarios recibidos.
2. Calcular la media de comentarios que reciben las publicaciones por hora de creación.

En primer lugar, calcularemos la cantidad de publicaciones de Ask HN creadas durante cada hora del día, junto con la cantidad de comentarios que recibieron esas publicaciones.

In [16]:
import datetime as dt

result_list = []

for row in ask_posts:
    result_list.append([row[6],int(row[4])])

counts_by_hour = {}
comments_by_hour = {}

#Extraemos la hora de nuestro dataset
for i in result_list:
    comment = i[1]
    date = i[0]
    time = dt.datetime.strptime(date,"%m/%d/%Y %H:%M")
    hour = time.strftime("%H")
    if hour in counts_by_hour:
        counts_by_hour[hour] += 1
        comments_by_hour[hour] += comment
    else:
        counts_by_hour[hour] = 1
        comments_by_hour[hour] = comment
        
comments_by_hour

{'09': 251,
 '13': 1253,
 '10': 793,
 '14': 1416,
 '16': 1814,
 '23': 543,
 '12': 687,
 '17': 1146,
 '15': 4477,
 '21': 1745,
 '20': 1722,
 '02': 1381,
 '18': 1439,
 '03': 421,
 '05': 464,
 '19': 1188,
 '01': 683,
 '22': 479,
 '08': 492,
 '04': 337,
 '00': 447,
 '06': 397,
 '07': 267,
 '11': 641}

# Cálculo de la media de comentarios en las publicaciones de Ask HN por hora.

In [18]:
avg_by_hour = []

for post in comments_by_hour:
    avg_by_hour.append([post, round(comments_by_hour[post] / counts_by_hour[post], 2)])

avg_by_hour

[['09', 5.58],
 ['13', 14.74],
 ['10', 13.44],
 ['14', 13.23],
 ['16', 16.8],
 ['23', 7.99],
 ['12', 9.41],
 ['17', 11.46],
 ['15', 38.59],
 ['21', 16.01],
 ['20', 21.52],
 ['02', 23.81],
 ['18', 13.2],
 ['03', 7.8],
 ['05', 10.09],
 ['19', 10.8],
 ['01', 11.38],
 ['22', 6.75],
 ['08', 10.25],
 ['04', 7.17],
 ['00', 8.13],
 ['06', 9.02],
 ['07', 7.85],
 ['11', 11.05]]

Aunque ya tenemos los resultados que necesitamos, este formato dificulta la identificación de las horas con los valores más altos. Terminaremos ordenando la lista de listas e imprimiendo los cinco valores más altos en un formato más fácil de leer.

In [20]:
swap_avg_by_hour = []

for n in avg_by_hour:
    swap_avg_by_hour.append([n[1], n[0]])
    
print(swap_avg_by_hour)

sorted_swap = sorted(swap_avg_by_hour, reverse=True)

sorted_swap
        

[[5.58, '09'], [14.74, '13'], [13.44, '10'], [13.23, '14'], [16.8, '16'], [7.99, '23'], [9.41, '12'], [11.46, '17'], [38.59, '15'], [16.01, '21'], [21.52, '20'], [23.81, '02'], [13.2, '18'], [7.8, '03'], [10.09, '05'], [10.8, '19'], [11.38, '01'], [6.75, '22'], [10.25, '08'], [7.17, '04'], [8.13, '00'], [9.02, '06'], [7.85, '07'], [11.05, '11']]


[[38.59, '15'],
 [23.81, '02'],
 [21.52, '20'],
 [16.8, '16'],
 [16.01, '21'],
 [14.74, '13'],
 [13.44, '10'],
 [13.23, '14'],
 [13.2, '18'],
 [11.46, '17'],
 [11.38, '01'],
 [11.05, '11'],
 [10.8, '19'],
 [10.25, '08'],
 [10.09, '05'],
 [9.41, '12'],
 [9.02, '06'],
 [8.13, '00'],
 [7.99, '23'],
 [7.85, '07'],
 [7.8, '03'],
 [7.17, '04'],
 [6.75, '22'],
 [5.58, '09']]

In [21]:
# Ordenamos los valores e imprimimos las 5 horas con los comentarios promedio más altos.

print("Top 5 mejores horas para recibir comentarios de 'Ask HN'\n")
for avg, hr in sorted_swap[:5]:
    print(
        f"A las {dt.datetime.strptime(hr, '%H').strftime('%H:%M')} hay un promedio de {avg:.2f} comentarios por publicación"
    )

print("\n")
print("Top 5 peores horas para recibir comentarios de 'Ask HN'\n")
for avg, hr in sorted_swap[-5:]:
    print(
        f"A las {dt.datetime.strptime(hr, '%H').strftime('%H:%M')} hay un promedio de {avg:.2f} comentarios por publicación"
    )

Top 5 mejores horas para recibir comentarios de 'Ask HN'

A las 15:00 hay un promedio de 38.59 comentarios por publicación
A las 02:00 hay un promedio de 23.81 comentarios por publicación
A las 20:00 hay un promedio de 21.52 comentarios por publicación
A las 16:00 hay un promedio de 16.80 comentarios por publicación
A las 21:00 hay un promedio de 16.01 comentarios por publicación


Top 5 peores horas para recibir comentarios de 'Ask HN'

A las 07:00 hay un promedio de 7.85 comentarios por publicación
A las 03:00 hay un promedio de 7.80 comentarios por publicación
A las 04:00 hay un promedio de 7.17 comentarios por publicación
A las 22:00 hay un promedio de 6.75 comentarios por publicación
A las 09:00 hay un promedio de 5.58 comentarios por publicación


Vemos que la hora con más comentarios es a las 15:00. Y con eso podemos dar respuesta a nuestra segunda pregunta: **¿De media, reciben más comentarios las publicaciones creadas en un momento determinado?**

Efectivamente podemos comprobar que hay determinadas horas en las que la media de comentarios sube considerablemente.