# UN ESTUDIO SOBRE POSTS EN HACKER NEWS

En este proyecto, vamos a trabajar con un dataset del conocido sitio de tecnología Hacker News 

https://news.ycombinator.com/

Es un dataset público, en formato .csv, que contiene todos los posts de Hacker News (HN) desde septiembre de 2015 hasta septiembre de 2016.

Esta popular web es un sitio de noticias centradas en la tecnología y  el emprendimiento, quizás el más grande del mundo, y es propiedad del fondo de inversión de Paul Graham 'Y Combinator'.

Los usuarios de esta web abren hilos de discusión que son votados y comentados, de manera similar a *reddit*. Hacker News (HN) es extremadamente popular en comunidades de tecnología y de startups, y los top posts de HN pueden llegar a tener cientos de miles de visitas.

En este estudio nos vamos a centrar en los posts "Ask HN" y "Show HN".

Este tipo de posts son conocidos porque hay muchos de ellos que son muy interesantes. En concreto, los posts que comienzan con Ask HN preguntan algo a los usuarios de HN, mientras que los que comienzan por Show HN enseñan algún tipo de contenido a la comunidad.

Vamos a leer el dataset, y lo vamos a convertir en una lista para poder trabajar con él:

In [7]:
from csv import reader

abrir = open("HN_posts_year_to_Sep_26_2016.csv", encoding = 'utf-8')
leer = reader(abrir)
hn = list(leer)

En primer lugar, ya con el dataset convertido en una lista de listas (que hemos llamado HN), vamos a visualizar el primer elemento, que presumiblemente será la cabecera de los datos contenidos:

In [8]:
print(hn[0])

['id', 'title', 'url', 'num_points', 'num_comments', 'author', 'created_at']


Al tratarse de la cabecera:

In [9]:
cabecera = hn[0]
print(len(cabecera))

7


Los elementos (posts) del dataset tienen 7 columnas, que contienen los datos mostrados en la cabecera. En concreto:

- id: la id única del post
- title: el título del post
- url: la url del post
- num_points: número de puntuaciones del post
- num_comments: número de comentarios del post
- author: nickname del autor del post
- created_at: fecha de creación del post (zona horaria Eastern Time USA)

Vamos a visualizar los cinco primeros posts del dataset. 
Pero antes, y ya que tenemos la cabecera en la variable homónima, vamos a reconvertir nuestro dataset en una nueva lista, pero omitiendo la cabecera:

In [10]:
hn = hn[1:]
print(hn[0:5])

[['12579008', 'You have two days to comment if you want stem cells to be classified as your own', 'http://www.regulations.gov/document?D=FDA-2015-D-3719-0018', '1', '0', 'altstar', '9/26/2016 3:26'], ['12579005', 'SQLAR  the SQLite Archiver', 'https://www.sqlite.org/sqlar/doc/trunk/README.md', '1', '0', 'blacksqr', '9/26/2016 3:24'], ['12578997', 'What if we just printed a flatscreen television on the side of our boxes?', 'https://medium.com/vanmoof/our-secrets-out-f21c1f03fdc8#.ietxmez43', '1', '0', 'pavel_lishin', '9/26/2016 3:19'], ['12578989', 'algorithmic music', 'http://cacm.acm.org/magazines/2011/7/109891-algorithmic-composition/fulltext', '1', '0', 'poindontcare', '9/26/2016 3:16'], ['12578979', 'How the Data Vault Enables the Next-Gen Data Warehouse and Data Lake', 'https://www.talend.com/blog/2016/05/12/talend-and-Â\x93the-data-vaultÂ\x94', '1', '0', 'markgainor1', '9/26/2016 3:14']]


Vamos a ver la longitud del dataset, que son en realidad el número de post que contiene el dataset:

In [11]:
print(len(hn))

293119


Por tanto, tenemos casi 300.000 posts de HN en nuestro dataset.

Al tratarse de todos los posts de un año, habrá muchos de ellos que no tengan relevancia para nosotros. 

Como comentamos en la introducción, queremos centrarnos en los posts Ask Hn y Show HN, y vamos a filtrar por este tipo de posts.

Antes de hacer esto, debemos hacer una serie de comprobaciones en el dataset, para saber que está listo para trabajar con él.


## Data Cleaning

Para empezar, vamos a comprobar si todos los elementos del dataset tienen exactamente 7 subelementos, que es lo que esperamos dada la longitud de la cabecera.

Vamos a iterar el dataset completo para buscar errores de longitud.

In [15]:
# Creamos dos contadores, uno contará los posts con 7 elementos, el otro los que no:
posts_7 = 0
post_no7 = 0

# Iteramos sobre el dataset:
for post in hn:
    longitud = len(post)
    if longitud == 7:
        posts_7 += 1
    else:
        post_no7 += 1

print(f"Hay {posts_7} elementos con 7 subelementos, y {post_no7} elementos con un número distinto de elementos")

    

Hay 293119 elementos con 7 subelementos, y 0 elementos con un número distinto de elementos


Vamos a eliminar todos los posts que no hayan sido comentados o que solo hayan sido comentados una vez. Para ello, vamos a iterar de nuevo sobre el dataset y añadiremos a una nueva lista los posts que tengan al menos un comentario.

Según la cabecera, el índice 4 es el que contiene el número de comentarios.

In [21]:
HN = []

for post in hn:
    comentarios = post[4]
    comentarios = int(comentarios)
    if comentarios > 1:
        HN.append(post)

print(len(HN))

52346


Ahora tenemos un dataset con 52.346 posts, y todos ellos han sido comentados.

Lo siguiente que vamos a hacer es eliminar todos los posts que, aunque hayan sido comentados, no hayan sido puntuados. Las puntuaciones vienen reflejadas en el índice nº 3.

In [22]:
h_n = []

for post in HN:
    punt = post[3]
    punt = int(punt)
    if punt > 1:
        h_n.append(post)
        
print(len(h_n))

50289


Lo cual nos deja un dataset mucho más compacto y manejable de unos 50.000 elementos, habiendo descartado unos 250.000 que no nos servían.

## Explorando los Ask HN y Show HN

Tenemos un dataset (h_n) de 50.289 elementos.

Vamos a imprimir las 3 primeras listas.

In [23]:
print(h_n[0:3])

[['12578908', 'Ask HN: What TLD do you use for local development?', '', '4', '7', 'Sevrene', '9/26/2016 2:53'], ['12578556', 'OpenMW, Open Source Elderscrolls III: Morrowind Reimplementation', 'https://openmw.org/en/', '32', '3', 'rocky1138', '9/26/2016 1:24'], ['12578522', 'Ask HN: How do you pass on your work when you die?', '', '6', '3', 'PascLeRasc', '9/26/2016 1:17']]


Ya comentamos con anterioridad que los posts del tipo Ask HN y Show HN tienen un especial interés, y es en ellos donde vamos a focalizar nuestro estudio.

Por tanto, ahora vamos a filtrar en nuestro dataset y seleccionaremos únicamente los post que empiecen con Ask HN o Show HN. Para ello, vamos a utilizar el método *startswith* .

- Crearemos tres listas vacías donde irán los posts Ask HN, Show HN, y el resto de posts
- Iteraremos sobre el dataset, para trabajar con el título (índice nº 1)
- Con el método lower(), modificaremos los títulos a letra minúscula, evitaremos posibles errores
- Dependiendo del post, irán a parar a una lista u otra
- Veremos cuántos posts de cada tipo hay

In [26]:
askHN = [] # esta lista contendrá los Ask HN
showHN = [] # esta lista contendrá los Show HN
otros = [] # esta lista contendrá el resto de posts

for post in h_n:
    titulo = post[1]
    titulo = titulo.lower()
    
    if titulo.startswith('ask hn'):
        askHN.append(post)
    elif titulo.startswith('show hn'):
        showHN.append(post)
    else:
        otros.append(post)

numASK = len(askHN)
numSHOW = len(showHN)
numOTROS = len(otros)

print(numASK)
print(numSHOW)
print(numOTROS)


4776
3209
42304


Vamos a mostrar los 3 primeros posts de askHN y showHN:

In [27]:
for i in range(0,3):
    print(askHN[i])

['12578908', 'Ask HN: What TLD do you use for local development?', '', '4', '7', 'Sevrene', '9/26/2016 2:53']
['12578522', 'Ask HN: How do you pass on your work when you die?', '', '6', '3', 'PascLeRasc', '9/26/2016 1:17']
['12577647', 'Ask HN: Someone uses stock trading as passive income?', '', '5', '2', '00taffe', '9/25/2016 21:50']


In [28]:
for i in range(0,3):
    print(showHN[i])

['12574773', 'Show HN: Cursor that Screenshot', 'http://edward.codes/cursor-that-screenshot', '3', '3', 'ed-bit', '9/25/2016 10:50']
['12572412', 'Show HN: G9.js  Automatically Interactive Differentiable Graphics', 'http://omrelli.ug/g9/gallery/', '215', '26', 'bijection', '9/24/2016 20:07']
['12571200', 'Show HN: InstaPart  Build circuit boards faster with instant parts', 'http://www.snapeda.com/instapart', '301', '102', 'natashabaker', '9/24/2016 15:06']


Vamos a determinar qué tipo de posts reciben más comentarios de media, Ask HN o Show HN.
Los comentarios vienen reflejados en el índice nº 4 de cada elemento.

Para ello utilizaremos dos contadores e iteraremos las listas que acabamos de crear (askHN, showHN):



In [32]:
ask_total_com = 0
show_total_com = 0

for ask in askHN:
    num_com = ask[4]
    num_com = int(num_com)
    ask_total_com += num_com

for show in showHN:
    num_com = show[4]
    num_com = int(num_com)
    show_total_com += num_com
    
# Para calcular la media, dividimos el total de comentarios entre el nº de posts (longitud de la lista)

media_com_ask = round(ask_total_com / numASK)
media_com_show = round(show_total_com / numSHOW)

print(f"Los post Ask HN reciben de media {media_com_ask} comentarios")
print(f"Los post Show HN reciben de media {media_com_show} comentarios")

Los post Ask HN reciben de media 19 comentarios
Los post Show HN reciben de media 15 comentarios


Como podemos observar, los post tipo Ask HN son más populares entre los usuarios, ya que reciben aproximadamente un 30% más de comentarios que los tipo Show HN.
Hemos redondeado las medias a números enteros para verlo con más facilidad.

Como los post AskHN son más populares, vamos a centrarnos en ellos.

Vamos a trabajar ahora sobre la lista askHN para estudiarla más detalladamente.

## Posts Ask HN en profundidad

En este apartado trabajaremos con la lista askHN, y a modo de recapitulación, vamos a mostrar las  propiedades que ya hemos visto:

In [34]:
print(f"La lista askHN contiene {numASK} posts")
print(f"Los posts de askHN tienen un total de {ask_total_com} comentarios")
print(f"Los posts de askHN reciben de media {media_com_ask} comentarios cada uno")

La lista askHN contiene 4776 posts
Los posts de askHN tienen un total de 91213 comentarios
Los posts de askHN reciben de media 19 comentarios cada uno


El último índice de cada elemento, según la cabecera del dataset, es la fecha de creación del post. Vamos a ver algunos ejemplos:

In [35]:
print(askHN[0][-1])
print(askHN[1][-1])
print(askHN[2][-1])

9/26/2016 2:53
9/26/2016 1:17
9/25/2016 21:50


Gracias a que tenemos el momento exacto de la creación del post, podemos estudiar qué posts reciben más comentarios en relación a la hora de creación del mismo.

Para ello, vamos a utilizar la librería *datetime* .

Antes de nada, vamos a fijarnos que las fechas del dataset vienen dadas en el siguiente formato:

**mm/dd/yyyy hh:mm**

Debemos convertir los strings de las fechas a objetos datetime para poder trabajar con ellos, y posteriormente veremos el número de comentarios que reciben los posts según la hora en la que fue creado.

Lo haremos de la siguiente manera:

- Importaremos la librería datetime
- Construiremos una lista de resultados. Esta lista recibirá dos elementos de cada post: el número de comentarios y la hora de creación. Por lo tanto, será una lista de listas.
- Crearemos dos diccionarios vacíos, el primero albergará el número de posts creados en cada hora, y el segundo el número de comentarios según la hora de creación de los posts.

In [39]:
import datetime as dt

lista_resultados = []

for post in askHN:
    creacion = post[-1]
    com = post[4]
    com = int(com)
    
    lista_resultados.append([creacion, com])
    
# Imprimimos varios ejemplos para verificar que el procedimiento ha sido correcto:

print(len(lista_resultados))
print(lista_resultados[1])
print(lista_resultados[2])
print(lista_resultados[3])
    

4776
['9/26/2016 1:17', 3]
['9/25/2016 21:50', 2]
['9/25/2016 19:22', 22]


La longitud de la lista coincide con el número de posts, y tenemos una lista de listas, que es lo que queríamos.

Seguimos con los diccionarios:

In [43]:
post_por_hora = {} # contendrá los posts creados en cada hora del día  (posts:hora)
com_por_hora = {} # contendrá el nº de comentarios en cada hora del día  (comentarios:hora)

for lista in lista_resultados:
    
    comentarios = lista[1]
    
    fecha = lista[0]
    fecha = dt.datetime.strptime(fecha, "%m/%d/%Y %H:%M")
    
    hora = fecha.strftime("%H")
    
    if hora not in post_por_hora:
        post_por_hora[hora] = 1
        com_por_hora[hora] = comentarios
    else:
        post_por_hora[hora] += 1
        com_por_hora[hora] += comentarios
                
print(post_por_hora)
print(com_por_hora)

{'02': 164, '01': 163, '21': 286, '19': 274, '17': 271, '15': 296, '14': 247, '10': 155, '09': 112, '07': 118, '16': 281, '08': 138, '03': 148, '00': 166, '23': 192, '22': 197, '20': 269, '18': 311, '12': 209, '11': 179, '13': 243, '06': 121, '05': 107, '04': 129}
{'02': 2888, '01': 1993, '21': 4297, '19': 3708, '17': 5283, '15': 18194, '14': 4731, '10': 2900, '09': 1380, '07': 1513, '16': 4211, '08': 2296, '03': 2057, '00': 2169, '23': 2150, '22': 3210, '20': 4224, '18': 4624, '12': 4133, '11': 2664, '13': 7084, '06': 1497, '05': 1746, '04': 2261}


Ahora tenemos los dos diccionarios confeccionados como habíamos previsto.

Para facilitar las lecturas, ya que el formato actual es tedioso de leer, vamos a crear una lista que contendrá la media de comentarios por hora, ya que disponemos del número total de posts y de comentarios por hora.

In [50]:
media_por_hora = []

for hora in com_por_hora:
    media_por_hora.append([hora, round(com_por_hora[hora]/post_por_hora[hora],2)])

media_por_hora.sort()

for i in range(len(media_por_hora)):
    print(media_por_hora[i])

['00', 13.07]
['01', 12.23]
['02', 17.61]
['03', 13.9]
['04', 17.53]
['05', 16.32]
['06', 12.37]
['07', 12.82]
['08', 16.64]
['09', 12.32]
['10', 18.71]
['11', 14.88]
['12', 19.78]
['13', 29.15]
['14', 19.15]
['15', 61.47]
['16', 14.99]
['17', 19.49]
['18', 14.87]
['19', 13.53]
['20', 15.7]
['21', 15.02]
['22', 16.29]
['23', 11.2]


Hemos ordenado la lista final y redondeado las medias para una mayor legibilidad, pero vamos a dejarlo aún más claro, mostrando las cinco horas con más comentarios:

In [57]:
# Creamos una nueva lista, que será la "inversa" de media_por_hora:

med_por_hora = []

for x in media_por_hora:
    hora = x[0]
    com = x[1]
    med_por_hora.append([com,hora])

med_por_hora.sort() # ordenamos la lista, por defecto queda de menor a mayor
med_por_hora.reverse() # y le damos la vuelta, así la tenemos ordenada de mayor a menor

for i in range(5):
    com = (med_por_hora[i][0])
    hora = (med_por_hora[i][1])
    print(f"Los posts creados a las {hora}h tienen una media de {com} comentarios")

Los posts creados a las 15h tienen una media de 61.47 comentarios
Los posts creados a las 13h tienen una media de 29.15 comentarios
Los posts creados a las 12h tienen una media de 19.78 comentarios
Los posts creados a las 17h tienen una media de 19.49 comentarios
Los posts creados a las 14h tienen una media de 19.15 comentarios


Las 15h es el mejor momento para escribir un post Ask HN en Hacker News son las 15h EST, que pertenece a las 21h CEST (hora de Madrid).

Es el horario más comentado con mucha diferencia, concretamente el doble de la segunda hora más comentada (las 13h EST, 19h CEST). 

## Próximos pasos

- Estudio de los posts de Show HN
- Posts más valorados
- Conclusiones finales