La misión de hoy es conseguir el calendario de eventos en formato JSON para poder aprovecharlo desde otras aplicaciones.

In [1]:
LLANES_CAL = "http://llanes.es/calendario"

Esta es la dirección web del calendario de eventos de Llanes, cargamos el contenido de la web de eventos, que por suerte o por desgracia los trae todos "escondidos".

In [2]:
from urllib2 import urlopen
calweb = urlopen(LLANES_CAL)
calwebtext1 = calweb.read()

In [3]:
calwebtext2 = unicode(calwebtext1.decode("utf8"))

Parseamos el HTML para manejar directamente el DOM, ya que tratar el HTML como texto es una locura.

In [4]:
from lxml import etree
from io import StringIO, BytesIO
parser = etree.HTMLParser()
doc = etree.parse(StringIO(calwebtext2), parser)

Los eventos que nos interesan tienen la clase HTML "fullcalendar-event". Los recuperamos usando XPATH.

In [5]:
events = doc.xpath("//*[@class='fullcalendar-event']")

Ejemplo de los datos de un evento:

In [6]:
dict(events[12].xpath(".//a")[0].items())


{'allday': '1',
 'class': 'fullcalendar-event-details',
 'cn': 'fc-event-default agenda fc-event-field-field-fechaagenda',
 'editable': '',
 'eid': '461',
 'end': '2012-06-16 00:00:00',
 'entity_type': 'node',
 'field': 'field_fechaagenda',
 'href': '/agenda/san-antonio-piedra',
 'index': '0',
 'start': '2012-06-16 00:00:00',
 'title': 'San Antonio (Piedra)'}

Creamos una clase para abstraer la extración de los datos desde el DOM de cada evento de la página web

In [7]:
from datetime import datetime

class Event:
    node = None
    def __init__(self, element):
        self.node = element
    def title(self):
        return self.node.xpath("./h3/text()")[0]
    def attrs(self):
        return dict(self.node.xpath(".//a")[0].items())
    def start(self):
        return datetime.strptime(self.attrs()["start"], "%Y-%m-%d %H:%M:%S")
    def end(self):
        return datetime.strptime(self.attrs()["end"], "%Y-%m-%d %H:%M:%S")
    def allday(self):
        return self.attrs()["allday"] == "1"

In [8]:
events_objects = [Event(i) for i in events]
print events_objects[12].attrs()
print events_objects[12].end()
print events_objects[12].allday()

{'index': '0', 'allday': '1', 'end': '2012-06-16 00:00:00', 'cn': 'fc-event-default agenda fc-event-field-field-fechaagenda', 'field': 'field_fechaagenda', 'entity_type': 'node', 'editable': '', 'start': '2012-06-16 00:00:00', 'href': '/agenda/san-antonio-piedra', 'eid': '461', 'title': 'San Antonio (Piedra)', 'class': 'fullcalendar-event-details'}
2012-06-16 00:00:00
True


Extraemos las propiedades que nos interesan y lo volcamos a json.

In [9]:
def json_event(event_object):
    return {"title": event_object.title(), 
            "start": event_object.start(), 
            "end": event_object.end(), 
            "allday": event_object.allday()
           }

Hay que tener en cuenta que la librería de JSON no nos define una serialización para las fechas, tenemos que crear una nueva función, usamos el formato ISO por conveniencia.

In [10]:
import json

def json_date_serializer(obj):
    if isinstance(obj, datetime):
        serial = obj.isoformat()
        return serial
    raise TypeError ("Type not serializable")

json_file = open("calendario_llanes.json", "w")
json_file.write(json.dumps([json_event(i) for i in events_objects], default = json_date_serializer))
json_file.close()