In [None]:
%%HTML
### Cambiamos los tamaños de fuente asociados a las tablas
<style>
    tr { font-size: 18px; background-color: lightblue; font-color: orange}
    td { font-size: 18px; }
</style>

## RSS

***RSS (Rich Site Summary)*** es un formato para entregar regularmente el contenido cambiante de una web. Muchos sitios web relacionados con noticias, weblogs y otras publicaciones online sindican sus contenidos como una fuente ***RSS*** para quien lo quiera.

### Elementos de un RSS

Los elementos más comúnmente usados en una fuente RSS son ***title***, ***link***, ***description***, ***publication date***, y ***entry ID***. También podemos encontrar otros elementos menos usados como ***image***, ***categories***, ***enclosures*** y ***cloud***.

### Leer fuentes RSS en Python - feedparser

In [None]:
!pip install feedparser

### Conseguir la estructura de la fuente RSS

In [None]:
import feedparser
NewsFeed = feedparser.parse("https://feeds.elpais.com/mrss-s/pages/ep/site/elpais.com/portada")
entry = NewsFeed.entries[1]

print(entry.keys())

### Título y Cabecera de la fuente RSS

`print_feed(link)`es una función que permite realizar una consulta a un *RSS* pasado como parámetro, e imprimir por pantalla los resultados obtenidos.

In [None]:
def print_feed (link):
    newsFeed = feedparser.parse(link)
    
    for ent in range(len(newsFeed.entries)):
        print(ent, '- ')
        for k in newsFeed.entries[ent].keys(): #entry.keys():
            print('   ', newsFeed.entries[ent][k])

In [None]:
print_feed("https://feeds.elpais.com/mrss-s/pages/ep/site/elpais.com/portada")

In [None]:
print('Número de publicaciones RSS :', len(NewsFeed.entries))
print('- Título de la Publicación : ', entry.title)
print('   - Detalle del título: ', entry.title_detail)
print('   - Publicado: ', entry.published)
print('   - Published Parsed: ', entry.published_parsed)
print('   - Links: ', entry.links)
print('   - Authors: ', entry.authors)
print('   - Author: ', entry.author)
print('   - Detalle del autor: ', entry.author_detail)
print('   - DC Terms Alternative: ', entry.dcterms_alternative)
print('   - Resumen: ', entry.summary)
print('   - Detalle del resumen: ', entry.summary_detail)
print('   - Etiquetas: ', entry.tags)
print('   - Media Content: ', entry.media_content)
print('   - Media Credit: ', entry.media_credit)
print('   - Crédito: ', entry.credit)
print('   - Media Text: ', entry.media_text)
print('   - Contenido: ', entry.content)

**¡¡¡OJO!!!** No todas las fuentes RSS funcionan bien con la biblioteca que estamos usando. 
Prueba rápida: Imprimir el feed usando ***print_feed()*** y si no funciona bien, no conseguiréis ningún resultado:

<A href=https://validator.w3.org/feed/>W3C.org RSS feed validator</A>

In [None]:
print_feed("https://www.lasprovincias.es/rss/2.0/?section=ultima-hora")

In [None]:
print_feed("https://www.levante-emv.com/rss/section/4762")

In [None]:
print_feed("https://www.abc.es/rss/feeds/abcPortada.xml")

In [None]:
### El Mundo - Portada
print_feed("https://e00-elmundo.uecdn.es/elmundo/rss/portada.xml")

In [None]:
### El Periodista Digital - Portada
print_feed("http://feeds.feedburner.com/PDPortada")

In [None]:
### Libertad Digital - Portada
print_feed("http://feeds2.feedburner.com/libertaddigital/portada")

In [None]:
### Marca - Portada
print_feed("https://e00-marca.uecdn.es/rss/portada.xml")

In [None]:
### As - Portada
print_feed("https://as.com/rss/diarioas/portada.xml")

In [None]:
### SPORT - Últimas Noticias
print_feed("https://www.sport.es/es/rss/last_news/rss.xml")

In [None]:
### Octeto
print_feed("http://cent.uji.es/octeto/node/feed")

In [None]:
### IBL News - Main
print_feed("https://iblnews.org/feed/")

In [None]:
### NY Times
print_feed("https://rss.nytimes.com/services/xml/rss/nyt/HomePage.xml")

### Detalles de la fuente RSS

Como ***entry*** es un diccionario, se pueden utilizar sus claves para producir los valores necesitados.

In [None]:
print(entry.published)
print("******")
print(entry.summary)
print("------News Link--------")
print(entry.link)
print("------News Tags--------")
print(entry.tags)

### Fuentes OPML

***OPML (Outline Processor Markup Language)*** es un formato XML para esquemas (outlines). Fue creado inicialmente por Radio Userland para aplicaciones que procesen texto en forma de esquema, aunque su uso más habitual hoy en día es para listar varias fuentes RSS juntas. (Fuente: Wikipedia)

In [None]:
sOPML_ElMundo = "http://rss.elmundo.es/rss/static/elmundo_OPML.xml"
ElMundoNewsFeed = feedparser.parse(sOPML_ElMundo)

In [None]:
print(ElMundoNewsFeed)

### Función de Utilidad: `extract_rss_urls_from_opml()`

Esta función develve una lista con las direcciones almacenadas en el fichero **OPML** que se encuentra en la dirección pasada como argumento. Para ello, necesitamos instalar previamente el módulo **requests**

In [None]:
!pip install requests

In [None]:
from xml.etree import ElementTree
import sys
import requests

#file_opml = sys.argv[1]
#def extract_rss_urls_from_opml(filename):
def extract_rss_urls_from_opml(OPML_link):
    urls = []
    '''
    with open(filename, 'rt') as f:
        tree = ElementTree.parse(f)
    '''
    resp = requests.get(OPML_link)
    #print("OPML -- ", resp.text)
    tree = ElementTree.fromstring(resp.text)
    for node in tree.findall('.//outline'):
        url = node.attrib.get('xmlUrl')
        if url:
            urls.append(url)
    return urls

In [None]:
urls = extract_rss_urls_from_opml(sOPML_ElMundo)
print(urls)

| Ejercicio 1 |
|------------:|
| Haced una función que dada una lista con urls como argumento, genere un diccionario como el que devuelve *feedparser* pero con todas las noticias encontradas en todas las urls de la lista.|

In [None]:
from collections import defaultdict

def lista_rss_a_dict_noticias( lista_urls ):
    dict_noticias = defaultdict(list)
    
    for url in lista_urls:
        dict_parser = feedparser.parse(url)
        
        if dict_parser['entries'] != []:
            for k, v in dict_parser.items():
                dict_noticias[k].append(v)

    return dict_noticias

In [None]:
###urls = extract_rss_urls_from_opml(sOPML_ElMundo)

###dict_news = lista_rss_a_dict_noticias(urls)

###print(dict_news)

In [None]:
lista_urls = ["https://www.lasprovincias.es/rss/2.0/?section=ultima-hora", "https://www.levante-emv.com/rss/section/4762", "https://e00-marca.uecdn.es/rss/baloncesto/acb.xml"]
dict_news = lista_rss_a_dict_noticias(lista_urls)

dict_news

## Ontologías - OWL

Podemos ver una ontología como un vocabulario común sobre un tema, compuesto por una serie de conceptos y relaciones. 
A nivel práctico, esto supone que se tenga este vocabulario fijo, y común para todas las partes que se comuniquen, y que el conocimiento representado esté compuesto por una serie de individuos o instancias de esos conceptos y relaciones.

### [Installing OWLReady2 library](http://pythonhosted.org/Owlready2/index.html)

In [None]:
!pip install owlready2

In [None]:
from owlready2 import *

In [None]:
%pwd

In [None]:
%cd ./ontology_repository

### [rNews](http://dev.iptc.org/rNews-1-Introduction-to-rNews)

Esta ontología fue creada por *IPTC* junto a un consorcio de las principales agencias de noticias del mundo, junto a los principales medios de comunicación como la *BBC*, el *NY Times*, o incluso *Google*.
La idea es de disponer de un conjunto de conceptos y relaciones básicas para poder representar toda la información de una noticia.

<img src="http://dev.iptc.org/files/rNews-1-Introduction-to-rNews/rnews_1_2-w810.png"/>

Para poder conocer mejor la ontología, además de consultar la documentación que podéis encontrar a partir de la web indicada arriba, podéis utilizar **Protégé**:
   * Abrid esta aplicación.
   * En el panel de abajo elegid `Direct imports`.
   * Elegid la opción `Import an ontology contained in a document located in the web`.
   * En la `URI`poned: http://dev.iptc.org/files/rNews/rnews_1.0_draft3_rdfxml.owl

![Protege_importar_onto.png](attachment:Protege_importar_onto.png)

Esto permite importar la ontología **rNews** y poder consultar cómo está estructurada (clases, propiedades, ...), permitiendo ver cómo podemos estructurar nuestras noticias para representarlas usando dicha ontología.

**Visualizacion de Ontologias**

Con el fin de poder visualizar las estructuras de nuestras ontologias, las web llamada [WebOWL](http://vowl.visualdataweb.org/webvowl.html). WebVOWL es una aplicación web para la visualización interactiva de ontologías. Implementa la Notación Visual para Ontologías OWL (VOWL) proporcionando representaciones gráficas para elementos del Lenguaje de Ontología Web (OWL) que se combinan en un diseño gráfico dirigido por la fuerza que representa la ontología. Las técnicas de interacción permiten explorar la ontología y personalizar la visualización. Las visualizaciones del OWL se generan automáticamente a partir de los archivos JSON en los que las ontologías deben ser convertidas. Se proporciona un convertidor OWL2VOWL basado en Java junto con WebVOWL.

[rNewsOntology](http://www.visualdataweb.de/webvowl/#iri=http://dev.iptc.org/files/rNews/rnews_1.0_draft3_rdfxml.owl#)

In [None]:
onto = get_ontology("http://dev.iptc.org/files/rNews/rnews_1.0_draft3_rdfxml.owl")

In [None]:
onto.load()

In [None]:
onto.classes()

In [None]:
for i in onto.classes():
    print(i)

In [None]:
list(onto.classes())

In [None]:
list(onto.properties())

In [None]:
list(onto.object_properties())

In [None]:
instNoticia1 = onto.NewsItem("Noticia1")

In [None]:
instN = onto.NewsItem()
print(instN.name)

In [None]:
print(instNoticia1.name)

### Valores para las `data properties`
`Data properties` son propiedades que tiene un tipo de datos en el `rango`.

In [None]:
instNoticia1.wordCount = [300]

In [None]:
instNoticia1.headline = ["Titular de la noticia"]

In [None]:
for i in onto.NewsItem.instances():
    print(i)

In [None]:
instNoticia1.get_properties()

In [None]:
instNoticia1.headline

In [None]:
for prop in onto.Noticia1.get_properties():
    for value in prop[onto.Noticia1]:
        print(".%s == %s" % (prop.python_name, value))

| Ejercicio 2 |
| -----------:|
| Dada la estructura de la fuente RSS "El País", obtenida al comienzo de este boletín, indica la equivalencia entre cada una de las claves obtenidas y las instancias, conceptos y propiedades de ***rNews***. |

| Ejercicio 3 |
| -----------: |
| Crear una función que permita a partir de una lista con direcciones de RSS, generar las instancias de *rNews* oportunas para representar las noticias encontradas en dichas RSS. |

In [None]:
def Ejercicio3( lista_rss, onto ):
    dict_news = lista_rss_a_dict_noticias(lista_rss)
        
    for ent in dict_news['entries'][0]:
        inst = onto.NewsItem()
        
        lista_k = ent.keys()
        
        if 'link' in lista_k:
            inst.url.append(ent['link'])
        
        if 'title' in lista_k:
            inst.headline.append(ent['title'])
            
        if 'content' in lista_k:
            ### print("- Content: ", ent['content'])
            inst.articleBody.append(ent['content'][0]['value'])
            
        if 'author' in lista_k:
            insP = onto.search(is_a=onto.Person)
            existe = 0
            for i in insP:
                if i.name == ent['author']:
                    inst.creator.append(i)
                    existe = 1
            if (existe == 0):
                inst_aut = onto.Person()
                inst_aut.name = ent['author']
                inst.creator.append(inst_aut) 

In [None]:
dict_news = lista_rss_a_dict_noticias(lista_urls)
dict_news

In [None]:
print(lista_urls)
Ejercicio3(lista_urls, onto)

In [None]:
for ins in onto.NewsItem.instances():
    print(ins.headline)

| Ejercicio 4 |
| -----------: |
| Probad la función anterior pasándole una lista con 3 direcciones de RSS de tres periódicos españoles distintos.|

In [None]:
lista_urls = ["https://www.lasprovincias.es/rss/2.0/?section=ultima-hora", "https://www.levante-emv.com/rss/section/4762", "https://e00-marca.uecdn.es/rss/baloncesto/acb.xml"]

Ejercicio3(lista_urls, onto)