# 2.1 - RSS

$$$$

![rss](images/rss.png)



RSS son las siglas de **Really Simple Syndication**, un formato XML para distribuir contenido en la web. Se utiliza para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos. El formato permite distribuir contenidos sin necesidad de un navegador, utilizando programas llamados agregadores de noticias, diseñados para leer contenidos RSS. A pesar de eso, es posible utilizar el mismo navegador para ver los contenidos RSS. Las últimas versiones de los principales navegadores permiten leer los RSS sin necesidad de programas adicionales. RSS es parte de la familia de los formatos XML, desarrollado específicamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la información y usarla en otros sitios web o programas. A esto se le conoce como redifusión web o sindicación web .


En el archivo RSS simplemente están los datos de las novedades del sitio, como el título, fecha de publicación o la descripción. El programa que lea el RSS será encargado de darle estilo o apariencia a los datos que se incluyan en el archivo y presentarlos de una manera atractiva al usuario y de fácil lectura.

Que RSS sea un formato basado en XML significa que el archivo RSS se compone por una serie de etiquetas definidas que tendrán un formato dado, y que respetará las reglas generales de XML. Este archivo normalmente es nombrado index.xml y se encuentra ubicado en la página principal.

Vale aclarar que RSS no es un protocolo, dado que no contempla parámetros de ningún tipo. No es posible definir mediante una consulta un criterio de búsqueda. 


## Trabajando con RSS

Normalmente, el feed del RSS corresponde a un archivo con la extensión .rss. Tenemos una herramienta perfecta para manejar ese tipo de feed.

In [1]:
%pip install feedparser

Collecting feedparser
  Using cached feedparser-6.0.8-py3-none-any.whl (81 kB)
Collecting sgmllib3k
  Using cached sgmllib3k-1.0.0-py3-none-any.whl
Installing collected packages: sgmllib3k, feedparser
Successfully installed feedparser-6.0.8 sgmllib3k-1.0.0
Note: you may need to restart the kernel to use updated packages.


In [2]:
import feedparser

### Reddit RSS

Para extraer el contenido, tan solo pasamos la url del RSS al feedparser.

In [3]:
reddit=feedparser.parse('https://www.reddit.com/r/news/.rss')

In [4]:
type(reddit)

feedparser.util.FeedParserDict

In [6]:
reddit.keys()

dict_keys(['bozo', 'entries', 'feed', 'headers', 'href', 'status', 'encoding', 'version', 'namespaces'])

In [8]:
reddit['feed'].keys()

dict_keys(['tags', 'updated', 'updated_parsed', 'icon', 'id', 'guidislink', 'link', 'links', 'logo', 'subtitle', 'subtitle_detail', 'title', 'title_detail'])

In [11]:
reddit.entries[0].keys()

dict_keys(['authors', 'author_detail', 'href', 'author', 'tags', 'content', 'summary', 'id', 'guidislink', 'link', 'links', 'updated', 'updated_parsed', 'published', 'published_parsed', 'title', 'title_detail'])

In [12]:
reddit.entries[0]['content']

[{'type': 'text/html',
  'language': None,
  'base': 'https://www.reddit.com/r/news/.rss',
  'value': '&#32; submitted by &#32; <a href="https://www.reddit.com/user/ajenn22"> /u/ajenn22 </a> <br /> <span><a href="https://www.cnbc.com/2022/04/11/former-cop-who-stormed-capitol-guilty-on-all-six-counts-in-second-jan-6-jury-trial.html">[link]</a></span> &#32; <span><a href="https://www.reddit.com/r/news/comments/u1jj45/former_cop_who_stormed_capitol_guilty_on_all_six/">[comments]</a></span>'}]

### [Nasa](https://www.nasa.gov/content/nasa-rss-feeds) RSS

In [13]:
nasa=feedparser.parse('https://www.nasa.gov/rss/dyn/mission_pages/kepler/news/kepler-newsandfeatures-RSS.rss')

In [19]:
nasa['entries'][0]['links'][-1]['href']

'http://www.nasa.gov/sites/default/files/styles/1x1_cardfeed/public/thumbnails/image/exoplanet_banner_1.gif?itok=L3rCP01p'

In [20]:
from IPython.display import Image

foto_url=nasa['entries'][0]['links'][-1]['href']

display(Image(url=foto_url))

### [ForexLive](https://www.forexlive.com/rss) RSS

In [21]:
crypto=feedparser.parse('https://www.forexlive.com/feed/cryptocurrency')

In [23]:
crypto.keys()

dict_keys(['bozo', 'entries', 'feed', 'headers', 'etag', 'href', 'status', 'encoding', 'version', 'namespaces'])

In [26]:
crypto['entries'][0]

{'title': 'Bitcoin loses strength due to the stock sell-off',
 'title_detail': {'type': 'text/plain',
  'language': None,
  'base': 'https://www.forexlive.com/feed/cryptocurrency',
  'value': 'Bitcoin loses strength due to the stock sell-off'},
 'links': [{'rel': 'alternate',
   'type': 'text/html',
   'href': 'https://www.forexlive.com/Cryptocurrency/bitcoin-loses-strength-due-to-the-stock-sell-off-20220412/'}],
 'link': 'https://www.forexlive.com/Cryptocurrency/bitcoin-loses-strength-due-to-the-stock-sell-off-20220412/',
 'comments': 'https://www.forexlive.com/Cryptocurrency/bitcoin-loses-strength-due-to-the-stock-sell-off-20220412/#respond',
 'published': 'Tue, 12 Apr 2022 07:16:35 GMT',
 'published_parsed': time.struct_time(tm_year=2022, tm_mon=4, tm_mday=12, tm_hour=7, tm_min=16, tm_sec=35, tm_wday=1, tm_yday=102, tm_isdst=0),
 'authors': [{'name': 'FxPro FXPro'}],
 'author': 'FxPro FXPro',
 'author_detail': {'name': 'FxPro FXPro'},
 'tags': [{'term': 'Cryptocurrency', 'scheme': N

### [Unam](http://www.ssn.unam.mx) RSS

A veces el RSS viene directamente en formato .xml

Veremos como tratarlo.

In [27]:
%pip install xmltodict

Collecting xmltodict
  Using cached xmltodict-0.12.0-py2.py3-none-any.whl (9.2 kB)
Installing collected packages: xmltodict
Successfully installed xmltodict-0.12.0
Note: you may need to restart the kernel to use updated packages.


In [28]:
import requests as req
import xmltodict

In [30]:
url='http://www.ssn.unam.mx/rss/ultimos-sismos.xml'

data=req.get(url).content

unam=xmltodict.parse(data)

In [61]:
unam.keys()

odict_keys(['rss'])

In [63]:
unam['rss']['channel']['item'][0]['link']

'http://www2.ssn.unam.mx:8080/jsp/localizacion-de-sismo.jsp?latitud=17.11&longitud=-100.74&prf=19.0 km&ma=4.2&fecha=2022-04-12&hora=02:23:20&loc=17 km al SUROESTE de  TECPAN, GRO &evento=1'

In [40]:
len(unam['rss']['channel']['item'])

15

También podemos pasar los datos a un dataframe:

In [41]:
import pandas as pd

In [42]:
pd.DataFrame(unam['rss']['channel']['item'])

Unnamed: 0,title,description,link,geo:lat,geo:long
0,"4.2, 17 km al SUROESTE de TECPAN, GRO",<p>Fecha:2022-04-12 02:23:20 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,17.11,-100.74
1,"4.0, 8 km al NORTE de ATOYAC DE ALVAREZ, GRO",<p>Fecha:2022-04-11 19:18:23 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,17.28,-100.42
2,"4.1, 55 km al NORESTE de SANTA ROSALIA, BCS",<p>Fecha:2022-04-11 18:52:03 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,27.8,-112.07
3,"2.9, 21 km al SUROESTE de COYUCA DE BENITEZ, GRO",<p>Fecha:2022-04-11 16:51:07 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,16.96,-100.28
4,"3.6, 18 km al SURESTE de RIO GRANDE, OAX",<p>Fecha:2022-04-11 16:34:56 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,15.93,-97.29
5,"3.9, 47 km al NORESTE de CRUCECITA, OAX",<p>Fecha:2022-04-11 16:25:32 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,16.17,-96.01
6,"3.8, 48 km al ESTE de UNION HIDALGO, OAX",<p>Fecha:2022-04-11 15:56:41 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,16.57,-94.39
7,"3.6, 19 km al SUR de SALINA CRUZ, OAX",<p>Fecha:2022-04-11 15:37:13 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,16.02,-95.24
8,"3.9, 14 km al NORESTE de S BLAS ATEMPA, OAX",<p>Fecha:2022-04-11 15:06:52 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,16.44,-95.16
9,"3.8, 114 km al SUR de PUERTO PEÑASCO, SON",<p>Fecha:2022-04-11 14:58:00 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,30.31,-113.78


Como vemos, los datos no están organizados como nos gustaría. Procedemos a un ejemplo de transformación de los datos.



**Ejemplo Extraer-Transformar de manera funcional:**

In [43]:
# funcion para extraer el dict del RSS

def get_xml():
    url='http://www.ssn.unam.mx/rss/ultimos-sismos.xml'

    data=req.get(url).content

    return xmltodict.parse(data)

In [49]:
# funcion para extraer y transformar los datos

def get_clean_data():
    
    dictio=get_xml()
    
    res=[]
    
    for item in dictio['rss']['channel']['item']:
        
        link=item['link']
        
        data=link.split('?')[1].split('&')
    
        res.append({k:v for k,v in [d.split('=') for d in data]})
    
    #print(data)
    #print([d.split('=') for d in data])
    #print({k:v for k,v in [d.split('=') for d in data]})

    return res

In [46]:
a,b = 2,4

In [48]:
b

4

In [66]:
pd.DataFrame(get_clean_data())

Unnamed: 0,latitud,longitud,prf,ma,fecha,hora,loc,evento
0,17.11,-100.74,19.0 km,4.2,2022-04-12,02:23:20,"17 km al SUROESTE de TECPAN, GRO",1
1,17.28,-100.42,48.0 km,4.0,2022-04-11,19:18:23,"8 km al NORTE de ATOYAC DE ALVAREZ, GRO",1
2,27.8,-112.07,14.0 km,4.1,2022-04-11,18:52:03,"55 km al NORESTE de SANTA ROSALIA, BCS",1
3,16.96,-100.28,23.0 km,2.9,2022-04-11,16:51:07,"21 km al SUROESTE de COYUCA DE BENITEZ, GRO",1
4,15.93,-97.29,11.0 km,3.6,2022-04-11,16:34:56,"18 km al SURESTE de RIO GRANDE, OAX",1
5,16.17,-96.01,30.0 km,3.9,2022-04-11,16:25:32,"47 km al NORESTE de CRUCECITA, OAX",1
6,16.57,-94.39,8.0 km,3.8,2022-04-11,15:56:41,"48 km al ESTE de UNION HIDALGO, OAX",1
7,16.02,-95.24,9.0 km,3.6,2022-04-11,15:37:13,"19 km al SUR de SALINA CRUZ, OAX",1
8,16.44,-95.16,57.0 km,3.9,2022-04-11,15:06:52,"14 km al NORESTE de S BLAS ATEMPA, OAX",1
9,30.31,-113.78,8.0 km,3.8,2022-04-11,14:58:00,"114 km al SUR de PUERTO PEÑASCO, SON",1


In [57]:
{k:v for k, v in [d.split('=') for d in get_xml()['rss']['channel']['item'][0]['link'].split('?')[1].split('&')]}

{'latitud': '17.11',
 'longitud': '-100.74',
 'prf': '19.0 km',
 'ma': '4.2',
 'fecha': '2022-04-12',
 'hora': '02:23:20',
 'loc': '17 km al SUROESTE de  TECPAN, GRO ',
 'evento': '1'}

In [59]:
feedparser.parse(url).keys()

dict_keys(['bozo', 'entries', 'feed', 'headers', 'etag', 'updated', 'updated_parsed', 'href', 'status', 'encoding', 'version', 'namespaces'])