# 2.1 - RSS

$$$$

![rss](images/rss.png)



RSS son las siglas de **Really Simple Syndication**, un formato XML para distribuir contenido en la web. Se utiliza para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos. El formato permite distribuir contenidos sin necesidad de un navegador, utilizando programas llamados agregadores de noticias, diseñados para leer contenidos RSS. A pesar de eso, es posible utilizar el mismo navegador para ver los contenidos RSS. Las últimas versiones de los principales navegadores permiten leer los RSS sin necesidad de programas adicionales. RSS es parte de la familia de los formatos XML, desarrollado específicamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la información y usarla en otros sitios web o programas. A esto se le conoce como redifusión web o sindicación web .


En el archivo RSS simplemente están los datos de las novedades del sitio, como el título, fecha de publicación o la descripción. El programa que lea el RSS será encargado de darle estilo o apariencia a los datos que se incluyan en el archivo y presentarlos de una manera atractiva al usuario y de fácil lectura.

Que RSS sea un formato basado en XML significa que el archivo RSS se compone por una serie de etiquetas definidas que tendrán un formato dado, y que respetará las reglas generales de XML. Este archivo normalmente es nombrado index.xml y se encuentra ubicado en la página principal.

Vale aclarar que RSS no es un protocolo, dado que no contempla parámetros de ningún tipo. No es posible definir mediante una consulta un criterio de búsqueda. 


## Trabajando con RSS

Normalmente, el feed del RSS corresponde a un archivo con la extensión .rss. Tenemos una herramienta perfecta para manejar ese tipo de feed.

In [None]:
%pip install feedparser

In [1]:
import feedparser

### [Reddit](https://www.reddit.com/r/news/.rss) RSS

Para extraer el contenido, tan solo pasamos la url del RSS al feedparser.

In [2]:
reddit = feedparser.parse('https://www.reddit.com/r/news/.rss')

In [4]:
type(reddit)

feedparser.util.FeedParserDict

In [5]:
reddit.keys()

dict_keys(['bozo', 'entries', 'feed', 'headers', 'href', 'status', 'encoding', 'version', 'namespaces'])

In [8]:
reddit['entries'][0].keys()

dict_keys(['authors', 'author_detail', 'href', 'author', 'tags', 'content', 'summary', 'id', 'guidislink', 'link', 'links', 'updated', 'updated_parsed', 'published', 'published_parsed', 'title', 'title_detail'])

In [9]:
reddit['entries'][0]['content']

[{'type': 'text/html',
  'language': None,
  'base': 'https://www.reddit.com/r/news/.rss',
  'value': '&#32; submitted by &#32; <a href="https://www.reddit.com/user/Aaron_757_"> /u/Aaron_757_ </a> <br /> <span><a href="https://www.cnn.com/2023/10/30/middleeast/shani-louk-dead-israel-intl/index.html">[link]</a></span> &#32; <span><a href="https://www.reddit.com/r/news/comments/17k7erx/shani_louk_23yearold_kidnapped_from_music/">[comments]</a></span>'}]

### [Nasa](https://www.nasa.gov/content/nasa-rss-feeds) RSS

In [10]:
nasa = feedparser.parse('https://www.nasa.gov/feeds/iotd-feed/')

In [11]:
nasa.keys()

dict_keys(['bozo', 'entries', 'feed', 'headers', 'etag', 'updated', 'updated_parsed', 'href', 'status', 'encoding', 'version', 'namespaces'])

In [17]:
nasa['entries'][0]['links'][-1]['href']

'https://www.nasa.gov/wp-content/uploads/2023/10/iss070e000959-lrg.jpg'

In [18]:
url = nasa['entries'][0]['links'][-1]['href']

In [19]:
from IPython.display import Image

display(Image(url=url))

### [ForexLive](https://www.forexlive.com/rss) RSS

In [20]:
crypto = feedparser.parse('https://www.forexlive.com/feed/forexorders')

In [21]:
crypto.keys()

dict_keys(['bozo', 'entries', 'feed', 'headers', 'etag', 'href', 'status', 'encoding', 'version', 'namespaces'])

In [22]:
crypto['entries'][0]

{'title': 'FX option expiries for 31 October 10am New York cut',
 'title_detail': {'type': 'text/plain',
  'language': None,
  'base': 'https://www.forexlive.com/feed/forexorders',
  'value': 'FX option expiries for 31 October 10am New York cut'},
 'comments': 'https://www.forexlive.com/Orders/fx-option-expiries-for-31-october-10am-new-york-cut-20231031/#respond',
 'published': 'Tue, 31 Oct 2023 07:34:39 GMT',
 'published_parsed': time.struct_time(tm_year=2023, tm_mon=10, tm_mday=31, tm_hour=7, tm_min=34, tm_sec=39, tm_wday=1, tm_yday=304, tm_isdst=0),
 'authors': [{'name': 'Justin Low'}, {'name': 'www.forexlive.com'}],
 'author': 'www.forexlive.com',
 'author_detail': {'name': 'Justin Low'},
 'tags': [{'term': 'Forex Orders', 'scheme': None, 'label': None}],
 'id': 'https://www.forexlive.com/Orders/fx-option-expiries-for-31-october-10am-new-york-cut-20231031/',
 'guidislink': True,
 'link': 'https://www.forexlive.com/Orders/fx-option-expiries-for-31-october-10am-new-york-cut-20231031/

### [Unam](http://www.ssn.unam.mx) RSS

A veces el RSS viene directamente en formato .xml

Veremos como tratarlo.

In [None]:
%pip install xmltodict

In [23]:
import requests as req

import xmltodict

In [25]:
url = 'http://www.ssn.unam.mx/rss/ultimos-sismos.xml'

In [29]:
data = req.get(url).text

unam = xmltodict.parse(data)

In [32]:
unam['rss'].keys()

dict_keys(['@version', '@xmlns:geo', 'channel'])

In [37]:
unam['rss']['channel']['item'][0]

{'title': '4.0, 41 km al SURESTE de  SAN MARCOS, GRO',
 'description': '<p>Fecha:2023-10-30 16:45:45 (Hora de M&eacute;xico)<br/>Lat/Lon: 16.46/-99.23<br/>Profundidad: 11.4 km </p>',
 'link': 'http://www2.ssn.unam.mx:8080/jsp/localizacion-de-sismo.jsp?latitud=16.46&longitud=-99.23&prf=11.4 km&ma=4.0&fecha=2023-10-30&hora=16:45:45&loc=41 km al SURESTE de  SAN MARCOS, GRO &evento=1',
 'geo:lat': '16.46',
 'geo:long': '-99.23'}

In [38]:
len(unam['rss']['channel']['item'])

15

También podemos pasar los datos a un dataframe:

In [39]:
import pandas as pd

In [40]:
pd.DataFrame(unam['rss']['channel']['item'])

Unnamed: 0,title,description,link,geo:lat,geo:long
0,"4.0, 41 km al SURESTE de SAN MARCOS, GRO",<p>Fecha:2023-10-30 16:45:45 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,16.46,-99.23
1,"3.0, 92 km al SURESTE de RODOLFO SANCHEZ T(MR...",<p>Fecha:2023-10-30 16:39:01 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,31.51,-115.64
2,"3.7, 24 km al SUR de TONALA, CHIS",<p>Fecha:2023-10-30 16:24:24 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,15.88,-93.79
3,"3.5, 31 km al ESTE de CIENEGA DE FLORES, NL",<p>Fecha:2023-10-30 15:59:02 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,26.02,-99.87
4,"3.3, 17 km al ESTE de TECOMAN, COL",<p>Fecha:2023-10-30 15:55:15 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,18.93,-103.71
5,"3.4, 67 km al NORESTE de UNION HIDALGO, OAX",<p>Fecha:2023-10-30 15:54:03 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,16.87,-94.35
6,"3.3, 80 km al SUROESTE de COALCOMAN, MICH",<p>Fecha:2023-10-30 15:29:01 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,18.08,-103.37
7,"3.8, 87 km al SURESTE de SALINA CRUZ, OAX",<p>Fecha:2023-10-30 14:16:51 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,15.46,-94.87
8,"3.8, 8 km al ESTE de S PEDRO POCHUTLA, OAX",<p>Fecha:2023-10-30 13:44:04 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,15.75,-96.39
9,"3.8, 78 km al SUR de COALCOMAN, MICH",<p>Fecha:2023-10-30 13:24:04 (Hora de M&eacute...,http://www2.ssn.unam.mx:8080/jsp/localizacion-...,18.09,-103.33


Como vemos, los datos no están organizados como nos gustaría. Procedemos a un ejemplo de transformación de los datos.



**Ejemplo Extraer-Transformar de manera funcional:**

In [41]:
# funcion para extraer el dictio del xml


def get_xml():
    
    url = 'http://www.ssn.unam.mx/rss/ultimos-sismos.xml'
    
    data = req.get(url).text
    
    unam = xmltodict.parse(data)
    
    return unam

In [43]:
link = 'http://www2.ssn.unam.mx:8080/jsp/localizacion-de-sismo.jsp?latitud=16.46&longitud=-99.23&prf=11.4 km&ma=4.0&fecha=2023-10-30&hora=16:45:45&loc=41 km al SURESTE de  SAN MARCOS, GRO &evento=1'

In [48]:
link.split('?')[1].split('&')[:-1]

['latitud=16.46',
 'longitud=-99.23',
 'prf=11.4 km',
 'ma=4.0',
 'fecha=2023-10-30',
 'hora=16:45:45',
 'loc=41 km al SURESTE de  SAN MARCOS, GRO ']

In [50]:
def get_clean_data():
    
    dictio = get_xml()
    
    
    # limpieza de datos
    res = []
    
    for item in dictio['rss']['channel']['item']:
        
        link = item['link']
        
        # link roto por el simbolo ? y luego por &
        raw_data = link.split('?')[1].split('&')[:-1]
        
        # queda una lista de listas con k,v
        raw_data = [e.split('=') for e in raw_data]
        
        data = {k:v for k,v in raw_data}
        
        res.append(data)
        
        
    return res
        

In [52]:
sismo = pd.DataFrame(get_clean_data())

In [58]:
string = '11.4 km'

float(string.split()[0])

11.4

In [54]:
sismo.prf = sismo.prf.apply(lambda x: float(x.split()[0]))

In [55]:
sismo

Unnamed: 0,latitud,longitud,prf,ma,fecha,hora,loc
0,16.46,-99.23,11.4,4.0,2023-10-30,16:45:45,"41 km al SURESTE de SAN MARCOS, GRO"
1,31.51,-115.64,12.5,3.0,2023-10-30,16:39:01,"92 km al SURESTE de RODOLFO SANCHEZ T(MRO), BC"
2,15.88,-93.79,98.1,3.7,2023-10-30,16:24:24,"24 km al SUR de TONALA, CHIS"
3,26.02,-99.87,5.0,3.5,2023-10-30,15:59:02,"31 km al ESTE de CIENEGA DE FLORES, NL"
4,18.93,-103.71,14.7,3.3,2023-10-30,15:55:15,"17 km al ESTE de TECOMAN, COL"
5,16.87,-94.35,124.4,3.4,2023-10-30,15:54:03,"67 km al NORESTE de UNION HIDALGO, OAX"
6,18.08,-103.37,6.4,3.3,2023-10-30,15:29:01,"80 km al SUROESTE de COALCOMAN, MICH"
7,15.46,-94.87,10.0,3.8,2023-10-30,14:16:51,"87 km al SURESTE de SALINA CRUZ, OAX"
8,15.75,-96.39,39.2,3.8,2023-10-30,13:44:04,"8 km al ESTE de S PEDRO POCHUTLA, OAX"
9,18.09,-103.33,9.4,3.8,2023-10-30,13:24:04,"78 km al SUR de COALCOMAN, MICH"


In [59]:
get_clean_data()

[{'latitud': '16.46',
  'longitud': '-99.23',
  'prf': '11.4 km',
  'ma': '4.0',
  'fecha': '2023-10-30',
  'hora': '16:45:45',
  'loc': '41 km al SURESTE de  SAN MARCOS, GRO '},
 {'latitud': '31.51',
  'longitud': '-115.64',
  'prf': '12.5 km',
  'ma': '3.0',
  'fecha': '2023-10-30',
  'hora': '16:39:01',
  'loc': '92 km al SURESTE de  RODOLFO SANCHEZ T(MRO), BC '},
 {'latitud': '15.88',
  'longitud': '-93.79',
  'prf': '98.1 km',
  'ma': '3.7',
  'fecha': '2023-10-30',
  'hora': '16:24:24',
  'loc': '24 km al SUR de  TONALA, CHIS '},
 {'latitud': '26.02',
  'longitud': '-99.87',
  'prf': '5.0 km',
  'ma': '3.5',
  'fecha': '2023-10-30',
  'hora': '15:59:02',
  'loc': '31 km al ESTE de  CIENEGA DE FLORES, NL '},
 {'latitud': '18.93',
  'longitud': '-103.71',
  'prf': '14.7 km',
  'ma': '3.3',
  'fecha': '2023-10-30',
  'hora': '15:55:15',
  'loc': '17 km al ESTE de  TECOMAN, COL '},
 {'latitud': '16.87',
  'longitud': '-94.35',
  'prf': '124.4 km',
  'ma': '3.4',
  'fecha': '2023-10-3