### **Práctica Modulo 4**
============================
Adquisición de datos en Python
--------------------------------------



---

---

### Ejercicio 1


La librería Tweepy nos permite interactuar con la API de Twitter de una forma sencilla.  Utilizando la librería Tweepy, recuperad la descripción, la fecha de creación y localización de vuestra cuenta de Twitter.  Si lo preferís, podéis obtener dicha información de la cuenta del usuario de Twitter de la Python Software Foundation, `ThePSF`( en vez de utilizar vuestra cuenta). 

**Nota**: Necesitáis las claves ***Consumer API keys y Access token & acces token secret***.  Para obtener las claves, seguid las indicaciones que encontraréis en el Notebook de esta unidad.  Podéis utilizar el código presente en el Notebook, adaptándolo para resolver el ejercicio. 

**Respuesta**

### Ejercicio 2

Implementad un conjunto de funciones para obtener la **secuencia de ADN** del organismo *Homo sapiens* del cromosoma 1 (**chr1**) desde la posición 100000 hasta 101000 para la referencia **hg19**.  Para realizar el ejercicio utilizad la API de [UCSC](https://genome.ucsc.edu/goldenPath/help/api.html). 

**Nota**: El genoma de referencia de una célula es un repositorio de secuencias de ADN ( ácido desoxirribonucleico) empaquetado en forma de cromosoma. El ADN es un ácido nucleico que contiene la información genética que dirige el desarrollo y el funcionamiento de todos los seres vivos. El ADN se puede entender como una secuencia de nucleótidos (A, C, T y G) de una determinada longitud.  Este material hereditario codifica los genes que, una vez descifrados, son indispensables para la síntesis de las proteínas. 

Un genoma de referencia es la representación de la secuencia de ADN del genoma de una especie.  En el caso del organismo *Homo sapiens*, existen diferentes versiones del genoma de referencia.  La última versión, hg38, se publicó en el 2014 y es la más detallada y precisa.

UCSC es un navegador de la Universidad de Santa Cruz de California que ofrece acceso a secuencias genómicas y su correspondiente anotación (genes, mRNAs, CpG,…) de una gran variedad de organismos, vertebrados e invertebrados. 

Referencia: [Genómica Computacional](http://discovery.uoc.edu/iii/encore/record/C__Rb1046448__Sgenomica%20Computacional__Orightresult__U__X7?lang=cat&suite=def). Enrique Blanco. Barcelona, Universitat Oberta de Catalunya, 2011.

**Importante**: No es necesario entender toda la información que podéis obtener a través de la API de UCSC. Fijaros bien con lo que os pide el enunciado ( prestad atención a la palabras clave en negrita), y revisad los ejemplos de acceso a los datos que hay en la web de [UCSC](https://genome.ucsc.edu/goldenPath/help/api.html).


**Respuesta**

In [29]:
# api.genome.ucsc.edu/getData/track?genome=hg19;track=knownGene;chrom=chr1;start=4321;end=5678
# api.genome.ucsc.edu/getData/sequence?hubUrl=http://hgdownload.soe.ucsc.edu/hubs/mouseStrains/hub.txt;genome=CAST_EiJ;chrom=chr1;start=4321;end=5678
import json
import requests

def getADNConLongitud(chrom, ref, startPosition, finalPosition ):
  base_url = "http://api.genome.ucsc.edu/getData/sequence?genome=%s;chrom=%s;start=%s;end=%s"
  #base_url = "http://api.genome.ucsc.edu/getData/track?genome=%s;track=knownGene;chrom=%s;start=%s;end=%s"
  response = requests.get(base_url % (ref, chrom, startPosition, finalPosition))
  
  if(response.status_code == 200):
    data = response.json()
    print(data)
    return data
  else: 
    raise Exception("No ha sido posible obtenerlo")

chrom = "chr1"
ref = "hg19"
startPosition = "100000"
finalPosition = "101000"
dataGet = getADNConLongitud(chrom,ref,startPosition, finalPosition)
print(dataGet['dna'])

2020-04-01 11:23:13 [urllib3.connectionpool] DEBUG: Starting new HTTP connection (1): api.genome.ucsc.edu:80
2020-04-01 11:23:13 [urllib3.connectionpool] DEBUG: http://api.genome.ucsc.edu:80 "GET /getData/sequence?genome=hg19;chrom=chr1;start=100000;end=101000 HTTP/1.1" 200 506


{'downloadTime': '2020:04:01T11:23:13Z', 'downloadTimeStamp': 1585740193, 'genome': 'hg19', 'chrom': 'chr1', 'start': 100000, 'end': 101000, 'dna': 'actaagcacacagagaataatgtctagaatctgagtgccatgttatcaaattgtactgagactcttgcagtcacacaggctgacatgtaagcatcgccatgcctagtacagactctccctgcagatgaaattatatgggatgctaaattataatgagaacaatgtttggtgagccaaaactacaacaagggaagctaattggatgaatttataaaaatatgcctcagccaaaatagcttaattcactctcccttatcataaggataatcttgcctaaagggacagtaatattAAAGACACTAGGAATAACCTCTGTACTTTGGACAGTAGACCTGCATAGCCCattaggcctcaatgaagtcttatgcaagaccagaagccaatttgccatttaaggtgattctccatgtttctgctctaaCTGTGCTTCACAATACTCAAAACACTAAATCAGGATGTTTCCTGGAGTTCAGGGAGCTGTCCGTGTTACTGAGCAGTTCTCAGCAACACAAAGATCCTACTGACTCCTCATCAGACTTCTTTCTCACTGGAATTTTACACCTGGGCTGTTAACACCAGGCCAGGTCAAATTCAAAGGAGAGAAAAAAGCTCATTATGAAGGGTAAAATCCAAAACACTGTGCATAAAGATATGGCACAATTTTTATACATAAAGATTTCATAAAACCAAAGCATCAGGAAATGAAAAGAGATACAGAAAGAAAAATGATGGTAAATGAGACATTAATTTACCCTTCTAATCTCTATCACAGCAAAAAGATAATTAAAAAATCTATATGAGGACCACAAAATACACAAAAATTATGTAGCAAAGCCTATAGCCTGAAAAAG

### Ejercicio 3

Dada la API de UCSC del ejercicio anterior, obtened la longitud del chr1 del organismo *Homo sapiens* según la versión del genoma de referencia hg19.  Calculad la diferencia entre la longitud del cromosoma chr1 entre las versiones hg19 y hg18. 

**Respuesta**

In [36]:
def getADN(chrom, ref):
  base_url = "http://api.genome.ucsc.edu/getData/sequence?genome=%s;chrom=%s"
  response = requests.get(base_url % (ref, chrom))
  
  if(response.status_code == 200):
    data = response.json()
    return data
  else: 
    raise Exception("No ha sido posible obtenerlo")

chrom = "chr1"
ref = "hg19"
dataGet19 = getADN(chrom,ref)
len19= len(dataGet19['dna'])

ref = "hg18"
dataGet18 = getADN(chrom,ref)
len18= len(dataGet18['dna'])

diferencia = abs(len19-len18)
print("Longitud del hg19:", len19, "Longitud del hg18:", len18, "Diferencia entre ambos:", diferencia)


2020-04-01 11:31:20 [urllib3.connectionpool] DEBUG: Starting new HTTP connection (1): api.genome.ucsc.edu:80
2020-04-01 11:31:48 [urllib3.connectionpool] DEBUG: http://api.genome.ucsc.edu:80 "GET /getData/sequence?genome=hg19;chrom=chr1 HTTP/1.1" 200 None
2020-04-01 11:32:32 [urllib3.connectionpool] DEBUG: Starting new HTTP connection (1): api.genome.ucsc.edu:80
2020-04-01 11:33:00 [urllib3.connectionpool] DEBUG: http://api.genome.ucsc.edu:80 "GET /getData/sequence?genome=hg18;chrom=chr1 HTTP/1.1" 200 None


Longitud del hg19: 249250621 Longitud del hg18: 247249719 Diferencia entre ambos: 2000902


### Ejercicio 4

La [NASA](https://www.nasa.gov) mediante su [API](https://api.nasa.gov) publica cada día una imagen de astronomía.  Implementad una función para descargar y visualizar la imagen dentro del notebook. 

**Respuesta**

In [0]:
#d99BzUajqT3alq13DOWGRk9Kg5xKeSIKk2zST3xE
#https://api.nasa.gov/planetary/apod? api_key = d99BzUajqT3alq13DOWGRk9Kg5xKeSIKk2zST3xE
import json
import requests 

def getImagen(api_key):
  base_url = "https://api.nasa.gov/planetary/apod?api_key=%s"
  response = requests.get(base_url % (api_key))
  if (response.status_code == 200):
    data = response.json()
    url = data["url"]

    if data["media_type"]=="image":
      with open("apod.jpg","wb") as f: 
        f.write(requests.get(url).content)
    else:
      print(url)
  else: print("No se puede obtener la imagen")

api_key = "d99BzUajqT3alq13DOWGRk9Kg5xKeSIKk2zST3xE"
getImagen(api_key)





### Ejercicio 5

[Scimago Journal](https://www.scimagojr.com/journalrank.php) es una web para consultar la información de las principales revistas de la comunidad científica. Programad un crawler que devuelva una tupla con el código y la área de todas las revistas que se muestran en la web.  Utilizad la estructura de crawler que hemos visto en el Notebook de esta unidad modificando únicamente dos líneas de código:

- URL de inicio.
- La expresión XPath que selecciona el contenido a capturar.

**Nota**: si la ejecución del _crawler_ os devuelve un error `ReactorNotRestartable`, reiniciad el núcleo del Notebook (en el menú: `Kernel` - `Restart`). 

**Respuesta**

In [2]:
pip install scrapy

Collecting scrapy
[?25l  Downloading https://files.pythonhosted.org/packages/e0/b7/06c19d7d7f5318ffd1d31d7cd7d944ed9dcf773981c731285350961d9b5c/Scrapy-2.0.1-py2.py3-none-any.whl (242kB)
[K     |████████████████████████████████| 245kB 4.1MB/s 
[?25hCollecting pyOpenSSL>=16.2.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/de/f8342b68fa9e981d348039954657bdf681b2ab93de27443be51865ffa310/pyOpenSSL-19.1.0-py2.py3-none-any.whl (53kB)
[K     |████████████████████████████████| 61kB 5.3MB/s 
[?25hCollecting Twisted>=17.9.0
[?25l  Downloading https://files.pythonhosted.org/packages/b7/04/1a664c9e5ec0224a1c1a154ddecaa4dc7b8967521bba225efcc41a03d5f3/Twisted-20.3.0-cp36-cp36m-manylinux1_x86_64.whl (3.1MB)
[K     |████████████████████████████████| 3.1MB 6.0MB/s 
[?25hCollecting cryptography>=2.0
[?25l  Downloading https://files.pythonhosted.org/packages/ca/9a/7cece52c46546e214e10811b36b2da52ce1ea7fa203203a629b8dfadad53/cryptography-2.8-cp34-abi3-manylinux2010_x86_64.whl (2.

In [3]:
import scrapy
from scrapy.crawler import CrawlerProcess

#Creamos la araña
class spiderJournals(scrapy.Spider):

  name = "spiderJournals" # Nombre de la araña
  start_urls = ["https://www.scimagojr.com/journalrank.php"] # Indicamos la url

  #Definimos el analizador: 
  def parse(self, response): 
    # Devolver una tupla con el código y la área de todas las revistas que se muestran en la web
    for journal in response.xpath('//a[@class="dropdown-element"]/@data-code'):
      #'//a[@class="card-absolute-link"]/@title'
      yield{  # yield es cómo un return
          'code': journal.extract()
          #FALTARÍA EXTRAER EL ÁREA
      }

if __name__ == "__main__":

    # Creamos un crawler.
    process = CrawlerProcess({
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'DOWNLOAD_HANDLERS': {'s3': None},
        'LOG_ENABLED': True
    })

    # Inicializamos el crawler con nuestra araña.
    process.crawl(spiderJournals)
    
    # Lanzamos la araña.
    process.start()

2020-04-01 10:46:22 [scrapy.utils.log] INFO: Scrapy 2.0.1 started (bot: scrapybot)
2020-04-01 10:46:22 [scrapy.utils.log] INFO: Versions: lxml 4.2.6.0, libxml2 2.9.8, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 20.3.0, Python 3.6.9 (default, Nov  7 2019, 10:44:02) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.8, Platform Linux-4.14.137+-x86_64-with-Ubuntu-18.04-bionic
2020-04-01 10:46:22 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-04-01 10:46:22 [scrapy.crawler] INFO: Overridden settings:
{'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
2020-04-01 10:46:22 [scrapy.extensions.telnet] INFO: Telnet Password: 00c6bbccd1f9bad8
2020-04-01 10:46:22 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2020-04-01 10:46:22 [scrapy.mi

### Ejercicio 6

Queremos conocer la Agenda de actos de  la Anella Olímpica de la ciudad de Barcelona.  Imprimid por pantalla el nombre del grupo o cantante que celebrará un concierto en la Anella Olímpica durante el año 2020.  Para realizar el ejercicio, consultad el portal de datos abiertos del Ayuntamiento de Barcelona mediante la siguiente [url](https://opendata-ajuntament.barcelona.cat/es/).  Primero tenéis que identificar qué métode utilizar para descargar los datos. Seguidamente, descargad los datos y procesarlos para responder la pregunta. 


**Respuesta**

In [35]:
import json 
import requests

def getAgendaActos():
  base_url = 'https://opendata-ajuntament.barcelona.cat/data/es/dataset/actes-anella/resource/d330f548-c21a-4186-a650-ab7cc508b152/download/recurs.json'
  response = requests.get(base_url , headers={'Authorization':'access_token 1679cb1298e7d0b47c6e1824a2d2d590021de90eec2eea31de0824fe8f7a1fa3'})
  
  #request.add_header('Authorization', '1679cb1298e7d0b47c6e1824a2d2d590021de90eec2eea31de0824fe8f7a1fa3')
  if(response.status_code == 200):
    data = response.json()
    print(data)
    return data
    #No sé cómo pillar los cantantes :(
  else:
    raise Exception("No ha sido posible obtenerlo")


datos = getAgendaActos()

2020-04-01 11:26:49 [urllib3.connectionpool] DEBUG: Starting new HTTPS connection (1): opendata-ajuntament.barcelona.cat:443
2020-04-01 11:26:49 [urllib3.connectionpool] DEBUG: https://opendata-ajuntament.barcelona.cat:443 "GET /data/es/dataset/actes-anella/resource/d330f548-c21a-4186-a650-ab7cc508b152/download/recurs.json HTTP/1.1" 302 481
2020-04-01 11:26:50 [urllib3.connectionpool] DEBUG: https://opendata-ajuntament.barcelona.cat:443 "GET /tokens?resource_id=d330f548-c21a-4186-a650-ab7cc508b152&package_id=50f2bc1f-7066-465a-a530-1e59c4ac17a4 HTTP/1.1" 200 8161


JSONDecodeError: ignored

# Ejercicio 7

Modificad la función del ejercicio 5 para obtener las 10 primeras revistas asociadas en la área Computer Science del 2017.

**Respuesta**

In [0]:
# No he sabido coger las áreas en el 5 :(