# Adquisión de datos `DIRECTO`

- [X] descarga directa
- petición GET a través de API de terceros (ej. AEMET, Ayto. Barcelona....)
- web crawling (que es una práctica ilegal...pero muy de moda entre los hackers!?¿!)

***
## Primer paso
Es trabajar con los datos en formato `JSON`

In [1]:
# Primero vamos a entender el funcionamiento del JSON a tráves los diccionarios (dict)

# Construimos un diccionario de ejemplo y mostramos el tipo de datos y el contenido de la variable.
diccionario_ejemplo = {"nombre": "Yann", "apellidos": {"apellido1": "LeCun", "apellido2": "-"}, "edad": 56}
print(type(diccionario_ejemplo))
print(diccionario_ejemplo)

# Construimos una lista de ejemplo y mostramos el tipo de datos y el contenido de la variable.
lista_ejemplo = [1, 2, 3]
print(type(lista_ejemplo))
print(lista_ejemplo)

<class 'dict'>
{'nombre': 'Yann', 'apellidos': {'apellido1': 'LeCun', 'apellido2': '-'}, 'edad': 56}
<class 'list'>
[1, 2, 3]


In [5]:
nested_dict = [diccionario_ejemplo]
nested_dict
print(type(nested_dict))

<class 'list'>


In [8]:
nested_dict

[{'nombre': 'Yann',
  'apellidos': {'apellido1': 'LeCun', 'apellido2': '-'},
  'edad': 56}]

In [9]:
type(nested_dict[0])

dict

In [10]:
# Trataremos los json a parte
import json

# Mostramos la representación del json del diccionario
json_dict = json.dumps(diccionario_ejemplo)

In [12]:
# Mostramos su estructura
print(type(json_dict))
print(json_dict)

<class 'str'>
{"nombre": "Yann", "apellidos": {"apellido1": "LeCun", "apellido2": "-"}, "edad": 56}


In [13]:
# Mostramos la representación del json de la lista
json_list = json.dumps(lista_ejemplo)

In [14]:
print(type(json_list))
print(json_list)

<class 'str'>
[1, 2, 3]


Este proceso a través de la función `json.dumps` del json, es **serializar** el objeto, en este caso siempre será en formato 'string'.

***
El proceso inverso conocido como **deserializar** crea objetos Python en `list`y `dict` a través de la función `json.loads`

In [16]:
# Como el caso anterior convertimos los JSONs en dict y list
json2dict = json.loads(json_dict)
print(json2dict)
print(type(json2dict))

{'nombre': 'Yann', 'apellidos': {'apellido1': 'LeCun', 'apellido2': '-'}, 'edad': 56}
<class 'dict'>


In [18]:
# No podemos convertir a json datos en lista o diccionarios, tienen que ser en formato o class STR, BYTES o BYTEARRAY
json2dict_2 = json.loads(nested_dict)

TypeError: the JSON object must be str, bytes or bytearray, not list

In [20]:
# Convertimos el objeto (anteriormente en lista) de json a list
json2list = json.loads(json_list)
print(json2list)
print(type(json2list))

[1, 2, 3]
<class 'list'>


***
Para mejorar la legibilidad de los datos que obtendremos de las API, definiremos una función que mostrará cadenas JSON por pantalla formateadas para mejorar la lectura. La función aceptará tanto cadenas de carácteres con contenido JSON como objetos Python, y mostrará el contenido por pantalla.

Además, la función recibirá un parámetro opcional que nos permitirá indicar el número máximo de líneas que hay que mostrar. Así, podremos usar la función para visualizar las primeras líneas de un JSON largo, sin tener que mostrar el JSON completo por pantalla.

In [56]:
# Definimos una función `json_print` que tiene un parámetro (json_data) y uno opcional (limit)
# El parámetro sort_keys FALSE para ordenar o no alfabeticamente
# el parámetro indent para buscar entre los anidados (niveles)
def json_print(json_data, limit=None):
    if isinstance(json_data, (str)):
        json_data = json.loads(json_data)
    nice = json.dumps(json_data, sort_keys=False, indent=3, separators=(',',':'))
    print("\n".join(nice.split("\n")[0:limit]))
    if limit is not None:
        print("[....]")

In [33]:
# Aplicamos la función a un tweet
tweet = {
  "created_at": "Thu Apr 06 15:24:15 +0000 2017",
  "id_str": "850006245121695744",
  "text": "1\/ Today we\u2019re sharing our vision for the future of the Twitter API platform!\nhttps:\/\/t.co\/XweGngmxlP",
  "user": {
    "id": 2244994945,
    "name": "Twitter Dev",
    "screen_name": "TwitterDev",
    "location": "Internet",
    "url": "https:\/\/dev.twitter.com\/",
    "description": "Your official source for Twitter Platform news, updates & events. Need technical help? Visit https:\/\/twittercommunity.com\/ \u2328\ufe0f #TapIntoTwitter"
  },
  "place": {   
  },
  "entities": {
    "hashtags": [      
    ],
    "urls": [
      {
        "url": "https:\/\/t.co\/XweGngmxlP",
        "unwound": {
          "url": "https:\/\/cards.twitter.com\/cards\/18ce53wgo4h\/3xo1c",
          "title": "Building the Future of the Twitter API Platform"
        }
      }
    ],
    "user_mentions": [     
    ]
  }
}

In [34]:
tweet

{'created_at': 'Thu Apr 06 15:24:15 +0000 2017',
 'id_str': '850006245121695744',
 'text': '1\\/ Today we’re sharing our vision for the future of the Twitter API platform!\nhttps:\\/\\/t.co\\/XweGngmxlP',
 'user': {'id': 2244994945,
  'name': 'Twitter Dev',
  'screen_name': 'TwitterDev',
  'location': 'Internet',
  'url': 'https:\\/\\/dev.twitter.com\\/',
  'description': 'Your official source for Twitter Platform news, updates & events. Need technical help? Visit https:\\/\\/twittercommunity.com\\/ ⌨️ #TapIntoTwitter'},
 'place': {},
 'entities': {'hashtags': [],
  'urls': [{'url': 'https:\\/\\/t.co\\/XweGngmxlP',
    'unwound': {'url': 'https:\\/\\/cards.twitter.com\\/cards\\/18ce53wgo4h\\/3xo1c',
     'title': 'Building the Future of the Twitter API Platform'}}],
  'user_mentions': []}}

In [26]:
type(tweet)

dict

In [37]:
# Convertimos este tweet en json
json_print(tweet)

{
   "created_at":"Thu Apr 06 15:24:15 +0000 2017",
   "entities":{
      "hashtags":[],
      "urls":[
         {
            "unwound":{
               "title":"Building the Future of the Twitter API Platform",
               "url":"https:\\/\\/cards.twitter.com\\/cards\\/18ce53wgo4h\\/3xo1c"
            },
            "url":"https:\\/\\/t.co\\/XweGngmxlP"
         }
      ],
      "user_mentions":[]
   },
   "id_str":"850006245121695744",
   "place":{},
   "text":"1\\/ Today we\u2019re sharing our vision for the future of the Twitter API platform!\nhttps:\\/\\/t.co\\/XweGngmxlP",
   "user":{
      "description":"Your official source for Twitter Platform news, updates & events. Need technical help? Visit https:\\/\\/twittercommunity.com\\/ \u2328\ufe0f #TapIntoTwitter",
      "id":2244994945,
      "location":"Internet",
      "name":"Twitter Dev",
      "screen_name":"TwitterDev",
      "url":"https:\\/\\/dev.twitter.com\\/"
   }
}


In [48]:
print(json_dict)
print(type(json_dict))

{"nombre": "Yann", "apellidos": {"apellido1": "LeCun", "apellido2": "-"}, "edad": 56}
<class 'str'>


In [46]:
print(diccionario_ejemplo)

{'nombre': 'Yann', 'apellidos': {'apellido1': 'LeCun', 'apellido2': '-'}, 'edad': 56}


In [47]:
print(type(diccionario_ejemplo))

<class 'dict'>


In [44]:
json_print(diccionario_ejemplo)

{
   "apellidos":{
      "apellido1":"LeCun",
      "apellido2":"-"
   },
   "edad":56,
   "nombre":"Yann"
}


In [50]:
json_print(lista_ejemplo)

[
   1,
   2,
   3
]


In [55]:
diccionario_ejemplo

{'nombre': 'Yann',
 'apellidos': {'apellido1': 'LeCun', 'apellido2': '-'},
 'edad': 56}

In [57]:
print(type(json_print(diccionario_ejemplo, 3)))

{
   "nombre":"Yann",
   "apellidos":{
[....]
<class 'NoneType'>
