# Consumo de Información Usando Python

Cuando obtenemos información de Internet, tenemos dos opciones: El consumo de servicios de Internet, como APIs (Como las que usaremos para Facebook, Twitter); Pero también, cuando no hay datos para nuestro consumo, podemos siempre extraer los datos de manera programática.

## Sacando los datos a la buena, Requests

In [1]:
import requests

In [2]:
url = "http://maps.googleapis.com/maps/api/geocode/json?latlng=35.1330343,-90.0625056"
response = requests.get(url)

In [3]:
response.json()

{'results': [{'address_components': [{'long_name': '516',
     'short_name': '516',
     'types': ['street_number']},
    {'long_name': 'Tennessee Street',
     'short_name': 'Tennessee St',
     'types': ['route']},
    {'long_name': 'Downtown',
     'short_name': 'Downtown',
     'types': ['neighborhood', 'political']},
    {'long_name': 'Memphis',
     'short_name': 'Memphis',
     'types': ['locality', 'political']},
    {'long_name': 'Shelby County',
     'short_name': 'Shelby County',
     'types': ['administrative_area_level_2', 'political']},
    {'long_name': 'Tennessee',
     'short_name': 'TN',
     'types': ['administrative_area_level_1', 'political']},
    {'long_name': 'United States',
     'short_name': 'US',
     'types': ['country', 'political']},
    {'long_name': '38103', 'short_name': '38103', 'types': ['postal_code']},
    {'long_name': '4717',
     'short_name': '4717',
     'types': ['postal_code_suffix']}],
   'formatted_address': '516 Tennessee St, Memphis, TN 

Vámonos, esto es todo el taller (:

No te creas, pero esto tiene ciertas complicaciones.
Primero. el caso anterior tiene varios componentes:

In [4]:
base_url = "http://maps.googleapis.com/maps/api/geocode/"
accion = "json"
#Despues de la acción JSON, tenemos parámetros:
params = {
    "latlng":"35.1330343,-90.0625056"
}
params_as_string = "?"
for param in params: params_as_string = param + "="+params[param]

In [5]:
response = requests.get(base_url + accion+"?"+params_as_string)

In [6]:
response.json()

{'results': [{'address_components': [{'long_name': '516',
     'short_name': '516',
     'types': ['street_number']},
    {'long_name': 'Tennessee Street',
     'short_name': 'Tennessee St',
     'types': ['route']},
    {'long_name': 'Downtown',
     'short_name': 'Downtown',
     'types': ['neighborhood', 'political']},
    {'long_name': 'Memphis',
     'short_name': 'Memphis',
     'types': ['locality', 'political']},
    {'long_name': 'Shelby County',
     'short_name': 'Shelby County',
     'types': ['administrative_area_level_2', 'political']},
    {'long_name': 'Tennessee',
     'short_name': 'TN',
     'types': ['administrative_area_level_1', 'political']},
    {'long_name': 'United States',
     'short_name': 'US',
     'types': ['country', 'political']},
    {'long_name': '38103', 'short_name': '38103', 'types': ['postal_code']},
    {'long_name': '4717',
     'short_name': '4717',
     'types': ['postal_code_suffix']}],
   'formatted_address': '516 Tennessee St, Memphis, TN 

Por supuest, hay mejores formas para hacer ese formateo, pero lo importante aquí es identificar los componentes de una request.

Además de la dirección URL, también son los Headers y el Cuerpo de una solicitud. Para más información sobre esto: https://www.slideshare.net/larrycai/learn-rest-apiwithpython

Las llamadas pueden ser de varios tipos: GET, POST; PUT, DELETE. Todos estos "verbos" tienen implementación en requests

En muchas ocasiones, las peticiones requieren enviar, además de argumentos, Un cuerpo (contenido de la llamada) o headers (Encabezados del paquete de la comunicación)

http://docs.python-requests.org/en/master/

## Obteniendo datos a la fuerza

### Usando un endpoint expuesto

Un buen lugar para jugarle al hacker es encontrar si el recurso que estamos usando utiliza una API externa. Por ejemplo, para el producto https://github.com/ricalanis/terra , capturamos el endpoint de GAIA del Inegi. http://gaia.inegi.org.mx/

<img src="https://media.giphy.com/media/3o7btUYKRWvgCWfOCs/giphy.gif">

### Scrapping

Scrapping es la tarea de obtener datos estruturados de un recurso nos muestra solo su vista, no su base. Por ejemplo, usar https://magic.import.io/examples

Queremos obtener el comportamiento del costo de Pokemon Red, http://videojuegos.mercadolibre.com.mx/pokemon-red

Import.io nos permite traer la data estructurada de un elemento como este:

In [7]:
# Corregir cuando se levante magic.import.io

#### Extraer datos usando requests

De la misma forma que consumimos datos de una API, podemos traernos los HTMLs de los sitios y extraer los datos que son importantes

In [12]:
from bs4 import BeautifulSoup

In [23]:
r = requests.get("https://en.wikipedia.org/wiki/FIFA_World_Cup")
# Hacemos el contenido buscable por Beautiful Soup
searchableContent = BeautifulSoup(r.content)
# Encontramos la tabla de contenidos en la página de Wikipedia
tableIndex = searchableContent.find_all("table")[0]

for row in tableIndex.find_all("tr"):
    print(row.text)



 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))



Founded
1930; 87 years ago (1930)


Region
International (FIFA)


Number of teams
32 (finals)
211 (eligible to enter qualification)


Related competitions
FIFA Confederations Cup


Current champions
 Germany (4th title)


Most successful team(s)
 Brazil (5 titles)


Television broadcasters
List of broadcasters


Website
fifa.com/worldcup


 2018 FIFA World Cup qualification



#### Extraer datos en sitios dinámicos

A veces los datos están en sitios generados con JS, los cuales no pueden ser explorados fácilmente desde su HTML. Para estos, podemos usar emulador de web

In [7]:
import selenium

In [8]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

In [13]:
driver = webdriver.Chrome()
# Esto puede variar 
driver.get("http://www.python.org")
assert "Python" in driver.title
elem = driver.find_element_by_name("q")
elem.clear()
elem.send_keys("pycon")
elem.send_keys(Keys.RETURN)
assert "No results found." not in driver.page_source

In [14]:
driver.close()

#### Puedes usar un emulador para correr algo como el Selenium, pero en consola.

http://dryscrape.readthedocs.io/en/latest/

In [16]:
#Tenía algunos problemas corriendo esta librería. Que me encanta, pero si alguno quisiese probarla, en Linux corre de maravilla. 
# Simula un explorador Webkit en consola, de forma que no hace falta abrir nada gráfico.

In [3]:
import dryscrape